【D3.js】「全ツイート履歴」からWord cloudを作ってみた。

最終更新日

嗜好がバレる。
ツイートワードクラウド

自分のすべてのツイートをダウンロードできるようにしました
日本の皆さんにも「全ツイート履歴」が使えるようになりました

全ツイートのダウンロードが可能になっていたので、ダウンロードしたtweets.csvを使ってワードクラウドを作成してみました。

example

データセット作成

過去の全ツイートから固有名詞を抜き出して出現回数順にランキングにしたデータを作成します。
2007年から使っているわりに、累計ツイート数が10,939件と少ないのでテキスト処理系コマンドとExcelを使って行いました。ツイート数が多い場合は、以下の方法では難しいかもしれません。

まず、Windowsで処理しやすいようにS-JISに変換します。

出力したtweets_sjis.csvをExcelで読み込み、ツイート(text)だけを残して他を全て削除します。
tweets_sjis.txtをMeCabに読み込ませ形態素解析を行います。

MeCabの使い方については以下を。
MeCabのコマンドライン引数一覧とその実行例

↓こんな感じのファイルが出力されます。

twitterWC000001
データの区切り位置とフィルタ機能を使って固有名詞のみ取り出し、単語以外を削除して別ファイル(meishi.txt)として保存します。
twitterWC000002

保存したファイルをソートしてユニークで絞込み重複をカウントします。

これで全ツイートから頻出単語の取出しが完了です。
ちなみに上位10件はこんな感じ。

どうやら日本が大好きらしい。そして凹みまくっているようです。
このファイルをまたExcel等でcsvに変換しデータ作成作業は終了です。

ワードクラウドの表示

D3.jsとwordcludプラグインを使用してワードクラウドを作成します。

jasondavies / d3-cloud

全ての出現単語に対して処理をすると表示されるまでにかなり時間がかかるので1200件に絞っています。

example

1件のコメント

  1. ピンバック: Python+d3.js+wordcloud | Etaoin Shrdlu