GUNMA GIS GEEK

群馬県の片隅でオープンデータとデータビジュアライゼーションとGIS(地理情報システム)に戯れるエンジニアのブログ

D3v3

【D3.js】「全ツイート履歴」からWord cloudを作ってみた。

投稿日:2013年4月4日

嗜好がバレる。
ツイートワードクラウド

自分のすべてのツイートをダウンロードできるようにしました
日本の皆さんにも「全ツイート履歴」が使えるようになりました

全ツイートのダウンロードが可能になっていたので、ダウンロードしたtweets.csvを使ってワードクラウドを作成してみました。

example

データセット作成

過去の全ツイートから固有名詞を抜き出して出現回数順にランキングにしたデータを作成します。
2007年から使っているわりに、累計ツイート数が10,939件と少ないのでテキスト処理系コマンドとExcelを使って行いました。ツイート数が多い場合は、以下の方法では難しいかもしれません。

まず、Windowsで処理しやすいようにS-JISに変換します。

出力したtweets_sjis.csvをExcelで読み込み、ツイート(text)だけを残して他を全て削除します。
tweets_sjis.txtをMeCabに読み込ませ形態素解析を行います。

MeCabの使い方については以下を。
MeCabのコマンドライン引数一覧とその実行例

↓こんな感じのファイルが出力されます。

twitterWC000001
データの区切り位置とフィルタ機能を使って固有名詞のみ取り出し、単語以外を削除して別ファイル(meishi.txt)として保存します。
twitterWC000002

保存したファイルをソートしてユニークで絞込み重複をカウントします。

これで全ツイートから頻出単語の取出しが完了です。
ちなみに上位10件はこんな感じ。

どうやら日本が大好きらしい。そして凹みまくっているようです。
このファイルをまたExcel等でcsvに変換しデータ作成作業は終了です。

ワードクラウドの表示

D3.jsとwordcludプラグインを使用してワードクラウドを作成します。

jasondavies / d3-cloud

全ての出現単語に対して処理をすると表示されるまでにかなり時間がかかるので1200件に絞っています。

example


  1. Python+d3.js+wordcloud | Etaoin Shrdlu より:

    […] 以前、Rを使ってTwitterのワードクラウドをつくる、ということをやったのだけれど、このあいだ試してみたらアップデートされたRにパッケージの一部が対応していなかったので、pythonとd3.jsを使いつつ作りなおしてみる。 ワードクラウド作成の肝の部分は、既にプラグインがあったので、それを使いつつ、このへんも参考にする。 […]

About Me

著者: 清水正行
所在地: 群馬県高崎市

群馬・東京間を行き来する出稼ぎエンジニア。GIS(地理情報システム)・データビジュアライゼーション・オープンデータなどについて書いてます。