Mecabに食わせる単語のデータ

φ(`д´)メモメモ...

Wikipediaのデータ
http://download.wikimedia.org/backup-index.html

all-titles-in-ns0.gzを使うと単語一覧が取得できる。

 

はてなキーワード
http://d.hatena.ne.jp/hatenadiary/20060922/1158908401

参考) http://d.hatena.ne.jp/code46/20090531/p1

 

GOOキーワードランキング
http://ranking.goo.ne.jp/keyword/

いま人気の検索語ランキングはあるURLにアクセスするとXMLでデータが取得できる。

 

例えばWikipediaのデータは"で始まる単語や??などの文字が含まれているものは除外します。あとは「事件」などの単語が入っているものも除外します。もっと言えば弊社の卑属語フィルタを通してチェックをした方が良いのかも。
あとは、はてなキーワードの参考のページにあるように、数字だけのものなどを除外します。

新しいサイトもよろしくお願いします!