Home > 日記2009後期 > Mecabに食わせる単語のデータ

Mecabに食わせる単語のデータ

φ(`д´)メモメモ...

Wikipediaのデータ
http://download.wikimedia.org/backup-index.html

all-titles-in-ns0.gzを使うと単語一覧が取得できる。

 

はてなキーワード
http://d.hatena.ne.jp/hatenadiary/20060922/1158908401

参考) http://d.hatena.ne.jp/code46/20090531/p1

 

GOOキーワードランキング
http://ranking.goo.ne.jp/keyword/

いま人気の検索語ランキングはあるURLにアクセスするとXMLでデータが取得できる。

 

例えばWikipediaのデータは"で始まる単語や??などの文字が含まれているものは除外します。あとは「事件」などの単語が入っているものも除外します。もっと言えば弊社の卑属語フィルタを通してチェックをした方が良いのかも。
あとは、はてなキーワードの参考のページにあるように、数字だけのものなどを除外します。

Comments:0

Comment Form

Trackbacks:0

TrackBack URL for this entry
Listed below are links to weblogs that reference
Mecabに食わせる単語のデータ from タムタムの日記

Home > 日記2009後期 > Mecabに食わせる単語のデータ

Search
Feeds

Return to page top