Home > 開発 > Mecab辞書の作成~GOOキーワードランキング編~

Mecab辞書の作成~GOOキーワードランキング編~

  • Posted by: タムタム
  • 2009年8月 3日 00:15
  • 開発

  • Tags: Mecab

まだ不完全ですがGOOのキーワードランキングを取得して自動でMecabの辞書を作るプログラムを書いています。とりあえずはキーワードの取得と、そのキーワードのフリガナを取得してTSVファイルにまとめるところまで作りました。

あとはMecabの辞書作成スクリプトの入力になるCSVファイルを作成するだけです。
あとで日付毎にどれだけ単語が増えているのかといったデータも取ろうと思います。

perlでさくっと書いたのですが、perlは色々と便利ですねー。関数の仕様が気に入りませんがそこは目をつぶります。なによりも自分のサーバだとモジュールが無い!とかそういう事を気にしないで気兼ねなくinstallしまくれるのが良いです。HTTP通信とかperlでも書けるのですがcurlとnkf使っていたり、xmlはdomで処理しないで正規表現で処理していたりと無茶していますが、さくっとtry and errorができるのが良いですね!

あ、TSVファイルはこちらで公開中です。
http://tech.orz.at/labs/

↑随時更新しているので、時々「おや?」と思うことがあるかもしれませんが気にしない方向で。

Comments:0

Comment Form

Trackbacks:0

TrackBack URL for this entry
Listed below are links to weblogs that reference
Mecab辞書の作成~GOOキーワードランキング編~ from タムタムの日記

Home > 開発 > Mecab辞書の作成~GOOキーワードランキング編~

Search
Feeds

Return to page top