Mecab辞書の作成~GOOキーワードランキング編~

  • 投稿日:
  • カテゴリ:

まだ不完全ですがGOOのキーワードランキングを取得して自動でMecabの辞書を作るプログラムを書いています。とりあえずはキーワードの取得と、そのキーワードのフリガナを取得してTSVファイルにまとめるところまで作りました。

あとはMecabの辞書作成スクリプトの入力になるCSVファイルを作成するだけです。
あとで日付毎にどれだけ単語が増えているのかといったデータも取ろうと思います。

perlでさくっと書いたのですが、perlは色々と便利ですねー。関数の仕様が気に入りませんがそこは目をつぶります。なによりも自分のサーバだとモジュールが無い!とかそういう事を気にしないで気兼ねなくinstallしまくれるのが良いです。HTTP通信とかperlでも書けるのですがcurlとnkf使っていたり、xmlはdomで処理しないで正規表現で処理していたりと無茶していますが、さくっとtry and errorができるのが良いですね!

あ、TSVファイルはこちらで公開中です。
http://tech.orz.at/labs/

↑随時更新しているので、時々「おや?」と思うことがあるかもしれませんが気にしない方向で。

新しいサイトもよろしくお願いします!