まだ不完全ですがGOOのキーワードランキングを取得して自動でMecabの辞書を作るプログラムを書いています。とりあえずはキーワードの取得と、そのキーワードのフリガナを取得してTSVファイルにまとめるところまで作りました。
あとはMecabの辞書作成スクリプトの入力になるCSVファイルを作成するだけです。
あとで日付毎にどれだけ単語が増えているのかといったデータも取ろうと思います。
perlでさくっと書いたのですが、perlは色々と便利ですねー。関数の仕様が気に入りませんがそこは目をつぶります。なによりも自分のサーバだとモジュールが無い!とかそういう事を気にしないで気兼ねなくinstallしまくれるのが良いです。HTTP通信とかperlでも書けるのですがcurlとnkf使っていたり、xmlはdomで処理しないで正規表現で処理していたりと無茶していますが、さくっとtry and errorができるのが良いですね!
あ、TSVファイルはこちらで公開中です。
http://tech.orz.at/labs/
↑随時更新しているので、時々「おや?」と思うことがあるかもしれませんが気にしない方向で。