JavaのRSSライブラリにInformaというものがあります。
日付の書式のパースの書式が違うというバグがあるのですが、それ以外にも一つ見つけました。
BOMつきのRSSを解釈できません・・。
Google先生に聞いてみるとJ2SE1.4の標準XMLパーサはBOM付きXMLをパースできないからXercesとか使いなさいね。って事でした。しかし、今使っているのJDKはヴァージョン6・・。しかもInformaはjdomを使っている様子。
・・・ん?jdom?
まさかこいつが・・!
調査めんどくさい・・・。
先頭読み込んでBOM(0xFEFF)だったら飛ばす処理をいれて応急処置っとφ(`д´)。
で、このBOMをつけてくるRSSがGOOの新着BLOGのRSSなわけですが、それ以前にGOOのRSSバグってませんか?
XMLなのに、CDATAでもないのに、&をエスケープしてないんですが・・・。
勘弁してください・・(;´Д`)
追記(2007/12/17)
DTIBLOGのRSSもXMLとして壊れているようです。
FC2も<creater>タグの中身がエスケープされていないものがありました。
みんな結構いい加減だなぁ(´・ω・)