Tidy

HTMLを機械的に処理したいことがときどきあるんだけど、そのHTMLが壊れたHTMLだと扱いが大変です。ネスケIEが壊れたHTMLをがんばって表示してくれたおかげで、世の中のHTMLは壊れてることが普通によくあります。まったく余計なことを…。
そこで壊れたHTMLを修正してくれるソフトが Tidy です。XHTMLにしたり、XMLにしたりもできます。
機械処理のためではなく、自分のサイトのHTMLをXHTMLに変換する、または文法エラーをチェックするソフトとしても有効です。
ShiftJISも通ります。EUCは不明。rawで通るのかな?

派生ソフトが山ほどありますが、今回は Windows でこちらを使ってみました。

XHTML化するのに使った設定ファイルはこちらを使わせてもらいました。

XHTMLに変換したら、あとは XSLT なりなんなりでどうぞ。XSLT で今回参考にしたところをまとめておきます(つまり自分メモ)。

XSLT関数型言語風ですよね。それにしても、使いづらい。XMLで書くのがうざすぎ。そのうち LINQ to XML してみたいけど、夏バテ気味でメンドー。