Tidy
HTMLを機械的に処理したいことがときどきあるんだけど、そのHTMLが壊れたHTMLだと扱いが大変です。ネスケとIEが壊れたHTMLをがんばって表示してくれたおかげで、世の中のHTMLは壊れてることが普通によくあります。まったく余計なことを…。
そこで壊れたHTMLを修正してくれるソフトが Tidy です。XHTMLにしたり、XMLにしたりもできます。
機械処理のためではなく、自分のサイトのHTMLをXHTMLに変換する、または文法エラーをチェックするソフトとしても有効です。
ShiftJISも通ります。EUCは不明。rawで通るのかな?
派生ソフトが山ほどありますが、今回は Windows でこちらを使ってみました。
XHTML化するのに使った設定ファイルはこちらを使わせてもらいました。
XHTMLに変換したら、あとは XSLT なりなんなりでどうぞ。XSLT で今回参考にしたところをまとめておきます(つまり自分メモ)。
- XSLT http://www.infoteria.com/jp/contents/xml-data/REC-xslt-19991116-jpn.htm
- XPath http://www.infoteria.com/jp/contents/xml-data/REC-xpath-19991116-jpn.htm
- http://www.kanzaki.com/docs/sw/xh2meta.html
- http://www.kanzaki.com/docs/sw/xh2rdf.html
- http://www.kanzaki.com/docs/sw/xh2rdf.html
- http://www.kanzaki.com/docs/xml/table-meta.xsl
- http://www.atmarkit.co.jp/fxml/tanpatsu/xslt/xslt00.html
XSLTは関数型言語風ですよね。それにしても、使いづらい。XMLで書くのがうざすぎ。そのうち LINQ to XML してみたいけど、夏バテ気味でメンドー。