2009年7月13日月曜日

漢字圏の繁体字簡体字Unicodeは5.2.0Beta

漢字の候補を表示させているとFirefox 3.5RC2に漢字が続々投入される事態に。
何か変なことしたかな。

で、中国と台湾と日本で漢字が違うわけで、JavaやUnicode使う人々もそろそろ気にしてほしい。
JavaのUTF-8ではRFCに準拠して正式に非互換の不正コードが使えなくなったようで、めでたし。
Unicodeに移行すると何がうれしいか、
1.コード変換による文字化けがなくなる Shift_JISとWindows-31Jのマッピングが違うとかそんな問題はUnicodeだけになれば気にしなくていい。
2.円記号¥と/が半角で区別できるようになる。今はなんとなく混じってしまっているのでUnicode側のフォントも変な対応をしてしまっているものがある。
3.補助漢字、JIS2000の第三水準、第四水準などが使える。JIS2000はUnicodeを前提に作られた文字集合なので、JIS(ISO-2022-JP-XX)、SJIS(Shift_JISXXXXX)、EUC(EUC-JP-XXXX)で使うのには適さないし世界的な標準化の流れから外れることにもなる。
多言語処理が気楽。日本語のコード系特有の数え方とか気にしなくても世界的に共通なので世界展開が楽。アジア圏はISOやEUC系が多いけどBIG5なんかもあるからまとめてUTF-8やUTF-16の方が気楽。合成文字などの新たに対応必須な事項はあるけどそれは多言語対応しなければ、逆にあまり気にしなくていい。
困り事
UCS-2(2バイトコード)しか考えてない実装が多し。JavaもWindows(Vista以降)も対応を済ませているのでそろそろ合成文字やUTF-16系なU+10000以降のコードも普及しはじめるんじゃないかな?
さて、Unicodeは5.2.0のβレビュー中のようです。このまま増え続けてUTF-16が駄目になる日も来たりするんでしょうかね。昔のCPUのメモリ空間のようですな。絵文字の結末は如何に。