Unicode まとめ

ウニよりもカキのほうが好きな僕ですが、ちょっと前まで unichr() 絡みでウニウニ言っていたときに調べた Unicode 関連のまとめ。
僕自身このまとめが正しいか確信できていないのですが、個人的なメモとして残しておきます。

文字セット 空間 符号化方式 (octets) 備考
Unicode 21-bit UTF-8 (1-4)
UTF-16 (2,4)
UTF-32 (4)
Unicode 2.0 で 16-bit から 21-bit に拡張された。
本稿執筆時点で最新のバージョンは 5.0.0。
UCS-2 16-bit UTF-8 (1-3)
UTF-16 (2)
0-0xFFFF においては Unicode と互換。
UCS-4 31-bit UTF-8 (1-6)
UTF-16 (?)*1
0-0x10FFFF においては Unicode と互換。
0x110000 以降の文字が定義されていないためか、*2
UCS-4 という名前で 21-bit 空間の実装も見受けられる。*3

寒くなってきたためか、雲丹やら牡蠣やらのキーワードで検索してこのブログに来られる方もおられるようなので、再来週あたりには坂越まで牡蠣を買いに行って、味噌鍋やコキールグラタンを作ってみようと思います。

*1:0x110000-0x7FFFFFF を UTF-16 で符号化するときのルールについて調べていないため

*2:どこまで定義されているのか、いないのか、全く調べていない

*3:--enable-unicode=ucs4 な Python とか