ウニよりもカキのほうが好きな僕ですが、ちょっと前まで unichr() 絡みでウニウニ言っていたときに調べた Unicode 関連のまとめ。
僕自身このまとめが正しいか確信できていないのですが、個人的なメモとして残しておきます。
文字セット | 空間 | 符号化方式 (octets) | 備考 |
---|---|---|---|
Unicode | 21-bit | UTF-8 (1-4) UTF-16 (2,4) UTF-32 (4) |
Unicode 2.0 で 16-bit から 21-bit に拡張された。 本稿執筆時点で最新のバージョンは 5.0.0。 |
UCS-2 | 16-bit | UTF-8 (1-3) UTF-16 (2) |
0-0xFFFF においては Unicode と互換。 |
UCS-4 | 31-bit | UTF-8 (1-6) UTF-16 (?)*1 |
0-0x10FFFF においては Unicode と互換。 0x110000 以降の文字が定義されていないためか、*2 UCS-4 という名前で 21-bit 空間の実装も見受けられる。*3 |
- Unicode (The Unicode Standard) は The Unicode Consortium によって策定されている符号化文字集合。
- UCS は Unicode を基に ISO および IEC によって策定されている国際標準規格 ISO/IEC 10646 (UCS; Universal Multiple-Octet Coded Character Set) で、JIS X 0221 として 日本工業規格にも取り入れられている。
- Unicode の UTF は Unicode Transformation Format の頭文字。
- UCS の UTF は UCS Transformation Format の頭文字。
- The Uniocde Consortium の Web サイトで購入できる The Unicode Standard, Version 5.0 の冊子 (英文) は $52.99。
- 日本規格協会の Web サイトで購入できる ISO/IEC 10646:2003 の冊子 (原本) は 33,201 円で、JIS X 0221-1:2001 の冊子 (和文) は 34,230 円。
- RFC 2279 では UTF-8 で ISO-10646 の文字を全て表現できることになっていた。
- RFC 3629 で UTF-8 で表現できるのは 0-0x10FFFF までに制限され、RFC 2279 は廃止された。
- RFC 2781 の UTF-16 でも 0-0x10FFFF にしか触れられていない。
- Internet RFC に従う限り、インターネットで使用できる Unicode/ISO-10646 の文字は 0-0x10FFFF (21-bit) の範囲。
寒くなってきたためか、雲丹やら牡蠣やらのキーワードで検索してこのブログに来られる方もおられるようなので、再来週あたりには坂越まで牡蠣を買いに行って、味噌鍋やコキールグラタンを作ってみようと思います。