CJK統合漢字 - 通信用語の基礎知識

CJK統合漢字
読み：スィージェイケイ-とうごうかんじ
外語：CJK Unified Ideographs

　UnicodeやISO/IEC 10646として実装されている漢字のこと。

概要

由来
当初仕様
現行仕様

特徴

沿革
URO
Ext-A
Ext-B
Ext-C
Ext-D
Ext-E
Ext-F
CJK互換漢字

由来
　これは、Unicode consortiumがUnicodeを制定する際に使用した、支那語(Chinese)・日本語(Japanese)・朝鮮語(Korean)の似た漢字を統合して文字コード数を減らすためのアイディアであった。
　古いベトナム(Vietnam)の文字も含まれることから、CJKV統合漢字と呼ぶ向きもあるが、一般的ではない。

当初仕様
　CJK統合漢字は、Unicode表のうち基本多言語面(BMP)のI領域(U+4E00～U+9FFF)に配置された20,902文字が最初である。Unicode 1.0から登場し、これをURO(Unified Repertoire and Ordering)という。
　一応、JIS X 0208/JIS X 0212など、CJKの基本的な仕様を丸呑みはしたものの、字数が不足したことからCJKで批判が巻き起こった。
　特に日本人が気に入らなかったのは、JCKVで字体が違うものを一つの符号位置に「包括」していることだった。点一つの有無にもうるさい人にとって、これは屈辱的な事だったのである。
　以降、殺到する追加要求に対応すべく、Unicode 2.0からはサロゲート領域が追加され、対応可能な符号範囲が広げられた。以降、積極的に文字の追加が行なわれている。

現行仕様
　現在は、拡張などが繰り返されており、次のラインナップとなっている。

　CJK互換漢字は、CJK統合漢字ではない。

特徴

沿革

Unicode 1.0 ‐ BMPのI領域に誕生(URO)
Unicode 3.0 ‐ BMPにCJK統合漢字拡張A(Ext-A)を追加
Unicode 3.1 ‐ SIPにCJK統合漢字拡張B(Ext-B)を追加
Unicode 5.2.0 ‐ SIPにCJK統合漢字拡張C(Ext-C)を追加
Unicode 6.0.0 ‐ SIPにCJK統合漢字拡張D(Ext-D)を追加

　Unicodeは「CJK Ideograph Extension ※」と呼んでいるが、ISO/IEC 10646は同じものをきちんと「CJK UNIFIED IDEOGRAPHS EXTENSION ※」のように呼んでいる。

URO
　符号位置は、U+4E00～9FFF(基本多言語面、BMP)の範囲が予約されている。
　名称は「Unified Repertoire and Ordering」(URO)で、Unicodeでは「CJK Unified Ideographs」と呼ばれている。
　あまり変わらないようでいて、実は少しずつ字数が増えている。

U+4E00～9FA5 (Unicode 1.0.1～) (20,902文字)
U+9FA6～9FBB (Unicode 4.1.0～) (22文字追加)
U+9FBC～9FC3 (Unicode 5.1.0～) (8文字追加)
U+9FC4～9FCB (Unicode 5.2.0～) (8文字追加)
U+9FCC (Unicode 6.1.0～) (1文字追加)

Ext-A
　符号位置は、U+3400～4DBF(補助漢字面、SIP)の範囲が予約されている。
　この領域は「CJK統合漢字拡張A」と呼ばれている。

U+3400～4DB5 (Unicode 3.0～6.0.0) (6,582文字)

Ext-B
　符号位置は、U+20000～U+2A6DF(補助漢字面、SIP)の範囲が予約されている。
　この領域は「CJK統合漢字拡張B」と呼ばれている。

U+20000～U+2A6D6 (Unicode 3.1～6.0.0) (42,711文字)

Ext-C
　符号位置は、U+2A700～U+2B73F(補助漢字面、SIP)の範囲が予約されている。
　この領域は「CJK統合漢字拡張C」と呼ばれている。

U+2A700～U+2B734 (Unicode 6.0.0) (4,149文字)

Ext-D
　符号位置は、U+2B740～U+2B81F(補助漢字面、SIP)の範囲が予約されている。
　この領域は「CJK統合漢字拡張D」と呼ばれている。

U+2B740～U+2B81D (Unicode 6.0.0) (222文字)

Ext-E
　符号位置は、U+2B820～U+2CEAF(補助漢字面、SIP)の範囲が予約されている。
　この領域は「CJK統合漢字拡張E」と呼ばれている。

U+2B820～U+2CEA1 (Unicode 8.0.0) (5,762字)

Ext-F
　符号位置は、U+2CEB0～U+2EBEF(補助漢字面、SIP)の範囲が予約されている。
　この領域は「CJK統合漢字拡張F」と呼ばれている。
　現在策定中であり、将来的(おそらくUnicode 9以降)に追加予定である。

CJK互換漢字
　CJK互換漢字は、CJK統合漢字ではないが、併用される集合である。Annex.Sの統合規則も適用されないとされる。
　この集合は、本来はCJKの統合基準的にCJK統合漢字に統合されるべき文字であるが、既存の文字集合規格と互換性(ラウンドトリップ、往復変換性)を保つため、別の符号位置を特別に割り振ったものである。
　Unicode 1.0.1から登場した。BMPとSIPに存在する。

BMP
- U+F900～U+FA2D (Unicode 1.0.1～) (302文字)
- U+FA30～U+FA6A (Unicode 3.2～) (59文字追加)
- U+FA70～U+FAD9 (Unicode 4.1～) (106文字追加)
SIP
- U+2F800～U+2FA1D (Unicode 3.1～) (542文字)

　日本であれば、IBM拡張文字(NEC選定IBM拡張文字)の一部の文字などが、ここに登録されている。
　但し、符号位置がこの範囲内であっても、一部の文字についてはCJK互換漢字ではなくCJK統合漢字へと変更されたものがあり、それらはCJK統合漢字と同等に扱われている。

再検索