CJK統合漢字
読み:スィージェイケイ-とうごうかんじ
外語:CJK Unified Ideographs
Unicode
や
ISO/IEC 10646
として実装されている
漢字
のこと。
目次
概要
由来
当初仕様
現行仕様
特徴
沿革
URO
Ext-A
Ext-B
Ext-C
Ext-D
Ext-E
Ext-F
CJK互換漢字
概要
由来
これは、Unicode consortiumがUnicodeを制定する際に使用した、支那語(Chinese)・
日本語
(Japanese)・
朝鮮語
(Korean)の似た漢字を統合して文字コード数を減らすためのアイディアであった。
古いベトナム(Vietnam)の文字も含まれることから、CJKV統合漢字と呼ぶ向きもあるが、一般的ではない。
当初仕様
CJK統合漢字は、Unicode表のうち
基本多言語面
(BMP)のI領域(U+4E00〜U+9FFF)に配置された20,902文字が最初である。
Unicode 1.0
から登場し、これをURO(Unified Repertoire and Ordering)という。
一応、
JIS X 0208
/
JIS X 0212
など、CJKの基本的な仕様を丸呑みはしたものの、字数が不足したことからCJKで批判が巻き起こった。
特に
日本人
が気に入らなかったのは、JCKVで字体が違うものを一つの符号位置に「包括」していることだった。点一つの有無にもうるさい人にとって、これは屈辱的な事だったのである。
以降、殺到する追加要求に対応すべく、
Unicode 2.0
からは
サロゲート領域
が追加され、対応可能な符号範囲が広げられた。以降、積極的に文字の追加が行なわれている。
現行仕様
現在は、拡張などが繰り返されており、次のラインナップとなっている。
URO
CJK統合漢字拡張A
(Ext-A)
CJK統合漢字拡張B
(Ext-B)
CJK統合漢字拡張C
(Ext-C)
CJK統合漢字拡張D
(Ext-D)
CJK統合漢字拡張E
(Ext-E) (策定中)
CJK互換漢字
は、CJK統合漢字ではない。
特徴
沿革
Unicode 1.0
‐ BMPのI領域に誕生(
URO
)
Unicode 3.0
‐ BMPに
CJK統合漢字拡張A
(Ext-A)を追加
Unicode 3.1
‐ SIPに
CJK統合漢字拡張B
(Ext-B)を追加
Unicode 5.2.0
‐ SIPに
CJK統合漢字拡張C
(Ext-C)を追加
Unicode 6.0.0
‐ SIPに
CJK統合漢字拡張D
(Ext-D)を追加
Unicodeは「CJK Ideograph Extension ※」と呼んでいるが、ISO/IEC 10646は同じものをきちんと「CJK UNIFIED IDEOGRAPHS EXTENSION ※」のように呼んでいる。
URO
符号位置は、U+4E00〜9FFF(
基本多言語面
、BMP)の範囲が予約されている。
名称は「Unified Repertoire and Ordering」(
URO
)で、Unicodeでは「CJK Unified Ideographs」と呼ばれている。
あまり変わらないようでいて、実は少しずつ字数が増えている。
U+4E00〜9FA5 (Unicode 1.0.1〜) (20,902文字)
U+9FA6〜9FBB (Unicode 4.1.0〜) (22文字追加)
U+9FBC〜9FC3 (Unicode 5.1.0〜) (8文字追加)
U+9FC4〜9FCB (Unicode 5.2.0〜) (8文字追加)
U+9FCC (Unicode 6.1.0〜) (1文字追加)
Ext-A
符号位置は、U+3400〜4DBF(
補助漢字面
、SIP)の範囲が予約されている。
この領域は「
CJK統合漢字拡張A
」と呼ばれている。
U+3400〜4DB5 (Unicode 3.0〜6.0.0) (6,582文字)
Ext-B
符号位置は、U+20000〜U+2A6DF(補助漢字面、SIP)の範囲が予約されている。
この領域は「
CJK統合漢字拡張B
」と呼ばれている。
U+20000〜U+2A6D6 (Unicode 3.1〜6.0.0) (42,711文字)
Ext-C
符号位置は、U+2A700〜U+2B73F(補助漢字面、SIP)の範囲が予約されている。
この領域は「
CJK統合漢字拡張C
」と呼ばれている。
U+2A700〜U+2B734 (Unicode 6.0.0) (4,149文字)
Ext-D
符号位置は、U+2B740〜U+2B81F(補助漢字面、SIP)の範囲が予約されている。
この領域は「
CJK統合漢字拡張D
」と呼ばれている。
U+2B740〜U+2B81D (
Unicode 6.0.0
) (222文字)
Ext-E
符号位置は、U+2B820〜U+2CEAF(補助漢字面、SIP)の範囲が予約されている。
この領域は「
CJK統合漢字拡張E
」と呼ばれている。
U+2B820〜U+2CEA1 (
Unicode 8.0.0
) (5,762字)
Ext-F
符号位置は、U+2CEB0〜U+2EBEF(補助漢字面、SIP)の範囲が予約されている。
この領域は「
CJK統合漢字拡張F
」と呼ばれている。
現在策定中であり、将来的(おそらくUnicode 9以降)に追加予定である。
CJK互換漢字
CJK互換漢字
は、CJK統合漢字ではないが、併用される集合である。Annex.Sの統合規則も適用されないとされる。
この集合は、本来はCJKの統合基準的にCJK統合漢字に統合されるべき文字であるが、既存の文字集合規格と互換性(ラウンドトリップ、往復変換性)を保つため、別の符号位置を特別に割り振ったものである。
Unicode 1.0.1から登場した。BMPとSIPに存在する。
BMP
U+F900〜U+FA2D (Unicode 1.0.1〜) (302文字)
U+FA30〜U+FA6A (Unicode 3.2〜) (59文字追加)
U+FA70〜U+FAD9 (Unicode 4.1〜) (106文字追加)
SIP
U+2F800〜U+2FA1D (Unicode 3.1〜) (542文字)
日本であれば、
IBM拡張文字
(
NEC選定IBM拡張文字
)の一部の文字などが、ここに登録されている。
但し、符号位置がこの範囲内であっても、一部の文字についてはCJK互換漢字ではなくCJK統合漢字へと変更されたものがあり、それらはCJK統合漢字と同等に扱われている。
再検索