CJK互換漢字
読み:スィージェイケイ-ごかんかんじ
外語:CJK Compatibility Ideographs
Unicode
や
ISO/IEC 10646
として実装されている
漢字
の一種。
目次
概要
集合
存在意義
符号位置
一覧
範囲内のCJK統合漢字
特徴
U+F900〜U+FA0B
U+FA0C〜U+FA0D
U+FA0E〜U+FA2D
U+2F800〜U+2FA1D
U+FA30〜U+FA6A
U+FA70〜U+FAD9
U+FA6B〜U+FA6D
概要
集合
CJK互換漢字は
CJK統合漢字
ではなく、併用される集合である。付属書S(Annex.S)に示される統合規則も適用されない。
にも関わらずCJK互換漢字が存在するのは、特定の国及び地域の様々な国家的、文化的又は歴史的な理由に基づき、それらの文字がある国家又は地域の規格で異なる符号位置に割り当てられているためである。
存在意義
本来ならば、Unicodeの統合(包括)の基準によりCJK統合漢字へと包括されるはずの字だが、既存の規格との互換性(ラウンドトリップ、往復変換性)を担保するために特別に符号位置が用意されている。
従って、この領域の文字は、原規格とのラウンドトリップ(往復変換)専用に用いるもので、他の用途で用いてはならない(JIS X 0221:2007では「他の用途には、強く反対する。」と表現している)。
Unicode 1.0.1でCJK統合漢字と共に追加され、版を重ねるごとに増やされている。
符号位置
一覧
範囲としては、
BMP
のU+F900〜U+FAFFと、
SIP
のU+2F800〜U+2FA1Fが予約されている。
実際に文字が定義されているのは、次の範囲である。
U+F900〜U+FA2D (Unicode 1.0.1〜) (302文字)
U+FA2E〜U+FA2F (Unicode 6.1.0〜) (2文字)
U+FA30〜U+FA6A (Unicode 3.2〜) (59文字)
U+FA6B〜U+FA6D (Unicode 5.2〜) (3文字)
U+FA70〜U+FAD9 (Unicode 4.1〜) (106文字)
U+2F800〜U+2FA1D (Unicode 3.1〜) (542文字)
BMPは512字分のうち472字が埋まっている。残は40字である。
SIPは544字分のうち542字が埋まっている。残は2字であるが、これで不足すれば、U+2FA20以降、あるいは他の面などに拡張されるものと思われる。
範囲内のCJK統合漢字
CJK互換漢字の符号位置範囲内であるが、規格上「
CJK統合漢字
」とされた符号位置が12ヶ所ある。
U+FA0E 〓
U+FA0F 〓
U+FA11 崎
U+FA13 〓
U+FA14 欅
U+FA1F 〓
U+FA21 〓
U+FA23 赳
U+FA24 返
U+FA27 〓
U+FA28 〓
U+FA29 島
この12ヶ所の符号位置は「CJK統合漢字」であり、付属書S(Annex.S)に示される統合規則が適用される。
異体字セレクター
などもCJK統合漢字と同様に利用される。
特徴
U+F900〜U+FA0B
南鮮の文字コード規格
KS X 1001
(かつてのKS C 5601)は、漢字4,888字(52区分)を含む。
この規格では、同じ字形であっても、複数の読みがある漢字は読みの数(三つ以上の読みが存在する字もある)だけ重複して登録したため、都合268字が重複している。
Unicodeでは、代表字1字をCJK統合漢字に対応付け、残りは全てCJK互換漢字とした。
この領域の文字は、KS X 1001とのラウンドトリップ(往復変換)専用に用いる。
U+FA0C〜U+FA0D
台湾の文字コード規格
Big5
は、漢字2字が重複しており、この2文字が互換漢字として登録された。
この領域の文字は、Big5とのラウンドトリップ(往復変換)専用に用いる。
U+FA0E〜U+FA2D
日本の文字コードで使われている
IBM拡張文字
のうちで、CJK統合漢字として登録されなかった32文字が、CJK互換漢字として登録された。
なお、U+FA0E(〓)、U+FA0F(〓)、U+FA11(崎)、U+FA13(〓)、U+FA14(欅)、U+FA1F(〓)、U+FA21(〓)、U+FA23(赳)、U+FA24(返)、U+FA27(〓)、U+FA28(〓)、U+FA29(島)の12文字は、CJK統合漢字の拡張として利用できる、つまり互換漢字としてではなくCJK統合漢字の一部として利用できる、としている。
この領域のその他の文字は、IBM拡張文字とのラウンドトリップ(往復変換)専用に用いる。
U+2F800〜U+2FA1D
Unicode 3.1
から、台湾の
CNS 11643
への対応のために追加された領域である。
包括基準の差異から、Unicodeでは包括されていてCNS 11643では別字となっている文字が多数存在した。
具体的には、CNS 11643-1992の面3、4、5、6、7、15から、合計で542文字が必要となった。
字数があまりにも多くBMPに格納困難だったが、そのままではラウンドトリップ(往復変換)が出来ないため、救済のためにSIP(02面)に新規に領域を作って追加した。
この領域の文字は、CNS 11643とのラウンドトリップ(往復変換)専用に用いる。
U+FA30〜U+FA6A
Unicode 3.2.0
から、日本の
JIS X 0213
に対応するために追加された領域である。
JIS X 0213は、従来の
JIS X 0208
から包括基準を変更し、多数の文字を追加した。その文字の大半は
CJK統合漢字拡張A
に追加されている。
CJK統合漢字は、元となった規格で分離されている文字はUCSでも分離される(包括の対象とならない)という原規格分離規則(source separation rule)が存在するが、JIS X 0213はこの原規格分離規則が適用されなかった。
かくして、残った新規追加漢字は既に登録されている他のCJK統合文字に包括され、そして救済としてこのCJK互換漢字に59文字が追加された。
この領域の文字は、JIS X 0213とのラウンドトリップ(往復変換)専用に用いる。
U+FA70〜U+FAD9
Unicode 4.1.0
から、北朝鮮のKPS 10721-2000に対応するために追加された領域である。
106字が互換性のために追加された。
この領域の文字は、KPS 10721-2000とのラウンドトリップ(往復変換)専用に用いる。
U+FA6B〜U+FA6D
Unicode 5.2から、日本のARIB STD-B24に対応するために追加された領域である。
ARIB STD-B24には、多数の拡張漢字や拡張記号があり、その追加が提案されたが、まず
ISO/IEC 10646:2003/Amd.5:2008
で、提案中のうちの3文字が互換性のために追加された。
この領域の文字は、ARIB STD-B24とのラウンドトリップ(往復変換)専用に用いる。
再検索