KS X 1001
読み:ケイエスエックスいちゼロゼロいち
外語:KS X 1001
朝鮮語
で使われる
文字集合
(
CCS
)の一つ。通称は
Wansung
。
目次
概要
由来
収載文字
沿革
特徴
符号の構造
区点
区点位置、区点番号
各区の文字
漢字
版
版の種類
追加文字
符号
一覧
他のISO登録状況
概要
由来
ハングル
は、部品を組み立てて作られる記号文字であり、全部で11,172個がある。
但し、その全てが使われるわけではなく、日常的に使用されるのは3,000〜4,000個とされる。
Wansungは、よく使うハングルを2,350個(25区×94点)を選び、これを完成(<WAN><SEONG>、wan seong)した形、つまり完成形として附番し、更に漢字などを加えた文字集合として規格化されたものである。
当初は「KS C 5601」、その後「KS X 1001-1997」となった。
この文字集合を利用した、最も一般的な符号化方法がEUC-KRとその派生である。
収載文字
KS X 1001:2002は、合計で8,227字を含む。各文字数は、次の通りである。
ハングル ‐ 2,350字 (25区分)
漢字 ‐ 4,888字 (52区分)
その他 ‐ 989個
沿革
元々94×94のISO/IEC 2022準拠の仕様だったわけではない。当初のものと、現在のものは、全く異なる。
1974(昭和49)年9月27日: KS C 5601制定(KS C 5601-1974) (7ビット符号)
1982(昭和57)年6月14日: KS C 5601改正(KS C 5601-1982) (16ビット符号の追加)
1987(昭和62)年3月: KS C 5601改正(KS C 5601-1987) (94×94文字集合に
仕様変更
。7ビット符号と16ビット符号は付属書扱いに)
1989(平成元)年4月22日: KS C 5601改正(KS C 5601-1989)
1992(平成4)年10月15日: KS C 5601改正(KS C 5601-1992) (付属書の16ビット符号を、組合型符号化文字集合(
Johab
)に改名し、仕様も変更)
1997(平成9)年8月20日: 情報部門(X)新設に伴い規格番号変更、KS C 5601→KS X 1001:1997
1998(平成10)年12月31日: KS X 1001改正(KS X 1001:1998) (EURと〓を追加)
2002(平成14)年: KS X 1001改正(KS X 1001:2002) (南鮮郵便記号〓を追加)
通常、KS X 1001(KS C 5601)と呼んだ場合は1987(昭和62)年以降のISO/IEC 2022準拠のものをいう。
特徴
符号の構造
区点
符号は、
ISO/IEC 2022
に準拠している。そして、2バイトで1文字を表わす。このため、文字表は、94×94の範囲に収まる。
このうち、最初のバイトを「区」(row)と呼び、次のバイトを「点」(cell)と呼び、あわせて「
区点
」という。区、点、それぞれ範囲は、1〜94の範囲とする。
区点位置、区点番号
区と点で、ある一つの文字領域が表わされるが、その位置のことを「区点位置」(codepoint)という。
英語
で「コードポイント」と呼ばれることも多い。
また、こうして区点位置を表わすときに使う番号を「区点番号」という。
区、点がそれぞれ1〜94であるため、区点番号は1区1点からはじまり、94区94点まであることになる。
区点番号を書くときには、主に次の方法を用いる。例えば、漢字として最初に現われる「伽」は、次のようになる。
42区1点
42-01
単純計算では、区点位置は94×94=8,836個が存在することになる。
各区の文字
1区 ‐ 記号
2区 ‐ 記号 (69字)
3区 ‐ 全角文字
4区 ‐ ハングル字母
5区 ‐ ローマ数字、ギリシャ文字 (68字)
6区 ‐ 罫線素片 (68字)
7区 ‐ 記号 (79字)
8区 ‐ 発音記号、丸文字など (91字)
9区 ‐ 発音記号、括弧文字など
10区 ‐ 平仮名 (83字)
11区 ‐ 片仮名 (86字)
12区 ‐ キリル文字 (66字)
16区〜40区 ‐ ハングル音節 (2,350字)
41区 ‐ 私用域
42区〜93区 ‐ 漢字 (4,888字、重複分268字、実質4,620字)
94区 ‐ 私用域
漢字
朝鮮語の漢字は、原則として1字1音であるが、中には複数の読みがある字が存在する。
KS X 1001は、漢字を読みの順に並べているが、複数の読みがある字は複数のコードポイントが存在する。
42区〜93区に総計4,888字があるが、重複分は268字であり、実質は4,620字の漢字が存在する。
Unicodeでは、それぞれ代表字が
CJK統合漢字
に割り当てられ、他の重複分はCJK互換文字領域に割り当てられている。
版
版の種類
ISO/IEC 2022準拠のものは旧規格も含めて7版あるが、文字集合として見ると、3種類である。
KS C 5601-1987
KS C 5601-1989
KS C 5601-1992
KS X 1001:1997
KS X 1001:1998
2字追加
KS X 1001:2002
1字追加
KS X 1001:2004
追加文字
これまで、追加された文字は、次の3字である。
KS X 1001:1998で追加
2区70点 ‐ U+20AC (EUR)
2区71点 ‐ U+00AE (〓)
KS X 1001:2002で追加
2区72点 ‐ U+327E (〓)
南鮮
の郵便制度は日本の統治時代にもたらされたため「〒」マークが使われていたが、新しいマーク「〓」が作られたためKS X 1001:2002で追加された。
Unicode/UCSでは、このマークはISO/IEC 10646:2003 Amendment 1:2004 /
Unicode 4.1.0
から追加されている。
符号
一覧
この文字集合(
CCS
)を用いた代表的な符号化方法(
CES
)は、次の通りである。
ISO/IEC 2022
系
ISO-2022-KR
EUC
系
EUC-KR
UHC
Johab系
Johab
他のISO登録状況
KSC 5601-1987が登録されている。
1987年版は、ISO-IR 149として登録されている。
ISO-IR 149の
ISO/IEC 2022
における
エスケープシーケンス
は次のとおり。
G0: ESC 2/4 2/8 4/3
G1: ESC 2/4 2/9 4/3
G2: ESC 2/4 2/10 4/3
G3: ESC 2/4 2/11 4/3
1998年版と2002年版は字が増えているため、
更新シーケンス
(ESC 2/6 4/x)を使用するべきと考えられるが、詳細は定かではない。
再検索