KS X 1001
読み:ケイエスエックスいちゼロゼロいち
外語:KS X 1001

 朝鮮語で使われる文字集合(CCS)の一つ。通称はWansung
目次

概要

由来
 ハングルは、部品を組み立てて作られる記号文字であり、全部で11,172個がある。
 但し、その全てが使われるわけではなく、日常的に使用されるのは3,000〜4,000個とされる。
 Wansungは、よく使うハングルを2,350個(25区×94点)を選び、これを完成(<WAN><SEONG>、wan seong)した形、つまり完成形として附番し、更に漢字などを加えた文字集合として規格化されたものである。
 当初は「KS C 5601」、その後「KS X 1001-1997」となった。
 この文字集合を利用した、最も一般的な符号化方法がEUC-KRとその派生である。

収載文字
 KS X 1001:2002は、合計で8,227字を含む。各文字数は、次の通りである。

沿革
 元々94×94のISO/IEC 2022準拠の仕様だったわけではない。当初のものと、現在のものは、全く異なる。
 通常、KS X 1001(KS C 5601)と呼んだ場合は1987(昭和62)年以降のISO/IEC 2022準拠のものをいう。

特徴

符号の構造

区点
 符号は、ISO/IEC 2022に準拠している。そして、2バイトで1文字を表わす。このため、文字表は、94×94の範囲に収まる。
 このうち、最初のバイトを「区」(row)と呼び、次のバイトを「点」(cell)と呼び、あわせて「区点」という。区、点、それぞれ範囲は、1〜94の範囲とする。

区点位置、区点番号
 区と点で、ある一つの文字領域が表わされるが、その位置のことを「区点位置」(codepoint)という。英語で「コードポイント」と呼ばれることも多い。
 また、こうして区点位置を表わすときに使う番号を「区点番号」という。
 区、点がそれぞれ1〜94であるため、区点番号は1区1点からはじまり、94区94点まであることになる。
 区点番号を書くときには、主に次の方法を用いる。例えば、漢字として最初に現われる「伽」は、次のようになる。
 単純計算では、区点位置は94×94=8,836個が存在することになる。

各区の文字

漢字
 朝鮮語の漢字は、原則として1字1音であるが、中には複数の読みがある字が存在する。
 KS X 1001は、漢字を読みの順に並べているが、複数の読みがある字は複数のコードポイントが存在する。
 42区〜93区に総計4,888字があるが、重複分は268字であり、実質は4,620字の漢字が存在する。
 Unicodeでは、それぞれ代表字がCJK統合漢字に割り当てられ、他の重複分はCJK互換文字領域に割り当てられている。



版の種類
 ISO/IEC 2022準拠のものは旧規格も含めて7版あるが、文字集合として見ると、3種類である。
  1. KS C 5601-1987
  2. KS C 5601-1989
  3. KS C 5601-1992
  4. KS X 1001:1997
  5. KS X 1001:1998
  6. KS X 1001:2002
  7. KS X 1001:2004

追加文字
 これまで、追加された文字は、次の3字である。
 南鮮の郵便制度は日本の統治時代にもたらされたため「〒」マークが使われていたが、新しいマーク「〓」が作られたためKS X 1001:2002で追加された。
 Unicode/UCSでは、このマークはISO/IEC 10646:2003 Amendment 1:2004 / Unicode 4.1.0から追加されている。

符号

一覧
 この文字集合(CCS)を用いた代表的な符号化方法(CES)は、次の通りである。

他のISO登録状況
 KSC 5601-1987が登録されている。
 1987年版は、ISO-IR 149として登録されている。
 ISO-IR 149のISO/IEC 2022におけるエスケープシーケンスは次のとおり。
 1998年版と2002年版は字が増えているため、更新シーケンス(ESC 2/6 4/x)を使用するべきと考えられるが、詳細は定かではない。

再検索