KS X 1001 |
辞書:通信用語の基礎知識 通信技術文字集合編 (CTCHRS) |
読み:ケイエスエックスいちゼロゼロいち |
外語:KS X 1001 |
品詞:固有名詞 |
朝鮮語で使われる文字集合(CCS)の一つ。通称はWansung。
|
概要 |
由来 |
ハングルは、部品を組み立てて作られる記号文字であり、全部で11,172個がある。
但し、その全てが使われるわけではなく、日常的に使用されるのは3,000〜4,000個とされる。
Wansungは、よく使うハングルを2,350個(25区×94点)を選び、これを完成(<WAN><SEONG>、wan seong)した形、つまり完成形として附番し、更に漢字などを加えた文字集合として規格化されたものである。
当初は「KS C 5601」、その後「KS X 1001-1997」となった。
この文字集合を利用した、最も一般的な符号化方法がEUC-KRとその派生である。
収載文字 |
KS X 1001:2002は、合計で8,227字を含む。各文字数は、次の通りである。
沿革 |
元々94×94のISO/IEC 2022準拠の仕様だったわけではない。当初のものと、現在のものは、全く異なる。
通常、KS X 1001(KS C 5601)と呼んだ場合は1987(昭和62)年以降のISO/IEC 2022準拠のものをいう。
特徴 |
符号の構造 |
符号は、ISO/IEC 2022に準拠している。そして、2バイトで1文字を表わす。このため、文字表は、94×94の範囲に収まる。
このうち、最初のバイトを「区」(row)と呼び、次のバイトを「点」(cell)と呼び、あわせて「区点」という。区、点、それぞれ範囲は、1〜94の範囲とする。
区と点で、ある一つの文字領域が表わされるが、その位置のことを「区点位置」(codepoint)という。英語で「コードポイント」と呼ばれることも多い。
また、こうして区点位置を表わすときに使う番号を「区点番号」という。
区、点がそれぞれ1〜94であるため、区点番号は1区1点からはじまり、94区94点まであることになる。
区点番号を書くときには、主に次の方法を用いる。例えば、漢字として最初に現われる「伽」は、次のようになる。
単純計算では、区点位置は94×94=8,836個が存在することになる。
朝鮮語の漢字は、原則として1字1音であるが、中には複数の読みがある字が存在する。
KS X 1001は、漢字を読みの順に並べているが、複数の読みがある字は複数のコードポイントが存在する。
42区〜93区に総計4,888字があるが、重複分は268字であり、実質は4,620字の漢字が存在する。
Unicodeでは、それぞれ代表字がCJK統合漢字に割り当てられ、他の重複分はCJK互換文字領域に割り当てられている。
版 |
ISO/IEC 2022準拠のものは旧規格も含めて7版あるが、文字集合として見ると、3種類である。
これまで、追加された文字は、次の3字である。
南鮮の郵便制度は日本の統治時代にもたらされたため「〒」マークが使われていたが、新しいマーク「〓」が作られたためKS X 1001:2002で追加された。
Unicode/UCSでは、このマークはISO/IEC 10646:2003 Amendment 1:2004 / Unicode 4.1.0から追加されている。
符号 |
一覧 |
この文字集合(CCS)を用いた代表的な符号化方法(CES)は、次の通りである。
他のISO登録状況 |
KSC 5601-1987が登録されている。
1987年版は、ISO-IR 149として登録されている。
ISO-IR 149のISO/IEC 2022におけるエスケープシーケンスは次のとおり。
1998年版と2002年版は字が増えているため、更新シーケンス(ESC 2/6 4/x)を使用するべきと考えられるが、詳細は定かではない。
リンク |
通信用語の基礎知識検索システム WDIC Explorer Ver 7.04a (27-May-2022) Search System : Copyright © Mirai corporation Dictionary : Copyright © WDIC Creators club |