ア | イ | ウ | エ | オ |
カ | キ | ク | ケ | コ |
サ | シ | ス | セ | ソ |
タ | チ | ツ | テ | ト |
ナ | ニ | ヌ | ネ | ノ |
ハ | ヒ | フ | ヘ | ホ |
マ | ミ | ム | メ | モ |
ヤ | ユ | ヨ | ||
ラ | リ | ル | レ | ロ |
ワ | ヰ | ヴ | ヱ | ヲ |
ン |
A | B | C | D | E |
F | G | H | I | J |
K | L | M | N | O |
P | Q | R | S | T |
U | V | W | X | Y |
Z | 数字 | 記号 |
朝鮮語で使われる文字集合(CCS)の一つ。通称はWansung。
ハングルは、部品を組み立てて作られる記号文字であり、全部で11,172個がある。
但し、その全てが使われるわけではなく、日常的に使用されるのは3,000〜4,000個とされる。
Wansungは、よく使うハングルを2,350個(25区×94点)を選び、これを完成(완성、wan seong)した形、つまり完成形として附番し、更に漢字などを加えた文字集合として規格化されたものである。
当初は「KS C 5601」、その後「KS X 1001-1997」となった。
この文字集合を利用した、最も一般的な符号化方法がEUC-KRとその派生である。
KS X 1001:2002は、合計で8,227字を含む。各文字数は、次の通りである。
元々94×94のISO/IEC 2022準拠の仕様だったわけではない。当初のものと、現在のものは、全く異なる。
通常、KS X 1001(KS C 5601)と呼んだ場合は1987(昭和62)年以降のISO/IEC 2022準拠のものをいう。
符号は、ISO/IEC 2022に準拠している。そして、2バイトで1文字を表わす。このため、文字表は、94×94の範囲に収まる。
このうち、最初のバイトを「区」(row)と呼び、次のバイトを「点」(cell)と呼び、あわせて「区点」という。区、点、それぞれ範囲は、1〜94の範囲とする。
区と点で、ある一つの文字領域が表わされるが、その位置のことを「区点位置」(codepoint)という。英語で「コードポイント」と呼ばれることも多い。
また、こうして区点位置を表わすときに使う番号を「区点番号」という。
区、点がそれぞれ1〜94であるため、区点番号は1区1点からはじまり、94区94点まであることになる。
区点番号を書くときには、主に次の方法を用いる。例えば、漢字として最初に現われる「伽」は、次のようになる。
単純計算では、区点位置は94×94=8,836個が存在することになる。
朝鮮語の漢字は、原則として1字1音であるが、中には複数の読みがある字が存在する。
KS X 1001は、漢字を読みの順に並べているが、複数の読みがある字は複数のコードポイントが存在する。
42区〜93区に総計4,888字があるが、重複分は268字であり、実質は4,620字の漢字が存在する。
Unicodeでは、それぞれ代表字がCJK統合漢字に割り当てられ、他の重複分はCJK互換文字領域に割り当てられている。
ISO/IEC 2022準拠のものは旧規格も含めて7版あるが、文字集合として見ると、3種類である。
これまで、追加された文字は、次の3字である。
南鮮の郵便制度は日本の統治時代にもたらされたため「〒」マークが使われていたが、新しいマーク「㉾」が作られたためKS X 1001:2002で追加された。
Unicode/UCSでは、このマークはISO/IEC 10646:2003 Amendment 1:2004 / Unicode 4.1.0から追加されている。
KSC 5601-1987が登録されている。
1987年版は、ISO-IR 149として登録されている。
ISO-IR 149のISO/IEC 2022におけるエスケープシーケンスは次のとおり。
1998年版と2002年版は字が増えているため、更新シーケンス(ESC 2/6 4/x)を使用するべきと考えられるが、詳細は定かではない。
コメントなどを投稿するフォームは、日本語対応時のみ表示されます