Johab
読み:チョハブ
外語:Johab

 朝鮮語で使われる文字コードの一つ。
目次

概要

由来
 KS C 5601-1982(後のKS X 1001)で「16ビット符号」として規格化された文字集合が由来となる符号である。
 KS C 5601-1987の改正で付属書扱いになり、KS C 5601-1992で「組合型符号化文字集合」(Johab)に改名され仕様も変更され、現在に至っている。
 全てのハングルを扱うことができ、かつKS X 1001にある全ての文字をも扱うことができる。

組み合わせ
 ハングルは、部品を組み立てて作られる記号文字であり、全部で11,172個がある。
 ハングルには基本的な14個の子音字(C)と10個の母音字(V)があり、それぞれを字母という。1文字はC+VかC+V+Cの組み合わせで形成される。
 そこで、3種類の字母に5ビットを割り当て、最上位ビットを常に1とした16ビットの符号が発案された。これが、組合(<CO><HAP>、co hap)である。

特徴

符号の構造
 Johabは、1バイトと2バイトが混在する符号である。
 1バイト文字はKS X 1003(ISO-646-KR)相当である。
 先頭バイトのMSBが1(0x80以上)となるものが2バイト文字である。
 ハングルを格納し、余った領域にはKS X 1001のうちハングルを除いた全文字が割り当てられている。

符号配置
 第1バイトごとに、次の文字が配置される。
 ハングル部分とKS X 1001では、使用する第2バイトが異なる。

ハングル
 下位ビットから0〜4ビットが終声、5〜9ビットが中声、10〜14ビットが初声となる。
 この方法は、8ビット文字2文字分にした時、1バイト目が0x88〜0xd3、2バイト目が0x41〜0xfdの範囲に収まるため、扱いも容易である。
番号初声中声終声
1  (ゼロ終声)
2k k
3kkakk
4naeks
5tyan
6ttyaenc
7leonh
8m t
9p l
10ppelk
11syeolm
12ssyelp
13(ゼロ)ols
14cwalth
15ccwaelph
16ch lh
17kh m
18thoe 
19phyop
20hups
21 weos
22 wess
23 wing
24  c
25  ch
26 yukh
27 euth
28 yiph
29 ih

KS X 1001
 KS X 1001のハングルを除いた部分がシフトして格納されている。
 2バイト目が188字分(2区分)あるため、一つの1バイト目ごとに2区が格納可能で、必要な1バイト目は半分で済む計算になる。
 第1バイトごとに、次の区が格納されている。

再検索