Johab

読み：チョハブ
外語：Johab

, 조합

品詞：名詞

朝鮮語で使われる文字コードの一つ。

概要

由来

KS C 5601-1982(後のKS X 1001)で「16ビット符号」として規格化された文字集合が由来となる符号である。

KS C 5601-1987の改正で付属書扱いになり、KS C 5601-1992で「組合型符号化文字集合」(Johab)に改名され仕様も変更され、現在に至っている。

全てのハングルを扱うことができ、かつKS X 1001にある全ての文字をも扱うことができる。

組み合わせ

ハングルは、部品を組み立てて作られる記号文字であり、全部で11,172個がある。

ハングルには基本的な14個の子音字(C)と10個の母音字(V)があり、それぞれを字母という。1文字はC+VかC+V+Cの組み合わせで形成される。

そこで、3種類の字母に5ビットを割り当て、最上位ビットを常に1とした16ビットの符号が発案された。これが、組合(조합、co hap)である。

特徴

符号の構造

Johabは、1バイトと2バイトが混在する符号である。

1バイト文字はKS X 1003(ISO-646-KR)相当である。

先頭バイトのMSBが1(0x80以上)となるものが2バイト文字である。

ハングルを格納し、余った領域にはKS X 1001のうちハングルを除いた全文字が割り当てられている。

符号配置

第1バイトごとに、次の文字が配置される。

0x84〜0x88 ‐ ハングル字母
0x88〜0xd3 ‐ ハングル(Johab)
0xd8 ‐ KS X 1001 (外字領域、188字分)
0xd9〜0xde ‐ KS X 1001 (1区〜12区)
0xf0〜0xf9 ‐ KS X 1001 (42区〜93区)

ハングル部分とKS X 1001では、使用する第2バイトが異なる。

1バイト目 0x84〜0xd3
- 0x41〜0x7e
- 0x81〜0xfe
1バイト目 0xd8〜0xde、0xe0〜0xf9
- 0x31〜0x7e
- 0x91〜0xfe

ハングル

下位ビットから0〜4ビットが終声、5〜9ビットが中声、10〜14ビットが初声となる。

この方法は、8ビット文字2文字分にした時、1バイト目が0x88〜0xd3、2バイト目が0x41〜0xfdの範囲に収まるため、扱いも容易である。

番号	初声	中声	終声
1			(ゼロ終声)
2	k		k
3	kk	a	kk
4	n	ae	ks
5	t	ya	n
6	tt	yae	nc
7	l	eo	nh
8	m		t
9	p		l
10	pp	e	lk
11	s	yeo	lm
12	ss	ye	lp
13	(ゼロ)	o	ls
14	c	wa	lth
15	cc	wae	lph
16	ch		lh
17	kh		m
18	th	oe
19	ph	yo	p
20	h	u	ps
21		weo	s
22		we	ss
23		wi	ng
24			c
25			ch
26		yu	kh
27		eu	th
28		yi	ph
29		i	h

KS X 1001

KS X 1001のハングルを除いた部分がシフトして格納されている。

2バイト目が188字分(2区分)あるため、一つの1バイト目ごとに2区が格納可能で、必要な1バイト目は半分で済む計算になる。

第1バイトごとに、次の区が格納されている。

0xd9〜0xde ‐ KS X 1001 (1区〜12区)
0xf0〜0xf9 ‐ KS X 1001 (42区〜93区)

リンク

用語の所属

文字コード

朝鮮語

ア	イ	ウ	エ	オ
カ	キ	ク	ケ	コ
サ	シ	ス	セ	ソ
タ	チ	ツ	テ	ト
ナ	ニ	ヌ	ネ	ノ
ハ	ヒ	フ	ヘ	ホ
マ	ミ	ム	メ	モ
ヤ		ユ		ヨ
ラ	リ	ル	レ	ロ
ワ	ヰ	ヴ	ヱ	ヲ
ン

通信	電算
科学	国土
鉄道	軍事
文化	萌色
短縮

通信	電算
科学	国土
鉄道	軍事
文化	萌色