EUC-KR

読み：イーユースィーケイアー
外語：EUC-KR

品詞：名詞

朝鮮語向けのISO/IEC 2022のサブセットで8ビット符号の拡張法を用いている、EUCの一種。

概要

Wansung

ハングルは、部品を組み立てて作られる記号文字であり、全部で11,172個がある。

但し、その全てが使われるわけではなく、日常的に使用されるのは3,000〜4,000個とされる。

Wansungは、よく使うハングルを2,350個(25区×94点)を選び、これを完成(완성、wan seong)した形、つまり完成形として附番した文字集合の規格である。規格名はKS X 1001-1997(旧規格名KS C 5601)である。

この文字集合を利用した、最も一般的な符号化方法がEUC-KRとその派生である。

用途

UNIXなどで、朝鮮語を表現するときに用いられる。

最近のLinuxではUTF-8が使われ始めているが、古いUNIXシステムではEUC-KRが主流であった。

方法と集合

EUC-KRはあくまで符号化方法(CES)であり、文字集合(CCS)の規定ではない。

文字集合には朝鮮語のCCS、KS X 1001が使われる。その仕様は、RFC 1557で規定されている。

亜種

EUC-KRには、次のような亜種がある。

仕様

基本仕様

8ビットで文字を表現する8ビット符号である。つまり、CL/GL/CR/GRの全てを用いる。

それぞれに、C0/G0/C1/G1が呼び出しされた状態で固定されており、変更はできない。

G2とG3は使用しない。

0x00〜0x7f: G0文字(ASCII)
0xa1〜0xfe 0xa1〜0xfe: G1文字(KS X 1001)

符号範囲

基本的なEUC-KRは、2バイト文字に対し、次の範囲を使う。

1バイト目 ‐ 10/1〜15/14 (94種)
2バイト目 ‐ 10/1〜15/14 (94種)

但し、ISO/IEC 2022に違反するが2バイト目を拡張したものもあり、代表例として「UHC」がある。UHCは、次のようになっている。

1バイト目 ‐ 8/1〜15/14 (126種)
2バイト目 ‐ 3/1〜7/14、8/1〜15/14 (204種)

指示

EUC-KRは、文字集合が各バッファーに呼び出し指示された状態で開始される。初期状態は、次の通りである。

G0: ASCII (またはKS X 1003(ISO-646-KR))
G1: KS X 1001
G2: ‐
G3: ‐

関連・後継仕様

南鮮

Microsoft Windowsなどのパーソナルコンピューター環境では、EUC-KRの拡張であるUHCが主流である。

UHCは、11,172個全てのハングルを扱えるよう、EUC-KRを拡張したものである。

EUC-KR/UHCとは全く互換性がないが、最初から全ハングルを扱い、更にKS X 1001も加えた符号系Johabもある。但し、あまり使われていない。

北鮮

北朝鮮では、KS X 1001によく似た「DPRK Standard KPS 9566」が使われているらしい。

このうち、1997(平成9)年版の「KPS 9566-97」はISO-IR-202として登録されており、ISO/IEC 2022のエスケープシーケンスが割り当てられている。

現実にはEUC化し「EUC-KP」として使うことになる。しかし対応するソフトウェアが殆ど無いことから、北でも現実には南の「EUC-KR」などが使われているらしい。

リンク

用語の所属

EUC

ISO/IEC 2022

CES

ア	イ	ウ	エ	オ
カ	キ	ク	ケ	コ
サ	シ	ス	セ	ソ
タ	チ	ツ	テ	ト
ナ	ニ	ヌ	ネ	ノ
ハ	ヒ	フ	ヘ	ホ
マ	ミ	ム	メ	モ
ヤ		ユ		ヨ
ラ	リ	ル	レ	ロ
ワ	ヰ	ヴ	ヱ	ヲ
ン

通信	電算
科学	国土
鉄道	軍事
文化	萌色
短縮

通信	電算
科学	国土
鉄道	軍事
文化	萌色