EUC-KR

読み:イーユースィーケイアー
外語:EUC-KR 英語
品詞:名詞

朝鮮語向けのISO/IEC 2022のサブセットで8ビット符号の拡張法を用いている、EUCの一種。

目次

Wansung

ハングルは、部品を組み立てて作られる記号文字であり、全部で11,172個がある。

但し、その全てが使われるわけではなく、日常的に使用されるのは3,000〜4,000個とされる。

Wansungは、よく使うハングルを2,350個(25区×94点)を選び、これを完成(완성、wan seong)した形、つまり完成形として附番した文字集合の規格である。規格名はKS X 1001-1997(旧規格名KS C 5601)である。

この文字集合を利用した、最も一般的な符号化方法がEUC-KRとその派生である。

用途

UNIXなどで、朝鮮語を表現するときに用いられる。

最近のLinuxではUTF-8が使われ始めているが、古いUNIXシステムではEUC-KRが主流であった。

方法と集合

EUC-KRはあくまで符号化方法(CES)であり、文字集合(CCS)の規定ではない。

文字集合には朝鮮語のCCS、KS X 1001が使われる。その仕様は、RFC 1557で規定されている。

亜種

EUC-KRには、次のような亜種がある。

基本仕様

8ビットで文字を表現する8ビット符号である。つまり、CL/GL/CR/GRの全てを用いる。

それぞれに、C0/G0/C1/G1が呼び出しされた状態で固定されており、変更はできない。

G2G3は使用しない。

  • 0x00〜0x7f: G0文字(ASCII)
  • 0xa1〜0xfe 0xa1〜0xfe: G1文字(KS X 1001)

符号範囲

基本的なEUC-KRは、2バイト文字に対し、次の範囲を使う。

  • 1バイト目 ‐ 10/1〜15/14 (94種)
  • 2バイト目 ‐ 10/1〜15/14 (94種)

但し、ISO/IEC 2022に違反するが2バイト目を拡張したものもあり、代表例として「UHC」がある。UHCは、次のようになっている。

  • 1バイト目 ‐ 8/1〜15/14 (126種)
  • 2バイト目 ‐ 3/1〜7/14、8/1〜15/14 (204種)

指示

EUC-KRは、文字集合が各バッファーに呼び出し指示された状態で開始される。初期状態は、次の通りである。

南鮮

Microsoft Windowsなどのパーソナルコンピューター環境では、EUC-KRの拡張であるUHCが主流である。

UHCは、11,172個全てのハングルを扱えるよう、EUC-KRを拡張したものである。

EUC-KR/UHCとは全く互換性がないが、最初から全ハングルを扱い、更にKS X 1001も加えた符号系Johabもある。但し、あまり使われていない。

北鮮

北朝鮮では、KS X 1001によく似た「DPRK Standard KPS 9566」が使われているらしい。

このうち、1997(平成9)年版の「KPS 9566-97」はISO-IR-202として登録されており、ISO/IEC 2022のエスケープシーケンスが割り当てられている。

現実にはEUC化し「EUC-KP」として使うことになる。しかし対応するソフトウェアが殆ど無いことから、北でも現実には南の「EUC-KR」などが使われているらしい。

用語の所属
EUC
ISO/IEC 2022
CES
関連する用語
CCS
KS X 1001
Johab

コメントなどを投稿するフォームは、日本語対応時のみ表示されます


KisoDic通信用語の基礎知識検索システム WDIC Explorer Version 7.04a (27-May-2022)
Search System : Copyright © Mirai corporation
Dictionary : Copyright © WDIC Creators club