EUC-CN
読み:イーユースィースィーエン
外語:EUC-CN
簡体字支那語向けの
ISO/IEC 2022
のサブセットで
8ビット符号
の拡張法を用いている、
EUC
の一種。
目次
概要
用途
方法と集合
亜種
仕様
基本仕様
符号範囲
指示
関連・後継仕様
概要
用途
UNIX
などで、簡体字支那語を表現するときに用いられる。
最近の
Linux
では
UTF-8
が使われ始めているが、古いUNIXシステムではEUC-CNが主流であった。
方法と集合
EUC-CNはあくまで符号化方法(
CES
)であり、
文字集合
(
CCS
)の規定ではない。
文字集合には支那語のCCSが使われるが、全てが慣例に基づくもので、RFCすらも無い。
RFC 1922
には「CN-GB」と称される8ビット符号が述べられているが、これは慣例として用いられるEUC-CNと同等である。
亜種
EUC-CNには、次のような亜種がある。
GBK
GB 18030
(GBK2K)
仕様
基本仕様
8ビットで文字を表現する
8ビット符号
の符号である。つまり、
CL
/
GL
/
CR
/
GR
の全てを用いる。
それぞれに、
C0
/
G0
/
C1
/
G1
が呼び出しされた状態で固定されており、変更はできない。
G2
、
G3
の文字を使う場合は、
SS
を使う。
0x00〜0x7f: G0文字(ASCII)
0xa1〜0xfe 0xa1〜0xfe: G1文字(GB 2312)
0x8e(SS2) 0xa1〜0xfe: G2文字
0x8f(SS3) 0xa1〜0xfe 0xa1〜0xfe: G3文字
符号範囲
基本的なEUC-CNは、2バイト文字に対し、次の範囲を使う。
1バイト目 ‐ 10/1〜15/14 (94種)
2バイト目 ‐ 10/1〜15/14 (94種)
必要に応じ、SS2やSS3が先行し3バイトとなることがあるが、続く2バイトの範囲は維持される。
但し、ISO/IEC 2022に違反するが2バイト目を拡張したものもあり、代表例として「GBK」がある。GBKは、次のようになっている。
1バイト目 ‐ 8/1〜15/14 (126種)
2バイト目 ‐ 4/0〜7/14、8/0〜15/14 (190種)
指示
EUC-CNは、文字集合が各バッファーに呼び出し指示された状態で開始される。しかし、どの文字集合が初期状態であるかは、実装によりまちまちである。
ごく一般的な実装では、次の通り。
G0
:
ASCII
G1
:
GB 2312
G2
: ‐
G3
: ‐
G2とG3は通常未使用だが、ISO-2022-CNの仕様上は、次の何れかの選択が可能となっている。それぞれ、左が簡体字、右が正体字である。
G0: ASCII
G1: GB 2312-80、GB/T 12345-90
G2: GB 7589-87、GB 13131-91
G3: GB 7590-87、GB 13132-91
関連・後継仕様
拡張に、EUCに準拠しない代わりコードレンジを広げて文字数を増やした符号系
GBK
と、その更なる拡張
GB 18030
があり、
支那大陸
においては、現行のパソコン等ではこの拡張符号系が主に用いられている。
台湾では、EUCとは全く異なる独自の
Big5
が主流で、EUCはあまり使われていない。
再検索