EUC-TW
読み:イーユースィー-ティーダブリュー
外語:EUC-TW
ISO/IEC 2022
のサブセットで、8単位の拡張法を用いている
EUC
の一種。
目次
概要
用途
方法と集合
仕様
基本仕様
符号範囲
指示
G2の扱い
概要
用途
EUC-TWが想定する
文字集合
、
CNS 11643
は、台湾の公的規格である。
このため政府関係などが用いているらしいが、一般には殆ど使われていない。
方法と集合
EUC-TWはあくまで符号化方法(
CES
)であり、
文字集合
(
CCS
)の規定ではない。
文字集合には支那語・台湾正体字のCCSが使われるが、全てが慣例に基づくもので、RFCすらも無い。
仕様
基本仕様
8ビットで文字を表現する
8ビット符号
である。つまり、
CL
/
GL
/
CR
/
GR
の全てを用いる。
それぞれに、
C0
/
G0
/
C1
/
G1
が呼び出しされた状態で固定されており、変更はできない。
G2
の文字を使う場合は、
SS
を使う。
G3は使用しない。
0x00〜0x7f: G0文字(ASCII)
0xa1〜0xfe 0xa1〜0xfe: G1文字(CNS 11643-1)
0x8e(SS2) 0xa2〜0xb0 0xa1〜0xfe: 0xa1〜0xfe: G2文字(CNS 11643-2〜16〜80)
符号範囲
EUC-TWは、2バイト文字に対し、次の範囲を使う。
1バイト目 ‐ 10/1〜15/14 (94種)
2バイト目 ‐ 10/1〜15/14 (94種)
必要に応じ、SS2が先行して計4バイト(注、3バイトではない)となることがあるが、続くバイトの範囲は維持される。
指示
EUC-TWは、文字集合が各バッファーに呼び出し指示された状態で開始される。
ごく一般的な実装では、次の通り。
G0
:
ASCII
G1
: CNS 11643-1
G2
: CNS 11643-2字面以降
G3
: 未使用
この場合、GLには常にG0、GRには常にG1が呼び出されている。
G2の扱い
G2は、シングルシフト(SS2)を含めて4オクテットとなる。
SS2に続き、字面番号が1オクテット、符号位置が2バイトとなる。つまり、G2には、CNS 11643の第2字面以降の全ての文字集合が集まっているように見える。
仕様上は、EUC-TWにより
CNS 11643
の全字面を扱えることになる。
当初の仕様では、字面番号として10/2〜11/0(0xa2〜0xb0)の2字面から16字面までを扱った。CNS 11643:2004からは80字面までに拡張され、字面番号として10/2〜15/0(0xa2〜0xf0)の2字面から80字面までを扱う。
再検索