GBK
読み:ジービーケイ
外語:GBK: GuoBiao Kuozhan

 簡体字支那語で使われている文字コードで、符号化方法(CES)の一つ。
目次

概要

用途
 従来の国家標準GB 2312は、EUC(ISO/IEC 2022)に準拠して符号化されており、EUC-CNと呼ばれていた。
 その後、Unicode 1.1が登場すると、新たな国家標準として「GB 13000.1-93」が制定された。
 そして、EUC-CNのコードレンジを拡張し、多くの漢字を格納可能な符号として作られたのが、GBK(GBのK=拡張)であった。但し、規格としては標準化されなかった。
 しかしMicrosoft Windowsでコードページ936として採用されたため、広く普及することになった。

亜種
 漢字文字のみでなく、全てのUnicode文字に対応するため、GBKは更に拡張された。
 2000(平成12)年に発布されたGB 18030が、現在の主流である。
 GBKは国家標準ではないが、GBKとほぼ完全な互換性があるGB 18030は国家標準である。

特徴

マッピング
 元々はEUCで、その符号を拡張して作られている。1または2バイトの可変長で、GB 18030も含めると1、2、4バイトの可変長となる。
 符号位置は、16進数で次の通りである。
 2バイトの場合、第1バイトは126個分、第2バイトは190個分あり、23,940文字分の空間が存在する。
 4バイト(GB 18030)の場合、第1バイトと第3バイトは126個分、第2バイトと第4バイトは10個分あり、1,587,600文字分の空間が存在する。
 具体的な文字コード範囲は、次の通りになる。
バイト数符号範囲符号位置数
1バイト00‐7f128
2バイト第1バイト第2バイト23,940
81‐fe40‐7e、80‐fe
4バイト第1バイト第2バイト第3バイト第4バイト1,587,600
81‐fe30‐3981‐fe30‐39

文字集合
 EUCの範囲内がGB 2312の文字集合である。
 GBKとして拡張された領域には、GB 2312には含まれていない、Unicode 1.1のCJK統合漢字に含まれる全ての漢字(20,902字)と、互換領域の全ての漢字が割り当てられており、EUC範囲内含め、全てで21,886字を収録している。

符号機能
 GBKの領域は、従来のEUC-CN相当の空間も含め、GBK/1からGBK/5までと、外字領域に水準分けされて使われている。
名称第1バイト第2バイト収録文字種符号位置数収録文字数
GBK/1A1‐A9A1‐FE記号類846717
GBK/2B0‐F7A1‐FE漢字6,7686,763
GBK/381‐A040‐7E、80‐FE漢字6,0806,080
GBK/4AA‐FE40‐7E、80‐A0漢字8,1608,160
GBK/5A8‐A940‐7E、80‐A0漢字192166
外字AA‐AFA1‐FE漢字564 
F8‐FEA1‐FE漢字658
A1‐A740‐7E、80‐A0漢字672
 収録されている字は、次の通り。

再検索