ア | イ | ウ | エ | オ |
カ | キ | ク | ケ | コ |
サ | シ | ス | セ | ソ |
タ | チ | ツ | テ | ト |
ナ | ニ | ヌ | ネ | ノ |
ハ | ヒ | フ | ヘ | ホ |
マ | ミ | ム | メ | モ |
ヤ | ユ | ヨ | ||
ラ | リ | ル | レ | ロ |
ワ | ヰ | ヴ | ヱ | ヲ |
ン |
A | B | C | D | E |
F | G | H | I | J |
K | L | M | N | O |
P | Q | R | S | T |
U | V | W | X | Y |
Z | 数字 | 記号 |
簡体字支那語で使われている文字コードで、符号化方法(CES)の一つ。
従来の国家標準GB 2312は、EUC(ISO/IEC 2022)に準拠して符号化されており、EUC-CNと呼ばれていた。
その後、Unicode 1.1が登場すると、新たな国家標準として「GB 13000.1-93」が制定された。
そして、EUC-CNのコードレンジを拡張し、多くの漢字を格納可能な符号として作られたのが、GBK(GBのK=拡張)であった。但し、規格としては標準化されなかった。
しかしMicrosoft Windowsでコードページ936として採用されたため、広く普及することになった。
漢字文字のみでなく、全てのUnicode文字に対応するため、GBKは更に拡張された。
2000(平成12)年に発布されたGB 18030が、現在の主流である。
GBKは国家標準ではないが、GBKとほぼ完全な互換性があるGB 18030は国家標準である。
元々はEUCで、その符号を拡張して作られている。1または2バイトの可変長で、GB 18030も含めると1、2、4バイトの可変長となる。
符号位置は、16進数で次の通りである。
2バイトの場合、第1バイトは126個分、第2バイトは190個分あり、23,940文字分の空間が存在する。
4バイト(GB 18030)の場合、第1バイトと第3バイトは126個分、第2バイトと第4バイトは10個分あり、1,587,600文字分の空間が存在する。
具体的な文字コード範囲は、次の通りになる。
バイト数 | 符号範囲 | 符号位置数 | |||
---|---|---|---|---|---|
1バイト | 00‐7f | 128 | |||
2バイト | 第1バイト | 第2バイト | 23,940 | ||
81‐fe | 40‐7e、80‐fe | ||||
4バイト | 第1バイト | 第2バイト | 第3バイト | 第4バイト | 1,587,600 |
81‐fe | 30‐39 | 81‐fe | 30‐39 |
GBKの領域は、従来のEUC-CN相当の空間も含め、GBK/1からGBK/5までと、外字領域に水準分けされて使われている。
名称 | 第1バイト | 第2バイト | 収録文字種 | 符号位置数 | 収録文字数 |
---|---|---|---|---|---|
GBK/1 | A1‐A9 | A1‐FE | 記号類 | 846 | 717 |
GBK/2 | B0‐F7 | A1‐FE | 漢字 | 6,768 | 6,763 |
GBK/3 | 81‐A0 | 40‐7E、80‐FE | 漢字 | 6,080 | 6,080 |
GBK/4 | AA‐FE | 40‐7E、80‐A0 | 漢字 | 8,160 | 8,160 |
GBK/5 | A8‐A9 | 40‐7E、80‐A0 | 漢字 | 192 | 166 |
外字 | AA‐AF | A1‐FE | 漢字 | 564 | |
F8‐FE | A1‐FE | 漢字 | 658 | ||
A1‐A7 | 40‐7E、80‐A0 | 漢字 | 672 |
収録されている字は、次の通り。
コメントなどを投稿するフォームは、日本語対応時のみ表示されます