ア | イ | ウ | エ | オ |
カ | キ | ク | ケ | コ |
サ | シ | ス | セ | ソ |
タ | チ | ツ | テ | ト |
ナ | ニ | ヌ | ネ | ノ |
ハ | ヒ | フ | ヘ | ホ |
マ | ミ | ム | メ | モ |
ヤ | ユ | ヨ | ||
ラ | リ | ル | レ | ロ |
ワ | ヰ | ヴ | ヱ | ヲ |
ン |
A | B | C | D | E |
F | G | H | I | J |
K | L | M | N | O |
P | Q | R | S | T |
U | V | W | X | Y |
Z | 数字 | 記号 |
簡体字支那語で使われている文字コードで、符号化方法(CES)の一つ。
GB 18030は符号化方法(CES)である。
従来のGBK相当の文字集合に、更にUnicode 1.1相当の文字集合を符号化することが出来る。
EUC-CNが大元で、その符号に拡張を続けて作られた。GBKは1または2バイトの可変長で、GB 18030では1、2、4バイトの可変長となった。
符号位置は、16進数で次の通りである。
2バイトの場合、第1バイトは126個分、第2バイトは190個分あり、23,940文字分の空間が存在する。
4バイト(GB 18030)の場合、第1バイトと第3バイトは126個分、第2バイトと第4バイトは10個分あり、1,587,600文字分の空間が存在する。
具体的な文字コード範囲は、次の通りになる。
バイト数 | 符号範囲 | 符号位置数 | |||
---|---|---|---|---|---|
1バイト | 00‐7f | 128 | |||
2バイト | 第1バイト | 第2バイト | 23,940 | ||
81‐fe | 40‐7e、80‐fe | ||||
4バイト | 第1バイト | 第2バイト | 第3バイト | 第4バイト | 1,587,600 |
81‐fe | 30‐39 | 81‐fe | 30‐39 |
GBKに収録されている21,886文字は全てが含まれている。
更に、Unicode 1.1のCJK統合漢字に含まれる全ての漢字(20,902字)と、互換領域から選ばれた漢字が、4バイトの領域に割り当てられている。
但し、4バイトで拡張された領域は、GBKに対して文字が重複しないよう、既存の文字を飛ばすようにして附番されている。
つまり、UnicodeとGB 18030はアルゴリズム的に結ばれるわけではなく、必ず変換テーブルを介さないとならない。
4バイトの符号領域は、次の目的に割り当てられている。
名称 | 符号範囲 | 符号位置数 | |
---|---|---|---|
Unicode BMP | 0x81308130‐0x8439fe39 | 4×10×126×10 | 50,400 |
拡張用領域 | 0x85308130‐0x8539fe39 | 1×10×126×10 | 12,600 |
拡張漢字文字 | 0x86308130‐0x8f39fe39 | 10×10×126×10 | 126,000 |
Unicode 1面‐16面 | 0x90308130‐0xe339fe39 | 84×10×126×10 | 1,058,400 |
GBK2K拡張用 | 0xe4308130‐0xfc39fe39 | 25×10×126×10 | 315,000 |
外字領域 | 0xfd308130‐0xfe39fe39 | 2×10×126×10 | 25,200 |
各領域はそれぞれ、少しずつ広めに確保されている。
現在は、2版ある。
現在有効の版は2005であり、この仕様に準拠しなければ、製品を出荷できない。
最初の版である。
GBKの全ての文字がそのまま2バイト領域に保存された。
この当時、GBKにある文字の幾つかはUnicodeに存在しなかった。このため、一時的に私用領域(外字領域)に割り当てられ、Unicodeに登録されてから符号位置の仕様変更が行なわれている。
最初の改訂版である。
Unicodeへの登録漢字増加に対応した。1文字が4バイト符号に変更された。
残る未登録文字も、その後Unicodeに全て登録されたが、符号位置については現状、仕様変更されていない。
コメントなどを投稿するフォームは、日本語対応時のみ表示されます