GB 18030
読み:ジービーいちはちまるさんまる
外語:GB 18030

 簡体字支那語で使われている文字コードで、符号化方法(CES)の一つ。
目次

概要

用途
 支那では、パソコンなどにおいては「GBK」と呼ばれる符号を利用しており、これはこれでかなりの量の漢字文字が利用できた。
 より多種の文字を利用するにはUnicode(支那規格GB 13000)等の利用が必要だった。しかしUnicodeの符号(UTF-16UTF-8など)は、既に普及しているGBK符号と互換性がなく、移行するには敷居が高かった。そこで、GBKと上位互換になるように工夫しながらUnicodeを飲み込んだものがGB 18030という国家標準である。

方法と集合
 GB 18030は符号化方法(CES)である。
 従来のGBK相当の文字集合に、更にUnicode 1.1相当の文字集合を符号化することが出来る。

沿革

特徴

マッピング
 EUC-CNが大元で、その符号に拡張を続けて作られた。GBKは1または2バイトの可変長で、GB 18030では1、2、4バイトの可変長となった。
 符号位置は、16進数で次の通りである。
 2バイトの場合、第1バイトは126個分、第2バイトは190個分あり、23,940文字分の空間が存在する。
 4バイト(GB 18030)の場合、第1バイトと第3バイトは126個分、第2バイトと第4バイトは10個分あり、1,587,600文字分の空間が存在する。
 具体的な文字コード範囲は、次の通りになる。
バイト数符号範囲符号位置数
1バイト00‐7f128
2バイト第1バイト第2バイト23,940
81‐fe40‐7e、80‐fe
4バイト第1バイト第2バイト第3バイト第4バイト1,587,600
81‐fe30‐3981‐fe30‐39

文字集合
 GBKに収録されている21,886文字は全てが含まれている。
 更に、Unicode 1.1のCJK統合漢字に含まれる全ての漢字(20,902字)と、互換領域から選ばれた漢字が、4バイトの領域に割り当てられている。
 但し、4バイトで拡張された領域は、GBKに対して文字が重複しないよう、既存の文字を飛ばすようにして附番されている。
 つまり、UnicodeとGB 18030はアルゴリズム的に結ばれるわけではなく、必ず変換テーブルを介さないとならない。

符号機能
 4バイトの符号領域は、次の目的に割り当てられている。
名称符号範囲符号位置数
Unicode BMP0x81308130‐0x8439fe394×10×126×1050,400
拡張用領域0x85308130‐0x8539fe391×10×126×1012,600
拡張漢字文字0x86308130‐0x8f39fe3910×10×126×10126,000
Unicode 1面‐16面0x90308130‐0xe339fe3984×10×126×101,058,400
GBK2K拡張用0xe4308130‐0xfc39fe3925×10×126×10315,000
外字領域0xfd308130‐0xfe39fe392×10×126×1025,200
 各領域はそれぞれ、少しずつ広めに確保されている。



版の種類
 現在は、2版ある。
  1. GB 18030-2000
  2. GB 18030-2005
 現在有効の版は2005であり、この仕様に準拠しなければ、製品を出荷できない。

GB 18030-2000
 最初の版である。
 GBKの全ての文字がそのまま2バイト領域に保存された。
 この当時、GBKにある文字の幾つかはUnicodeに存在しなかった。このため、一時的に私用領域(外字領域)に割り当てられ、Unicodeに登録されてから符号位置の仕様変更が行なわれている。

GB 18030-2005
 最初の改訂版である。
 Unicodeへの登録漢字増加に対応した。1文字が4バイト符号に変更された。
 残る未登録文字も、その後Unicodeに全て登録されたが、符号位置については現状、仕様変更されていない。

再検索