GB 18030

読み:ジービーいちはちまるさんまる
外語:GB 18030 英語
品詞:名詞

簡体字支那語で使われている文字コードで、符号化方法(CES)の一つ。

目次

用途

支那では、パソコンなどにおいては「GBK」と呼ばれる符号を利用しており、これはこれでかなりの量の漢字文字が利用できた。

より多種の文字を利用するにはUnicode(支那規格GB 13000)等の利用が必要だった。しかしUnicodeの符号(UTF-16UTF-8など)は、既に普及しているGBK符号と互換性がなく、移行するには敷居が高かった。そこで、GBKと上位互換になるように工夫しながらUnicodeを飲み込んだものがGB 18030という国家標準である。

方法と集合

GB 18030は符号化方法(CES)である。

従来のGBK相当の文字集合に、更にUnicode 1.1相当の文字集合を符号化することが出来る。

沿革

  • 2000(平成12)年3月17日: GB 18030-2000公布
  • 2005(平成17)年11月8日: GB 18030-2005公布

マッピング

EUC-CNが大元で、その符号に拡張を続けて作られた。GBKは1または2バイトの可変長で、GB 18030では1、2、4バイトの可変長となった。

符号位置は、16進数で次の通りである。

  • 1バイト ‐ 00‐7f
  • 2バイト ‐ 81‐fe | 40‐7e、80‐fe
  • 4バイト ‐ 81‐fe | 30‐39 | 81‐fe | 30‐39

2バイトの場合、第1バイトは126個分、第2バイトは190個分あり、23,940文字分の空間が存在する。

4バイト(GB 18030)の場合、第1バイトと第3バイトは126個分、第2バイトと第4バイトは10個分あり、1,587,600文字分の空間が存在する。

具体的な文字コード範囲は、次の通りになる。

バイト数符号範囲符号位置数
1バイト00‐7f128
2バイト第1バイト第2バイト23,940
81‐fe40‐7e、80‐fe
4バイト第1バイト第2バイト第3バイト第4バイト1,587,600
81‐fe30‐3981‐fe30‐39

文字集合

GBKに収録されている21,886文字は全てが含まれている。

更に、Unicode 1.1のCJK統合漢字に含まれる全ての漢字(20,902字)と、互換領域から選ばれた漢字が、4バイトの領域に割り当てられている。

但し、4バイトで拡張された領域は、GBKに対して文字が重複しないよう、既存の文字を飛ばすようにして附番されている。

  • U+00A2 (¢) 81 30 84 34
  • U+00A3 (£) 81 30 84 35
  • U+00A4 (¤) A1 E8
  • U+00A5 (¥) 81 30 84 36
  • U+00A6 (¦) 81 30 84 37
  • U+00A7 (§) A1 EC
  • U+00A8 (¨) A1 A7
  • U+00A9 (©) 81 30 84 38
  • U+00AA (ª) 81 30 84 39

つまり、UnicodeとGB 18030はアルゴリズム的に結ばれるわけではなく、必ず変換テーブルを介さないとならない。

符号機能

4バイトの符号領域は、次の目的に割り当てられている。

名称符号範囲符号位置数
Unicode BMP0x81308130‐0x8439fe394×10×126×1050,400
拡張用領域0x85308130‐0x8539fe391×10×126×1012,600
拡張漢字文字0x86308130‐0x8f39fe3910×10×126×10126,000
Unicode 1面‐16面0x90308130‐0xe339fe3984×10×126×101,058,400
GBK2K拡張用0xe4308130‐0xfc39fe3925×10×126×10315,000
外字領域0xfd308130‐0xfe39fe392×10×126×1025,200

各領域はそれぞれ、少しずつ広めに確保されている。

版の種類

現在は、2版ある。

  1. GB 18030-2000
  2. GB 18030-2005

現在有効の版は2005であり、この仕様に準拠しなければ、製品を出荷できない。

GB 18030-2000

最初の版である。

GBKの全ての文字がそのまま2バイト領域に保存された。

この当時、GBKにある文字の幾つかはUnicodeに存在しなかった。このため、一時的に私用領域(外字領域)に割り当てられ、Unicodeに登録されてから符号位置の仕様変更が行なわれている。

GB 18030-2005

最初の改訂版である。

Unicodeへの登録漢字増加に対応した。1文字が4バイト符号に変更された。

残る未登録文字も、その後Unicodeに全て登録されたが、符号位置については現状、仕様変更されていない。

コメントなどを投稿するフォームは、日本語対応時のみ表示されます


KisoDic通信用語の基礎知識検索システム WDIC Explorer Version 7.04a (27-May-2022)
Search System : Copyright © Mirai corporation
Dictionary : Copyright © WDIC Creators club