Big5
読み:ビッグファイブ
外語:Big5
台湾
で使われている
文字コード
の一つで、主流のもの。
目次
概要
由来
方法と集合
亜種
特徴
符号化技術
文字集合
版
バグ
拡張
独自
Big5-ETen
コードページ950
台湾の公機関拡張
Big5+
Big5E
香港の公機関拡張
Big5-HKSCS
概要
由来
台湾の財團法人資訊工業策進會(資策会)が1984(昭和59)年に規定した、漢字文字表(CCS)および符号化方法(CES)の標準である。
台湾における主要ソフトベンダー5社共通のコード体系ということで、Big5の名が付けられた。
現在台湾では最も普及している符号であり、様々な亜種がある。
方法と集合
ASCII
の上位互換であるが、その拡張方法は
日本語
の
シフトJIS
の発想と同様である。
但し、シフトJISはあくまでも符号化方法(CES)であるのに対し、Big5は漢字文字表(CCS)と符号化方法(CES)が一体化した仕様となっている。
亜種
主だったものだけでも、5種類がある。
Big5-1984
Big5-2003
Big5-ETen(倚天拡充字集)
CP950(Windows)
BIG5-IBM
このほかにも、次のようなものがある。
Big5+ (中文數位化技術推廣基金會(CMEX))
Big5E (中文數位化技術推廣基金會(CMEX))
Big5-HKSCS-1999 (香港による拡張)
Big5-HKSCS-2001 (香港による拡張)
Big5-HKSCS-2004 (香港による拡張)
big5-uao (
Mozilla Firefox
などの実装)
Apple Mac OSによる実装
CP10002(Windows)
主要な拡張については、詳細を後述する。
特徴
符号化技術
Big5は
ASCII
の上位互換として作られている符号系の上に、漢字文字表をマッピングする1〜2バイトの不定長コードである。
基本的なBig5の符号範囲は次の通りである。
1バイト目 ‐ 10/1〜12/6、12/9〜15/9
2バイト目 ‐ 4/0〜7/14、10/1〜15/14
一般的な拡張仕様として、次の符号位置が使われている。
1バイト目 ‐ 8/1〜8/13 ‐ 外字(3)
1バイト目 ‐ 8/14〜10/0 ‐ 外字(2)
1バイト目 ‐ 12/6〜12/8 ‐ 特殊文字
1バイト目 ‐ 15/10〜15/14 ‐ 外字(1)
文字集合
CNS 11643
と混同する向きもあるが、両者は本質的に異なるものであり、文字表についても類似点は多いが互いの互換性は無い。
文字コード
順に、次のようになっている。カッコ内は
日本語
訳である。
8140〜A0FE ‐ 使用者造字區(外字)
A140〜A3FE ‐ 標準字(非漢字)
A440〜C67E ‐ 常用字(第一水準)
C6A1〜C8FE ‐ 特殊符號(非漢字)
C940〜F9FE ‐ 次常用字(第二水準)
FA40〜FEFE ‐ 使用者造字區和新常用字(外字)
版
当初のBig5すなわちBig5-1984で対応するのは、標準字と常用字だけだった。
次常用字を含むBig5-1984の実装は多いが、本当は仕様外であるらしい。
次常用字、外字、特殊符號には後の版(Big5-2003など)より対応した。
バグ
次常用字(第二水準)には2文字(A461とC94A、DCD1とDDFC)について重複したコードが与えられている。
Unicodeでは、互換性のため両者に別々の符号位置を与えており、C94Aが互換領域のU+FA0C、DDFCも同様にU+FA0Dが割り当てられている。
拡張
Big5には様々な拡張仕様が存在する。以下は、代表的なものを紹介する。
独自
Big5-ETen
Windowsが普及する以前に台湾で普及していた支那語システム「倚天中文系統」で使われていた符号系である。
Big5-1984に対し、次のような拡張を特徴とする。
「倚天擴充字集」の追加
七個常用外字(碁、銹、裏、墻、恒、粧、嫺) ‐ 0xF9D6〜0xF9DC
罫線素片 ‐ 0xF9DD〜0xF9FE
丸数字、平仮名片仮名、キリル文字など ‐ 0xC6A1〜0xC8FE
独自拡張のBig5としては、最も有名な仕様である。
コードページ950
Microsoft Windowsで採用されている正体字文字集合である。
Big5-1984に対し、次のような拡張を特徴とする。
七個常用外字(碁、銹、裏、墻、恒、粧、嫺) ‐ 0xF9D6〜0xF9DC
罫線素片 ‐ 0xF9DD〜0xF9FE
ユーロ記号 ‐ 0xA3E1 (
Microsoft Windows Me
以降)
Big5-ETenのサブセット(部分集合)であると言うことも出来る。
台湾の公機関拡張
Big5+
中文數位化技術推廣基金會(CMEX)により、1997(平成9)年に策定された仕様である。
ISO/IEC 10646-1:1993、すなわち
Unicode 1.1
の全ての漢字文字を取り込むよう拡張された。
従来のBig5のコードポイントでは不足するので、次の領域を使用するよう拡張されている。
1バイト目 ‐ 8/1〜15/14 (126種)
2バイト目 ‐ 4/0〜7/14、8/0〜15/14 (190種)
具体的には、次の領域が新たに確保されている。
1バイト目 ‐ 8/1〜10/0、12/7〜12/8、15/10〜15/14
2バイト目 ‐ 8/0〜10/0
従来のBig5との上位互換ではあったが、符号領域の拡張があったため従来の実装では利用できなかった。
また、Windowsなども対応しなかったことから、殆ど普及しなかった。
Big5E
中文數位化技術推廣基金會(CMEX)により、1999(平成11)年に策定された仕様である。
Big5+のサブセット(部分集合)であり、政府機関が必要とする文字など3,954字を厳選し、従来のBig5の外字領域(8140〜A0FE)に収まるように再配置したものである。
コードレンジの特殊な拡張もない。従来の主要なBig5実装と同じ符号化方法であり、1バイト目は8/1〜15/9、2バイト目も従来通りに収まっているるため互換性は高かったが、こちらも殆ど普及していない。
なお、Big5-ETenが拡張していた丸数字、平仮名片仮名、キリル文字などの一切はなく、未使用となっている。また0xfa40以降の外字領域も未使用である。
香港の公機関拡張
Big5-HKSCS
香港は歴史的に正体字を利用していたため、台湾と同様にBig5を用いていた。
しかし、香港で使用される字などが不足することから、香港特別行政区政府はBig5になく香港で常用する文字をHKSCS(Hong Kong Supplementary Character Set、香港増補字符集)として策定した。
HKSCSには、知られる限りで次の版があるが、このHKSCSをBig5に追加したものを、総じてBig5-HKSCSと呼ぶ。
HKSCS-1999 ‐ 4,702字 (Big5との共通字を含む)
HKSCS-2001 ‐ 4,818字 (116字追加)
HKSCS-2004 ‐ 4,941字 (123字追加)
HKSCS-2004増収字符2006.11 ‐ 4,969字 (28字追加)
HKSCS-2004増収字符2008.02 ‐ 5,000字 (31字追加)
HKSCS-2004増収字符2008.08 ‐ 5,009字 (9字追加)
Big5との互換性を維持するため、Big5の外字領域に追加している。
具体的には、次の領域に追加されている。
1バイト目 ‐ 8/8〜10/0、15/10〜15/14
再検索