Big5
読み:ビッグファイブ
外語:Big5

 台湾で使われている文字コードの一つで、主流のもの。
目次

概要

由来
 台湾の財團法人資訊工業策進會(資策会)が1984(昭和59)年に規定した、漢字文字表(CCS)および符号化方法(CES)の標準である。
 台湾における主要ソフトベンダー5社共通のコード体系ということで、Big5の名が付けられた。
 現在台湾では最も普及している符号であり、様々な亜種がある。

方法と集合
 ASCIIの上位互換であるが、その拡張方法は日本語シフトJISの発想と同様である。
 但し、シフトJISはあくまでも符号化方法(CES)であるのに対し、Big5は漢字文字表(CCS)と符号化方法(CES)が一体化した仕様となっている。

亜種
 主だったものだけでも、5種類がある。
 このほかにも、次のようなものがある。
 主要な拡張については、詳細を後述する。

特徴

符号化技術
 Big5はASCIIの上位互換として作られている符号系の上に、漢字文字表をマッピングする1〜2バイトの不定長コードである。
 基本的なBig5の符号範囲は次の通りである。
 一般的な拡張仕様として、次の符号位置が使われている。

文字集合
 CNS 11643と混同する向きもあるが、両者は本質的に異なるものであり、文字表についても類似点は多いが互いの互換性は無い。
 文字コード順に、次のようになっている。カッコ内は日本語訳である。


 当初のBig5すなわちBig5-1984で対応するのは、標準字と常用字だけだった。
 次常用字を含むBig5-1984の実装は多いが、本当は仕様外であるらしい。
 次常用字、外字、特殊符號には後の版(Big5-2003など)より対応した。

バグ
 次常用字(第二水準)には2文字(A461とC94A、DCD1とDDFC)について重複したコードが与えられている。
 Unicodeでは、互換性のため両者に別々の符号位置を与えており、C94Aが互換領域のU+FA0C、DDFCも同様にU+FA0Dが割り当てられている。

拡張
 Big5には様々な拡張仕様が存在する。以下は、代表的なものを紹介する。

独自

Big5-ETen
 Windowsが普及する以前に台湾で普及していた支那語システム「倚天中文系統」で使われていた符号系である。
 Big5-1984に対し、次のような拡張を特徴とする。
 独自拡張のBig5としては、最も有名な仕様である。

コードページ950
 Microsoft Windowsで採用されている正体字文字集合である。
 Big5-1984に対し、次のような拡張を特徴とする。
 Big5-ETenのサブセット(部分集合)であると言うことも出来る。

台湾の公機関拡張

Big5+
 中文數位化技術推廣基金會(CMEX)により、1997(平成9)年に策定された仕様である。
 ISO/IEC 10646-1:1993、すなわちUnicode 1.1の全ての漢字文字を取り込むよう拡張された。
 従来のBig5のコードポイントでは不足するので、次の領域を使用するよう拡張されている。
 具体的には、次の領域が新たに確保されている。
 従来のBig5との上位互換ではあったが、符号領域の拡張があったため従来の実装では利用できなかった。
 また、Windowsなども対応しなかったことから、殆ど普及しなかった。

Big5E
 中文數位化技術推廣基金會(CMEX)により、1999(平成11)年に策定された仕様である。
 Big5+のサブセット(部分集合)であり、政府機関が必要とする文字など3,954字を厳選し、従来のBig5の外字領域(8140〜A0FE)に収まるように再配置したものである。
 コードレンジの特殊な拡張もない。従来の主要なBig5実装と同じ符号化方法であり、1バイト目は8/1〜15/9、2バイト目も従来通りに収まっているるため互換性は高かったが、こちらも殆ど普及していない。
 なお、Big5-ETenが拡張していた丸数字、平仮名片仮名、キリル文字などの一切はなく、未使用となっている。また0xfa40以降の外字領域も未使用である。

香港の公機関拡張

Big5-HKSCS
 香港は歴史的に正体字を利用していたため、台湾と同様にBig5を用いていた。
 しかし、香港で使用される字などが不足することから、香港特別行政区政府はBig5になく香港で常用する文字をHKSCS(Hong Kong Supplementary Character Set、香港増補字符集)として策定した。
 HKSCSには、知られる限りで次の版があるが、このHKSCSをBig5に追加したものを、総じてBig5-HKSCSと呼ぶ。
 Big5との互換性を維持するため、Big5の外字領域に追加している。
 具体的には、次の領域に追加されている。

再検索