Big5

読み:ビッグファイブ
外語:Big5 英語
品詞:固有名詞

台湾で使われている文字コードの一つで、主流のもの。

目次

由来

台湾の財團法人資訊工業策進會(資策会)が1984(昭和59)年に規定した、漢字文字表(CCS)および符号化方法(CES)の標準である。

台湾における主要ソフトベンダー5社共通のコード体系ということで、Big5の名が付けられた。

現在台湾では最も普及している符号であり、様々な亜種がある。

方法と集合

ASCIIの上位互換であるが、その拡張方法は日本語シフトJISの発想と同様である。

但し、シフトJISはあくまでも符号化方法(CES)であるのに対し、Big5は漢字文字表(CCS)と符号化方法(CES)が一体化した仕様となっている。

亜種

主だったものだけでも、5種類がある。

  • Big5-1984
  • Big5-2003
  • Big5-ETen(倚天拡充字集)
  • CP950(Windows)
  • BIG5-IBM

このほかにも、次のようなものがある。

  • Big5+ (中文數位化技術推廣基金會(CMEX))
  • Big5E (中文數位化技術推廣基金會(CMEX))
  • Big5-HKSCS-1999 (香港による拡張)
  • Big5-HKSCS-2001 (香港による拡張)
  • Big5-HKSCS-2004 (香港による拡張)
  • big5-uao (Mozilla Firefoxなどの実装)
  • Apple Mac OSによる実装
  • CP10002(Windows)

主要な拡張については、詳細を後述する。

符号化技術

Big5はASCIIの上位互換として作られている符号系の上に、漢字文字表をマッピングする1〜2バイトの不定長コードである。

基本的なBig5の符号範囲は次の通りである。

  • 1バイト目 ‐ 10/1〜12/6、12/9〜15/9
  • 2バイト目 ‐ 4/0〜7/14、10/1〜15/14

一般的な拡張仕様として、次の符号位置が使われている。

  • 1バイト目 ‐ 8/1〜8/13 ‐ 外字(3)
  • 1バイト目 ‐ 8/14〜10/0 ‐ 外字(2)
  • 1バイト目 ‐ 12/6〜12/8 ‐ 特殊文字
  • 1バイト目 ‐ 15/10〜15/14 ‐ 外字(1)

文字集合

CNS 11643と混同する向きもあるが、両者は本質的に異なるものであり、文字表についても類似点は多いが互いの互換性は無い。

文字コード順に、次のようになっている。カッコ内は日本語訳である。

  • 8140〜A0FE ‐ 使用者造字區(外字)
  • A140〜A3FE ‐ 標準字(非漢字)
  • A440〜C67E ‐ 常用字(第一水準)
  • C6A1〜C8FE ‐ 特殊符號(非漢字)
  • C940〜F9FE ‐ 次常用字(第二水準)
  • FA40〜FEFE ‐ 使用者造字區和新常用字(外字)

当初のBig5すなわちBig5-1984で対応するのは、標準字と常用字だけだった。

次常用字を含むBig5-1984の実装は多いが、本当は仕様外であるらしい。

次常用字、外字、特殊符號には後の版(Big5-2003など)より対応した。

バグ

次常用字(第二水準)には2文字(A461とC94A、DCD1とDDFC)について重複したコードが与えられている。

Unicodeでは、互換性のため両者に別々の符号位置を与えており、C94Aが互換領域のU+FA0C、DDFCも同様にU+FA0Dが割り当てられている。

Big5には様々な拡張仕様が存在する。以下は、代表的なものを紹介する。

独自

Big5-ETen

Windowsが普及する以前に台湾で普及していた支那語システム「倚天中文系統」で使われていた符号系である。

Big5-1984に対し、次のような拡張を特徴とする。

  • 「倚天擴充字集」の追加
    • 七個常用外字(碁、銹、裏、墻、恒、粧、嫺) ‐ 0xF9D6〜0xF9DC
    • 罫線素片 ‐ 0xF9DD〜0xF9FE
    • 丸数字、平仮名片仮名、キリル文字など ‐ 0xC6A1〜0xC8FE

独自拡張のBig5としては、最も有名な仕様である。

コードページ950

Microsoft Windowsで採用されている正体字文字集合である。

Big5-1984に対し、次のような拡張を特徴とする。

  • 七個常用外字(碁、銹、裏、墻、恒、粧、嫺) ‐ 0xF9D6〜0xF9DC
  • 罫線素片 ‐ 0xF9DD〜0xF9FE
  • ユーロ記号 ‐ 0xA3E1 (Microsoft Windows Me以降)

Big5-ETenのサブセット(部分集合)であると言うことも出来る。

台湾の公機関拡張

Big5+

中文數位化技術推廣基金會(CMEX)により、1997(平成9)年に策定された仕様である。

ISO/IEC 10646-1:1993、すなわちUnicode 1.1の全ての漢字文字を取り込むよう拡張された。

従来のBig5のコードポイントでは不足するので、次の領域を使用するよう拡張されている。

  • 1バイト目 ‐ 8/1〜15/14 (126種)
  • 2バイト目 ‐ 4/0〜7/14、8/0〜15/14 (190種)

具体的には、次の領域が新たに確保されている。

  • 1バイト目 ‐ 8/1〜10/0、12/7〜12/8、15/10〜15/14
  • 2バイト目 ‐ 8/0〜10/0

従来のBig5との上位互換ではあったが、符号領域の拡張があったため従来の実装では利用できなかった。

また、Windowsなども対応しなかったことから、殆ど普及しなかった。

Big5E

中文數位化技術推廣基金會(CMEX)により、1999(平成11)年に策定された仕様である。

Big5+のサブセット(部分集合)であり、政府機関が必要とする文字など3,954字を厳選し、従来のBig5の外字領域(8140〜A0FE)に収まるように再配置したものである。

コードレンジの特殊な拡張もない。従来の主要なBig5実装と同じ符号化方法であり、1バイト目は8/1〜15/9、2バイト目も従来通りに収まっているるため互換性は高かったが、こちらも殆ど普及していない。

なお、Big5-ETenが拡張していた丸数字、平仮名片仮名、キリル文字などの一切はなく、未使用となっている。また0xfa40以降の外字領域も未使用である。

香港の公機関拡張

Big5-HKSCS

香港は歴史的に正体字を利用していたため、台湾と同様にBig5を用いていた。

しかし、香港で使用される字などが不足することから、香港特別行政区政府はBig5になく香港で常用する文字をHKSCS(Hong Kong Supplementary Character Set、香港増補字符集)として策定した。

HKSCSには、知られる限りで次の版があるが、このHKSCSをBig5に追加したものを、総じてBig5-HKSCSと呼ぶ。

  • HKSCS-1999 ‐ 4,702字 (Big5との共通字を含む)
  • HKSCS-2001 ‐ 4,818字 (116字追加)
  • HKSCS-2004 ‐ 4,941字 (123字追加)
  • HKSCS-2004増収字符2006.11 ‐ 4,969字 (28字追加)
  • HKSCS-2004増収字符2008.02 ‐ 5,000字 (31字追加)
  • HKSCS-2004増収字符2008.08 ‐ 5,009字 (9字追加)

Big5との互換性を維持するため、Big5の外字領域に追加している。

具体的には、次の領域に追加されている。

  • 1バイト目 ‐ 8/8〜10/0、15/10〜15/14
関連するリンク
Big5
用語の所属
文字コード
関連する用語
ASCII
EUC-CN
EUC-TW
ISO-2022-CN
CNS 11643

コメントなどを投稿するフォームは、日本語対応時のみ表示されます


KisoDic通信用語の基礎知識検索システム WDIC Explorer Version 7.04a (27-May-2022)
Search System : Copyright © Mirai corporation
Dictionary : Copyright © WDIC Creators club