文字コード - 通信用語の基礎知識

文字コード
読み：もじコード
外語：character code

　文字に割り当てられる符号のこと。

概要
特徴

標準
その他

応用例
例外

概要
　文字の符号には二種類の概念があり、それぞれ次のように呼ばれる。

符号化文字集合 (CCS)
符号化方法 (CES)

　ある集合に、どのような文字をどのような番号で配置させるか、というのがCCSである。それを、実際に電子計算機等で扱えるような形式にしたものをCESという。
　文字コードというのは俗語であり、上の二つはあまり区別されることなく一緒くたにして「文字コード」と呼ばれているため、混乱を招いている。

特徴
　例えば日本語の処理を例とする。

標準
　日本語を扱う文字集合として、日常よく使われるものに、次のようなものがある。

　これらは、このままでは処理できないので、電子計算機で扱えるように符号化する。
　JISの符号の場合、次のようなものがよく使われる。

　Unicodeの符号の場合、次のようなものがよく使われる。

UTF-8
UTF-16

　近年は、Webサイト用HTMLや文書ファイル用として、日本語環境でもUTF-8の人気が高まっている。

その他

応用例
　標準化されたもの以外にも、漢字などに独自に附番された番号を使う例がある。
　漢字字典等では、検索性や編集の都合等のため独自に漢字の番号(検字番号)を振ることが多い。そのような番号は著作権の対象とはならないため、応用が利く範囲内で広く使われることもある。
　応用が確認されている範囲内で、次のようなものがある。

独自の文字集合
- GT書体
- Adobe-Japan1
字典検字番号
- 大漢和辞典 (諸橋轍次)
- 角川新字源
- 和製漢字の辞典 (大原望)
字典ページ数など
- 康熙字典
- 国字の字典 (菅原義三・飛田良文)

　康熙字典は第一級の漢字字典であるが、番号は振られていない。そこで一般にはページ数と、そこからの登場順を符号化する。例えば「一」は75ページ目の1番目に登場するので「0075.01」のようにする。
　国字の字典も番号は無いが、Glyphwikiのグループ:国字の字典

では0001から1551までの連番を振る運用がなされている。

例外
　また、次のようなものもある。

今昔文字鏡 (文字鏡研究会)

　番号は大漢和辞典のものを劣化コピー(劣化パクリ)し、それを拡張したものである。
　大漢和辞典とは微妙に互換性がなく、また自由な利用を認めないライセンス締結を要求している。危険なので文字コード界では触れてはならぬものとして〓〓〓〓〓などの伏せ字表現を使うこともある。

再検索