文字コード
読み:もじコード
外語:character code
文字に割り当てられる符号のこと。
概要
文字の符号には二種類の概念があり、それぞれ次のように呼ばれる。
ある集合に、どのような文字をどのような番号で配置させるか、というのがCCSである。それを、実際に電子計算機等で扱えるような形式にしたものをCESという。
文字コードというのは俗語であり、上の二つはあまり区別されることなく一緒くたにして「文字コード」と呼ばれているため、混乱を招いている。
特徴
例えば日本語の処理を例とする。
標準
日本語を扱う文字集合として、日常よく使われるものに、次のようなものがある。
これらは、このままでは処理できないので、電子計算機で扱えるように符号化する。
JISの符号の場合、次のようなものがよく使われる。
Unicodeの符号の場合、次のようなものがよく使われる。
近年は、Webサイト用HTMLや文書ファイル用として、日本語環境でもUTF-8の人気が高まっている。
その他
応用例
標準化されたもの以外にも、漢字などに独自に附番された番号を使う例がある。
漢字字典等では、検索性や編集の都合等のため独自に漢字の番号(検字番号)を振ることが多い。そのような番号は著作権の対象とはならないため、応用が利く範囲内で広く使われることもある。
応用が確認されている範囲内で、次のようなものがある。
康熙字典は第一級の漢字字典であるが、番号は振られていない。そこで一般にはページ数と、そこからの登場順を符号化する。例えば「一」は75ページ目の1番目に登場するので「0075.01」のようにする。
国字の字典も番号は無いが、Glyphwikiのグループ:国字の字典では0001から1551までの連番を振る運用がなされている。
例外
また、次のようなものもある。
番号は大漢和辞典のものを劣化コピー(劣化パクリ)し、それを拡張したものである。
大漢和辞典とは微妙に互換性がなく、また自由な利用を認めないライセンス締結を要求している。危険なので文字コード界では触れてはならぬものとして〓〓〓〓〓などの伏せ字表現を使うこともある。
再検索