ア | イ | ウ | エ | オ |
カ | キ | ク | ケ | コ |
サ | シ | ス | セ | ソ |
タ | チ | ツ | テ | ト |
ナ | ニ | ヌ | ネ | ノ |
ハ | ヒ | フ | ヘ | ホ |
マ | ミ | ム | メ | モ |
ヤ | ユ | ヨ | ||
ラ | リ | ル | レ | ロ |
ワ | ヰ | ヴ | ヱ | ヲ |
ン |
A | B | C | D | E |
F | G | H | I | J |
K | L | M | N | O |
P | Q | R | S | T |
U | V | W | X | Y |
Z | 数字 | 記号 |
日本語用の漢字文字やかな文字、記号類を情報交換で用いるための文字集合を規定する工業規格の一つ。規格名は、版ごとに少しずつ違っている。
日本で使われる、漢字や非漢字(記号など)など、合計6,879文字(JIS X 0208:1997)が収められている。
いわゆる日本語の文字コードにおいて最も普及しているもので、日本語の文字を電子計算機で扱う際の、最も基本的なものとなっている。
従って、JIS X 0208で規定されている文字は、日本語対応の電子計算機の全てで読むことができると考えられる。
符号は、ISO/IEC 2022に準拠している。そして、2バイトで1文字を表わす。このため、文字表は、94×94の範囲に収まる。
このうち、最初のバイトを「区」(row)と呼び、次のバイトを「点」(cell)と呼び、あわせて「区点」という。区、点、それぞれ範囲は、1〜94の範囲とする。
区と点で、ある一つの文字領域が表わされるが、その位置のことを「区点位置」(codepoint)という。英語で「コードポイント」と呼ばれることも多い。
また、こうして区点位置を表わすときに使う番号を「区点番号」という。
区、点がそれぞれ1〜94であるため、区点番号は1区1点からはじまり、94区94点まであることになる。
区点番号を書くときには、主に次の方法を用いる。例えば、漢字として最初に現われる「亜」は、次のようになる。
単純計算では、区点位置は94×94=8,836個が存在することになる。
漢字には、様々な異体字等が存在し、その全てを収めていたのでは、8,836個の領域では足りない。
そこで、字形の差などは「包括」し、同じ区点位置を与えている。
例えば、くちだか「高」と、はしごだか「髙」は同じ文字であるとして包括され、JIS X 0208では共に同じ25区66点の区点位置を与えている。タカシマヤの(株)髙島屋は、後者「はしごたか」であるが、一般的なJIS X 0208の実装ではくちだかなので、正確に表現できていないように見える。
牛丼チェーンで有名な吉野家も、正確には士口(吉)ではなく土口(𠮷)と書かれるが、同様にどちらの字体も21区40点であるため、正確に表現できていないように見える。
JIS規格では「ビット組合せ」という表現が使われているが、この区点番号を電子計算機で扱えるようにするための表現方法である。
ISO/IEC 2022では、原則として7ビット2バイトの符号で表現する。この2バイトは、「列番号/行番号」と表現される。
7ビットで表現される中には制御文字も含まれるため、実際の文字は2/1〜7/14の範囲内である。結果として94個あり、これが2バイトとなるわけである。1バイト目が面、2バイト目が区に、それぞれ対応し、1面1区が2/1 2/1に符号化される。
例えば「亜」の場合、16面1区であるので、3/0 2/1と符号化されることになる。
現在は、旧規格も含めて5版ある。
表中の「タグ」は、TrueTypeフォントにおいて字形を識別するために使われるIDである。
参考までに、JIS X 0212(補助漢字)と、JIS X 0213を併記した。
漢字 | 非漢字 | タグ | |||||
---|---|---|---|---|---|---|---|
第1水準 | 第2水準 | 補助漢字 | 第3水準 | 第4水準 | |||
JIS C 6226-1978 | 2,965字 | 3,384字 | 453字 | jp78 | |||
JIS C 6226-1983 | 2,965字 | 3,388字 | 524字 | jp83 | |||
JIS X 0208-1983 | |||||||
JIS X 0208-1990 | 2,965字 | 3,390字 | 524字 | jp90 | |||
JIS X 0212-1990 | 5,801字 | 266字 | hojo | ||||
JIS X 0208:1997 | 2,965字 | 3,390字 | 524字 | ||||
JIS X 0213:2000 | 2,965字 | 3,390字 | 1,249字 | 2,436字 | 1,183字 | ||
JIS X 0213:2004 | 2,965字 | 3,390字 | 1,259字 | 2,436字 | 1,183字 | jp04 |
この文字集合(CCS)を用いた代表的な符号化方法(CES)は、次の通りである。
JIS C 6226-1983(後のJIS X 0208-1983)と、JIS X 0208-1990の二種類が登録されている。
1983年版は、ISO-IR 87として登録されている。
ISO-IR 87のISO/IEC 2022におけるエスケープシーケンスは次のとおり。
1990年版は、ISO-IR 168として登録されている。
ISO-IR 168のISO/IEC 2022におけるエスケープシーケンスは次のとおり。
差は僅かであるので、終端文字はそのままで、更新シーケンス(ESC 2/6 4/0)が追加された。
コメントなどを投稿するフォームは、日本語対応時のみ表示されます