JIS X 0208

読み：ジス・エックス・ゼロにーゼロはち
外語：JIS X 0208

品詞：固有名詞

日本語用の漢字文字やかな文字、記号類を情報交換で用いるための文字集合を規定する工業規格の一つ。規格名は、版ごとに少しずつ違っている。

概要

収載文字

日本で使われる、漢字や非漢字(記号など)など、合計6,879文字(JIS X 0208:1997)が収められている。

第1水準漢字 ‐ 2,965文字
第2水準漢字 ‐ 3,390文字
非漢字 ‐ 524字
- ひらがな
- カタカナ
- 記号
- ギリシャ文字
- キリル文字
- 罫線素片

いわゆる日本語の文字コードにおいて最も普及しているもので、日本語の文字を電子計算機で扱う際の、最も基本的なものとなっている。

従って、JIS X 0208で規定されている文字は、日本語対応の電子計算機の全てで読むことができると考えられる。

沿革

1978(昭和53)年1月1日: JIS C 6226制定 (JIS C 6226-1978 情報交換用漢字符号系)
1983(昭和58)年9月1日: JIS C 6226改正 (JIS C 6226-1983 情報交換用漢字符号系)
1987(昭和62)年3月1日: JISの情報部門(X)新設に伴い規格番号変更、JIS C 6226-1983→JIS X 0208-1983
1989(昭和64)年1月1日: 確認
1990(平成2)年9月1日: JIS X 0208改正 (JIS X 0208-1990 情報交換用漢字符号)
1997(平成9)年1月20日: JIS X 0208改正 (JIS X 0208:1997 7ビット及び8ビットの2バイト情報交換用符号化漢字集合)
2002(平成14)年7月20日: 確認
2007(平成19)年9月20日: 確認
2012(平成24)年2月20日改正 (JIS X 0208:1997/AMENDMENT 1:2012 (7ビット及び8ビットの2バイト情報交換用符号化漢字集合(追補1))

特徴

符号の構造

区点

符号は、ISO/IEC 2022に準拠している。そして、2バイトで1文字を表わす。このため、文字表は、94×94の範囲に収まる。

このうち、最初のバイトを「区」(row)と呼び、次のバイトを「点」(cell)と呼び、あわせて「区点」という。区、点、それぞれ範囲は、1〜94の範囲とする。

区点位置、区点番号

区と点で、ある一つの文字領域が表わされるが、その位置のことを「区点位置」(codepoint)という。英語で「コードポイント」と呼ばれることも多い。

また、こうして区点位置を表わすときに使う番号を「区点番号」という。

区、点がそれぞれ1〜94であるため、区点番号は1区1点からはじまり、94区94点まであることになる。

区点番号を書くときには、主に次の方法を用いる。例えば、漢字として最初に現われる「亜」は、次のようになる。

16区1点
16-01

単純計算では、区点位置は94×94=8,836個が存在することになる。

包括

漢字には、様々な異体字等が存在し、その全てを収めていたのでは、8,836個の領域では足りない。

そこで、字形の差などは「包括」し、同じ区点位置を与えている。

例えば、くちだか「高」と、はしごだか「髙」は同じ文字であるとして包括され、JIS X 0208では共に同じ25区66点の区点位置を与えている。タカシマヤの(株)髙島屋は、後者「はしごたか」であるが、一般的なJIS X 0208の実装ではくちだかなので、正確に表現できていないように見える。

牛丼チェーンで有名な吉野家も、正確には士口(吉)ではなく土口(𠮷)と書かれるが、同様にどちらの字体も21区40点であるため、正確に表現できていないように見える。

ビット組合せ

JIS規格では「ビット組合せ」という表現が使われているが、この区点番号を電子計算機で扱えるようにするための表現方法である。

ISO/IEC 2022では、原則として7ビット2バイトの符号で表現する。この2バイトは、「列番号/行番号」と表現される。

7ビットで表現される中には制御文字も含まれるため、実際の文字は2/1〜7/14の範囲内である。結果として94個あり、これが2バイトとなるわけである。1バイト目が面、2バイト目が区に、それぞれ対応し、1面1区が2/1 2/1に符号化される。

例えば「亜」の場合、16面1区であるので、3/0 2/1と符号化されることになる。

版

版の種類

現在は、旧規格も含めて5版ある。

JIS C 6226-1978 (第一次規格)
- 初版
JIS C 6226-1983、JIS X 0208-1983 (第二次規格)
- 非漢字71字、漢字4字の追加
- 拡張新字体などへの字形変更
JIS X 0208-1990 (第三次規格)
JIS X 0208:1997 (第四次規格)
JIS X 0208:2012 (第五次規格)

版ごとの差異

表中の「タグ」は、TrueTypeフォントにおいて字形を識別するために使われるIDである。

参考までに、JIS X 0212(補助漢字)と、JIS X 0213を併記した。

	漢字					非漢字	タグ
	第1水準	第2水準	補助漢字	第3水準	第4水準	非漢字	タグ
JIS C 6226-1978	2,965字	3,384字				453字	jp78
JIS C 6226-1983	2,965字	3,388字				524字	jp83
JIS X 0208-1983	2,965字	3,388字				524字	jp83
JIS X 0208-1990	2,965字	3,390字				524字	jp90
JIS X 0212-1990			5,801字			266字	hojo
JIS X 0208:1997	2,965字	3,390字				524字
JIS X 0213:2000	2,965字	3,390字		1,249字	2,436字	1,183字
JIS X 0213:2004	2,965字	3,390字		1,259字	2,436字	1,183字	jp04

符号

一覧

この文字集合(CCS)を用いた代表的な符号化方法(CES)は、次の通りである。

ISO/IEC 2022系
- ISO-2022-JP (RFC 1468)
- ISO-2022-JP-1 (RFC 2237)
- ISO-2022-JP-2 (RFC 1554)
- ISO-2022-JP-3 (JIS X 0213:2000)
- ISO-2022-JP-3-plane1 (JIS X 0213:2000)
- ISO-2022-JP-3-strict (JIS X 0213:2000)
- ISO-2022-JP-3-compatible (JIS X 0213:2000)
- ISO-2022-JP-2004-plane1 (JIS X 0213:2004)
- ISO-2022-JP-2004-strict (JIS X 0213:2004)
- ISO-2022-JP-2004-compatible (JIS X 0213:2004)
EUC-JP系
シフトJIS系

他のISO登録状況

JIS C 6226-1983(後のJIS X 0208-1983)と、JIS X 0208-1990の二種類が登録されている。

1983年版は、ISO-IR 87として登録されている。

ISO-IR 87のISO/IEC 2022におけるエスケープシーケンスは次のとおり。

G0: ESC 2/4 4/2
G1: ESC 2/4 2/9 4/2
G2: ESC 2/4 2/10 4/2
G3: ESC 2/4 2/11 4/2

1990年版は、ISO-IR 168として登録されている。

ISO-IR 168のISO/IEC 2022におけるエスケープシーケンスは次のとおり。

G0: ESC 2/6 4/0 ESC 2/4 4/2
G1: ESC 2/6 4/0 ESC 2/4 2/9 4/2
G2: ESC 2/6 4/0 ESC 2/4 2/10 4/2
G3: ESC 2/6 4/0 ESC 2/4 2/11 4/2

差は僅かであるので、終端文字はそのままで、更新シーケンス(ESC 2/6 4/0)が追加された。

ア	イ	ウ	エ	オ
カ	キ	ク	ケ	コ
サ	シ	ス	セ	ソ
タ	チ	ツ	テ	ト
ナ	ニ	ヌ	ネ	ノ
ハ	ヒ	フ	ヘ	ホ
マ	ミ	ム	メ	モ
ヤ		ユ		ヨ
ラ	リ	ル	レ	ロ
ワ	ヰ	ヴ	ヱ	ヲ
ン

通信	電算
科学	国土
鉄道	軍事
文化	萌色
短縮

通信	電算
科学	国土
鉄道	軍事
文化	萌色