eucJP-ms

読み：イーユースィージェイピー・エムエス
外語：eucJP-ms

品詞：固有名詞

EUC-JPの亜種の一つで、eucJP-openの亜種の一つ。

概要

Windows用シフトJISであるWindows-31Jの文字集合との相互変換を可能としたeucJP-openが、TOG日本ベンダ協議会(TOG/JVC)により策定された。

eucJP-msは、Unicodeとの変換表を、WindowsのシフトJISであるCP932に合わせたものである。

通常のEUC-JPには無い、Windows-31Jの拡張漢字や外字領域が用意されている。

但し、Windows標準のEUC-JPは「Microsoft Windows Codepage : 51932」であり、eucJP-msは標準では対応していない。

仕様

基本仕様

符号化方法(CES)の仕様はEUC-JPと全く同じである。文字集合(CCS)のみが違う。

G0: JIS X 0201左側(ローマ字)
G1: JIS X 0208、外字
G2: JIS X 0201右側(片仮名)
G3: JIS X 0212、拡張漢字、外字

拡張文字

13区の「NEC特殊文字」は、そのまま採用されている。

拡張漢字も用意されている。Windows-31Jでは89区〜92区と115区〜119区の両方で重複して割り当てられているが、eucJP-msでは後者を、G3の83区から84区に配列している。

但し元の配列とは異なり、IBM拡張文字のうちでJIS X 0208、JIS X 0212に存在するものは除かれている。

なお、13区と重複する記号は除外されていないため、拡張文字と13区の記号は13字が重複している。

	+0	+1	+2	+3	+4	+5	+6	+7	+8	+9	+A	+B	+C	+D	+E	+F
8F F3F0				ⅰ	ⅱ	ⅲ	ⅳ	ⅴ	ⅵ	ⅶ	ⅷ	ⅸ	ⅹ	Ⅰ	Ⅱ
	+0	+1	+2	+3	+4	+5	+6	+7	+8	+9	+A	+B	+C	+D	+E	+F
8F F4A0		Ⅲ	Ⅳ	Ⅴ	Ⅵ	Ⅶ	Ⅷ	Ⅸ	Ⅹ	＇	＂	㈱	№	℡	炻	仼
8F F4B0	僴	凬	匇	匤	﨎	咊	坙	﨏	塚	增	寬	峵	嵓	﨑	德	悅
8F F4C0	愠	敎	昻	晥	晴	朗	栁	﨓	﨔	橫	櫢	淸	淲	瀨	凞	猪
8F F4D0	甁	皂	皞	益	礰	礼	神	祥	福	竧	靖	精	綠	緖	羽	荢
8F F4E0	﨟	薰	蘒	﨡	蠇	諸	譿	賴	赶	﨣	﨤	逸	郞	都	鄕	﨧
8F F4F0	﨨	閒	隆	﨩	霻	靍	靑	飯	飼	館	馞	髙	魲	鶴	黑

ユーザー定義外字領域

WindowsのシフトJISに存在するユーザー定義外字領域が用意されている。

EUCの文字集合(JIS X 0208)には本来存在しないユーザー定義外字だが、シフトJISには20区分(1880字)の領域が用意されている。

eucJP-openでは、G1とG3の85区〜94区に各10区、合計20区を割り当てている。

重複定義の問題

重複する文字

G3の83区〜84区にある「IBM拡張文字」のうち、ローマ数字10個と、㈱、№、℡、合計13文字については、13区の「NEC特殊文字」と重複している。

また13区の「NEC特殊文字」は、前述の13文字のほかに、≒≡∫√⊥∠∵∩∪の9字がJIS X 0208の2区に対して重複となっている。

更に、№についてはJIS X 0212に対しても重複となっており、eucJP-msの中で3つが存在する。

この場合、Unicodeとの相互変換で支障が発生するが、Windows-31Jと同様の変換をすることが求められる。

eucJP-ms→Unicode

eucJP-ms→Unicodeの変換は、多対1の変換をする。

Unicodeには、eucJP-msで重複する文字も1文字分しか用意されていないため、可能な範囲で変換するしかない。

従って、Unicodeになった時点で、JIS X 0208/NEC特殊文字/IBM拡張文字のどれであったのか、という情報は失われる。

Unicode→eucJP-ms

Unicode→eucJP-msの変換は、最大で3候補ある中からいずれかを選択することになる。

Unicode→Windows-31Jの標準的な変換は次の通りとなっているため、これを準用するものとする。

JIS X 0208にあるものは、JIS X 0208を優先
JIS X 0208になく、NEC特殊文字にあるものは、NEC特殊文字を優先
JIS X 0212(G3)は使用しない

Windows-31Jの考慮点

Windows-31JとUnicodeの変換表は、通常想定されうるものと若干異なっているため、注意を要する。

eucJP-msの変換と、既にOBSOLETE(破棄)扱いではあるがUnicodeコンソーシアムのJIS0208.TXTの変換、そしてJIS X 0208の文字名から対応づけられるUnicode文字との差異を、以下に示す。

文字	eucJP-ms		JIS0208.TXT	JIS X 0208
文字	EUC	Unicode	JIS0208.TXT	JIS X 0208
―	0xA1BD	U+2015	U+2015	U+2014 EM DASH
～	0xA1C1	U+FF5E	U+301C	U+301C WAVE DASH
∥	0xA1C2	U+2225	U+2016	U+2016 DOUBLE VERTICAL LINE
－	0xA1DD	U+FF0D	U+2212	U+2212 MINUS SIGN
￠	0xA1F1	U+FFE0	U+00A2	U+00A2 CENT SIGN
￡	0xA1F2	U+2225	U+00A3	U+00A3 POUND SIGN
￢	0xA2CC	U+FFE2	U+00AC	U+00AC NOT SIGN

eucJP-msの変換はこのうちeucJP-ms欄にある変換先を使うことになるが、このために他の標準的な実装をしている(と思われる)処理系と互換性面で問題が発生する。

リンク

用語の所属

EUC-JP

eucJP-open

EUC

CES

ア	イ	ウ	エ	オ
カ	キ	ク	ケ	コ
サ	シ	ス	セ	ソ
タ	チ	ツ	テ	ト
ナ	ニ	ヌ	ネ	ノ
ハ	ヒ	フ	ヘ	ホ
マ	ミ	ム	メ	モ
ヤ		ユ		ヨ
ラ	リ	ル	レ	ロ
ワ	ヰ	ヴ	ヱ	ヲ
ン

通信	電算
科学	国土
鉄道	軍事
文化	萌色
短縮

通信	電算
科学	国土
鉄道	軍事
文化	萌色