ア | イ | ウ | エ | オ |
カ | キ | ク | ケ | コ |
サ | シ | ス | セ | ソ |
タ | チ | ツ | テ | ト |
ナ | ニ | ヌ | ネ | ノ |
ハ | ヒ | フ | ヘ | ホ |
マ | ミ | ム | メ | モ |
ヤ | ユ | ヨ | ||
ラ | リ | ル | レ | ロ |
ワ | ヰ | ヴ | ヱ | ヲ |
ン |
A | B | C | D | E |
F | G | H | I | J |
K | L | M | N | O |
P | Q | R | S | T |
U | V | W | X | Y |
Z | 数字 | 記号 |
EUC-JPの亜種の一つで、eucJP-openの亜種の一つ。
Windows用シフトJISであるWindows-31Jの文字集合との相互変換を可能としたeucJP-openが、TOG日本ベンダ協議会(TOG/JVC)により策定された。
eucJP-msは、Unicodeとの変換表を、WindowsのシフトJISであるCP932に合わせたものである。
通常のEUC-JPには無い、Windows-31Jの拡張漢字や外字領域が用意されている。
但し、Windows標準のEUC-JPは「Microsoft Windows Codepage : 51932」であり、eucJP-msは標準では対応していない。
符号化方法(CES)の仕様はEUC-JPと全く同じである。文字集合(CCS)のみが違う。
13区の「NEC特殊文字」は、そのまま採用されている。
拡張漢字も用意されている。Windows-31Jでは89区〜92区と115区〜119区の両方で重複して割り当てられているが、eucJP-msでは後者を、G3の83区から84区に配列している。
但し元の配列とは異なり、IBM拡張文字のうちでJIS X 0208、JIS X 0212に存在するものは除かれている。
なお、13区と重複する記号は除外されていないため、拡張文字と13区の記号は13字が重複している。
+0 | +1 | +2 | +3 | +4 | +5 | +6 | +7 | +8 | +9 | +A | +B | +C | +D | +E | +F | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
8F F3F0 | ⅰ | ⅱ | ⅲ | ⅳ | ⅴ | ⅵ | ⅶ | ⅷ | ⅸ | ⅹ | Ⅰ | Ⅱ | ||||
+0 | +1 | +2 | +3 | +4 | +5 | +6 | +7 | +8 | +9 | +A | +B | +C | +D | +E | +F | |
8F F4A0 | Ⅲ | Ⅳ | Ⅴ | Ⅵ | Ⅶ | Ⅷ | Ⅸ | Ⅹ | ' | " | ㈱ | № | ℡ | 炻 | 仼 | |
8F F4B0 | 僴 | 凬 | 匇 | 匤 | 﨎 | 咊 | 坙 | 﨏 | 塚 | 增 | 寬 | 峵 | 嵓 | 﨑 | 德 | 悅 |
8F F4C0 | 愠 | 敎 | 昻 | 晥 | 晴 | 朗 | 栁 | 﨓 | 﨔 | 橫 | 櫢 | 淸 | 淲 | 瀨 | 凞 | 猪 |
8F F4D0 | 甁 | 皂 | 皞 | 益 | 礰 | 礼 | 神 | 祥 | 福 | 竧 | 靖 | 精 | 綠 | 緖 | 羽 | 荢 |
8F F4E0 | 﨟 | 薰 | 蘒 | 﨡 | 蠇 | 諸 | 譿 | 賴 | 赶 | 﨣 | 﨤 | 逸 | 郞 | 都 | 鄕 | 﨧 |
8F F4F0 | 﨨 | 閒 | 隆 | 﨩 | 霻 | 靍 | 靑 | 飯 | 飼 | 館 | 馞 | 髙 | 魲 | 鶴 | 黑 |
WindowsのシフトJISに存在するユーザー定義外字領域が用意されている。
EUCの文字集合(JIS X 0208)には本来存在しないユーザー定義外字だが、シフトJISには20区分(1880字)の領域が用意されている。
eucJP-openでは、G1とG3の85区〜94区に各10区、合計20区を割り当てている。
eucJP-ms→Unicodeの変換は、多対1の変換をする。
Unicodeには、eucJP-msで重複する文字も1文字分しか用意されていないため、可能な範囲で変換するしかない。
従って、Unicodeになった時点で、JIS X 0208/NEC特殊文字/IBM拡張文字のどれであったのか、という情報は失われる。
Unicode→eucJP-msの変換は、最大で3候補ある中からいずれかを選択することになる。
Unicode→Windows-31Jの標準的な変換は次の通りとなっているため、これを準用するものとする。
Windows-31JとUnicodeの変換表は、通常想定されうるものと若干異なっているため、注意を要する。
eucJP-msの変換と、既にOBSOLETE(破棄)扱いではあるがUnicodeコンソーシアムのJIS0208.TXTの変換、そしてJIS X 0208の文字名から対応づけられるUnicode文字との差異を、以下に示す。
文字 | eucJP-ms | JIS0208.TXT | JIS X 0208 | |
---|---|---|---|---|
EUC | Unicode | |||
― | 0xA1BD | U+2015 | U+2015 | U+2014 EM DASH |
~ | 0xA1C1 | U+FF5E | U+301C | U+301C WAVE DASH |
∥ | 0xA1C2 | U+2225 | U+2016 | U+2016 DOUBLE VERTICAL LINE |
- | 0xA1DD | U+FF0D | U+2212 | U+2212 MINUS SIGN |
¢ | 0xA1F1 | U+FFE0 | U+00A2 | U+00A2 CENT SIGN |
£ | 0xA1F2 | U+2225 | U+00A3 | U+00A3 POUND SIGN |
¬ | 0xA2CC | U+FFE2 | U+00AC | U+00AC NOT SIGN |
eucJP-msの変換はこのうちeucJP-ms欄にある変換先を使うことになるが、このために他の標準的な実装をしている(と思われる)処理系と互換性面で問題が発生する。
コメントなどを投稿するフォームは、日本語対応時のみ表示されます