Unicode 3.1
読み:ユニコード-さんてんいち
外語:Unicode 3.1
Unicode
の版の一つで、
Unicode 3.0
に対する改訂版である。
目次
概要
沿革
特徴
対応ISO/IEC 10646
対応言語
新規対応
追加文字
改訂
仕様
タグ
概要
01面以降の面のうち、01面、02面、および14面の面の名前が決定した。
これに伴い、01面、02面に各種の文字が、14面にタグが、それぞれ追加され、扱える文字の数が大幅に増加した。
沿革
2001(平成13)年3月: Unicode 3.1.0
2001(平成13)年8月: Unicode 3.1.1
特徴
対応ISO/IEC 10646
ISO/IEC 10646-2:2001に対応した。これにより、BMP以外の文字が追加された。
日本語
に関係するところでは、
CJK統合漢字拡張B
(Ext-B)の追加により、
JIS X 0213:2000
の殆どの文字に対応した。
対応言語
追加された文字から推定される新規対応
言語
は、以下の通りである。併記はISO 639-2またはISO 639-3の言語コード。
古代イタリア文字
エトルリア語 [ett]
ラエト語 [xrr]
ゴート文字
ゴート語 [got]
新規対応
この版で、次に新規対応した。
U+10300〜U+1032F 古代イタリア文字 (OLD ITALIC)
U+10330〜U+1034F ゴート文字 (GOTHIC)
U+10400〜U+1044F デセレット文字 (DESERET)
U+1D000〜U+1D0FF ビザンティン様式 音楽記号 (BYZANTINE MUSICAL SYMBOL)
U+1D100〜U+1D1FF 音楽記号 (MUSICAL SYMBOL)
U+1D400〜U+1D7FF 数学演算記号
U+20000〜U+2A6D6
CJK統合漢字拡張B
(CJK IDEOGRAPH EXTENSION B)
U+2F800〜U+2FA1F
CJK互換漢字
(CJK COMPATIBILITY IDEOGRAPH)
U+E0000〜U+E007F
タグ
(TAG)
追加文字
3.1から追加された文字は、次の通り(文字コード順)。
ギリシャ語
U+003F4〜U+003F5
改訂
Unicode 3.1.1は、UCDファイルの幾つかの問題の修正をしたバージョンである。
ArabicShaping.txt
TとUのタイプの説明を追加
U+200D ZERO WIDTH JOINERの修正
U+06D5 AEの修正
Derived*.txt、DerivedProperties.html
派生ファイルを再生成
DerivedBidiClass.txt (3.1.0から誤って削除されていた)
タイプTをDerivedJoiningType.txtに追加
CaseFolding.txt
コメント行の誤字を修正
EastAsianWidth.txt
15字についてNからAにステータス変更
NormalizationTest.txt
適合性テストに影響を与える9つのエラーを修正
PropList.txt、PropList.html
16進数の修正
SpecialCasing.txt
sigma casingと幾つかのdot-aboveケースの修正
Unihan.txt
最新のクロスマッピングの追加
仕様
タグ
タグ
に使うことができる文字がU+E0000〜U+E007Fに追加されている。
U+E0020〜U+E007Eまでは
ASCII
の0x20〜0x7eと同じ配列になっている。
現時点では、言語タグとして、U+E0001(language tag)から始めると
言語
を指定するタグとして機能する。
実用例は皆無だが、RFCでは、
RFC 5466
に次のような用例の記載がある。
<ru> ‐ <U+E0001> <U+E0072> <U+E0075>
<fr-ca> ‐ <U+E0001> <U+E0066> <U+E0072> <U+E002D> <U+E0063> <U+E0061>
言語の処理は、文字コードの層ではなく、より上位の層(HTMLやXMLなど)で行なうべきという議論もあり、追加こそされたものの、実際には殆ど使われていない。
例えばXMLにはxml:lang属性があり、Unicodeの言語タグと併用されると矛盾が発生する。そこでXMLでは、xml:lang属性を使い、Unicodeの言語タグは使用しないということで結論を見ている。
再検索