Unicode 3.0
読み:ユニコード-さんてんゼロ
外語:Unicode 3.0
Unicode
の版の一つで、
Unicode 2.1
に対する改訂版である。
目次
概要
沿革
特徴
対応ISO/IEC 10646
対応言語
追加文字
改訂
概要
不足していた
漢字
の大幅な拡張が始めて行なわれた版である。
Unicode 1.1
では
ハングル
が置かれていたBMP領域(U+3400〜U+4DFF)の大半を
CJK統合漢字拡張A
(Ext-A)とし、6,582文字の漢字が増やされている。
沿革
1999(平成11)年9月: Unicode 3.0.0
2000(平成12)年8月:
Unicode 3.0.1
特徴
対応ISO/IEC 10646
Unicode 2.0で採用されたAmd.7の後に発行され、ISO/IEC 10646-1:2000が発行されるまでの全ての追補Amd.8からAmd.31全てに対応した。
ISO/IEC 10646-1:1993/Amd.8:1997 (New annex on CJK Ideographs)
ISO/IEC 10646-1:1993/Amd.9:1997 (Identifiers for characters)
ISO/IEC 10646-1:1993/Amd.10:1998 (Ethiopic script)
ISO/IEC 10646-1:1993/Amd.11:1998 (Unified Canadian Aboriginal Syllabics)
ISO/IEC 10646-1:1993/Amd.12:1998 (Cherokee)
ISO/IEC 10646-1:1993/Amd.13:1998 (CJK unified ideographs with supplementary sources)
ISO/IEC 10646-1:1993/Amd.14:1999 (Yi syllables and Yi radicals)
ISO/IEC 10646-1:1993/Amd.15:1999 (Kang Xi radicals and CJK radicals supplement)
ISO/IEC 10646-1:1993/Amd.16:1998 (Braille patterns)
ISO/IEC 10646-1:1993/Amd.17:1999 (CJK Unified Ideograph Extension)
ISO/IEC 10646-1:1993/Amd.18:1999 (Symbols and Others)
ISO/IEC 10646-1:1993/Amd.19:1998 (Runic)
ISO/IEC 10646-1:1993/Amd.20:1998 (Ogham)
ISO/IEC 10646-1:1993/Amd.21:1998 (Sinhala)
ISO/IEC 10646-1:1993/Amd.22:1999 (Keyboard symbols)
ISO/IEC 10646-1:1993/Amd.23:1998 (Bopomofo and various other characters)
ISO/IEC 10646-1:1993/Amd.24:1999 (Thaana)
ISO/IEC 10646-1:1993/Amd.25:1999 (Khmer)
ISO/IEC 10646-1:1993/Amd.26:1999 (Myanmar)
ISO/IEC 10646-1:1993/Amd.27:1999 (Syriac)
ISO/IEC 10646-1:1993/Amd.28:1999 (Ideographic description characters)
ISO/IEC 10646-1:1993/Amd.29:1999 (Mongolian)
ISO/IEC 10646-1:1993/Amd.30:1999 (Additional Latin and other characters)
ISO/IEC 10646-1:1993/Amd.31:1999 (Tibetan extension)
日本語
に関係するところでは、Amd.17で
CJK統合漢字拡張A
(Ext-A)の漢字6,582文字が追加されている。
対応言語
追加された文字から推定される新規対応
言語
は、以下の通りである。
ぶら下げて記述されているものは例であり、例示した以外にも多数の言語が追加文字を使用しているため表記に対応することができる。
シリア語[syr]
ディベヒ語[div、dv]
シンハラ語[sin、si]
ビルマ語[bur、mya、my]
セム諸語[sem]
ティグリニャ語[tir、ti]
ティグレ語[tig]
アムハラ語[amh、am]
チェロキー語[chr]
カナダ原住民言語
クリー語[cre、cr]
オジブウェー語[oji、oj]
イヌクティトゥット語[iku、iu]
ナスカピ語
ブラックフット語
ケルト諸語[cel]
原始アイルランド語
古期アイルランド語[sga]
古ノルド語[non]
ピクト語
ゲルマン諸語[gem]
クメール語[khm、km]
モンゴル語[mon、mn]
ブライユ点字
イ文字
追加文字
3.0から追加された文字は、次の通り(文字コード順)。
ラテン文字
U+01F6〜U+01F9
U+0218〜U+021F
U+0222〜U+0233
U+02A9〜U+02AD
U+02DF
U+02EA〜U+02EE
ダイアクリティカルマーク
(合成可能)
U+0346〜U+034E
U+0362
ギリシャ文字
U+03D7
U+03DB
U+03DD
U+03DF
U+03E1
キリール文字
U+0400
U+040D
U+0450
U+045D
U+0488〜U+0489
U+048C〜U+048F
U+04EC〜U+04ED
アルメニア文字
U+058A
アラビア文字
U+0653〜U+0655
U+06B8〜U+06B9
U+06BF〜U+06BF
U+06CF〜U+06CF
U+06FA〜U+06FE
シリア文字
U+0700〜U+070D
U+070F〜U+072C
U+0730〜U+074A
ターナ文字
U+0780〜U+07B0
シンハラ文字
U+0D82〜U+0D83
U+0D85〜U+0D96
U+0D9A〜U+0DB1
U+0DB3〜U+0DBB
U+0DBD
U+0DC0〜U+0DC6
U+0DCA
U+0DCF〜U+0DD4
U+0DD6
U+0DD8〜U+0DDF
U+0DF2〜U+0DF4
チベット文字
U+0F6A
U+0F96
U+0FAE〜U+0FB0
U+0FB8
U+0FBA〜U+0FBC
U+0FBE〜U+0FCC
U+0FCF
ミャンマー文字
U+1000〜U+1021
U+1023〜U+1027
U+1029〜U+102A
U+102C〜U+1032
U+1036〜U+1039
U+1040〜U+1049
ゲエズ文字/アムハラ文字/エチオピア文字
U+1200〜U+1206
U+1208〜U+1246
U+1248
U+124A〜U+124D
U+1250〜U+1256
U+1258
U+125A〜U+125D
U+1260〜U+1286
U+1288
U+128A〜U+128D
U+1290〜U+12AE
U+12B0
U+12B2〜U+12B5
U+12B8〜U+12BE
U+12C0
U+12C2〜U+12C5
U+12C8〜U+12CE
U+12D0〜U+12D6
U+12D8〜U+12EE
U+12F0〜U+12FF
U+1300〜U+130E
U+1310
U+1312〜U+1315
U+1318〜U+131E
U+1320〜U+1346
U+1348〜U+135A
U+1361〜U+137C
チェロキー文字
U+13A0〜U+13F4
統合カナダ原住民音節文字
U+1401〜U+1676
オガム文字(古代ケルト文字)
U+1680〜U+169C
ルーン文字(古代ゲルマン文字)
U+16A0〜U+16F0
クメール文字
U+1780〜U+17DC
U+17E0〜U+17E9
U+17F0〜U+17F9
モンゴル文字
U+1800〜U+180E
U+1810〜U+1819
U+1820〜U+1877
U+1880〜U+18A9
一般句読点
U+202F
U+2048〜U+204D
通貨記号
U+20AD〜U+20AF
記号用発音記号(連結可能)
U+20E2〜U+20E3
文字風記号
U+2139〜U+213A
数字
(に準ずるもの)
U+2183
矢印
U+21EB〜U+21F3
各種技術用記号
U+2301
U+237B
U+237D〜U+239A
制御用記号
U+2425〜U+2426
幾何学図形
U+25F0〜U+25F7
各種記号
U+2619
U+2670〜U+2671
ブライユ点字法パターン
U+2800〜U+28FF
CJK部首 補助集合
U+2E80〜U+2E99
U+2E9B〜U+2EF3
康熙部首
U+2F00〜U+2FD5
漢字構成記述文字
U+2FF0〜U+2FFB
CJKシンボル・句読点
U+3038〜U+303A
U+303E
注音字母
U+31A0〜U+31B7
CJK統合漢字拡張A
U+3400〜U+4DB5
イ文字 音節
U+A000〜U+A48C
イ文字 部首
U+A490〜U+A4A1
U+A4A4〜U+A4B3
U+A4B5〜U+A4C0
U+A4C2〜U+A4C4
U+A4C6〜U+A4C6
アルファベット表示形
U+FB1D
特殊文字
U+FFF9〜U+FFFB (
ルビ
制御文字)
改訂
Unicode 3.0.1は、
UTF-8
の冗長表現を禁止した。これは、
Unicode Directory Traversal
という
セキュリティホール
が発生することを防ぐためである。
この他、次のデータファイルを更新した。
BidiMirroring.txt (UAX #9: The Bidirectional Algorithm)
CaseFolding.txt (UTR #21: Case Mappings)
NormalizationTest.txt (UAX #15 Unicode Normalization Forms)
更に、リガチャーをより細かく制御できるように、次の機能文字の定義を拡張した。
U+200C ZERO WIDTH NON-JOINER(ZWNJ)
U+200D ZERO WIDTH JOINER(ZWJ)
再検索