Unicode 1.0
読み:ユニコード-いってんぜろ
外語:Unicode 1.0
Unicode
の最初の版。
目次
概要
沿革
特徴
対応言語
削除された6字
1.0.1での仕様変更
1.1での仕様変更
変更点
NON-SPACING → COMBINING
チベット文字
統廃合
符号位置変更
概要
Unicode 1.0の仕様書は、Latin部と漢字部の二分冊で出された。
Latin部のVolume 1は1991(平成3)年10月に、漢字部のVolume 2は1992(平成4)年6月に出版されている。
そして漢字部が出た際、Addendum(追補)としてUnicode 1.0.1という
仕様変更
を伴う修正が出されている。
1.0.1は、6文字の削除と、外字領域の符号位置の変更などがある。削除は、DIS 10646第二版(
ISO/IEC 10646-1
の前身)で採用されなかったため、とされている。
沿革
1991(平成3)年10月: Unicode 1.0.0
1992(平成4)年6月: Unicode 1.0.1
特徴
対応言語
Unicode 1.0.0時点では、まだ漢字に対応していない。
CJK統合漢字
は、Volume 2である1.0.1から追加された。
Unicode 1.0.1で利用可能な文字の種類は次のとおりである(文字番号順)。
Basic Latin (基本ラテン文字、
ASCII
)
Latin-1 Supplement (西欧のラテン文字、
ISO/IEC 8859-1
)
Latin Extended (東欧、北欧などのラテン文字)
Greek and Coptic (現代ギリシャ語[gre、ell、el]、コプト語[cop])
Cyrillic (キリル文字、
ロシア語
[rus、ru]など)
Armenian (アルメニア語[arm、hye、hy])
Hebrew (ヘブライ語[heb、he])
Arabic (アラビア語[ara、ar])
Devanagari (デヴァナガリ文字、
サンスクリット語
[san、sa])
Bengali (ベンガル語[ben、bn])
Gurmukhi (グルムキー文字、パンジャーブ語[pan、pa])
Gujarati (グジャラート語[guj、gu])
Oriya (オリヤー語[ori、or])
Tamil (タミル語[tam、ta])
Telugu (テルグ語[tel、te])
Kannada (カンナダ語[kan、kn])
Malayalam (マラヤーラム語[mal、ml])
Thai (タイ語[tha、th])
Lao (ラーオ語[lao、lo])
Tibetan (チベット語[tib、bod、bo])
Georgian (グルジア語[geo、kat、ka])
Hangul (
ハングル
、
朝鮮語
[kor、ko])
CJK統合漢字
ユーザー定義外字
CJK互換漢字
記号に近いものとして、次のような文字も収録されている。
Hiragana (
日本語
[jpn、ka])
Katakana (日本語[jpn、ka])
Bopomofo (注音字母(最少元素理解法))
Hangul字母 (ハングル、朝鮮語[kor、ko])
Kaeriten (返り点、IDEOGRAPHIC ANNOTATION)
削除された6字
Unicode 1.0.0にあり、Unicode 1.0.1で削除された2字は、次の通りである。
U+2300 APL COMPOSE OPERATOR
U+2301 APL OUT
Unicode 1.0.0にあり、Unicode 1.0.1で統廃合された4字は、次の通りである。
U+04C5→U+049A CYRILLIC CAPITAL LETTER KA OGONEK
U+04C6→U+049B CYRILLIC SMALL LETTER KA OGONEK
U+04C9→U+04B2 CYRILLIC CAPITAL LETTER KHA OGONEK
U+04CA→U+04B3 CYRILLIC SMALL LETTER KHA OGONEK
1.0.1での仕様変更
Unicode 1.0.1では、次の
仕様変更
が行なわれている。
CJK統合漢字の追加 (U+4E00〜U+9FA5)
ユーザー定義外字
の符号位置変更 (U+E800〜U+FDFF→U+E000〜U+F7FF)
CJK互換漢字
の追加 (U+F900〜U+FA2D)
このほか、Unicode 1.0.0ではBOMに使われるU+FEFFが「BYTE ORDER MARK」というそのままの名前だったが、Unicode 1.0.1では「ZERO WIDTH NO-BREAK SPACE」という名前に変更されている。
1.1での仕様変更
変更点
Unicode 1.0から、次の版である
Unicode 1.1
で仕様変更になるのは、次の箇所である。
NON-SPACING → COMBINING
チベット文字(U+1000〜U+104C)の削除
「仝」など幾つかの文字の統廃合
旧JISマーク「〓」の符号位置変更
詳細は、
Unicode 1.1
の項を参照のこと。
NON-SPACING → COMBINING
U+03xxなどを中心に存在する「NON-SPACING」(文字送りをしない)文字は、次のUnicode 1.1以降では「COMBINING」(結合)に変更されている。
名前と若干の機能が変更になっているようである。
新旧の両者を「同一の文字」と見なせるのかどうかは、議論の対象であろう。
チベット文字
Unicode 1.0.1までは、U+1000〜U+104Cにチベット文字が存在したが、次のUnicode 1.1では文字が全て削除されている。
チベット文字は、
Unicode 2.0
から符号位置をU+0F00〜U+0FFFに変えて、再定義された(配置、文字数などは異なる)。
統廃合
Unicode 1.1になるに際し、重複等を理由として統合される文字は、次の通りである。
矢印の左側がUnicode 1.0.0の番号、右がUnicode 1.1の番号だが、右の文字はUnicode 1.0にも存在する。つまり、右の文字番号に統廃合されたことになる。文字の名前は、Unicode 1.0での名称である。
U+0371→U+0314 GREEK NON-SPACING DASIA PNEUMATA
U+0372→U+0313 GREEK NON-SPACING PSILI PNEUMATA
U+0384→U+030D GREEK NON-SPACING TONOS
U+04C5→U+049A CYRILLIC CAPITAL LETTER KA OGONEK
U+04C6→U+049B CYRILLIC SMALL LETTER KA OGONEK
U+04C9→U+04B2 CYRILLIC CAPITAL LETTER KHA OGONEK
U+04CA→U+04B3 CYRILLIC SMALL LETTER KHA OGONEK
U+3004→U+4EDD IDEOGRAPHIC DITTO MARK
Unicode 1.0→1.1以降のコンバーターを作る場合は、片方向変換をすることになる。
符号位置変更
以下の文字は、Unicode 1.1以降で符号位置が変更になる。
U+0370→U+0345 GREEK NON-SPACING IOTA BELOW
U+0385→U+0344 GREEK NON-SPACING DIAERESIS TONOS
U+03D7→U+037E GREEK QUESTION MARK
U+03D8→U+0374 GREEK UPPER NUMERAL SIGN
U+03D9→U+0375 GREEK LOWER NUMERAL SIGN
U+03F3→U+0384 GREEK SPACING TONOS
U+03F4→U+0385 GREEK SPACING DIAERESIS TONOS
U+03F5→U+037A GREEK SPACING IOTA BELOW
U+05F5→U+FB1E HEBREW POINT VARIKA
U+32FF→U+3004 JAPANESE INDUSTRIAL STANDARD SYMBOL
再検索