ア | イ | ウ | エ | オ |
カ | キ | ク | ケ | コ |
サ | シ | ス | セ | ソ |
タ | チ | ツ | テ | ト |
ナ | ニ | ヌ | ネ | ノ |
ハ | ヒ | フ | ヘ | ホ |
マ | ミ | ム | メ | モ |
ヤ | ユ | ヨ | ||
ラ | リ | ル | レ | ロ |
ワ | ヰ | ヴ | ヱ | ヲ |
ン |
A | B | C | D | E |
F | G | H | I | J |
K | L | M | N | O |
P | Q | R | S | T |
U | V | W | X | Y |
Z | 数字 | 記号 |
Unicodeで用いられる機能文字の一群で、内容に関連する補足的な情報を記述するための専用の文字。
文字は、補助特殊用途面(SSP)にあり、Unicode 3.1から追加された。
このうち、実際には、次の範囲に計97字のタグ文字がある。
RFC 6082はRFC 2482を破棄(Obsolete)し、RFC 2482をHistoric状態とすることを宣言した。
RFC 6082によれば、RFC 2482「Unicodeプレーンテクストの言語タグ」 は必要に応じて言語を識別するために、特殊なUnicode言語タグ文字を使用するための機構を説明している。しかし、その「時」が訪れることの決してないアイディアだった、と述べられている。
そもそも、文書の言語は、MIMEのContent-languageヘッダーやXMLで提供されるようなより一般的なマークアップ機構などによる、全トランザクションの言語識別によるのが一般化し、XMLなどでは必要に応じて要素単位で言語指定が可能だった。これで困ることは無かった。
この状況と、およそ相容れることのない言語タグ文字は、プロトコル仕様を混乱させるばかりで存在自体がむしろ有害。そこでUnicodeコンソーシアムは言語タグを廃止し、それを使用しないことを強く推奨する、とした。
RFC 1766の場合と同様に、文字列で記述するが、使う文字はASCII互換の文字ではなく、専用のタグ文字である。
例えば "ja" が指定されれば、以降漢字文字は日本語の文字として扱えば良いだろうことは自明である。とはいえ、厳密に何かの文字を指し示すことができるわけではない。
勘違いしてはならないのは、これによって統合されたあるUnicode漢字の一文字を、厳密に字形分離できるわけではないからである。
Unicodeの規格書にはCJKなどの例示字体が掲載されているが、あくまで例であり、この字形に厳密に準拠しなければならないという決まりは無い。
日本語の漢字に限ってみても、例えば渡辺さんの「辺」の字の豊富さは有名で、"ja" としたところでこれが区別できるわけではないことは自明である。
字形を厳密に指定する方法としては別途、異体字セレクターが作られ運用されているが、そのような意味でも、言語タグというのは使い出の無い機能だった。
コメントなどを投稿するフォームは、日本語対応時のみ表示されます