UTF-6
読み:ユーティーエフ-スィックス
外語:UTF-6: Yet Another ASCII-Compatible Encoding for IDN
国際化ドメイン名を実現するためにWALID, Inc.のMark WelterとBrian W. Spolarichにより提案された符号法の一つ。最終的には不採用となった。
概要
全ての文字をUTF-16として扱うが、UTF-5やUTF-8、UTF-7とも違う独特の変換方法を取るのが特徴である。
符号に変換する際に、上位8ビットが同じ場合、その部分を略して符号化することで、全体としての長さを縮めている。
符号の最後の文字は「0123456789abcdef」で、いわゆる16進数である。継続がある場合の部分の文字は「ghijklmopqrstuv」である。但し値が0の場合だけは特例がある。
先頭にwq--の4文字を繋げて他のドメインと区別するのが特徴である。
特徴
具体的には、まずUTF-16、つまりUnicodeの4桁の16進数を用意する。
この各桁が0なら無視し、1〜9・A〜Fならそのまま1〜fとする。但し先頭の文字については識別のためにg〜vとする。
0x1000より大きい場合は頭にz、0x0100〜0x0fffなら頭にy、という方法までが考えられていた。0x0010〜0x00ffの場合は不明、0x0000〜0x000fの場合はいきなりg〜vの文字が来るため判断できる。
例えば、I-Dでは次のような例が示されていた。
- 0x1f4c: hf4c
- 0x0624: m24
- 0x0000: g
再検索