非文字
読み:ひもじ
外語:noncharacters
文字コード
において、文字ではない符号位置のこと。
目次
概要
特徴
Unicodeの非文字
U+FDD0〜U+FDEF
U+FFFE
U+FFFF
U+nFFFE、U+nFFFF
概要
文字コードでは、物理的に表わすことができる範囲内であっても、文字を定義していない符号位置が存在する。それが非文字である。
未定義で将来的に追加予定の符号位置だけではなく、規格として文字を定義しないと決められた符号位置も存在する。
特徴
Unicodeの非文字
Unicode
では、幾つかの符号位置が非文字として定義されている。
U+nFFFE (nは0〜0x10)
U+nFFFF (nは0〜0x10)
U+FDD0〜U+FDEF
U+FDD0〜U+FDEF
この符号位置は、
Unicode 3.1
から非文字となった。根拠は定かではない。
歴史的な事情により「アラビア文字 表示形A」の領域中にあるが、この非文字はアラビア文字でも、「right-to-leftな非文字」でもない。
U+FFFE
この符号位置は、
BOM
(U+FEFF)とバイトが逆になっている。
識別のため、この符号位置は使用しないことになっている。従って、もし先頭にU+FFFEが見えれば、逆のエンディアンを使って読めば正しく読めることを意味する。
U+FFFF
この符号位置が非文字として保存されている根拠は定かではない。
U+nFFFE、U+nFFFF
サロゲートペア
で表わされる領域の末端二文字も、
BMP
と同様に非文字として予約されている。根拠は定かではない。
この符号位置は、Unicode 3.1から非文字であることが明確化されたが、Unicodeは、それ以前からも非文字だったとしている。根拠は定かではない。
具体的には、つぎの符号位置である。
U+1FFFE〜U+1FFFF
U+2FFFE〜U+2FFFF
U+3FFFE〜U+3FFFF
U+4FFFE〜U+4FFFF
U+5FFFE〜U+5FFFF
U+6FFFE〜U+6FFFF
U+7FFFE〜U+7FFFF
U+8FFFE〜U+8FFFF
U+9FFFE〜U+9FFFF
U+AFFFE〜U+AFFFF
U+BFFFE〜U+BFFFF
U+CFFFE〜U+CFFFF
U+DFFFE〜U+DFFFF
U+EFFFE〜U+EFFFF
U+FFFFE〜U+FFFFF
U+10FFFE〜U+10FFFF
再検索