| ア | イ | ウ | エ | オ |
| カ | キ | ク | ケ | コ |
| サ | シ | ス | セ | ソ |
| タ | チ | ツ | テ | ト |
| ナ | ニ | ヌ | ネ | ノ |
| ハ | ヒ | フ | ヘ | ホ |
| マ | ミ | ム | メ | モ |
| ヤ | ユ | ヨ | ||
| ラ | リ | ル | レ | ロ |
| ワ | ヰ | ヴ | ヱ | ヲ |
| ン |
| A | B | C | D | E |
| F | G | H | I | J |
| K | L | M | N | O |
| P | Q | R | S | T |
| U | V | W | X | Y |
| Z | 数字 | 記号 | ||
文字集合(CCS)のコードポイントをコード単位に写像するルール。
UTF-16は、16ビット単位の符号系であり、つまり1バイトは16ビットであるということもできる。
一方、文書ファイルなどは1バイト8ビットのバイト単位で処理されるため、16ビットでファイルに書き出したとしても、コンピューターや通信プロトコルは、それをバイト単位で処理することになる。
さてこの時、バイト単位で処理される姿は従来同様「CES」と呼ばれるが、その元の形である16ビット単位の姿を何と呼ぶべきかという問題が生じ、これを新規に「CEF」という名称を付けて呼ぶようになった。
つまり、Unicodeのコードポイント(CCS)→CEF→CESというように変形されていくことになる。
Windows APIやJavaなどは、文字列をUTF-16で扱っている。
プログラミングする際には、この16ビット整数の形で文字を扱うことになるが、このビット整数の状態をCEFと呼ぶことになる。
CEFという状態において、各16ビットの塊をコードユニットと呼ぶ。
例えば亜(U+4E9C)なら0x4e9cという16ビット整数をコードユニットという。BMP外なら、例えば0xD800 0xDC00という二つの16ビット整数のまとまりで表わすが、これは2つのコードユニットで表現されていることになる。
コメントなどを投稿するフォームは、日本語対応時のみ表示されます