UCS-2
読み:ユースィーエス-トゥー
外語:UCS-2: Universal Multiple-Octet Coded Character Set-2
Unicode
のうち、
BMP
(00群00面)を2オクテットで符号化する符号化方法(
CES
)。
目次
概要
特徴
UnicodeとUCS-2
UCS-2とUTF-16
UTF-8
U-PRESS
概要
ISO/IEC 10646
(32ビット)で考えると、上位16ビットが0となる領域。
この領域を
基本多言語面
(BMP)と呼び、
Unicode
のコード体系をそのまま割り当てている。
UCS-2は、このBMPのみを符号化できる、古い符号化方法である。
特徴
UnicodeとUCS-2
ISO/IEC 10646誕生の経緯から、Unicodeに配慮してこの「UCS-2」という用語が生まれたが、Unicode用語としては既に廃止されている。
UCS-2自体は完全な16ビットのコード体系であり、16ビットを越える範囲の文字を扱うことができないからである。
UCS-2とUTF-16
可決寸前だったISO/IEC 10646の案DIS 10646 1.0を潰し、16ビットで全てを賄うとしたUnicodeであったが、UCS-2では領域が不足するため、UCS-2は捨てることになった。
そこで、このUCS-2に
サロゲートペア
と呼ばれる技術を併用した符号法が提唱され、これは
UTF-16
と呼ばれている。
Unicode 2.0
以降でこの仕様が採用された。
現在一般にUnicodeと称した場合、このUTF-16のことを指すことが多いと思われる。
UCS-2ではサロゲートペアの機能が定義されていないので、現在UCS-2で当該の文字をどのように扱うべきかは実装上の課題として残されている。
UTF-8
なお、昨今普及しつつある
UTF-8
を用いればサロゲートペアなどのアドホックな拡張を用いずとも自然にISO/IEC 10646を扱うことができる。
つまり、UCS-2⊆
UTF-16
⊆(
UCS-4
=
UTF-8
)、である。
但し、UTF-8はUCS-4の全領域を表現する潜在能力があるが、現行の標準仕様
RFC 3629
では、UTF-16の範囲内のみ(U+000000〜U+10FFFF)に制限されている。またISO/IEC 10646自体も、UTF-16の範囲外には文字を定義しないことになった。
U-PRESS
報道機関用にUCS-2を拡張した独自の2オクテット符号が、
U-PRESS
である。
その仕様は定かではないが、符号化方法(CES)と、符号化文字集合(
CCS
)が一つになった仕様と見られる。
再検索