UTF

読み:ユーティーエフ
外語:UTF: Unicode Transformation Format 英語 , UCS Transformation Format 英語
品詞:名詞

UnicodeISO/IEC 10646を、実際に計算機で利用できるように変換した形式の符号化のこと。

目次

Unicodeなどは文字集合(CCS)の仕様で、これを実際に符号化する仕様(CES)がUTFである。

ASCIIなどの7ビット文字などと共存可能なように工夫したものが良く使われているが、必ずしもそれが全てでは無い。

16ビット長または32ビット長のUnicodeやISO/IEC 10646を、1バイト以上の不定長に変換する仕様として、主に7ビットを基準とするUTF-7と、8ビットを基準とするUTF-8がある。

また、Unicode専用としては、サロゲートを使い16ビット単位の可変長で符号化するUTF-16、32ビット固定長で符号化するUTF-32などがある。

RFCなどで定義されているものに、次のようなものがある。

符号長は「バイト単位」だが、このバイトが8ビット(オクテット)とは限らない。

名称最大値符号長特徴等典拠
UTF-10x7FFFFFFF1〜5現在は破棄されたISO/IEC 10646-1:1993 Annex G
UTF-20x7FFFFFFF1〜6後にUTF-8となった 
UTF-50x7FFFFFFF1〜8国際化ドメイン名用、しかし不採用draft-jseng-utf5-01.txt
UTF-60x0000FFFF 国際化ドメイン名用、しかし未完成draft-ietf-idn-utf6-00.txt
UTF-70x0010FFFF 電子メールRFC 2152
UTF-80x7FFFFFFF1〜6ファイルシステム文書ファイルRFC 3629、(RFC 2279)
UTF-EBCDIC0x7FFFFFFF1〜7EBCDICと親和性の高い符号化Unicode TR16
UTF-9 (I-D)0x7FFFFFFF1〜5ファイルシステムや文書ファイル用draft-abela-utf9-00
UTF-9 (RFC)0x7FFFFFFF1〜4エイプリルフールの冗談RFC 4042
UTF-160x0010FFFF1〜2 RFC 2781
UTF-18 1エイプリルフールの冗談RFC 4042
UTF-320x0010FFFF1 Unicode TR19
用語の所属
ISO/IEC 10646
Unicode
関連する用語
BOM
サロゲート
UCS-2
UCS-4
シフトJIS
EUC-JP

コメントなどを投稿するフォームは、日本語対応時のみ表示されます


KisoDic通信用語の基礎知識検索システム WDIC Explorer Version 7.04a (27-May-2022)
Search System : Copyright © Mirai corporation
Dictionary : Copyright © WDIC Creators club