まくろぐ

文字コード関連用語まとめ

更新:
作成:

用語まとめ

文字コード
文字に割り当てられた数値(バイト表現)のこと。まれに、エンコーディング形式のことを文字コードといったりする。例: 0x0102
文字集合(符号化文字集合)
文字コードの集合。文字の見た目が同じであったとしても、文字集合ごとに、割り当てられる文字コードは異なる。例: JIS X 0208(JIS拡張漢字)
エンコーディング形式(文字符号化方式)(CES: Character Encoding Scheme)
文字集合内の文字に割り当てられた数値を、コンピュータが実際に使用するバイト列に対応付ける方法。例: Shift_JIS、EUC-JP、ISO-2022-JP
Charset(文字セット)
「文字集合」と「エンコーディング」をセットにした概念。IANA が定義した。

「文字集合」と、それに適用できる「エンコーディング形式」には関連があります。 例えば、文字集合 JIS X 0208 で使われるエンコーディング形式は ISO-2022-JPEUC-JPShift_JIS などです。

/p/nao2coz/img-001.jpg

Unicode について

Unicode の登場以前は、日本語は JIS X 0208 という文字集合、中国語繁体字は Big5 という文字集合、のように、文字の種類ごとに文字集合を使い分けることが普通でしたが、Unicode ではすべての文字を 1 つの文字集合で表現します。 JIS X 0208 文字集合に含まれていた文字は、すべて Unicode に含まれています。

まくろぐ
サイトマップまくへのメッセージ