文字エンコーディング - 定義 - サイエンス・ハブ

導入

情報の意味を隠す行為については、暗号化を参照してください。

ユニコード
文字セット UCS (ISO/IEC 10646) ISO 646 、ASCII ISO 8859-1 WGL4 ユニハン
標準化された同等性 NFC (プリコンポーズ) NFD（分解） NFKC（互換性） NFKD（互換性）
プロパティとアルゴリズム ISO15924 壊れた UCA命令双方向テキスト
コーディング UTF-7 UTF-8 CESU-8 UTF-EBCDIC BOCU-1 SCSU UTF-16 UTF-32
その他の変換ピュニーコード GB18030
データ交換アプリケーション電子メールとUnicode ユニコードとHTML

電気通信およびコンピューティングにおいて、コード化文字セットは、自然言語を転写するために使用される 1 つまたは複数の書記体系 (アルファベットや音節文字など) の抽象文字のセットに関連付けられたコードであり、この文字の各文字を数値表現で表現します。ゲームでは、この数値自体が異なる数値表現を持つことができます。たとえば、モールス符号 (ラテン文字と電信機のモールスキーの一連の長押しおよび短押しを組み合わせたもの) と ASCII コード (文字、数字、その他の記号を 7 ビットでエンコードされた整数としてエンコードしたもの) は、エンコードされた文字セットです。。

たとえば、インターネット上で情報を交換する場合、使用されるコーディングを指定することが不可欠です。そうしないと、文書が読みにくくなる可能性があります (アクセント付き文字を他の文字シーケンスに置き換えるなど)。

一部の状況 (特に通信およびコンピューターデータの使用) では、システムがサポートする抽象文字の完全なセットである文字レパートリーと、その方法を指定するエンコードされた文字または文字エンコーディングのセットを区別することが重要です。整数を使用して文字を表現します。

エンコードされた文字セットとエンコード形式の違い

エンコードされた文字セットという用語は、文字が特定のビットシーケンスでどのように表現されるかと混同されることがあります。これは、コード全体が 1 つ以上のコードポイント(つまり、コード化された値)の整数に変換され、コードを管理するシステムへの保存が容易になるエンコード形式を意味します。固定サイズまたは可変サイズのビットのグループ内のデータ。

たとえば、モールス符号化では 3 値符号化が使用されます。この場合、3 つのコードポイントのうち 2 つ (短パルスまたは長パルス) がグループで使用されて各コード値がエンコードされ、3 番目 (より長いポーズ) は文字の分離に使用されます。

同様に、65535 より大きい整数は 16 ビットで表現できません。そのため、UTF-16 エンコード形式では、これらの大きな整数を 65536 より小さい整数のペアとして表現しますが、これらの整数は文字と独立して関連付けられていません (たとえば、U+10000 – 16 進数では、0xD800 0xDC00 のペアになります)。このコーディングプランは、バイトの最終順序に対するプラットフォームへの依存など、いくつかの制約を考慮して、これらのコードの値をビットのシーケンスに変換します (たとえば、D800 DC00 は 00 D8 00 になります)。 Intel x86アーキテクチャ上の DC )。 Unicode Technical Report #17 では、この用語について詳しく説明し、さらに多くの例を示しています。

コードページは、固定サイズ (通常は 1 文字あたり 7 ビットまたは 8 ビット) の特定のビットシーケンスを抽象文字に直接関連付けることにより、このプロセスを省略します。

文字エンコーディング – 定義

導入

エンコードされた文字セットとエンコード形式の違い

参考資料

文字エンコーディング – 定義・関連動画