導入
- 情報の意味を隠す行為については、暗号化を参照してください。
| ユニコード |
|---|
文字セット
|
標準化された同等性
|
プロパティとアルゴリズム
|
| コーディング |
その他の変換
|
データ交換アプリケーション
|
電気通信およびコンピューティングにおいて、コード化文字セットは、自然言語を転写するために使用される 1 つまたは複数の書記体系 (アルファベットや音節文字など) の抽象文字のセットに関連付けられたコードであり、この文字の各文字を数値表現で表現します。ゲームでは、この数値自体が異なる数値表現を持つことができます。たとえば、モールス符号 (ラテン文字と電信機のモールス キーの一連の長押しおよび短押しを組み合わせたもの) と ASCII コード (文字、数字、その他の記号を 7 ビットでエンコードされた整数としてエンコードしたもの) は、エンコードされた文字セットです。 。
たとえば、インターネット上で情報を交換する場合、使用されるコーディングを指定することが不可欠です。そうしないと、文書が読みにくくなる可能性があります (アクセント付き文字を他の文字シーケンスに置き換えるなど)。
一部の状況 (特に通信およびコンピューター データの使用) では、システムがサポートする抽象文字の完全なセットである文字レパートリーと、その方法を指定するエンコードされた文字または文字エンコーディングのセットを区別することが重要です。整数を使用して文字を表現します。

エンコードされた文字セットとエンコード形式の違い
エンコードされた文字セットという用語は、文字が特定のビット シーケンスでどのように表現されるかと混同されることがあります。これは、コード全体が 1 つ以上のコードポイント(つまり、コード化された値)の整数に変換され、コードを管理するシステムへの保存が容易になるエンコード形式を意味します。固定サイズまたは可変サイズのビットのグループ内のデータ。
たとえば、モールス符号化では 3 値符号化が使用されます。この場合、3 つのコード ポイントのうち 2 つ (短パルスまたは長パルス) がグループで使用されて各コード値がエンコードされ、3 番目 (より長いポーズ) は文字の分離に使用されます。
同様に、65535 より大きい整数は 16 ビットで表現できません。そのため、UTF-16 エンコード形式では、これらの大きな整数を 65536 より小さい整数のペアとして表現しますが、これらの整数は文字と独立して関連付けられていません (たとえば、U+10000 – 16 進数では、0xD800 0xDC00 のペアになります)。このコーディング プランは、バイトの最終順序に対するプラットフォームへの依存など、いくつかの制約を考慮して、これらのコードの値をビットのシーケンスに変換します (たとえば、D800 DC00 は 00 D8 00 になります)。 Intel x86アーキテクチャ上の DC )。 Unicode Technical Report #17 では、この用語について詳しく説明し、さらに多くの例を示しています。
コード ページは、固定サイズ (通常は 1 文字あたり 7 ビットまたは 8 ビット) の特定のビット シーケンスを抽象文字に直接関連付けることにより、このプロセスを省略します。

