文字エンコーディング – 定義

導入

情報の意味を隠す行為については、暗号化を参照してください。

ユニコード
文字セット
  • UCS (ISO/IEC 10646)
  • ISO 646 、ASCII
  • ISO 8859-1
  • WGL4
  • ユニハン
標準化された同等性
  • NFC (プリコンポーズ)
  • NFD(分解)
  • NFKC(互換性)
  • NFKD(互換性)
プロパティとアルゴリズム
  • ISO15924
  • 壊れた
  • UCA命令
  • 双方向テキスト
コーディング
その他の変換
  • ピュニーコード
  • GB18030
データ交換アプリケーション
  • 電子メールとUnicode
  • ユニコードとHTML

電気通信およびコンピューティングにおいて、コード化文字セットは、自然言語を転写するために使用される 1 つまたは複数の書記体系 (アルファベットや音節文字など) の抽象文字のセットに関連付けられたコードであり、この文字の各文字を数値表現で表現します。ゲームでは、この数値自体が異なる数値表現を持つことができます。たとえば、モールス符号 (ラテン文字と電信機のモールス キーの一連の長押しおよび短押しを組み合わせたもの) と ASCII コード (文字、数字、その他の記号を 7 ビットでエンコードされた整数としてエンコードしたもの) は、エンコードされた文字セットです。 。

たとえば、インターネット上で情報を交換する場合、使用されるコーディングを指定することが不可欠です。そうしないと、文書が読みにくくなる可能性があります (アクセント付き文字を他の文字シーケンスに置き換えるなど)。

一部の状況 (特に通信およびコンピューター データの使用) では、システムがサポートする抽象文字の完全なセットである文字レパートリーと、その方法を指定するエンコードされた文字または文字エンコーディングのセットを区別することが重要です。整数を使用して文字を表現します。

文字エンコーディング - 定義

エンコードされた文字セットとエンコード形式の違い

エンコードされた文字セットという用語は、文字が特定のビット シーケンスでどのように表現されるかと混同されることがあります。これは、コード全体が 1 つ以上のコードポイント(つまり、コード化された値)の整数に変換され、コードを管理するシステムへの保存が容易になるエンコード形式を意味します。固定サイズまたは可変サイズのビットのグループ内のデータ。

たとえば、モールス符号化では 3 値符号化が使用されます。この場合、3 つのコード ポイントのうち 2 つ (短パルスまたは長パルス) がグループで使用されて各コード値がエンコードされ、3 番目 (より長いポーズ) は文字の分離に使用されます。

同様に、65535 より大きい整数は 16 ビットで表現できません。そのため、UTF-16 エンコード形式では、これらの大きな整数を 65536 より小さい整数のペアとして表現しますが、これらの整数は文字と独立して関連付けられていません (たとえば、U+10000 – 16 進数では、0xD800 0xDC00 のペアになります)。このコーディング プランは、バイトの最終順序に対するプラットフォームへの依存など、いくつかの制約を考慮して、これらのコードの値をビットのシーケンスに変換します (たとえば、D800 DC00 は 00 D8 00 になります)。 Intel x86アーキテクチャ上の DC )。 Unicode Technical Report #17 では、この用語について詳しく説明し、さらに多くの例を示しています。

コード ページは、固定サイズ (通常は 1 文字あたり 7 ビットまたは 8 ビット) の特定のビット シーケンスを抽象文字に直接関連付けることにより、このプロセスを省略します。

文字エンコーディング - 定義
  1. ترميز المحارف – arabe
  2. Códigu de caráuteres – asturien
  3. Kodlaşdırma – azerbaïdjanais
  4. Набор сімвалаў – biélorusse
  5. Символно кодиране – bulgare
  6. প্রতীক সংকেতায়ন পদ্ধতি – bengali

文字エンコーディング – 定義・関連動画

サイエンス・ハブ

知識の扉を開け、世界を変える。