双方向テキスト - 定義 - サイエンス・ハブ

導入

ユニコード
文字セット UCS (ISO/IEC 10646) ISO 646、ASCII ISO 8859-1 WGL4 ユニハン
標準化された等価性 NFC (プリコンポーズ) NFD（分解） NFKC（互換性） NFKD（互換性）
プロパティとアルゴリズム ISO15924 壊れた UCA命令双方向テキスト
コーディング UTF-7 UTF-8 CESU-8 UTF-EBCDIC BOCU-1 SCSU UTF-16 UTF-32
その他の変換ピュニーコード GB18030
データ交換アプリケーション電子メールとUnicode ユニコードとHTML

アラビア語やヘブライ語のアルファベットなどの一部の書記体系は、右から左に書かれます (英語ではRight-To-Left 、RTL)。この場合、ラテン文字（たとえば、フランス語より）。同じ段落内で LTR テキストと RTL テキストが混在する場合、各タイプのテキストを独自の方向に記述する必要があり、これは双方向テキストとして知られる現象です。

筆記体系

複数のレベルの引用が使用される場合、これは比較的複雑になる可能性があります。中東発祥のほとんどの文字体系はこの性質のものです。たとえば、ヘブライ語の名前 Sarah ( שרה ) は、右から左に shin ( ש )、resh ( ר )、heh ( ה ) と綴る必要があります。

両方の方法で書ける文章はほとんどありません。これはエジプトの象形文字の場合に当てはまり、行の始まりを示す「頭」象形文字が、読む方向に向けられ、行の終わりを示す「尾」象形文字が使用されました。象形文字の方向は、読む方向に関する情報を提供します。実際、人物 (鳥など) は行の先頭の方を「見ています」。

特定のギリシャ語、トゥアレグ語、ハンガリー語のルーン文字碑文では、行ごとに読み取り方向が反転する、ボストロフェドンと呼ばれる独自のシステムが使用されていました。

双方向書き込みのサポート

双方向スクリプトのサポートは、双方向テキストを正しく表示するソフトウェアの機能です。コンピュータ用語では、この用語はBiDiまたはBidiと省略されます。双方向テキストを正しく表示するソフトウェアプログラムはほとんどありません。一部の Web ブラウザでは、この記事のヘブライ語テキストが反転して表示される場合があります。

初期のコンピュータシステムは、1 つの書き込み方向、特に LTR (および ASCII とラテン文字に基づく単一フォント) のみをサポートするように設計されていました。新しい文字セットとエンコーディングの追加により、他の文字を左から右にサポートできるようになりましたが、アラビア語やヘブライ語など、右から左にサポートすることは容易ではなく、この 2 つを混合することは不可能でした。双方向のサポートにより、同じページまたは同じ段落内で両方向の書き込みを使用できるようになりました。

特に、Unicode 標準は、エンコードおよび表示のために右から左および左から右のテキストをどのように連結するかを定義する詳細なルールを備えた、包括的な BiDi サポートの基礎を提供します。 Unicode エンコードでは、すべての文字が書かれた順序で保存され、ソフトウェアはテキストを表示する方向を見つけます。

Unicode の技術的な微妙な点

レベル

テキストの部分には、ネストのレベルに応じて番号が付けられます。レベル 0 は単純なフランス語テキスト、レベル 1 は単純なアラビア語テキスト (レベル 0 のフランス語テキストに埋め込まれている可能性があります)、レベル 2 はフランス語のテキスト (レベル 0 のアラビア語テキストに埋め込まれている可能性があります) などです。

いくつかの例外を除いて、フランス語のテキストと数字は常に偶数レベルになります。アラビア語のテキスト (数字を除く) は異常なレベルになります。

例

大文字で右から左へのテキスト (アラビア語) を示し、小文字で左から右へのテキスト (フランス語やカタロニア語など) を示します。

 記憶表現: フランス語の ARABIC TEXT テキスト

 文字タイプ: LL-LLLLL-RRRRRR-RRRRRR-LL-LLLLLLLL

 レベル: 00000000011111111111000000000000

TEXT と ARABIC の間の中立文字 (スペース) は、デフォルトでその周囲の文字のレベルを取得します。方向マークをニュートラルキャラクターの周囲に追加して、その効果を変更できます。

方向マークの書き込み

筆記方向は自動検出されますが、コントロールマークが付いているので筆記方向を変更することができます。

マーカーは左から右に16 進数コード200Eを持ちます。右から左へのマーカーの 16 進数コードは200Fです。

他のマーカー、特に値202Aと202Eの間に存在します。

ミラーキャラクター

一部の文字は、右から左に書くと鏡のような形で表示されます。

たとえば、Unicode 標準で開き括弧として解釈される左括弧U+0028は、 evenとして解決される場合は “(” として表示され、 oddとみなされる場合はミラーグリフ “)” として表示されます。

双方向テキスト – 定義

導入

筆記体系

双方向書き込みのサポート

Unicode の技術的な微妙な点

レベル

方向マークの書き込み

ミラーキャラクター

参考資料

双方向テキスト – 定義・関連動画