導入
潜在意味分析( LSA ) または潜在意味インデックス付け( LSI ) は、ベクトル意味論の枠組み内で自然言語を処理するプロセスです。 LSA は 1988 年に特許を取得し、1990 年に公開されました。
文書と用語にリンクされた「概念」を構築することで、一連の文書とそこに含まれる用語との間の関係を確立することが可能になります。

出現行列
LSA は、ドキュメント内の特定の用語の出現を説明するマトリックスを使用します。これは、行が「用語」に対応し、列が「文書」に対応する疎行列です。
「用語」は通常、コーパス全体から取得された、切り詰められた単語または部首に縮小された単語です。したがって、各文書内およびすべての単語についての単語の出現数がわかります。この数値は、2 つの手法を組み合わせたtf-idf重み付け (英語:用語頻度–逆文書頻度) を使用して正規化されます。行列の係数は、文書内に出現する回数が多いほど大きくなり、その頻度がまれであるということです。 — それらを強調表示します。
この行列は、ベクトル モデルなどの標準的なセマンティック モデルで一般的ですが、行列の数学的特性がほとんど使用されないことを考慮すると、その行列形式は系統的ではありません。
LSA は、出現マトリックスを用語と「概念」の間の「関係」、およびこれらの概念と文書の間の関係に変換します。したがって、ドキュメントをリンクすることができます。

ランクダウン
出現行列を構築した後、LSA により、この出現行列の近似値を与える、より低いランクの行列を見つけることができます。この近似は、いくつかの側面から正当化できます。
- 元の行列がマシンの計算能力に対して大きすぎる可能性があります。これによりプロセスが実行可能になりますが、これは「必要悪」です。
- 元の行列は「ノイズが多い」可能性があります。用語は逸話的にのみ出現します。このようにして行列を「クリーン」にします。これは結果を改善する操作です。
- 元のマトリックスは「中空すぎる」と推定できます。つまり、元のマトリックスには、複数の文書に関連付けられた用語ではなく、各文書に固有の単語が含まれています。これは同義語の問題でもあります。
ただし、出現行列のランクを下げると、関連性のないいくつかの次元の組み合わせが生じます。私たちは通常、可能な限り同じような意味の用語を統合することに成功しています。したがって、次のような変換を実行できます。
- {(車), (トラック), (花)} → {(1.3452 ×車+ 0.2828 ×トラック), (花)}
このようにして同義語が解決されます。しかし、それが不可能な場合もあります。このような場合、LSA は次の変換を実行できます。
- {(車), (ボトル), (花)} -→ {(1.3452 ×車+ 0.2828 ×ボトル), (花)}
このグループ分けは解釈がはるかに困難です。数学的には正当化されていますが、人間の話者には関係ありません。

アプリケーション
用語と概念の間のこの構成は、通常、次の目的で使用されます。
- 概念空間でのドキュメントの比較 (ドキュメントの分類と分類、データの分割)。
- 多言語文書の辞書にアクセスして、異なる言語間で類似した文書を検索します。
- 用語間の関係の検索 (同義語と多義性の解決)。
- クエリが与えられると、クエリの用語を概念空間に翻訳して、意味的にリンクされたドキュメントを見つけます (情報検索)。
- たとえば、多肢選択式アンケート (MCQ) への回答のモデリングのように、意味的に (つまり、知識体系のコンテキストで) 小さな用語グループ間の最適な類似性を見つけます。
同義語と多義性の解決は、自動言語処理における大きな課題です。
- 2 つの同義語が同じ考えを説明しているため、検索エンジンは、正確な検索語を含まない関連文書を見つけることができます。
- 単語の多義性とは、文脈に応じて複数の意味を持つことを意味します。同様に、検索された単語を含む文書を避けることもできますが、その意味が、必要なものや考慮されている分野に対応していない場合があります。

