音声認識 - 定義 - サイエンス・ハブ

導入

音声認識または自動音声認識(Automatic Speech Recognition ASR) は、マイクでキャプチャされた単語または文を分析して、機械で使用可能なテキストの形式に書き写すことを可能にするコンピューター技術です。音声認識は、音声合成、話者識別、または話者検証と同様に、音声処理技術の 1 つです。これらの技術により、特に音声インターフェイス、つまり対話の一部が音声によって行われるマンマシンインターフェイス (HMI) の作成が可能になります。多くのアプリケーションの中で、語彙の量と文の長さに問題がある PC 上の音声ディクテーションアプリケーションが挙げられますが、音声サーバータイプの電話アプリケーションも、むしろ音声を認識する必要があることに問題があります。変化しやすく、しばしば騒々しい音響条件（公共の場所での携帯電話）。

研究分野

音声認識は、自動言語処理、言語学、形式言語理論、情報理論、信号処理、ニューラルネットワーク、人工知能など、多くの科学分野に関連付けることができます。

基本原則

録音されデジタル化された文章が音声認識プログラムに与えられます。 ASR 形式では、機能の内訳は次のとおりです。

音響処理 (フロントエンド) により、主に、音声信号から約 30 ミリ秒のタイムスライスにわたって最も重要な音響イメージを抽出できるようになります。この画像は、10 ～ 15 個の主成分の特徴ベクトル(特徴抽出) の形式で表示され、これに 1 次と 2 次の差分が追加されて、最終的なサイズが 30 ～ 45 になります。
音響処理 (フロントエンド) は、認識システムの観測データを構成する音響ベクトルの形式で音声信号をデジタル化することを目的としています。これを行うために、信号処理技術を使用します。信号を 30 ミリ秒のスライスに分割し、各スライスを 10 ミリ秒のオフセットで処理して (ハミングウィンドウ処理技術)、各ベクトルの 10 ミリ秒の重要なデータを取得します。次に、信号はフーリエ変換 (MFCC、メル周波数ケプストラム係数など) を使用した周波数解析手法によってデジタル化され、パラメーター化されます。
音声の基本的なセグメントと語彙要素の間の関連付けを行う機械学習。この関連付けは、とりわけ、隠れマルコフモデル (HMM、隠れマルコフモデル) および/または人工ニューラルネットワーク (ANN、人工ニューラルネットワーク) による統計モデリングを使用します。
以前に学習した単語の基本セグメントを連結することによって、最も可能性の高い音声を再構成する認識 (バックエンド)。したがって、これは時間的パターンマッチングであり、多くの場合、動的タイムワーピングアルゴリズム (DTW) によって実行されます。

歴史的

音声認識の研究は20^世紀初頭に遡ります。音声認識を実行すると考えられる最初のシステムは 1952 年に遡ります。このシステムは、ソ連の反体制派作家アレクサンドル・ソルジェニーツィンの『The First Circle』の中で、スターリンに仕える抑圧のツールとして言及されています。

ベル研究所の Davis、Biddulph、Balashek によって開発されたこの電子システムは、本質的にリレーで構成されており、その性能は孤立した数字の認識に限定されていました (参考文献を参照)。その後、 IBMでのイェリネックの研究 (1972 ～ 1993 年) により、1970 年代に研究が大幅に増加しました。 1972 年、 Threshold Technologies は、32 ワードの容量を持つ認識システムであるVIP100 を初めて市場に出しました。現在、組み込みシステムの急増により、音声認識は力強い成長分野となっています。

音声認識 – 定義

導入

研究分野

基本原則

歴史的

参考資料

音声認識 – 定義・関連動画