音声認識 – 定義

導入

音声認識または自動音声認識(Automatic Speech Recognition ASR) は、マイクでキャプチャされた単語または文を分析して、機械で使用可能なテキストの形式に書き写すことを可能にするコンピューター技術です。音声認識は、音声合成、話者識別、または話者検証と同様に、音声処理技術の 1 つです。これらの技術により、特に音声インターフェイス、つまり対話の一部が音声によって行われるマンマシン インターフェイス (HMI) の作成が可能になります。多くのアプリケーションの中で、語彙の量と文の長さに問題がある PC 上の音声ディクテーションアプリケーションが挙げられますが、音声サーバー タイプの電話アプリケーションも、むしろ音声を認識する必要があることに問題があります。変化しやすく、しばしば騒々しい音響条件(公共の場所での携帯電話)。

音声認識 - 定義

研究分野

音声認識は、自動言語処理、言語学、形式言語理論、情報理論信号処理、ニューラル ネットワーク、 人工知能など、多くの科学分野に関連付けることができます。

音声認識 - 定義

基本原則

録音されデジタル化された文章が音声認識プログラムに与えられます。 ASR 形式では、機能の内訳は次のとおりです。

  • 音響処理 (フロントエンド) により、主に、音声信号から約 30 ミリ秒のタイムスライスにわたって最も重要な音響イメージを抽出できるようになります。この画像は、10 ~ 15 個の主成分の特徴ベクトル(特徴抽出) の形式で表示され、これに 1 次と 2 次の差分が追加されて、最終的なサイズが 30 ~ 45 になります。
  • 音響処理 (フロントエンド) は、認識システムの観測データを構成する音響ベクトルの形式で音声信号をデジタル化することを目的としています。これを行うために、信号処理技術を使用します。信号を 30 ミリ秒のスライスに分割し、各スライスを 10 ミリ秒のオフセットで処理して (ハミング ウィンドウ処理技術)、各ベクトルの 10 ミリ秒の重要なデータを取得します。次に、信号はフーリエ変換 (MFCC、メル周波数ケプストラム係数など) を使用した周波数解析手法によってデジタル化され、パラメーター化されます。
  • 音声の基本的なセグメントと語彙要素の間の関連付けを行う 機械学習。この関連付けは、とりわけ、隠れマルコフ モデル (HMM、隠れマルコフ モデル) および/または人工ニューラル ネットワーク (ANN、人工ニューラル ネットワーク) による統計モデリングを使用します。
  • 以前に学習した単語の基本セグメントを連結することによって、最も可能性の高い音声を再構成する認識 (バックエンド)。したがって、これは時間的パターンマッチングであり、多くの場合、動的タイム ワーピング アルゴリズム (DTW) によって実行されます。
音声認識 - 定義

歴史的

音声認識の研究は20世紀初頭に遡ります。音声認識を実行すると考えられる最初のシステムは 1952 年に遡ります。このシステムは、ソ連の反体制派作家アレクサンドル・ソルジェニーツィンの『The First Circle』の中で、スターリンに仕える抑圧のツールとして言及されています。

ベル研究所の Davis、Biddulph、Balashek によって開発されたこの電子システムは、本質的にリレーで構成されており、その性能は孤立した数字の認識に限定されていました (参考文献を参照)。その後、 IBMでのイェリネックの研究 (1972 ~ 1993 年) により、1970 年代に研究が大幅に増加しました。 1972 年、 Threshold Technologies は、32 ワードの容量を持つ認識システムであるVIP100 を初めて市場に出しました。現在、組み込みシステムの急増により、音声認識は力強い成長分野となっています。

音声認識 - 定義
  1. تعرف الكلام – arabe
  2. Nitqin tanınması – azerbaïdjanais
  3. دانیشیق تانیماسی – South Azerbaijani
  4. Распазнаванне маўлення – biélorusse
  5. কন্ঠ সনাক্তকরণ – bengali
  6. Reconeixement de la parla – catalan

音声認識 – 定義・関連動画

サイエンス・ハブ

知識の扉を開け、世界を変える。