リスニングとは

言語は事例基盤ですから、音声を音素に分けて照合するのではありません。音声には音声学で説明する音素が時間軸に正しく並んでおりません。音声を科学的に分析すれば、連続的に変化する音のストリームです。

音声認識は人間の脳の記憶にある事例と聞いた音との照合です。脳の記憶にある事例とはディープラーニングで学習した、ネイティブを真似た音です。発音を真似ただけでなく、音を覚えてしまい、対話集なら使い方まで真似た事になります。

英語ネイティブの話す音声には音素で換算すると1秒間に20から30音素に相当します。人間の発声器官がそのような音素を調音する事ができません。このような20分1秒や30分の1秒の音素を切り出して、照合して音声認識などはできません。

英語の聞き取れな人は速すぎて聞き取れないといいますが、速すぎるのではありません。その音を知らないのです。日本語ならどんなに速い日本語でも聞き取れない事はありません。日本語だって記憶にある音との照合です。

以前の音声認識ソフトは音素(発音記号)辞書を介在させますが、Baidu社の開発したDeep Speechは音声から直接テキストに変換し、シンプルな認識でスピード上げました。これは人間の音声認識に似た仕組みで、シンプルな構造から学習効果を反映できます。

この音声認識は、感知する音声データにノイズがある場合、そして仮に音声の一部が聞き取れない場合でも、認識できる事にあります。自分の記憶にある音とのパターンマッチングをすることにより、不完全な音声でも確実に聞き取れるところにあります。

人間の脳においても同様な音声認識がされていると思われます。視覚情報を認識する場合と同様に、人間の脳は聞いた音をトップ・ダウンで処理しています。つまり全体的な音から、細部の音を聞くのです。

英語でリスニングを良くするためには、多くの英語の音を覚える事です。なるべく自然な音で覚えるほうが効果的です。そして音素で捉えるのではなく、全体的な音の流れを把握することです。

我々が言語の音を覚える時にはディープラーニングにより自然な音声の特徴を少しずつ学んでいきます。このように脳にとって最適化された情報は自然言語の音声です。これは音素のような基本的な音が並んでいるのではなく、連続的に変化する音です。このようなアナログのデータこそ脳にとってトップ・ダウン処理が楽であり、人間の発声器官が生成するのにも適しているのです。

脳はパターン学習であり、パターン認識ですから、多くの事例を覚える事により類似のパターンの英語が増え、聞き取れる英語は加速度的に増えていきます。特に固有名詞などの記憶にない英語は上級者になっても聞き取れません。

英語音声の事例をディープラーニングで学習して覚える事により、発音もスピーキングもリスニングも同時に学習ができます。日本語でも英語でも母語の場合であれば、事例をディープラーニングで学ぶだけで、リスニングや発音を勉強することはありません。

シェアする

  • このエントリーをはてなブックマークに追加
  • Evernoteに保存Evernoteに保存

フォローする