発音とリスニング

始めに

英語の発音とリスニングはじめに英会話は音声でメッセージを伝え、そしてその音声を聞いた理解します。英会話と発音は非常に関係の深いものです。英会話の習得は最初から最後まで発音の習得と言えるかも知れません。
ここでは言語とはどのようなもので、そしてその言語がどう音声になり、人間はどうその音声を理解するかを説明します。
そしてその音声の発音はどう効果的に勉強するかを説明します。

1. 音声とは

音声言語とは音声を使う通信手段です。音声を学ぶ前に言語音の音声とはどのような物理的な特性を持っているのでしょか。言語の音声とはどのようなものでしょうか。言語は音声から始まっていますから、音声こそが全ての言語の基本です。

1.1. 言語の起源

すべての言語は人間の発する音声から発達しました。極端な言い方をすれば言語はサルの鳴き声が非常に進化したものでるので、音声の持つ物理的な特性とか学習方法は通常の動物と基本的には同じです。
音声の場合にいろいろな意味を込めたメッセージを音にして情報を交換しまので、言葉を使う人が意図した内容を聞いた人が同じように理解しなければなりません。
音声は複雑ではありますが、その仕組みとは文法のような体系化された規則や音素のようなものではありません。記述はできなくても、人々が理解できるコミュニケーション手段としては現実に使われていますから、暗黙知として存在します。
暗黙知であると言えるのは、文字や記号で説明できませんが、英語でも日本語でも音声で対話が可能であり、誤解は生じるものの十分にコミュニケーションは可能です。
また、言語の起源から見れば分かるように、全ての言語はその規則が先に作られて言語が複雑な言語が構築されたのではありません。
いろいろな新しい表現がどんどん作られ、皆が使い、皆が継続的に使われている表現が残っていきます。言語表現は全てがランダムな音ではなく、文字で説明できませんが、相互が理解できる仕組みは存在している暗黙知なのです。
人間の知識には文字にできない暗黙知と文字で説明できる形式知があります。暗黙知の概念は、もともとハンガリーの科学哲学者マイケル・ポラニーが提唱したものです。
我々はつねに言葉にできることよりも多くを知ることができます。しかし個人がもつ知識には、言葉で表現できる部分と、言葉で表現できない部分とがあり、前者よりも後者のほうが多くを占めています。ポラニーはこの言葉で説明できない知識を暗黙知と呼びました。

1.2. 音声の実体

言語音の音声を科学的に分析するとどのようなものでしょうか。音声の実体は文字や記号では表現できない暗黙知とも言うべきものです。音声でコミュニケーションをする事は可能ですが、特に脳が言葉をどう学習するとか、どう処理しているかはまだ詳しく解明されておりません。
音声でコミュニケーションできている事実が存在するだけです。
元MIT、現在のハーバードの認知学者のピンカー博士はcatとから3つの音素を取りだせないと言っています。それは3つの音素の境界はなく、3つの音素が全体にまたがっているからだそうです。つまり、音素が聞こえるのは錯覚だと言っております。
岩波書店発行の、“音声科学原論”の著者の藤村靖氏によると、“音声を科学的に分析すれば、音声に子音と母音が同格で並んでいると考えるのは大変不自然である。母音はシラブルの連鎖において各区分の(すなわちシラブル)の中核となり、子音はそのシラブルの周縁に一時的な逸脱として乗って いるとの考え方をすれば、子音動作の一つは一つも、母音の平衡状態から一時的に逸脱し、やがて自然に元の準静的な状態に戻ると考えるのが当然であろう。”と言っています。
つまり藤村氏は言語音の母音と子音を分ける事ができないと言っています。
また、普通おネイティブの会話の速度は音素換算で1秒間に25から35音素に相当するそうです。発音において、人間が25から35分の1秒の音を調音する事は不可能であり、同様にその音素を識別することも不可能です。
東大で音声を研究している峯松信明氏は音素を学習した錯覚だと言っています。峯松氏は子供が親から言葉を真似る時には音素を学ぶのではなく、音の形を真似ると言っています。
このように音声は連続的に変化する音のストリームであり、物理的に説明できない暗黙知であります。
音声は暗黙知であると言いましたが、人間の音声を科学的に分析すると、確かに音素の並んだものではなく、音が連続的に変化ししているだけです。正しい音の要素を並べているのではなく、相手が聞いて分かる音を真似ているに過ぎません。
たとえば日本語の発音においては私も正しい音とか正しい発音とか言いますが、では正しい音は何かと言われても物理的な音響特性で定義はありません。現実的には切れ目のない音声を音素のような音の最小単位に切り離すことさえ不可能なのです。音声学の本でも日本語の「あ」をどう発音するか記述することはできてもどのような音であるかを周波数などで定義することはできません。
世界的な有名な言語学の本で、Linguisticsと言う本があります。この本は、いつ読んでも内容はぜんぜん古さを感じさせません。日本人で英語を教える立場にある方には読んでおいたほうが良いと思います。なぜならば、著者たちは、過去のLinguisticsに関する文献をかなりの数読みこなしていて、そのエッセンスを本書で伝えようとしているからです。  本書は、実質20年近くかけて書かれたと考えても良い、Linguisticsの入門書です。The University of Arizonaで教科書として使用して、先生や学生からも多くのフィードバックを取り入れて改訂を続けています。 Linguisticsと言うタイトルですが、実質はEnglishの分析を行っています。他の言語がどうなっているかの例として日本語が英語と対照的に取り上げられています。  この本の中で音声を、continuous streams of soundと表現しております。日本語にすれば連続的な音のストリームとでも訳せるかも知れません。音声は音のストリームなのです。言語学の権威ある本はcontinuous streams of soundと言っているのですから、音声が音のストリームであるは紛れもない事実です。
では日本語の発音を我々日本人はどうやって覚えたのでしょうか。
これは非常に簡単で聞いた音を真似したのです。そして自分で聞いてフィードバックを得て矯正や修正をしたのです。

1.3. 音声学

音声の実体は連続的に変化する音のストリームです。しかし、科学者が電子的な機材や人工知能を使い、音声をかなり詳しく研究し音声認識の実証ができるようになったのは西暦2000年の頃です。
これらの音声を研究や分析するのが音声学です。電子的な科学分析や脳科学と共に幅広い研究がなされるようになりました。
音声はその音の調音、そして音の伝播、そして音の聴取の3つの面から見ることができます。それに応じて、音声学にも調音音声学(articulatory phonetics)、音響音声学(acoustic phonetics)、聴覚音声学(auditory phonetics)の三つの分野があります。
全体的には調音音声が非常に進んでおり、脳型のコンピュータの出現で音響音声学と聴覚音声学が急速に発達して実用的にも使われています。

1.4. 調音音声学

現在の英語の発音に関する音声学と呼ばれる本はすべてこの調音音声学の分野の本です。調音音声学は、さまざまな音声器官を用いて言語音がどのように作り出されるかを記述します。これは観察が比較的容易であることから最も早く発達しました。音響音声学と聴覚音声学は近代的な電子機器でないと分析できないからです。
特に古代インドの音声学は素晴らしいものでした。この影響は中国を経て日本に伝わり、五十音図となりました。
現代の音声学は19世紀末に学問分野として確立されましたが、実際には調音音声学でした。国際音声字母も基本的には調音音声学に基づいています。
調音音声学では音声に音素(発音記号)が並んでいると考えています。しかし、英語の音声学の本場でも44と45音素の学派があります。日本では30音とか43音とか51音で教えている人もいます。
調音音声学とは音をどう作るかを記述するものですが、その記述通りに調音してもネイティブのような発音になりません。つまり音声の調音方法は正しい記述できておりません。
それより、なぜ音声学の音素の数は化学元素のように世界中で一定ではないのでしょうか。
それは音素の調音方法の記述の問題ではなく、音声には記述されているような音が存在しない音のストリームであるからです。音素とはある音を聞いた人が同じ音と聞こえる音だと定義していますが、そのような物理音を取り出す事ができません。調音音声学の音素とは物理音ではなく概念の音に過ぎません。

1.5. 聴覚音声学

音響音声学は、空気の振動、すなわち物理現象としての音声が、どのような性質を持っているかを研究します。
聴覚音声学は、音声言語の聴取と認識と理解の側面を研究します。この分野は観察や測定が困難であることなどから、近年まで比較的立ち遅れており、未知の部分が多くありました。
幸いにも1990年代以降はパーソナルコンピュータ上で音声を録音・再生・編集・保存し、音声分析を行うことが容易になったため、文系の言語研究者にもより身近な分野となっています。ただし、音響音声学や聴覚音声学をきちんと理解するには、物理学や数学的基礎が必要となります。
また聴覚音声学をきちんと理解するためには身体生理学や脳科学の基礎知識が必要となります。
しかし近年は心理学との連携や脳科学の発展にともない、長足の進歩を遂げています。具体的には脳が音声をどう学習するのか、またその音声はどう認識されるかと言う研究です。特に脳型のコンピュータと呼ばれる脳の仕組みを真似たニューラルネットワークの研究が急速に進みました。
そのニューラルネットワークの学習や認識の仕組みが解明され、同時にニューラルネットワークで音声認識や翻訳システムが開発されました。
そしてその知識を使い人工知能に脳のように囲碁や将棋を学習させてプロと対決して、2017年頃には人工知能がディープラーニングで学習をして世界のプロを負かすほどのレベルになりました。
同時に脳型のコンピュータであるニューラルネットワークの研究も進んでいました。そのニューラルネットワークはプログラム無しで学習できるのです。
音声認識はコンピュータが広く使われる1950年頃から研究が始まりました。しかし、調音音声学が支配していた時代なので音素ベースの音声認識の研究が続きました。
西暦2000年頃からは言語音は音素のような形式知ではない、暗黙知ではないかと考える研究機関が多くなりました。暗黙知として扱うシステムにより、音声認識の精度がどんどん上がりました。
そしてその音声認識の仕組みを解明する事により、脳の音声認識の仕組みも分かってきました。それは脳が行っているパターン・マッチングです。この音声認識は音素の照合ではなく、記憶にある全体的な音の変化を聞いた音の特徴で照合する方法です。この方法であれば音声に音素が存在しなくても認識できます。
それだけではなく、人間の音声認識は雑音が多くある環境の場合が多く、その場合でも全体的な音の認識であれば、欠落しているデータでも認識できる事が分かりました。

1.6. 言語は事例基盤

現在でも英語は文法を基本として教えて、音素(発音記号)の体系として教えています。実は言語は体系的な形式知であると思われていたからです。これは言語をモデルで捉えると用法基盤モデルと呼ばれています。
用法基盤とは言葉がどう使わるべきかといるルールとか、基本の音から学習する方法です。
しかし、コンピュータの発達により文法を基盤とした翻訳システム、そして音素を基盤とした音声認識の精度の限界を迎えました。そして言語そのものを見直す時がきました。
音声認識の精度が上がらないのは音素を基盤として考えているからではないか。また翻訳システムの精度が上がらないのは文法を基盤として考えているからではないかと言う考えです。
事例基盤モデルは2006 年にThe Linguistic Review 誌で特集され、近年世界中で注目集めている言語モデルです。
事例基盤モデルでは音声は具体的な個別事例に関する詳細で多面的なエピソード記憶から構成されているExemplar(事例)と呼ばれる個別事例の音声の集まりと捉えています。
言ってしまえば、音声全体がそれぞれの意味を持つと言う考えです。全ての音声がランダムに存在するのではなく、類似のパターンがあり、それらは共通です。しかし、最小単位の音が連なり単語となり、単語が連なり文になると言う考えではなく、全体的な音そのものが意味を持っているのです。
この事例基盤の考え方は音声認識では覚えている記憶の音との照合になります。全部が聞こえなくても聞き取る事が可能です。「どうもありがとうございます。」は「どうも」だけが聞き取れれば十分と言う事になります。
現実的に「こんにちは」を「ちは」と言うだけで通じますから、我々の音声認識はこの事例基盤の音声認識だと言えます。
全部を覚える必用がありますが、一つ一つの音はあまり重要ではなく、地方の訛りがあっても問題なく使えます。言葉に個性や地域性を生かせる言語システムこそ事例基盤のシステムです。

1.7. 音声と音楽

音声も音楽も音を使い、メッセージを伝えると言う意味では同じです。しかし、音楽は基本的に譜面で表現できます。そして演奏は上手や下手があっても、その譜面に沿っていればとりあえずは良いとされます。
言語はその譜面さえもありません。母親の「あ」と子供の「あ」の周波数はフォルマントも大きく違います。つまり物理的な特性が違っても同じ音を表現しているのです。物理的な特性がなくてもコミュニケーションが取れるのですから素晴らしい媒体です。
音声を補助するため文字が作られ、音声の記録ができるようになりましたが、しかしそれはルールや取決めによる記録方法であり、音声をそのまま記録したものではありません。
日本語でも「これは」と書いて「コレワ」と発音するのもそのようなルールが存在するからです。
音楽と比べると音声の方が記号や文字で表現できない程複雑なものです。歌で英語を覚えると言う学習方法がありますが、複雑な音声を音楽のようにシンプルにしただけで、自然な言語を学ぶ意味では良い方法でありません。

1.8. 音声情報の特性

全ての言語は音声言語が基本です。言語は音声が先に生まれました。現在では文字情報の方がネットや印刷物で良く使われますが、音声情報の方が基本であり、学ぶのであれば音声言語の方が効果的な学習が可能になります。
音声情報なら文字の知らない幼児でも学習できます。音声言語の方が学ぶのが楽なのです。しかし、一般的には大人は音声言語があまり得意ではないと思われており、そのために論理的な文法で学ぶ方が良いと言う考えになっています。
音声言語の方が学び易いのは子供だけでなく、大人にも同じ事が言えます。その理由は音声情報と文字情報の大きな違いがあります。
文字情報とは一般的に紙や画面を使います。つまり縦と横の2次元の情報です。しかし、音声情報は縦と横と高さと時間の変化をもつ4次元の情報となります。情報が2次元から4次元になる事により、膨大に増える事になります。
言葉を文字で表現するとその意味しか伝わりません。しかし、電話で誰かと話せば年齢、性別、感情、教養、性格、文化、地域まである程度は分かります。どうして分かるかと言うのは暗黙知ですから説明ができなのですが、確かにそのような事は分かります。
英語を音で覚えると、意味、文法、使い方、感情の込め方まで学習できます。多くの情報が付加されているためコミュニケーションが楽になります。そしてもちろんそれだけの情報が含まれているからコミュニケーションが楽しくもなります。
全ての母語は音声言語から学習するにはそれなりの理由があるのです。その複雑な音声情報にはいろいろな情報が含まれているので、その情報を理解する、そしてその情報を自分でも使うとより楽しい英語学習となります。

2.発音練習

それでは連続的に変化する音のストリームはどのように覚え、どのように改善できるのでしょうか。発音とリスニングはニワトリと玉子の関係にある訳でありません。リスニングができるから発音ができる訳でも、発音ができるからリスニングができる訳でもありません。
言語音は連続的に変化する音のストリームですから、正しい音そのものが存在しません。もし正しい音が存在するなら、その正しい音を学習する方が効果的です。
しかし、音声には音のストリームしか存在しませんから、ネイティブを真似て反復練習をして、フィードバック得て聞いた音のように真似るしかありません。
フィードバックを得ることができると発音が上手になった事が確認でき、嬉しい感情が沸いてきます。これは学習において記憶を定着させるためには非常に重要な条件です。発音の練習では聞いて、音の特徴を自分で再現しますので、発音できている音は少なくとも十分に聞き分けができていることになります。
一般的にリスニングは発音より難しいと言われるのは、知らない音は聞き取れないからです。発音であれば自己流の発音でもなんとか音声を作る事は可能です。

2.1. 音のストリーム

練習音声は連続的に変化する音であるために、基本となる音素を学んで並べる学習方法は効果的でありません。音声を学ぶ唯一の方法は日本語の習得と同じようにネイティブを真似る事です。そしてフィードバックを得て、修正と矯正をすることです。
これはディープラーニングとも呼ばれる脳の効果的な学習方法です。まわりの正しい発音を真似る事によりだんだん正しい発音に近づいていきます。正しい音が存在しないのですから、通じる発音に近づけていきます。
発音記号に忠実に発音すると非常に発音し難いのはそのような音を並べる事が発音ではないからです。日本語もそうですが、英語も子供が発音を覚える時は聞いた音を真似します。日本語でも発音の覚え方は同様です。
英語には基本の音がないのですから、連続的な音の変化として覚えるしかありません。言語の基本は文法のようなルールではない、しかし相互に理解できる暗黙知があるのは明白です。子供が母親の言葉を真似る場合に言葉の形を真似る事から始まります。声帯のサイズが違うので、同じ音を真似る事ができないからです。特に幼児の場合に最初はあまり似ていなくてもだんだんそれらしい音になってきます。この方法は何か遠回りのようですが、効果的な学習方法です。
音声にはつまり正しい音が存在しませんから教える事も、チェックすることもできません。現在の音声認識ソフトでも統計的に判断していますから、正しいかどうかの判断はできません。
発音練習は発音記号のような音素があった方が練習は楽になります。個々の音を学び並べる事ができるからです。しかし、音声は連続的に変化する音のストリームですからそのまま練習して覚える以外に方法がありません。
言語の音声は文字や記号で説明できない暗黙知です。暗黙知である音声を学ぶ方法はネイティブを真似る方法です。そしてフィードバックを得て修正や矯正をします。
なんか難しく聞こえますが、日本語の発音を学んだ時と同じ事です。日本語は発音記号を基本に学習しないで正しい発音ができたのは、科学的に考えると正しい方法で学習していたのです。
ネイティブを真似ると言う事は特徴を真似る事です。特徴は何かと言われると暗黙知であり、残念ながら説明できません。
しかし、大事な事は特徴を少しずつ真似る事です。特に音の変局点が大事になりますから。特にリズムやイントネーションやアクセントは非常に大事な部分です。
ネイティブを真似て特徴を少しずつ学習する方法ですが、実はこれの方法で発音がどんどん改善されていきます。そして何度も反復している間に手続き記憶として自動化され長期記憶に保存されます。
ディープラーニングで覚えるから上手になるのか、覚えたから発音が上手になるのかは、見方によって違います。しかし、意識としては発音の練習をしていたら覚えてしまったと言う方が良いと思います。
脳は単純な繰り返しが好きでありません。しかし、繰り返さないと学習できません。発音練習ならフィードバックで常に発音を良くできるので意識した練習をすれば毎回出力は違ってきます。
すると発音が良くするためのディープラーニングをしている間に英語を覚えてしまう方が楽しい学習になります。

2.2.暗黙知

目的は覚える事言語の知識は説明のできない暗黙知であります。すると言葉を話すためには相手に理解される音を覚えなくはなりません。ですから発音を練習する最大の目的は覚えるためです。言語の知識が形式知で、正しい音が並んでいるなら、最初に正しい音を習得すべきですが、その正しい音となる音素は概念の音で存在しません。すると発音とは理解される音を覚える事になります。それでは理解されれば何での良いかと言えば、そうではありません。
その音声には相手に理解して欲しい情報が含まれています。するとどうやって相手が理解できる情報を暗黙知として学習する必要があります。
発音はネイティブを真似て、フィードバックを得て矯正しますから、正しい学習ができればどんどん発音がよくなります。そしてネイティブを真似るのはいろいろな要素も真似ていますが、メインとなるのは発音と言う事になります。
しかしながら、発音練習の大きな目的こそがディープラーニングで忘れないように覚えると言う事になります。
発音は記憶との照合ですから、発音記号を並べるような精密さは必要ありません。それでも通じる仕組になっています。しかし、覚える事で英語を話し、そして聞き取る事もできる訳ですから、発音練習の大事な目的は覚える事にあります。するとディープラーニングで発音練習する場合に最も大事な要素は最適化をして最も覚えやすい調音こそ理想の発音となります。そしてその理想の発音こそがネイティブの発音であり、ネイティブの発音を真似る事はいかに重要かが理解いただけると思います。
簡単に言ってしまうと、ネイティブのような発音になれば、発音も良くなるし、もちろん覚えるのも楽になり、そして聴くのも楽になります。

2.3. 発音は自己修正我々日本人がもし日本語を話す外国人の発音の評価を聞かれたら何と言えるでしょうか。上手とか下手とか言えますが、正しいとか、間違っているという評価はできません。点数を付けるのも難しいと思います。それは正しい音が存在しないからです。日本語の正しい音だと言う事を日本人の我々でも証明できません。
では我々は日本語の発音をどう学んだのでしょうか。単に周りの人つまり日本語ネイティブの発音を真似たに過ぎません。実際にはそれらしい音を出しているにすぎません。
これは英語ネイティブも同じ事です。彼らも英語ネイティブの真似をして発音できるようになっただけです。臨界期はあっても発音を矯正できるのは自分だけです。その方法はネイティブの発音と自分の発音を比べる事です。そのためにはフィードバックを得る方法が良い方法です。
発音は正しい音を並べる事ではなく、ネイティブの発音の特徴を真似、そして発音のし易い最適化された音を目指します。
するとその最適化をするとプロセスにおいては実際に調音している本人しか判断できません。そのような発音においてネイティブであろうといろいろな指導を受けるのは、あまりお勧めできる事ではありません。
誰かにアドバイスを受けるより、自分でフィードバックを生かす学習をすべきなのです。

2.4. 自動化と最適化発音練習の最大の目的は発音をネイティブに近づけるためというよりは、忘れないように覚えるためのものです。少なくとも我々にとって日本語の発音はそうでした。しかし、特に臨界期以降に学ぶ英語の発音はそんな簡単なものでありません。
英語の発音が難しいのは発音練習の方法に問題があると思っています。間違った方法とは発音記号を並べて単語の発音練習、単語を並べて英語の表現を発音しようとするからです。つまり音を積み上げていくからなのです。
日本語の発音は積み上げ式ではなく、全体的な発音から始めています。その結果日本人の日本語は自然なきれいな発音になっています。英米人の英語の発音に練習も我々の日本語と同じです。
言語の発音とは正しい音を並べるのが目的ではなく、話すためには覚える事が先決です。つまり覚え易い音を模索する必要があります。覚え易い音とは自然な音であり、自然な音とは最適化されている音なのです。
人間は発音器官の筋肉を使って言葉を話します。我々が野球のボールを投げるのを練習すると、練習を続けていく成果として自然に動作が投げ易くかつ飛び易い動きに収束して行くように思われます。あたかも筋肉が物理的な効率の良い動きが知っているようになります。
例えばオリンピックの水泳の選手は速く泳ぐ事が目的ですが、結果的には全員がきれいなフォームしています。あのフォームも形を教えられたものでなく、選手がなるべく速く泳ぐための最適化の結果として、全員が同じ型になるのだと思います。
発音の場合にもある音の羅列を発音しようとしたときには、自然に調音の動きを少なくし、横隔膜や舌や口唇などの構音器官に負担が少なくなるように学習していくと思います。発音がなぜ重要か理解していただけると思います。

2.5. 脳は省エネ活動脳と記憶の原理を知ると英会話を話すためには余程脳が高速に働かなければならないように感じます。コンピュータ的に考えれば情報量が増え判断が多くなるので必然的にCPUの働きは活発になるはずです。しかし実は脳の動きはそうではないのです。脳はコンピュータとは違った大変な能力を持っているのです。短く言えば英語や発音に習熟すれば脳の負担は劇的に減るのです。
2005年2月16日の日経新聞に東京大学の酒井助教授が“英語を習熟すれば脳の活動を節約”を発表したと言う記事が掲載されていました。これは英語を習い始めた中学1年生と英語に習熟している東大生を対象に英語の文法テストをして機能的磁気共鳴画像装置のfMRIで観察した結果が出ていました。実験の結果中学生が英語の学習を始めると少しずつ脳の活動が増えていきます。学習によって脳が活発に働くようになったのです。しかし脳はこのまま情報量に応じて働きが活発になるのでなく習熟してくると脳の動きはドラマチックに少なくなると言うのです。
大学生では英語に正答率が高い学生ほど、左のこめかみの奥にあるブローカ野の文法中枢への血流集中が見られず、エネルギーを節約していることが分かったのです。正答率が低い学生では、文法中枢が活発に働いていることが分かりました。英語が十分に身についた学生では、こめかみの奥にある脳の文法中枢が少ないエネルギーでも働く省エネになるらしいのです。
英語に習熟すると脳の回転が速くなると思われがちですが実は脳の回転は遅くなるのです。これは英会話学習に大事なヒントを与えてくれます。英語では文法においても習熟することが非常に大事であるということです。残念なのはこの実験が文法であったことです。私は自分の体験から文法よりは発音の方が習熟度が省エネに貢献するのは遥かに大きいと感じているからです。
大石晴美氏と木下徹氏の英語学習におけるメタ認知ストラテジーの脳科学的効果の研究ででも同じ結果を発表しています。課題遂行時の学習者の言語野の血流増加量は、初級学習者から中級学習者になるにつれ増加し、中級学習者から上級学習者になるにつれ減少していることが観測されました。上級学習者では、血流増加量については、中級学習者より有意に少なく、初級学習者とは違いがなかったのです。これは大変面白い研究結果です。
それは脳に血流がたくさん流れることが良い学習ではないと言うことです。中級になると増える血流は上級者になるにつれ、現象しているのです。しかし、血流が増えている時は意識的に増やしている学習ですから、少なくとも楽しい時期では無いと思います。しかし上級になると血流が増えますがこの時期が最も楽しい時期です。多分このころになると自分でも上達した実感が得られますから気持ちとしても快感を楽しめる事ができると思います。
現在、学習過程や問題解決の過程を脳の血流で判断する場合がありますが、大変重要なのは血流が増えることは脳が活発に働いていると言う判断に異論がありませんが、だからその状態が理想ではありません。本当に求めるべき状態は脳が習熟して省エネ状態になった時が良いのであって、血流だけからみれば初心者も習熟者も代わらないのです。
このような省エネ処理ができるのは脳が記憶に依存しているからです。脳細胞の処理速度は以外に遅いので、学習した結果を蓄積しておくのです。人間が非常に複雑な事ができるのはリアルタイムの処理が速い訳でなく、学習した結果を忘れないで覚えておくことができるからです。
脳の負荷とすれば学習して覚えようとしている時の方が大きくなります。習熟すると省エネになるのは、習熟すると単に記憶を使うだけになるからです。
発音の練習はどこから始めるべきでしょうか。一般的な発音教材は発音記号の発音から始まるのがほとんどです。音声の認識は音素ではないと言う人も発音記号を練習の基点として始める事を勧める人がいます。発音教材では教材が教える音が標準で会話では音が崩れるとか、音がくだけると言っておりますが発音の標準的な音は何でしょうか。言葉には標準的な音の定義がありません。音声学で記述している音の説明は典型的な音であって、誇張すればあのような音になるという説明し易い音です。しかし音声学で説明する音にしたがって発音すると、発音し難く、聞き難い音となります。発音の運用面から言えば標準ではありません。
例えば歩くとか、走る場合の標準的なフォームは何かを言えば、最もリラックスした状態で歩いたり、走ったりするフォームではないでしょうか。すると発音する場合も最もリラックスした状態は通常の会話の時の発音です。また発音の目的は発音し易くして、聞き易い音を求めるのですから、最終のゴールを目指すのであればなるべくゴールに近い方が有利です。すると発音教材で説明している音はいずれは崩したり、くだけた音にしたりするので下手な癖をつけるのは避けるべきです。第二言語を習う場合大きな障害は母語の発音習慣の干渉です。すると皆さんが現在発音している発音と発音教材が教えている発音では、皆様が使っている発音方法の方がより自然な発音に近いと言えます。そうであれば発音の練習は現在の発音からなるべく早めに自然な発音する練習を始めるべきだと思います。わざわざ発音教材の言う典型的な音が発音し易いなら別ですが、発音し難い癖をつけて、それを自然な音に変えるのは時間の無駄です。

2.6. 口の形は重要ではない発音教材には口の形が重要だと言う教材も教室もたくさんあります。しかし実際にネイティブの画像を見ても、自分の口を見ているわけでないので自分の口の動きが良く分からないのです。教材には鏡で見ると良いと書いてありますが、実際に顔を鏡で見ると鏡を見る事で発音がおろそかになります。
自分の口の形を見ることができないので、その口の形を真似る事は無理な事です。日本語の発音を覚えた時に母親の口の形を真似たのではなく、聞いた音の流れ、その音の全体的な形を真似したのです。音の流れを真似るのですから、発音で大事な事は自分の発音がどうなっているか聞く事です。
発音しながら自分の発音が聞き取れない場合は録音して時間差のフィードバックを得る事です。
反復練習は繰り返し発音を練習することです。しかし、反復練習では通常は回数をこなすことで発音が楽になる事がありますが、必ずしも発音がより正しくなっているのではありません。これは慣れただけの事ですから、その音が聞いた音の特徴に似ているかどうかは別の問題です
極端な場合は英語のカタカナ式発音でも繰り返す事により、発音としては楽になっていきます。例えばシャドーイングと音読は確かに発音の練習になります。例えば日本語でも台詞を何度か繰り返すと発音易くなるのと同じです。大事な事は外国語の場合の場合でも回数を繰り返すだけでは発音は正しくなりません。
発音矯正は正しい発音に近づける行為ですが、必ずしも回数を多く繰り返すのでなく、自分の発音のまずいところ探しそれを矯正する意識を持って練習します。英会話のために発音とリスニング練習は発音矯正だけでなく、何度も繰り返して発音矯正をして自然な発音にすることにより、発音練習や暗唱まで可能とします。では最初から発音練習や暗唱をする方法とくらべるとどちらが効率的でしょうか。それは単なる発音練習や暗唱では、覚えてしまうとかある程度発音が楽になると練習がつまらなくなり学習意欲が低下します。

3. リスニング練習ここではどうすれば効果的なリスニング練習ができるかいろいろ説明していきます。
3.1. 記憶の音と照合言語音の聞き取りには多くの錯覚が関係しております。
音の錯覚のサイト

上記サイトは音のつながりとその音の認識を調べるものです。音の錯覚と言うサイトですが、人間が音声を聞き分けできるのは、錯覚によるものが多いようです。Bは母音を連続的に発音した音声です。Aは音素に切って並べた音です。声紋でみればAの方がずっと音の区別がし易いのですが、聞けばBの方がずっと聞き易いのです。この音を聞けば直ぐに理解できるのですが、言語の音は音素だけを並べるよりは、音を連続的に変化させて発音した方がずっと聞き易いということです。
これは脳が音声を音素に区切って認識している訳ではないからです。人間の音声は連続的な音のストリームですから、ほとんどは音のストリームの状態の音を記憶しています。
するとAのような音は人間の脳の記憶にはほとんど存在しません。音声認識の研究者であるNTTコミュニケーションの柏野氏は、音の認識では音の変局点が重要な役割を果たすと言っています。
つまり音声のストリームを認識する時は自分の記憶の音との照合です。しかし、全体を照合するのではなく、特徴だけを照合します。すると音の変局点がその特徴に相当します。
特にリズムやイントネーションはその音の特徴に相当します。すると英語を音声ではそれぞれの音素の調音よりは全体の音の形が重要になります。
英語の表現の中には音の切り方で意味が違う文章をオロニム(oronym)があります。オロニムとは通常はホモフォン(homophone)と呼ばれますが、ホモフォンは単語を意味し、オロニムは同じ発音になる2つ以上の単語を意味します。
オロニムに次のような英語事例があります。この上下に書いた英語の音声はネイティブが発音するとほぼ同じになります。聴き終わった段階では同じです。しかし、ネイティブは同じ音を2つの違う意味として理解できるのです。
The good can decay many ways. 良いカンはいろいろな腐食をする。
The good candy came anyway. 良いキャンディーはいろいろある。

Some other I’ve seen. 私が見た他の人。
Some mother I’ve seen. 私が見てある母親。

It’s a doggy-dog world. それは犬好きの世界です。
It’s a dog-eat-dog world. 犬が犬を食う世界です。
これらの上下の文章は音声では果てしなく同じようの発音される「オロニム」です。同じ英語音声が違う意味で解釈されているのですから、音声認識が音素や単語ベースでもないことが証明できます。
違った意味で理解できるのは前後の関係から違う意味と判断できます。単文ではどちらの意味かは判断できません。
このように音声認識は自分の記憶にある音と聞いた音の特徴です。リスニングを良くするのであれば、英語の表現事例全体を覚えておく必要があります。そしてその音を照合するための音の変局点もしかりと含めて覚える事が大事です。

3.2. 心内辞書(心的辞書)言葉をあやつるために、人間の脳には一種の「辞書」のようなものがそなわっていると考えられます。この心の中の辞書は、高校を卒業する頃で、母語の場合に約8万語以上が理解できる状態に達しています。大量の単語に、前後の文脈に応じて柔軟に適応できるのですから、脳内の辞書はずいぶんと見事に構成されているようです。この辞書を心内辞書または心的辞書、英語ではMental Lexiconと呼ばれます。
これは、脳の中に辞書のようなものが存在し、見出しとなる語彙項目にアクセスし、そこから情報を引き出すことで単語が認識されます。心内辞書は、実は他の長期記憶と同じように大脳皮質細胞の活性化パターンであります。
この辞書は我々の使う辞書とはまったく構造が違っています。我々の使う見出し語さえもありません。多くの英語表現の事例データが一見、雑然と大量に存在するように見えます。
しかし、脳のニューラルネットワークでその情報が検索できるようにいろいろなリンクがされています。単語やフレーズと言ったパーツも区分けされているのではなく、全体的な情報の一部として記憶されています。
このニューラルネットワークのデータベースは単なる音だけでなく、視覚情報や聴覚情報のように五感からくる情報だけでなく、嬉しいとか悲しいとかの感情的な情報も含まれています。
音の情報に関しては縦x横x高さx時間と言った4次元のデータとして、ニューラルネットワーク上に複雑な連結やリンクとして保存されています。
新しい情報はその中に含まれている情報と関連あるものとリンクされ保存されていきます。コンピュータの記憶と違い、データが増える程検索が楽になります。
その理由は脳が持つ並列分散処理により、同時にいろいろな検索が可能となるからです。英語でも日本語でも話している時の脳の活性度を光トポグラフィで見ると全体的が赤くみえます。つまり話している間は単に聴覚野と言語野と運動野だけが活性化される訳でないからです。
この記憶の仕組みもまだ暗黙知として科学的に解明されておりません。分かっている事は言語の場合に真似をすると少しずつ特徴を学習して、手続き記憶として長期記憶に保存され、パターン学習やパターン認識を促進すると言う事です。

3.3. 音声の知覚と意味ピンカー氏の「言語を生み出す本能」で人間の生理的な面から音素による認識が不可能である事を説明しています。英語を聞く場合に普通の会話で1秒間に10~15音素、早口のアナウンサーなら20~30音素、機械的に早送りすれば人間は40~50音素くらい聞き取れます。しかし、人間が「カチット」言うパルス音なら1 秒間に20回以上聞くともう個々の音は聞き取れずブーンと言う音になってしまいます。
人間の脳はそのような音素を基本にすると、大変なデータの処理が必要であり、それは不可能の事です。そのために脳は音を記憶して、その音と聞いた音の特徴をパターンでマッチングします。音を鼓膜で知覚してその情報を脳に送り、その音がどのような意味を持っているかを認知することになります。
人間の音声認識は事例基盤です。事例基盤で覚えて音と聞いた音の特徴で統計的に照合します。良く「掘った芋を穿るな。」と言うと英語話者には“What time is it now?”に聞こえるのはそのためです。
「掘った芋を穿るな。」と“What time is it now?”は音素を比べると10%くらいしか同じでありません。しかし、同じように聞こえるのは音の特徴が似ているからです。
英語にリスニングで分かる時は瞬時に理解でき、分からない時も瞬時に分かります。認識にスマホやタブレットにように時間が掛かる事はありません。それは特徴の似ている音声が記憶にあれば瞬時に検索でき、無い場合には存在しないことが直ぐ分かるからです。

3.4. 音の聞き分けは必要か私はLとRの発音は完璧に発音ができます。しかし未だに映画に出てくる馴染みの無い単語のLとRの聞き取りは不安があります。多くの日本人でLとRの発音を確実に発音できても聞き分けは確実にできている人はほとんどいません。発音ができれば聞き取れると言うのは事実でありません。
NHK出版協会発行の英語発音研究会著の“大人の英語発音講座”と言うタイトルの本の中で高木直行氏が次のように言っています。「筆者自身は1987年に渡米し25才から32才まで足掛け7年アメリカで生活しました。音声学が専門ということもあり、少なくともこれまでに取り上げた音の発音には自信があります。では聞き分けはどうかといわれれば、残念ながら限界があることを認めざるを得ません。実験室でヘッドフォンをつけ、特定の音の聞き訳だけに集中すれば、100%はとはいかなくても90%ぐらいは正解できるでしょう。
しかし日常会話で、意味に神経を集中している場合にはなかなかそうはいきません。」かなりの英語を勉強され、英語の発音に関心があり大量のネイティブの英語の発音に触れる機会があった方でも聞き取りは難しいのです。
言語の聞き取りは音素ベースではありません。もちろん単語ベースでもありません。するとLとRの聞き分けができなくてもリスニングに大きな問題が起こる事はありません。
でもネイティブにとってLとRの音の違いはかなり気になるようです。リスニングには直接関係ありませんが、できればLとRは明瞭に発音できるようにしておくことに越したことはありません。
私も60才くらいからLとRは非常に気になりようになりました。そのために単語を聞くと直ぐに辞書で引いてLとRを確認して、発音を何度かして覚えます。そうした結果、現在では聞き分け能力はかなり向上していると思います。
新しい単語を聞く度に覚えるのが結果的には効果的な学習になります。
臨界期を過ぎても、もちろん60才を過ぎても音の違いに注意を払うと音に対して繊細になる事は事実です。

3.5. 音声認識はパターン・マッチング人間の脳のニューラルネットワークやそのニューラルネットワークの学習メカニズムも解明されています。
人間の音声認識は辞書のように聞いた音声を小さな音に切って、音素を特定して、単語や表現を照合するものではなく、事例基盤のシステムです。
その方法は聞いた音と自分の記憶にある音との照合です。日本人は特にLとRが曖昧で多くの人が混乱しています。しかし、聞き取りでは大きな問題とならないのは音素をベースとして認識していないからです。
リスニング力を向上させるためには忘れないように自分の記憶に多くの英語表現事例を保存する事です。
そのためにはリスニングの練習と言うよりは自然な英語事例を忘れないように覚える練習が効果的です。

3.6. 長時間のリスニング練習教材の中でヒアリングを長時間続けるトレーニングがあります。話すよりは聞く方が体力的な負荷が少ないので話すよりは聞く方が楽です。効果があるなら英会話学習者には朗報になります。
特に有名なのは段階的にヒントを得ながら聞く力を高めていくものです。この手法は市販の教材にも取り入れられています。この手法は非常に科学的であると言うもので学習効果をTOEICのスコアで証明しているものです。この教材のサイトにはサンプルがあってどのようなものか体験する事ができました。ヒアリングの教材にステップに分かれたヒントがでてきます。3段階に分かれていて段階ごとに別の情報が提供されます。すると同じ内容を聞いていても内容が理解しやすくなるためにヒアリングの能力が高まるとのことなのです。
リスニング力が無いからその練習をすれば効果が上がるものでしょうか。そのためには英語つまり言語の音声認識の仕組みを知る必要があります。脳がどのように音声を認識するかと言う事です。
音声認識が音素ベースなら長時間リスニングをする事でその練習になるかも知れません。しかし音声認識は音声に並んだ音を認識して照合するものではなく、自分の記憶にある音との照合です。
リスニングを良くするためにはその記憶にある音の増やす必要があります。できれば効果的に増やす事ができれば理想です。
長時間のリスニング練習でも多少の効果が上がります。それは少しずつでも英語表現を音で覚えるからです。しかし、確実に覚える方法ではないので大きな効果は期待できません。

4. ディープラーニング何度も書いてきましたが、英語の教育者は文法を基本に教えていますがその学び方は正しくありません。
2015年2月に米Googleは、ディープラーニング(深層強化学習)を用いた人工知能のDQNを開発したと発表し世界を驚かせました。自力でコンピューター・ゲームを反復プレーし、攻略方法を見つけ出すことができたのです。そしてどんどん新しい攻略方法を自力で見つけるようになりました。
その驚きはコンピュータが自ら学ぶ事ができる事ではなく、その学習の仕組みが人間の脳の強化学習を真似た事でした。ディープラーニングとは特徴を少しずつ抽出してパターンを学習する事です。
言葉の場合はネイティブを真似て音声の特徴を少しずつ学習しています。日本語を覚えた時にもその方法で覚えました。脳は出力時に学習しますから、聞き流しだけでは学習できません。単に回数を繰り返すだけでなく、フィードバックを得てそれを評価して、少しずつ自然な音に近づけます。
このディープラーニングは子供の脳だけでなく、大人でも我々の脳が言語やスポーツや芸能を学習する仕組みです。臨界期を過ぎると聴覚が劣化して音の調整が下手になるだけですから、フィードバックを得る学習で臨界期の問題は克服できます。
4.1. ニューラルネットワークプレジデント社のプレジデント、2005年7月18 日号の記事によると2003年に62歳で急逝された理科科学研究所の脳科学者である故松本元氏は脳型コンピュータを研究していました。彼はヤリイカの神経細胞で行われる情報伝達、処理の研究ではノーベル賞に上げられる気鋭の科学者でした。
脳型コンピュータは現在使われているデジタルコンピュータとは違い、ネットワークで構成されているためには現在はニューラルネットワークと呼ばれています。その理由は脳がコンピュータのような記憶システムやCPUを使用せず、従来のコンピュータとは区別するためです。
彼は「人は何のために生きるか」を考えるには「脳はどこに向かって発達するか」に置き換えられると言うのです。かれは「脳は楽しいと感じること」に向かって伸びようとしていると言いました。言語を習得するには脳型のニューラルネットワークは最適な仕組みです。
彼のニューラルネットワークを積んだヘリコプターの実験があります。このヘリはコンピュータが積んでありますが、最初は目標に飛ぼうとするのですが障害物などのぶつかり、何度も離陸と着陸を繰り返してようやく最終目的に着くことができます。通常のコンピュータであれば最初から目的に着くためのデータがインプットできますから、試行錯誤無しで目標に飛べます。
ニューラルネットワークは何もデータが無いので何度も失敗を繰り返すしかありません。これは一見無駄な動きのように見えますが、失敗を繰り返す度にヘリのコンピュータは周辺環境のデータを自ら獲得して、ついには正しい目的地に到達します。人間の脳は更に失敗の後に小さな成功を喜ぶことにより、楽しい方向にさらに伸びようとするのです。
この暗黙知をどうコンピュータで処理するかと言うのが人類の大きな夢でした。暗黙知そのものは文字で表現できませんが、事例データを使い統計的に予知できるというのがベイズ理論です。
素晴しい効果的な学習方法で、現在では多くの人工知能がこのニューラルネットワークを採用しております。
人工知能は脳を真似たニューラルネットワークで構成されていますが、脳の情報処理は脳を真似たディープラーニングよりもっと効果的にできるベイジアンネットと呼ばれるものです。
ベイジアンネットとは、確率論に基づいた推論を効率的に行うための技術です。脳の最も大事な機能の1つである直観と似た働きをします。

4.2. 脳の学習脳はデジタルコンピュータと違うニューラルネットワークで構成されています。コンピュータは人間が作成したプログラムで処理をします。
脳のニューラルネットワークはプログラム無く自分で学習します。その脳が英語学習する仕組みは文法のようなルールとか、音素のような基本となる音を学ぶからではありません。
脳の言語習得の方法はもっと単純です。ネイティブを真似て反復学習をしながら特徴を少しずつ抽出する学習をしていきます。言語の場合は何度もネイティブの音声を真似して繰り返し、フィードバックを得て矯正をしていきます。
これはディープラーニング(深層強化学習)と呼ばれる脳の学習方法です。幼児のように何も知らないゼロの状態から学ぶ事ができます。脳の学習方法は変わりませんから、もちろん大人でも同じ学習方法です。
ディープラーニングで、何度も繰り返すことがリハーサルになります。リハーサルは維持リハーサルと精緻化リハーサルの2つがあり、ネイティブを真似るはこの精緻化リハーサルに当たります。
この精緻化のメカニズムとして筋肉運動が最適化を目指します。最適化とは発音しやすい調音方法ですから、自分でも感じる事ができます。
この脳型の学習方法は学習初期には非常に繰り返しが必要ですが、パターンで学習をするため、真似る学習方法をも学習するため、真似る技術がどんどん向上します。
脳は学習した結果を脳の長期記憶に保存して、その学習したデータの並列分散処理をして最適なデータを検索する事も可能です。英語を話す時は最も自分の言いたい事例を参考にしながら表現を作成します。
英語でリスニングをする時は自分の記憶にある多くのデータから類似のパターンを見抜いて知らない単語でもある程度の推測をして予測する事も可能です。
多くのデータから類似のパターンから単語を替え、名詞や動詞を替える事により自分で創作したような表現を作り出す事も可能です

4.3. 記憶にある事例を増やす日本人の我々は日本語のネイティブです。ではネイティブとは何が非ネイティブと違うのでしょうか。
大きな違いはディープラーニングで非常に多くの事例を知っていると言う事です。もちろんディープラーニングで発音も学習していますから、非常に自然です。
非常に多くの事例を知っていると言う事はその中に含まれて多くの単語を知っていることになります。
脳はこれらの記憶をデータベースにしていろいろな検索が可能です。記憶と照合したり、また類似のパターンを使い新しい表現を作ったりする事ができます。
それでは英語を第二言語として学習した時にネイティブのようになるためにはディープラーニングで忘れないように事例を学習していくことです。忘れないで学習する仕組みがディープラーニングです。

4.4. 累積効果多くの事を覚えるためには記憶すると言うことが脳にとってどのような事であるかを知っておくことはこれからの学習に非常に参考となると思います。
池谷祐二氏の「記憶力を強くする」では次のように説明しています。
脳の神経回路は電気回路とは違いお互いがつながって情報がながるのではありません。脳細胞と脳細胞はつながる事は無く、その間の情報のやりとりは知られているだけでも100種類以上の情報伝達物質のやりとりで行われます。しかし記憶は脳細胞の不連続な回路において行われます。
言葉の文法はそれぞれ独立しており、あるルールを覚えたから次のルールを覚えるのが楽になる事はありませ。しかし、ディープラーニングが非常に効果的に学習できるのは基本的に同じような学習方法であり、学習した結果を次の学習に生かせるからです。つまり学習が次の学習に転移して累積効果により加速度的な学習が可能になります。
脳科学者の池谷裕二氏によると次のように説明しています。
Aという事象を理解し記憶した上で、関連するBという事象を覚えようとすると、Aを覚えたときに無意識に習得した手続き記憶が応用され、Aを覚えたときよりも簡単にBを覚えられるという。すなわち「学習の転移」が働いたと言えます。このとき、当然ながらBを覚えた手続き記憶も新たに記憶されている。さらに、このBを覚えた時の手続き記憶が先に覚えたAの理解をさらに深める再補強効果があるという。
言い換えれば、AとBという2つの対象を覚えるとき、それらを覚える際の手続き記憶が相互に理解を助けることになり、合計2の二乗で4つ分の記憶が新たに生まれるという計算になる。さらに3つ目の事象Cを記憶するときも同様に、AとBの手続き記憶が利用されると同時に、Cを理解したときの手続き記憶が先に記憶したAとBの理解を再補強することになる。
このように次々に新しいことを学習していくと、その効果は等比級数的に累積していくことになります。つまり、学習と記憶(勉強量と成績)の関係は、直線的な1次関数ではなく、加速度的に二乗曲線を描いて上昇していくと考えられます。
すなわち学習の効果はすぐには現れず、地道な努力を継続しているうちに徐々に効果を実感でき、加速度的な学習が可能となります。これこそが上達の本質であり、天才や熟練者と呼ばれる人も初めは初級者だったことを証明できるものです。池谷裕二氏の言葉を借りれば、「嵐の前の静けさ」と「突然の爆発」が隣り合わせなのが脳の性質なのです。
ディープラーニングにはネイティブの真似をしながら反復練習をして覚えていきます。フィードバックを得て矯正します。この時に覚えるのは音の並びとして覚えるのでなく、連続的な音の流れのパターンとして覚えます。
ディープラーニングとは事例の特徴を少しずつ学習します。英語のどの事例を学ぶ方法も同じ事であり、事例が増える事により特徴の学習も上達します。
この事例となる音のストリームに文法、発音、スピーキング、リスニングの情報が全部含まれていますから、同じように事例を覚えるだけなのです。
記憶量が増えるにつけ、記憶の累積効果で類似のパターンが増えてきます。日本語ならどんな表現でもすぐに覚える事ができます。それは類似のパターンを既に覚えているからです。
人間の脳は似ているものを好み、似ているものは学習し易くなります。言語であれば似た音の特徴は非常に覚え易いと言う事になります。それぞれの言語に、例えば日本語とか英語の発音にそれぞれ共通した特徴があるのはそのような似たものは非常に覚え易い特徴があるのです。

4.5. 全てを同時学習4次元のデータを持つ音声には、発音だけではなく、表現も、使い方の情報も含まれています。そして音を覚えるのでリスニングの学習もしている非常に効果的な学習です。
もし、言語を覚えるのに必ず維持リハーサルや精緻化リハーサルであれば、覚えられる単語や表現には限度があります。英会話学習に使える時間には制約があるからです。子供は3才から5才の間は爆発的に言葉を覚えますが維持リハーサルや精緻化リハーサルを使わないで覚える場合が多くなります。それは記憶が記憶を呼ぶプライミング効果です。これを聴覚が英語の適応した状態と呼んでいます。
プライミング記憶は単語の記憶や音声の記憶などで、先に与えられた情報(先行刺激)が、後に続く情報(後続刺激)の処理に無意識に影響を及ぼす事です。そのような状況における先行する事柄をプライムと言います。先行する事柄には文章、単語、絵、音などがあります。例えばロンドンと聞けば“時計”や“宮殿”の連想の方が“神社”や“大仏殿”などの言葉より強くなるのはプライム効果によります。英語の場合類似の音は非常に覚え易くなりますがこれもプライム効果によるものです。
これを上手に利用すると、記憶をすれば次の記憶を生むと事ができますから、記憶こそが次の記憶の源泉です。日本語では呼び水と言いますが井戸水を汲む場合に井戸に水が溜まってないと水を汲みあげる事ができません。そこで井戸に水が無い時は最初に水を入れて井戸に満たしますが、この水が呼び水です。英語ではprimingまたはpriming waterといいます。
音のストリームの発音に関して自然な発音に拘るのもこのプライミング記憶のためです。自然な発音に近いと言う事は英語ネイティブの音の特徴を捉えていることになります。先に与えられた情報(先行刺激)が、後に続く情報(後続刺激)の処理に無意識に良い影響を与えるためには先行する刺激と後続する刺激は同質のものでなくては意味がありません。英語の聞く音声の特性が自分に記憶にあるものと、実際に聞く音声の特性が同質でなければプライミング効果は期待できないからです。記憶するためにプライム記憶の呼び水に当たるものが必要ですが、教材の例文を完全に記憶する事で十分な連続音声や意味や単語などの蓄積となり記憶のきっかけとなると思います。

4.6. パターン学習と創造性2005年8月11日の日経の夕刊によると脳科学者の茂木健一郎氏による脳の記憶のシステムの本当の素晴らしさは世間で言う「記憶力」とは少し違う点にあると言います。覚えた事を記憶させて単純に再現するなら機械にもできる事です。実際に再現力で比較すればコンピュータにはとても敵いません。人間の脳だけが持つ素晴らしい能力は、自らの記憶を編集して、新しい意味を見出す点にあると言います。例えば何回か合って話をすると、次第にその人の人柄が判ってきます。
あるいは仕事の体験を重ねることで、そのコツを掴んでいきます。このように学習プロセスに、「編集力」が関わってきます。これは大脳皮質の側頭葉に記憶が蓄えられると、さっそく編集のプロセスが始まります。
人間の脳が例文を記憶するとパソコンのようにいつまでも同じ形で記憶されているだけではないのです。既にある長期記憶の英文と関連付けたり、類似点や相違点を比較したりするなど無意識のプロセスが進行すると考えられているそうです。
これは英語でも同じで、多くの英語表現を覚える事により、類似のパターンを学び、脳の自動編集能力により覚えた英語表現だけでなく、単語の入れ替えとか、フレーズの組み合わせとかにより基本は自分の記憶をベースにしていますが、個性豊かな英語表現をできるようになります。この脳の編集能力を高めるためにはベースとなる英語表現を確実に覚え、かつ数多く覚えることです。更にその編集機能を使うために知っている英語でいろいろと表現する訓練をすることです。
英語表現を繰り返して覚えることは脳の編集機能の素材を作る意味があります。その素材をなるべく自然な音に近づけて記憶に保存します。新しい英語表現の記憶が容易になるのは編集の素材が増えるために編集して加工する働きが非常にシンプルになるからでは無いかと思っています。
人間の脳細胞は多くの細胞が関係しながら記憶をしたり、思い出したりしますので、自分が記憶した情報から新たな考えをしたり、新たな表現を編集しなおすと言うのは人間の脳であるからできる、脳の優れた能力です。人間の言語能力は本能ではないかと思われる程不思議に満ちていますが、人間が最大の見方とすべき脳の力はこの自己編集能力であり、この力により個性を作ることができます。この人間の脳の力がすべての人が違う考え方や会話する根本であり、もし全ての人が全て同じ事を考えたり同じ事を話したりすると、大変不気味な感じがするはずです。

4.7. モチベーションの維持脳には報酬系が作用しておりフィードバックがポジティブの場合に報酬系が働きます。言語はネイティブを真似る事が目的ですから、真似が上達するとフィードバックがポジティブになります。
ネイティブを真似ることでは覚えたどうかの判断ができません。覚えたどうかの判断はルールによる学習です。真似る行為にはその覚えたどうかの判断は入っておりません。

言語の習得には時間が掛かります。そのためにはモチベーションを維持する必要があります。英語学習でモチベーションの維持を図るためには自己有能感を感じる事です。自己有能感を感じるとは自分の学習方法は正しい方法であり、そして英語能力が確実に向上していることを実感する事です。
そのために正しい方法を正しい学習方法で継続して、フィードバックを得てそれを検証することです。ディープラーニングでは常に聞いた音を真似て、どんどんネイティブの発音に近づけていきます。そして繰り返す事により、忘れないで英語表現を覚えていきます。すると累積効果を肌で感じる事ができます。つまり自己有能感を常に感じる事ができます。
またこのディープラーニングの学習ではタブレットやスマホを使い、ソーシャルラーニングで皆と楽しい学習ができ、多くの人から学ぶ事ができ、意見を交わす事もできます。
自分の録音した過去の音声や、他の人と比較する事でそして自分の英語能力が向上する事が実感できます。この自己有能感が最大の学習意欲につながります。そのためにも常に自分の英語スキルに注意を払い、向上させるようなディープラーニングを心掛けます。

5. 臨界期の克服大人の言語学習には臨界期をどう克服できるかという大きな課題があります。言語習得とはこの臨界期との戦いでもあります。
しかし、臨界期を理解していればそれを克服する事は可能です。発音もネイティブに迫ることは十分に可能です。
5.1. 臨界期とはインターネットや本で英語の発音を調べるとどうしても臨界期と言うハードルが気になります。英会話を勉強している人であれば臨界期のことは承知に事と思います。人間は10才から12才頃を過ぎると音声言語の習得が非常に困難になります。特に耳で聞いて、その音を真似て言語を習得する能力や文法を身に付ける力が低くなりますがこの時期を臨界期と読んでいます。
臨界期に関しては重要な事実なのでもっと詳しく説明してあります。
人間には生まれ持って言語を耳で聞いて覚える能力を持っています。耳で聞いて覚える能力とは、聞いた音をそっくり真似する能力ではありません。幼児は声帯が非常に小さいので母親の音域よりはずっと高い周波数になりますので、音の高さは母親や短の大人の音域は低すぎて、真似をすることはできません。耳で聞いて真似をする音の特性は音と音の関係になります。例えば愛「アイ」と言う発音は絶対的な「ア」や「イ」が存在するのではありません。
大人のアイの方が幼児のアイよりはずっと低くなりますが、幼児が覚える事ができるのは「ア」「イ」音の関係を聞いてその特徴を理解できるのです。しかしこの能力はある時期をもってこの能力が非常に低くなります。それを臨界期と呼んでいます。いろいろ学説はありますが臨界期は8才から12才と言うのが通説です。臨界期が克服できないとすれば発音を良くする努力は無駄なことです。
しかし自分の発音を聞いてみてネイティブの発音と比べてみてください。ほとんどの人は自分の発音はネイティブの発音よりは良くないと分かるはずです。そして他の日本人の発音を聞いてみてください。多分自分と比べて、自分の方がうまいとか、自分の下手とかの判断がつくと思います。でも実は英語の発音を精密に音声分析しても特に音響的な特性の数値がある訳でないので機械にかけても上手いとか下手とか判断するのは非常に難しい能力なのです。
臨界期と言うのはこのように確かに存在する事実ではありますが、超えることのできない壁では無い事が分かります。それならば臨界期による弱点が存在するならその弱点を強化する練習をすれば臨界期の克服につながるはずです。
5.2. 母語の干渉臨界期を過ぎると母語である日本語を話せるためにその癖が邪魔をします。これを母語の干渉と呼んでいます。しかしこれは物理的な干渉とは違い克服することはそれほど難しいことではありません。母語の干渉には3つの面があると思います。それは文法や表現とリスニングと発音における干渉です。
文法や表現は日本語を英語に訳そうとすると良く発生します。日本語では「行ってもいいですか。」と言いますが英語ではMay I go?とは言いません。英語ではMay I come?となります。文法的には聞き手の立場から考えるからとか説明がありますが、私は表現を覚える事を勧めます。すると英語ではMay I come?とかMay I come in?とかの表現は頻繁に使いますがMay I go?と言う表現は存在しますがめったな場面でしか使われません。すると音声で表現を覚えれば日本語の干渉を完全に抑える事ができます。
リスニングでは日本語に無い音を日本語で置き換えて聞くと言う人がおりますが、これは正しい表現ではありません。犬の鳴き声は日本語では「ワンワン」で英語では「バウワウ」になります。私に耳にも確かに「ワンワン」と聞こえますが、私の耳の鼓膜の段階でワンワンと聞こえているのではありません。英語ネイティブの鼓膜の段階の音の認識と私の耳における音の認識は比べようがないのですが、常識的にはほぼ同じだと思われます。
これは物理的な音を同じように感知しているからです。しかし、私には「ワンワン」と聞こえるのはそのように学習したからです。これは単に錯覚をしているだけですから、最初の犬の鳴き声を忠実に聞くようにする事です。英語に言い換えればカタカタ英語で覚えているとカタカナに聞こえる恐れがあるので、元の聞いた発音を忠実に聞くべきです。リスニングの場合は別に日本語が干渉して別に認識しているだけで、音が干渉されて違っているわけではありません。
母語の干渉で最も根深いのが発音です。臨界期を過ぎると聞いたままの英語の発音ができ無いのです。どうしても日本語のような発音方法で英語を話してしまいます。これが日本語訛りの英語の元凶です。この原因の根源はそのような音を作れない発音器官の運動の問題では無く、自分の発音が良くない事が気にならない事が大きな原因です。そのためにはポイントを定めて録音して聞くことのより、かなりのフィードバックを得る事ができます。

5.3. 臨界期以降の学習英会話学習にはいろいろな方法が提案されていますが、理想的な英会話学習はどのような方法でしょうか。既に紹介したカリフォルニア大学の言語学のLinne Mikkelsen助教授は次のように言っています。
「言語の習得には、さまざまな過程があります。また、どのような要素が言語中枢の発達に寄与するかという一致した見解は今のところありません。しかし、長年の研究により、おおよそつかめてきているとは言えるでしょう。まず大切なのは、自分の母国語と照らし合わせて考えることです。バークレーの言語クラスでは、オーラルコミュニケーション能力の発展にまず力を入れるため、基礎的な単語や文法以外は後回しにされるか、全く別の扱いを受けながら勉強します。
言語習得の段階としては、第一段階、つまり簡単な会話を実際に行うことがまず必要と言えます。そして、聴覚がその言語に適応を見せた後、稲の刈り取りのように徐々に空間を広げていくわけです。ですから、初期段階のうちにオーディオなどで高度な会話を聞かせたり、教科書を音読させたりすることは効果的とは言えず、それ以上に的外れなことなのです。」
この中で特に「聴覚がその言語に適応を見せた後、稲の刈り取りのように」の部分が大変重要です。子供が3才くらいから5才くらいになると急速に表現を覚えますがこれに当たると思います。ではどうすれば聴覚が言語に適応を見せるようになるのでしょうか。その前に聴覚が言語に適応を見せるとはどのような意味でしょうか。これは「あるがままに音を聞いて、聞いたままに発音する」事なのですが、言い換えれば耳で聞いた表現が理解でき、すぐに自分で同じように発音できることだと思います。
この聴覚が言語に適応と言う意味は脳の学習ベレルを意味します。ディープラーニングで多くに表現事例が増えると累積効果により、パターン学習が加速され、パターン認識の精度が上がります。
これは自分が分からない英語表現でも、類似の音とか、類似の使い方により、意味や使い方が推測できる場合が多くなります。音声認識も自分が知らない単語も類似の単語のパターンから推測できる場合も増えてきます。
日本語なら気に入った表現は一度聞けば覚えられる表現がたくさんあります。だから人と話したり、テレビや映画を見たりしても新しい表現が身に付きます。英語だとそうはいきません。第一に映画などをも見ても何を言っているのか理解できない場合が多くあります。つまりこの段階では聴覚が言語に適応しておりません。これでは音を聞いても意味が理解できないし、ましてやその音を自分で再現できません。
この中で特に「聴覚がその言語に適応を見せた後、稲の刈り取りのように」の意味は一度聞いただけでも覚えられる単語や表現が増える状態を言います。英語の映画や動画を見ていて、楽しみを感じる場合です。全部が聞き取れなくでも、6~7割くらの英語が聞き取れれば、スジを追う事ができます。
そして一度だけ聞いても覚えられる表現も増えてきます。すると自分の使える英語表現は加速度的に増えてきます。
事例基盤の学習の利点は文法を基盤とする学習より、どんどん学習が楽しくなる事にあります。

5.4. フィードバックの活用コップを持ち上げるつもりで重い石を持ち上げたときのように力が入ってコップが天井まで飛んだりしないのもこのおかげです。発音器官の筋肉も同じシステムで動きますが言葉の場合は。スポーツや音楽や芸能すべて筋肉を使う場合はすべて同じで、フィードバックを得て繰り返すのが練習の基本です。しかしスポーツや音楽や芸能は目で見てフィードバックを得ることができますが、発音の場合は発音をしながら同時に音で聞くしかないのです。
スポーツでも勉学でも学習をする時にはフィードバックが大事です。学習におけるフィードバックとは自分の出力がどうであるかを知ることです。言語には正しい基本となる音がありません。ネイティブを真似るためには、自分の真似がネイティブに似ているかどうかの判断です。このフィードバックで似ていると判断するが非常に難しいのです。言語音の調音は暗黙知ですから、文字で説明ができません。似ているか似ていなかは特徴をどう捉えるかで決まります。
まったく同じように話す事ではありません。つまり自分の性格とか、年齢とか、性別とか、個性は日本語を話す時と同じです。真似るべきは英語の音の特徴です。
言語音には静的特徴と動的特徴があります。静的な特徴が性格とか、年齢とか、性別とか、個性に当たるものです。
真似るべきはその動的特徴です。特に大事な部分は音の変局点であり、リズムやイントネーションを似せる事が大事になります。また対訳集や表現集を使い、日本語訳をみて英語を想起する練習も効果的です。これなら覚えていない英語を集中的に勉強する強化学習が可能となります。

5.5. 時間差フィードバックそれではなぜ録音すると発音の練習に効果的なのでしょうか。人間の発声も生理的にはスポーツと同じ100%の筋肉運動です。筋肉を制御するメカニズムは他の運動と同じです。基本的に他の体のシステムと同じように人間は筋肉を制御するのに、フィードバックに頼っています。
しかし、自分の発音と他の人の発音がどちらが上手であるとかは判断できるのです。それならば録音をして今日の録音した発音と、先週録音した発音を聞き比べれば自分の発音が良くなったかどうかは判断できるはずです。
人間の発音も特に各母音に音響特性があるのでは無く、前の音との相対的な関係で音を識別しますので、自分の発音のフィードバックを聞きながらその相対関係が維持できるような発音をします。この調整なしには正しい発音の方法はどのようなものかの言葉の説明を受けても、口の動きをビデオで見せられても正しい音にはなりません。
最終的には発音して本人が聞いて、本人が修正する以外に正しい音は出せません。この我々が持つフィードバック修正機能を英語の発音にも応用すれば英語の発音が磨けるはずです。その観点から見ると、ディレクト・メソッドもシャドーイングもフィードバックを得て修正するプロセスに欠けています。
正しい発音ができないのは臨界期を過ぎて音を聞き取ったり、調整したりする能力が弱くなっているのです。でもほとんどの人が自分の発音と本物は違うとはっきりと分かっています。臨界期を過ぎた人でもまったく聞く力が無くなるのではなく、かなりの能力が残っています。英語の発音がまずい人でも他人の英語の発音がうまいとかあの人は英語ネイティブとか違うとかは聞いて分かるのです。
これはどうしてなのでしょうか。それは自分が理想としている英語と自分の英語の違いを聞き分ける能力はあるのです。大事なポイントはある程度英語を聞いた人にはすでに理想の発音は頭脳にあると言うことです。また自分の発音と理想音の違いが分かる聴覚を持っているという事です。それならば聴覚をもう少し鍛えてその違いを直すことができないかと言うのが発音練習の最大のねらいです。
なぜ違いを聞き取れるのにその違いを矯正できないのでしょうか。私はその疑問に数十年間答えられませんでした。しかし発音に関心を持って研究してみるとその理由は発音練習において自分が今どこにいるか分からないまま目的地を目指してからでした。つまりネイティブの音だけを真似ようとして自分が現在どのレベルの発音をしているのかを理解していませんでした。その結果、自分の発音が良くなる方法、そしてそれをチェックする方法を取り入れてなかったのです。
良い例が、走り高跳びをする時にバーを2メートルに設定して飛べない、飛べないと嘆いていたのです。つまり1メートル30センチはとんでいたかどうかも分からないで2メートルを飛ぼうとしていたのです。1メートル30センチが飛べないなら何が手なのか足なのか踏み切りなのか問題を知れば、その対策ができます。
もし1メートル30センチが飛べるとその能力が付いた事も確かですが、飛べた喜びが1メートル31センチのチャレンジしたい気持ちが沸くことです。この気持ちの高まりにより、練習が非常に積極的になり更に学習効果を高めてくれます。録音するのは今何センチを飛んでいるのか、また飛べたかどうかです。音の場合には飛べたかどうかも音で判断しますので聞く練習になり音感が高まります。また飛ぼうとする練習をしている間に細かいノウハウも身に付いて発音技術は飛躍的に高まります。

5.6. 英語と日本語の特徴まず音のストリームをどのようにコントロールするかが英語発音の大事なポイントになります。音のストリームを調べてみるといろいろ疑問が湧いてきます。英語が音のつらなりならばそれでは日本語ではどうかも考えてみました。なるほど日本語でお経を読むときの音は音がつながっています。しかし普通の日本語では言葉をお経のように話すとだらしなく聞こえますので普通の会話ではそれぞれの音に区切りをつけて話しています。最初は自分の英語を繰り返して聞いてみるとなるほど音を日本語のように区切っておりました。それでは日本語はどうやって音の区切りをつけているのか疑問が出てきました。
何度も日本語を発音してみました。日本語を話している時はほとんど無意識で話しているため自分でも日本語でどうなっているか分かりませんでした。何度か繰り返しているうちに日本語の音を区切っているのは横隔膜の運動だと分かってきました。横隔膜で押して圧力をかけ、息が出て腹の圧力(声帯の内側)と口(声帯の外側)の圧力の差が無くなることにより音がわずかに区切られているのです。音を区切っているのは声帯でも唇でも舌でもありません。摩擦音や破裂音に関しては音の始まりは舌や唇が関与していますが一音の終わりは声帯内側の圧力がなくなることにより音が終了しています。
日本語はどこで発音を止めても何も苦しくなったりしません。日本語は常に横隔膜で常に圧力を調整しておりその調整作業を最も楽にするため出た息をほとんどムダの無いくらいまでに音に換えているのです。圧力で音の区切りをしているため音の区切りは存在しますが不明瞭な音区切りとなります。また横隔膜は微妙なコントロールをされながら少しずつ上に押し上げられますのでリズムとイントネーションはつかずに大変フラットな音になります。もし意識してリズムとイントネーションをつけるとそれに合わせた横隔膜の運動が必要になります。

5.7. リズムとイントネーションニューズウイークの2004年7月7日号の“英会話の科学”では日本語は拍で音の認識をしているが英語はストレスで認識しているとの記事がありました。ですから英会話の言葉は一連の音のつらなりであり、始めから最後までのリズムやイントネーションが非常に大事になります。リズムとイントネーションは日本人で比較的に覚え易いものです。日本語の発音スタイルでも真似ることができます。
日本人で英語の発音はうまいけどなんか日本人くさいというのはほとんどがリズムとイントネーションをうまく学習している人です。ネイティブの発音で一番真似やすいのがリズムとイントネーションなのです。英語で一番特徴的で聞きやすいのがリズムとイントネーションなのです。臨界期に関係なしに聞き取ることができ、話しながらでも上手く真似ているかどうか判断ができます。ネイティブに教えてもらうダイレクト・メソッドの弱点の一つがリズムとイントネーションだけの真似です。
英語を聞く人はストレスをたよりに聞いているといいますのでリズムとイントネーションは一番大事な要素です。リズムとイントネーションを真似をすることが良くない訳ではありません。リズムとイントネーションだけでもかなり英語らしく聞こえますのでほとんどの人はそれで満足しています。ではなぜ更に次を求めるのでしょうか。それはリズムとイントネーションも必要性があって存在しているものではありません。私の英会話40年の経験からは発音を良くするためにも、英語を覚えるためにもそれなりの時間がかかります。しかしそれが楽しいものであればその時間はまったく問題ありません。私の脳を生かす発音とリスニング練習は発音の矯正のために始めたものですが、英会話学習そのものに大変適しているものです。

5.8. リアルタイム聴覚モニター言語を話す時には常にリアルタイム自己聴覚モニターが働いております。これは言語音を話しながら常に調節する能力です。
たとえば骨伝導も含め、自分の声がまったく聞こえない状態にすると母語の日本語でも話している日本語の調子が外れてきます。
これはリアルタイム自己聴覚モニターが働かないために、音の調節ができないからです。臨界期を過ぎると聴覚が悪くなり、音の調節が下手になります。第二言語を習得する場合にはリアルタイム自己聴覚モニターも働かないため英語の発音が悪いままとなります。
そのために第二言語として臨界期以降に英語を習うのであれば、リアルタイム自己聴覚モニターは無理なので時間差の自己聴覚モニターを使います。つまり録音して、後からフィードバックを得て自分の発音を診断することです。
英語の発音が上手になると自分が発音をしながら、自分の発音の診断もできますから、録音しなくてもある程度の調節ができるようになります。しかし、最初の段階では自分の発音を聞いて、悪い部分を直す方がモデル音を真似るよりは、はるかに上達が速くなります。
シャドーイングは英語を覚えると言う練習なら意味があります。しかし、音を聞きながら発音するのですから、自分の発音のモニターは何もできておりません。できるなら聞きながら練習をするのではなく、聞き終わってから真似をすべきです。そうするとリアルタイムの聴覚モニターが使えます。
録音して時間差のフィードバックを得る事は良い方法です。しかし、録音と再生の時間が必要になります。
難しい事ではありますが、できればリアルタイムで自分の発音をモニターできるならその方法が理想のフィードバックを得る方法です。

6. 自己教示学習言語と言うのはなぜディープラーニングにより、教えてもらわなくても自分で学ぶ事ができるのでしょうか。そして自分の英語の発音を自分で聞いて本当に矯正できるのでしょうか。
それは言語知識というのは形式知のように文字や記号で説明できない暗黙知であるからです。暗黙知を学ぶ場合には脳のようなディープラーニングが必要となります。
6.1. ベイズ理論言語音はだれも説明ができない音です。それでもコミュニケーションが可能です。事例データを使い統計的に予知できるというのがベイズ理論です。それは説明できなくてもその事例を多く学ぶ事により、正しい解答に近づく事ができると言う考えです。
最近ではメール等でお勧めが送られてきます。これも脳のようなニューラルネットワークを使い予測したものです。過去に購入した商品から、顧客は何が好きかは分からなくても予測できると言う考えに基づいています。
これは事例とか実際の行動から推測できるので、最終的な解答や説明は必要でありません。
言語の音声も、また言語の基本も文字や記号で説明できません。しかし、多くの事例を学ぶ事で正しい発音や正しい使い方ができると言うのがベイズ理論です。
言語の音声も、また言語の基本も文字や記号で説明できませんから、先生が教える事はできません。

6.2. 音素は錯覚の音英語や日本語の発音において正しい音とか、正しい発音とか言いますが、では正しい音は何かと言われても物理的な音響特性で定義はありません。現実的には音声を音素のような音の最小単位に切り離すことさえ不可能なのです。音声学の本でも日本語の「あ」をどう発音するか記述することはできてもどのような音であるかを周波数などで規定することはできません。
できないと言うよりは言語の音には固定された音響特性が無いからです。現代言語は相対音感ですので、音と音の相対的な関係で音が決まります。一般的な成人男性をとれば「あ」の音はある程度に範囲になるかもしれませんがその物理的な数値が「あ」を決めているのではありません。幼児の「あ」とは周波数でみれば大きく違いますが同じ「あ」として認識できます。
それでは「あ」と言う音をどうして他の人が「あ」と認めてくれるのでしょうか。それは話す人が他の音との関係で「あ」となるように調整して分かるだけなのです。音声認識の技術者は特定話者のシステムは認識率が数ヶ月もすると悪くなると言っているところをみると人間の音声の音程は数ヶ月単位で変わっているようです。大人になっても「あ」の周波数はある程度ふらついた状態のです。
しかし話す言葉が不安定に聞こえる人はまずいません。それは各音素の音程は不安定でもその音の関係を安定的に保つ事ができるのでまったく問題ないのです。人間の声帯や他の発音器官も常に同じ状態でないのですから、もし同じ音程で話さなくてはならないとすれば、大変苦痛なことです。
音素に物理的な定義が無いと言うのは体の成長やコンディションに影響されないので生物らしい大変柔軟性のある仕組みです。しかしこの物理的な定義がないから別の発音や聞き取りの問題が発生します。
元MIT、現在のハーバードの認知学者のピンカー博士はcatとから3つの音素を取りだせないと言っています。それは3つの音素の境界はなく、3つの音素が全体にまたがっているからだそうです。つまり、音素が聞こえるのは錯覚だと言っております。

6.3. 言語音の調整日本語で話す時は最初にどのような音で話し始めているのでしょうか。実は母音は次の音を出すときに前の音との関係で次の音が理解でるように音を調整します。これが相対音感の特徴なのです。相対音感ではどの音で始まる事ができますが、常に音を調整しなければなりません。
ではその最初の音はどう出すのでしょうか。自分の経験から一番作り易い音を使っています。言語は音楽に似ていますが、音楽の演奏の場合は調音と言って音を調整します。
オーケストラの場合には調整し難いオーボエの音に合わせます。しかし、言語音にはその調音は必要ありません。言語音はどんな音で始まっても相対的な音を保てば十分に機能するからです。
音楽の場合は楽譜があります。そしてその楽譜上の音は周波数まで決まっています。オーケストラの場合も楽譜がありますが、もっと音を合わせる必要がありますから演奏前に調音をします。
言語音は楽譜もありませんし、音も決まっておりません。その結果として常に相対的な音を保つ必要があります。英語でも日本語でも常に音を聞きながら調節しています。
自分の声がまったく聞こえない状態で日本語や英語話すと調子が外れてきます。音の調整ができなくなるからです。
言語音ではまずおおよその音を出して自分で聞いて常に調整しながら話しています。英語でも日本語でも音の絶対的な特性があるのではなく相対的なものであるために常時調整する必要があります。「あ」の音が絶対的に存在するのではなく、「い」の音を出すならから「あ」始まって相対的に「い」の関係になる音を出します。その相対的な関係を維持できるから人間は体に合わせて声帯が成長し音の調子はだんだん低くなっても問題なく明瞭な発音が可能です。特に男性の変声期にはがらりと音が低くなりますのがまったく問題無く話せるのはそのためです。どんな音で始まっても良い大変に柔軟性に富んだメカニズムですが、常時調整する必要がでてくるかなり高度なシステムです。
でも人間の発声器官は楽器としては大変アバウトなものですから、聞く場合にはアバウトの音を言葉として認知するために更に難しい技術が必要となります。その認知の方法が記憶して、その記憶と照合する方法です。
言語は常に自分で調整して発音しているので、自分自身が学習して学ぶ必要があります。

6.4. 発音は自己修正音声学の牧野武彦氏は次のように書いています。「なお、説明に従ってやってみて出せる音と、耳を澄まして聞いて真似をして出せる音が食い違っている場合、自分の耳の方を信じてください。説明はあくまでも最大公約数的な手助けで、万人に効くとは限らないからです。」英語の発音の本では自分で発音を判断するのは難しいからそれは無理だと言う人がいます。では発音を良くするために誰が、どのような形で評価するのが一番理想的でしょうか。
英語の本や英語学校ではネイティブに発音を判断してもらいなさいと言います。それでは地方の訛りを矯正したい人に、標準語を話せる人が適切なアドバイスができるでしょうか。標準的な発音を聞かせる事はできるかもしれませんが、他に何のアドバイスができるでしょうか。
このように英語のネイティブといえども母語の発音は自分で矯正しています。その方法はネイティブを真似る方法です。真似るとは特徴を少しずつ抽出するのですから、自分できても、それを説明できません。
英語を話すとい知恵は自転車に乗ると同じように、文字で説明できない暗黙知です。自分でしか学ぶ事ができないのですから、その音の調整も自分でしかできません。

6.5. 音声認識ソフト 翻訳システムも音声認識システムも形式知であると思っていたためにデジタルのコンピュータで半世紀以上も研究されてきました。しかし、西暦2000年頃になるとコンピュータの性能もプログラムも進歩したのに音声認識の精度も限界を迎えました。
当時の音声認識は音素ベースであり、音声を小さな音の単位に切り離し、そしてその音の断片の音素を特定して、その音素の並びから単語や熟語を認識すると言う手法です。
しかし、問題は音声に音素が規則正しく並んでいないため誤認識が多くスペルチェックなどで補正しても精度に限界がありました。
そこで西暦2000年頃からは言語は形式知ではない、暗黙知ではないかと考える研究機関が多くなりました。暗黙知として扱うシステムにより、翻訳や音声認識の精度がどんどん上がりました。
Baidu(百度、バイドゥ)は中国最大の検索会社であり、人工知能でも研究開発を加速しています。人工知能ではGoogleがトップを走っていましたが、2016年頃は音声認識ではBaiduが首位の座を奪ったようです。音声認識はシリコンバレー人工知能研究部門が手掛けています。
Deep Speechとは、人間の脳の構造を模した学習モデルのDeep Neural Networkを使った音声認識技術を指します。音声領域でNeural Networkを多層に展開することから、この名前が付きました。
人工知能の技術開発が大きく進展しているのですが、音声認識の領域は遅れており、まだ人間による聞き取りが、ソフトウエアの性能を大きく上回っています。特に、騒がしい環境での発言や、訛りのある言葉をシステムが聞き取るのは難しいのです。普通の自然な会話を聞きとるのは非常に難しいのです。
最近では画像解析にDeep Neural Networkを適用し、認識率が格段に向上しましたが、同様に音声認識にDeep Neural Networkを適用することで、性能が格段に向上しています。しかし、音声認識の最大の課題は、画像と異なり入力信号の長さが異なります。画像認識では、異なる大きさの画像は特定の大きさに正規化できますが、音声ではこの処理ができないのです。入力シグナルの長さに応じて、モデルを変える必要があります。
このため、Deep SpeechはRecurrent Neural Networkというモデルを導入しました。RNNはフィードバックループを含んだNeural Networkを指し、時系列なデータの入出力で使われています。Deep Speechで適用されるRNNは五階層のネットワークから構成されています。
RNNは入力された音声スペクトラムから学習するだけでなく、一つ前のタイムステップからも学習できます。入力音声のデータサイズは異なりますが、音声スペクトラムごとに処理するので、異なる長さのデータに対応できます。
Deep Speechの性能は上述のモデルだけでなく、教育データにも依存する。画像認識と異なり音声認識では、教育データとなる音声とトランスクリプトのデータセットは少なく、これらをどう準備するかが大きな問題となります。
Deep Speechは学習用のデータを人為的に生成する手法でこれに対応しました。通常の音声認識ソフトは音素辞書を介在させますが、音声から直接テキストに変換し、シンプルな認識でスピード上げました。これは人間の音声認識に似た仕組みで、シンプルな構造から学習効果を反映できます。
また学習データにノイズを組み合わせ、データ量を大きく増やしました。自動車の中でスマホに音声で入力するような環境も実現しており、実社会に近い環境を生成することに成功しました。
人工知能の事例基盤の音声認識は音声のデータからその特性の似た音を選び、その音のテキストを音声認識の結果とします。
この仕組みを見れば、スマホやタブレットで英語の音声認識をさせて認識結果が出た時は正しい発音であるから認識結果が出た訳ではありません。正しい音素が規則正しくならんでいないのですから、正しいかどうかの判定はできません。
統計的に判断してネイティブの登録された音声に似ている音声があったというだけの事です。もちろん正しい音が存在しないのですから、発音を採点する事も不可能です。
悪徳サイトでは音声認識ソフトを使い英語発音練習を勧めている業者もいますが、統計的な類似性の判断ですから、避けるべき判断方法です。
類似性のマッチングをやっていますがその類似性も独自に使った方法で類似性を判断していますから、正しい発音であるかどうか分かりません。認識しなかったのに、練習して認識されるようになったら、それは発音が良くなったというよりは、その音声認識ソフトの判断基準に合わせただけに過ぎません。
言語の音声は連続的に変化する音のストリームであり、ネイティブの音声にも正しい音素が並んでいません。当然英語を学習している方の音声にも音素は並んでおりません。
正しい基準が無い音声において、正しい発音とか、その評価はできません。確かのそれをやっているサイトやアプリが存在しますが、勝手に判断しているもので、発音が良くなるものではありません。
ELSAと言うソフトはネイティブレベルの何%と言う判断をします。つまりネイティブにどのくらい近いかと言う判断です。ネイティブの音声にも音素が並んでいません。もちろんその音素の物理的な特性もありません。存在しない音に対してネイティブレベルの何%の判断や計算はできません。それより英国英語も米国英語もあり、それぞれのネイティブレベルの何%と言う判断も違ってくるはずです。
ソフトの判断基準を満足させているに過ぎません。

1

シェアする

  • このエントリーをはてなブックマークに追加
  • Evernoteに保存Evernoteに保存

フォローする