発音練習の使い方

ディープラーニングの学習では特別な発音練習はありません。それは発音、文法、表現、使い方、リスニングを同時に学習するのがディープラーニングです。しかし、臨界期を過ぎて母語の干渉を受ける場合には、ネイティブを真似ると言うのはそう簡単ではありません。

ここではネイティブの発音に慣れるために300の表現集を使って音のストリームの発音練習ができます。

ディープラーニングはネイティブを真似ますから、最初から最後までが発音練習と呼べるかも知れません。

ここではこの発音練習について説明します。

1.教材

ここでは300の表現集を使い、発音練習をします。表現集の01から06までを使用してあります。

この表現集は特に発音を意識して作られていますので、同じようなパターンが並べてあり、発音練習には最適だと思っています。

発音練習するためには幼児が言葉を覚える時と同じように、短い表現から覚える方が覚え易くなります。真似るのが簡単な音から覚えていきます。

2.発音練習の進め方

言語の基本はネイティブを真似る事です。そしてフィードバックで矯正と修正をします。英語(言語)の発音は発音記号を並べる事ではありません。

すべての言語は人間の叫びは動物の発生する音を真似る事から発達しました。極端な言い方をすれば言語は類人猿の鳴き声が非常に進化したものでるので、音声の持つ物理的な特性とか学習方法は通常の動物と基本的には同じです。

音声の場合にいろいろな意味を込めたメッセージを音にして情報を交換しまので、言葉を使う人が意図した内容を聞いた人が同じように理解しなければなりません。

音声は複雑ではありますが、その仕組みとは文法のような体系化された規則や音素のようなものではありません。記述はできなくても、人々が理解できるコミュニケーション手段としては現実に使われていますから、文字では説明できない暗黙知として存在します。

また、言語の起源から見れば分かるように、全ての言語はその規則や基本となる音素が先に作られて言語が複雑な言語が構築されたのではありません。

いろいろな新しい表現がどんどん作られ、皆が使い、皆が継続的に使われている表現が残っていきます。言語表現は全てがランダムな音ではなく、文字で説明できませんが、相互が理解できる仕組みは存在しているのです。

3.音声は音のストリーム

Linguisticsと言うタイトルの本では、実質的なEnglishの分析を行っています。他の言語がどうなっているかの例として日本語が英語と対照的に取り上げられています。

この本の中で音声を、continuous streams of soundと表現しております。日本語にすれば連続的な音のストリームとでも訳せるかも知れません。音声は音のストリームなのです。言語学の権威ある本はcontinuous streams of soundと言っているのですから、音声が音のストリームであるは紛れもない事実です。

では日本語の発音を我々日本人はどうやって覚えたのでしょうか。

日本語はまわりの大人つまりネイティブの音を真似しました。そして自分で聞いてフィードバックを得て矯正や修正をしたのです。それがトップダウンの学び方です。全体的な音声のゲシュタルトである、形を優先します。大事な要素は細かい音ではなく音の全体的な形です。

具体的にはリズム、イントネーション、速度等が大事になります。

4.連続性を重視

音声の実体は連続的に変化する音のストリームです。しかし、科学者が電子的な機材や人工知能を使い、音声をかなり詳しく研究し音声認識の実証ができるようになったのは西暦2000年の頃です。

これらの音声を研究や分析するのが音声学です。電子的な科学分析や脳科学と共に幅広い研究がなされるようになりました。

言語音は音素を発音したり、音素を聞き取るものでありません。言語音は音のゲシュタルトつまり音の全体的な形を発音したり、認識しております。

音声の形を捉えるためにはまとまりが大事です。音が切れてしまうと音の形も切れてしまいます。

音の形を捉えるためには全体像が必要になります。するとその全体像は音が連続性がある事によって捉える事ができます。

5.音声情報の特性

全ての言語は音声言語が基本です。言語は音声が先に生まれました。現在では文字情報の方がネットや印刷物で良く使われますが、音声情報の方が基本であり、学ぶのであれば音声言語の方が効果的な学習が可能になります。

音声情報なら文字の知らない幼児でも学習できます。音声言語の方が学ぶのが楽なのです。しかし、一般的には大人は音声言語があまり得意ではないと思われており、そのために論理的な文法で学ぶ方が良いと言う考えになっています。

音声言語の方が学び易いのは子供だけでなく、大人にも同じ事が言えます。その理由は音声情報と文字情報の大きな違いがあります。

文字情報とは一般的に紙や画面を使います。つまり縦と横の2次元の情報です。しかし、音声情報は縦と横と高さと時間の変化をもつ4次元の情報となります。情報が2次元から4次元になる事により、膨大に増える事になります。

言葉を文字で表現するとその意味しか伝わりません。しかし、電話で誰かと話せば年齢、性別、感情、教養、性格、文化、地域まである程度は分かります。どうして分かるかと言うのは暗黙知ですから説明ができなのですが、確かにそのような事は分かります。

英語を音で覚えると、意味、文法、使い方、感情の込め方まで学習できます。多くの情報が付加されているためコミュニケーションが楽になります。そしてもちろんそれだけの情報が含まれているからコミュニケーションが楽しくもなります。

全ての母語は音声言語から学習するにはそれなりの理由があるのです。その複雑な音声情報にはいろいろな情報が含まれているので、その情報を理解する、そしてその情報を自分でも使うとより楽しい英語学習となります。

6.ディープラーニング

音声は連続的に変化する音であるために、発音において基本となる音素を学んで並べる学習方法では効果的な学習ができません。

音声を学ぶ唯一の方法は日本語の習得と同じようにネイティブを真似る事です。そしてフィードバックを得て、修正と矯正をすることです。

達人を真似る学習方法はディープラーニングとも呼ばれる脳の効果的な学習方法です。まわりの正しい発音を真似る事によりだんだん正しい発音に近づいていきます。正しい音が存在しないのですから、通じる発音に近づけていきます。

ネイティブを真似るプロセスは音の特徴を捉える学習です。しかし、真似る行為は単に音を捉えるだけでなく、反復練習により手続き記憶として自動化され、長期記憶に保存されます。

学習とは忘れないように覚える事であり、試験勉強のように忘れてしまうのは本当に意味の学習になりせん。

日本語でも英語でも言葉を話す時には文法を意識して話す事は無理です。多くの日本の英語学習者を文法で話そうとしますが、表現が不自然となり、発音も自然な発音にはなりません。

日本語だって発音を意識しないで話せるのは自動化されて保存されている記憶を使っているあからです。

7.発音は自己修正

我々日本人がもし日本語を話す外国人の発音の評価を聞かれたら何と言えるでしょうか。上手とか下手とか言えますが、正しいとか、間違っているという評価はできません。点数を付けるのも難しいと思います。それは正しい音が存在しないからです。日本語の正しい音だと言う事を日本人の我々でも証明できません。

では我々は日本語の発音をどう学んだのでしょうか。単に周りの人つまり日本語ネイティブの発音を真似たに過ぎません。実際にはそれらしい音を出しているにすぎません。

これは英語ネイティブも同じ事です。彼らも英語ネイティブの真似をして発音できるようになっただけです。臨界期はあっても発音を矯正できるのは自分だけです。その方法はネイティブの発音と自分の発音を比べる事です。そのためにはフィードバックを得る方法が良い方法です。

発音は正しい音を並べる事ではなく、ネイティブの発音の特徴を真似、そして発音のし易い最適化された音を目指します。

するとその最適化をするとプロセスにおいては実際に調音している本人しか判断できません。そのような発音においてネイティブであろうといろいろな指導を受けるのは、あまりお勧めできる事ではありません。

誰かにアドバイスを受けるより、自分でフィードバックを生かす学習をすべきなのです。

8.自動化と最適化

発音練習の最大の目的は発音をネイティブに近づけるためというよりは、忘れないように覚えるためのものです。少なくとも我々にとって日本語の発音はそうでした。しかし、特に臨界期以降に学ぶ英語の発音はそんな簡単なものでありません。

英語の発音が難しいのは発音練習の方法に問題があると思っています。間違った方法とは発音記号を並べて単語の発音練習、単語を並べて英語の表現を発音しようとするからです。つまり音を積み上げていくからなのです。

日本語の発音は積み上げ式ではなく、全体的な発音から始めています。その結果日本人の日本語は自然なきれいな発音になっています。英米人の英語の発音に練習も我々の日本語と同じです。

言語の発音とは正しい音を並べるのが目的ではなく、話すためには覚える事が先決です。つまり覚え易い音を模索する必要があります。覚え易い音とは自然な音であり、自然な音とは最適化されている音なのです。

人間は発音器官の筋肉を使って言葉を話します。我々が野球のボールを投げるのを練習すると、練習を続けていく成果として自然に動作が投げ易くかつ飛び易い動きに収束して行くように思われます。あたかも筋肉が物理的な効率の良い動きが知っているようになります。

例えばオリンピックの水泳の選手は速く泳ぐ事が目的ですが、結果的には全員がきれいなフォームしています。あのフォームも形を教えられたものでなく、選手がなるべく速く泳ぐための最適化の結果として、全員が同じ型になるのだと思います。

発音の場合にもある音の羅列を発音しようとしたときには、自然に調音の動きを少なくし、横隔膜や舌や口唇などの構音器官に負担が少なくなるように学習していくと思います。発音がなぜ重要か理解していただけると思います。

9.習熟すると省エネ活動

脳と記憶の原理を知ると英会話を話すためには余程脳が高速に働かなければならないように感じます。コンピュータ的に考えれば情報量が増え判断が多くなるので必然的にCPUの働きは活発になるはずです。しかし実は脳の動きはそうではないのです。脳はコンピュータとは違った大変な能力を持っているのです。短く言えば英語や発音に習熟すれば脳の負担は劇的に減るのです。

2005年2月16日の日経新聞に東京大学の酒井助教授が“英語を習熟すれば脳の活動を節約”を発表したと言う記事が掲載されていました。これは英語を習い始めた中学1年生と英語に習熟している東大生を対象に英語の文法テストをして機能的磁気共鳴画像装置のfMRIで観察した結果が出ていました。実験の結果中学生が英語の学習を始めると少しずつ脳の活動が増えていきます。学習によって脳が活発に働くようになったのです。しかし脳はこのまま情報量に応じて働きが活発になるのでなく習熟してくると脳の動きはドラマチックに少なくなると言うのです。

大学生では英語に正答率が高い学生ほど、左のこめかみの奥にあるブローカ野の文法中枢への血流集中が見られず、エネルギーを節約していることが分かったのです。正答率が低い学生では、文法中枢が活発に働いていることが分かりました。英語が十分に身についた学生では、こめかみの奥にある脳の文法中枢が少ないエネルギーでも働く省エネになるらしいのです。

英語に習熟すると脳の回転が速くなると思われがちですが実は脳の回転は遅くなるのです。これは英会話学習に大事なヒントを与えてくれます。英語では文法においても習熟することが非常に大事であるということです。残念なのはこの実験が文法であったことです。私は自分の体験から文法よりは発音の方が習熟度が省エネに貢献するのは遥かに大きいと感じているからです。

このような省エネ処理ができるのは脳が記憶に依存しているからです。脳細胞の処理速度は以外に遅いので、学習した結果を蓄積しておくのです。人間が非常に複雑な事ができるのはリアルタイムの処理が速い訳でなく、学習した結果を忘れないで覚えておくことができるからです。

脳の負荷とすれば学習して覚えようとしている時の方が大きくなります。習熟すると省エネになるのは、習熟すると単に記憶を使うだけになるからです。

発音の練習はどこから始めるべきでしょうか。一般的な発音教材は発音記号の発音から始まるのがほとんどです。音声の認識は音素ではないと言う人も発音記号を練習の基点として始める事を勧める人がいます。発音教材では教材が教える音が標準で会話では音が崩れるとか、音がくだけると言っておりますが発音の標準的な音は何でしょうか。言葉には標準的な音の定義がありません。音声学で記述している音の説明は典型的な音であって、誇張すればあのような音になるという説明し易い音です。しかし音声学で説明する音にしたがって発音すると、発音し難く、聞き難い音となります。発音の運用面から言えば標準ではありません。

10.口の形は重要ではない

発音教材には口の形が重要だと言う教材も教室もたくさんあります。しかし実際にネイティブの画像を見ても、自分の口を見ているわけでないので自分の口の動きが良く分からないのです。教材には鏡で見ると良いと書いてありますが、実際に顔を鏡で見ると鏡を見る事で発音がおろそかになります。

自分の口の形を見ることができないので、その口の形を真似る事は無理な事です。日本語の発音を覚えた時に母親の口の形を真似たのではなく、聞いた音の流れ、その音の全体的な形を真似したのです。音の流れを真似るのですから、発音で大事な事は自分の発音がどうなっているか聞く事です。

発音しながら自分の発音が聞き取れない場合は録音して時間差のフィードバックを得る事です。

反復練習は繰り返し発音を練習することです。しかし、反復練習では通常は回数をこなすことで発音が楽になる事がありますが、必ずしも発音がより正しくなっているのではありません。これは慣れただけの事ですから、その音が聞いた音の特徴に似ているかどうかは別の問題です。

極端な場合は英語のカタカナ式発音でも繰り返す事により、発音としては楽になっていきます。例えばシャドーイングと音読は確かに発音の練習になります。例えば日本語でも台詞を何度か繰り返すと発音易くなるのと同じです。大事な事は外国語の場合の場合でも回数を繰り返すだけでは発音は正しくなりません。

発音矯正は正しい発音に近づける行為ですが、必ずしも回数を多く繰り返すのでなく、自分の発音のまずいところ探しそれを矯正する意識を持って練習します。

11.音声認識AI    

翻訳システムも音声認識システムも形式知であると思っていたためにデジタルのコンピュータで半世紀以上も研究されてきました。しかし、西暦2000年頃になるとコンピュータの性能もプログラムも進歩したのに音声認識の精度も限界を迎えました。

当時の音声認識は音素ベースであり、音声を小さな音の単位に切り離し、そしてその音の断片の音素を特定して、その音素の並びから単語や熟語を認識すると言う手法です。

しかし、問題は音声に音素が規則正しく並んでいないため誤認識が多くスペルチェックなどで補正しても精度に限界がありました。

そこで西暦2000年頃からは言語は形式知ではない、暗黙知ではないかと考える研究機関が多くなりました。暗黙知として扱うシステムにより、翻訳や音声認識の精度がどんどん上がりました。

Baidu(百度、バイドゥ)は中国最大の検索会社であり、人工知能でも研究開発を加速しています。人工知能ではGoogleがトップを走っていましたが、2016年頃は音声認識ではBaiduが首位の座を奪ったようです。音声認識はシリコンバレー人工知能研究部門が手掛けています。

Deep Speechとは、人間の脳の構造を模した学習モデルのDeep Neural Networkを使った音声認識技術を指します。音声領域でNeural Networkを多層に展開することから、この名前が付きました。

人工知能の技術開発が大きく進展しているのですが、音声認識の領域は遅れており、まだ人間による聞き取りが、ソフトウエアの性能を大きく上回っています。特に、騒がしい環境での発言や、訛りのある言葉をシステムが聞き取るのは難しいのです。普通の自然な会話を聞きとるのは非常に難しいのです。

人工知能の音声認識の仕組みは多くの音声とテキストからなる事例基盤です。音素を介在させておりません。人間の音声認識と同じように音の特徴から似た音をマッチングしています。

この仕組みを理解できれあb、スマホやタブレットで英語の音声認識をさせて認識されたと言う事は、正しい発音であるから認識結果が出た訳ではありません。

音声には正しい音素が規則正しくならんでいないのですから、正しいかどうかの判定はできません。正しい音が存在しないからネイティブを真似て学習せざるを得ないのです。

人工知能で音声を判断しても、それはソフトの判断基準を満足させているに過ぎません。