発音練習

サイト内検索
Search
Exact matches only
Search in title
Search in content
Search in excerpt
Search in comments
Filter by Custom Post Type

 発音練習

ディープラーニングの学習では発音練習はありません。でも言い方を変えるとディープラーニングはネイティブを真似ますから、最初から最後までが発音練習と呼べるかも知れません。

英会話は音声を使い、コミュニケーションをするために、その音声がどのようなもので、どのような練習する事で発音が良くなるか、どうしてそのように発音が良くなるかも説明します。

1.言語の起源

すべての言語は人間の発する音声から発達しました。極端な言い方をすれば言語はサルの鳴き声が非常に進化したものでるので、音声の持つ物理的な特性とか学習方法は通常の動物と基本的には同じです。

音声の場合にいろいろな意味を込めたメッセージを音にして情報を交換しまので、言葉を使う人が意図した内容を聞いた人が同じように理解しなければなりません。

音声は複雑ではありますが、その仕組みとは文法のような体系化された規則や音素のようなものではありません。記述はできなくても、人々が理解できるコミュニケーション手段としては現実に使われていますから、暗黙知として存在します。

暗黙知であると言えるのは、文字や記号で説明できませんが、英語でも日本語でも音声で対話が可能であり、誤解は生じるものの十分にコミュニケーションは可能です。

また、言語の起源から見れば分かるように、全ての言語はその規則が先に作られて言語が複雑な言語が構築されたのではありません。

いろいろな新しい表現がどんどん作られ、皆が使い、皆が継続的に使われている表現が残っていきます。言語表現は全てがランダムな音ではなく、文字で説明できませんが、相互が理解できる仕組みは存在している暗黙知なのです。

人間の知識には文字にできない暗黙知と文字で説明できる形式知があります。暗黙知の概念は、もともとハンガリーの科学哲学者マイケル・ポラニーが提唱したものです。

我々はつねに言葉にできることよりも多くを知ることができます。しかし個人がもつ知識には、言葉で表現できる部分と、言葉で表現できない部分とがあり、前者よりも後者のほうが多くを占めています。ポラニーはこの言葉で説明できない知識を暗黙知と呼びました。

2.音声の実体

言語音の音声を科学的に分析するとどのようなものでしょうか。音声の実体は文字や記号では表現できない暗黙知とも言うべきものです。脳が言葉をどう学習するとかも、ど少しずつ解明されてきました。

元MIT、現在のハーバードの認知学者のピンカー博士はcatとから3つの音素を取りだせないと言っています。それは3つの音素の境界はなく、3つの音素が全体にまたがっているからだそうです。つまり、音素が聞こえるのは錯覚だと言っております。

岩波書店発行の、“音声科学原論”の著者の藤村靖氏によると、“音声を科学的に分析すれば、音声に子音と母音が同格で並んでいると考えるのは大変不自然である。母音はシラブルの連鎖において各区分の(すなわちシラブル)の中核となり、子音はそのシラブルの周縁に一時的な逸脱として乗って いるとの考え方をすれば、子音動作の一つは一つも、母音の平衡状態から一時的に逸脱し、やがて自然に元の準静的な状態に戻ると考えるのが当然であろう。”と言っています。

つまり藤村氏は言語音の母音と子音を分ける事ができないと言っています。

また、普通おネイティブの会話の速度は音素換算で1秒間に25から35音素に相当するそうです。発音において、人間が25から35分の1秒の音を調音する事は不可能であり、同様にその音素を識別することも不可能です。

東大で音声を研究している峯松信明氏は音素を学習した錯覚だと言っています。峯松氏は子供が親から言葉を真似る時には音素を学ぶのではなく、音の形を真似ると言っています。

このように音声は連続的に変化する音のストリームであり、物理的に説明できない暗黙知であります。

音声は暗黙知であると言いましたが、人間の音声を科学的に分析すると、確かに音素の並んだものではなく、音が連続的に変化ししているだけです。正しい音の要素を並べているのではなく、相手が聞いて分かる音を真似ているに過ぎません。

たとえば日本語の発音においては私も正しい音とか正しい発音とか言いますが、では正しい音は何かと言われても物理的な音響特性で定義はありません。現実的には切れ目のない音声を音素のような音の最小単位に切り離すことさえ不可能なのです。音声学の本でも日本語の「あ」をどう発音するか記述することはできてもどのような音であるかを周波数などで定義することはできません。

世界的な有名な言語学の本で、Linguisticsと言う本があります。この本は、いつ読んでも内容はぜんぜん古さを感じさせません。日本人で英語を教える立場にある方には読んでおいたほうが良いと思います。なぜならば、著者たちは、過去のLinguisticsに関する文献をかなりの数読みこなしていて、そのエッセンスを本書で伝えようとしているからです。

本書は、実質20年近くかけて書かれたと考えても良い、Linguisticsの入門書です。The University of Arizonaで教科書として使用して、先生や学生からも多くのフィードバックを取り入れて改訂を続けています。

Linguisticsと言うタイトルですが、実質はEnglishの分析を行っています。他の言語がどうなっているかの例として日本語が英語と対照的に取り上げられています。

この本の中で音声を、continuous streams of soundと表現しております。日本語にすれば連続的な音のストリームとでも訳せるかも知れません。音声は音のストリームなのです。言語学の権威ある本はcontinuous streams of soundと言っているのですから、音声が音のストリームであるは紛れもない事実です。

では日本語の発音を我々日本人はどうやって覚えたのでしょうか。

これは非常に簡単で聞いた音を真似したのです。そして自分で聞いてフィードバックを得て矯正や修正をしたのです。

3.音声学

音声の実体は連続的に変化する音のストリームです。しかし、科学者が電子的な機材や人工知能を使い、音声をかなり詳しく研究し音声認識の実証ができるようになったのは西暦2000年の頃です。

これらの音声を研究や分析するのが音声学です。電子的な科学分析や脳科学と共に幅広い研究がなされるようになりました。

音声はその音の調音、そして音の伝播、そして音の聴取の3つの面から見ることができます。それに応じて、音声学にも調音音声学(articulatory phonetics)、音響音声学(acoustic phonetics)、聴覚音声学(auditory phonetics)の三つの分野があります。

全体的には調音音声が非常に進んでおり、脳型のコンピュータの出現で音響音声学と聴覚音声学が急速に発達して実用的にも使われています。

現在の英語の発音に関する音声学と呼ばれる本はすべてこの調音音声学の分野の本です。調音音声学は、さまざまな音声器官を用いて言語音がどのように作り出されるかを記述します。これは観察が比較的容易であることから最も早く発達しました。音響音声学と聴覚音声学は近代的な電子機器でないと分析できないからです。

特に古代インドの音声学は素晴らしいものでした。この影響は中国を経て日本に伝わり、五十音図となりました。

現代の音声学は19世紀末に学問分野として確立されましたが、実際には調音音声学でした。国際音声字母も基本的には調音音声学に基づいています。

調音音声学では音声に音素(発音記号)が並んでいると考えています。しかし、英語の音声学の本場でも44と45音素の学派があります。日本では30音とか43音とか51音で教えている人もいます。

調音音声学とは音をどう作るかを記述するものですが、その記述通りに調音してもネイティブのような発音になりません。つまり音声の調音方法は正しい記述できておりません。

それより、なぜ音声学の音素の数は化学元素のように世界中で一定ではないのでしょうか。

それは音素の調音方法の記述の問題ではなく、音声には記述されているような音が存在しない音のストリームであるからです。音素とはある音を聞いた人が同じ音と聞こえる音だと定義していますが、そのような物理音を取り出す事ができません。調音音声学の音素とは物理音ではなく概念の音に過ぎません。

音響音声学は、空気の振動、すなわち物理現象としての音声が、どのような性質を持っているかを研究します。

聴覚音声学は、音声言語の聴取と認識と理解の側面を研究します。この分野は観察や測定が困難であることなどから、近年まで比較的立ち遅れており、未知の部分が多くありました。

幸いにも1990年代以降はパーソナルコンピュータ上で音声を録音・再生・編集・保存し、音声分析を行うことが容易になったため、文系の言語研究者にもより身近な分野となっています。ただし、音響音声学や聴覚音声学をきちんと理解するには、物理学や数学的基礎が必要となります。

また聴覚音声学をきちんと理解するためには身体生理学や脳科学の基礎知識が必要となります。

しかし近年は心理学との連携や脳科学の発展にともない、長足の進歩を遂げています。具体的には脳が音声をどう学習するのか、またその音声はどう認識されるかと言う研究です。特に脳型のコンピュータと呼ばれる脳の仕組みを真似たニューラルネットワークの研究が急速に進みました。

そのニューラルネットワークの学習や認識の仕組みが解明され、同時にニューラルネットワークで音声認識や翻訳システムが開発されました。

そしてその知識を使い人工知能に脳のように囲碁や将棋を学習させてプロと対決して、2017年頃には人工知能がディープラーニングで学習をして世界のプロを負かすほどのレベルになりました。

同時に脳型のコンピュータであるニューラルネットワークの研究も進んでいました。そのニューラルネットワークはプログラム無しで学習できるのです。

音声認識はコンピュータが広く使われる1950年頃から研究が始まりました。しかし、調音音声学が支配していた時代なので音素ベースの音声認識の研究が続きました。

西暦2000年頃からは言語音は音素のような形式知ではない、暗黙知ではないかと考える研究機関が多くなりました。暗黙知として扱うシステムにより、音声認識の精度がどんどん上がりました。

そしてその音声認識の仕組みを解明する事により、脳の音声認識の仕組みも分かってきました。それは脳が行っているパターン・マッチングです。この音声認識は音素の照合ではなく、記憶にある全体的な音の変化を聞いた音の特徴で照合する方法です。この方法であれば音声に音素が存在しなくても認識できます。

それだけではなく、人間の音声認識は雑音が多くある環境の場合が多く、その場合でも全体的な音の認識であれば、欠落しているデータでも認識できる事が分かりました。

4.言語は事例基盤

現在でも英語は文法を基本として教えて、音素(発音記号)の体系として教えています。実は言語は体系的な形式知であると思われていたからです。これは言語をモデルで捉えると用法基盤モデルと呼ばれています。

用法基盤とは言葉がどう使わるべきかといるルールとか、基本の音から学習する方法です。

しかし、コンピュータの発達により文法を基盤とした翻訳システム、そして音素を基盤とした音声認識の精度の限界を迎えました。そして言語そのものを見直す時がきました。

音声認識の精度が上がらないのは音素を基盤として考えているからではないか。また翻訳システムの精度が上がらないのは文法を基盤として考えているからではないかと言う考えです。

事例基盤モデルは2006 年にThe Linguistic Review 誌で特集され、近年世界中で注目集めている言語モデルです。

事例基盤モデルでは音声は具体的な個別事例に関する詳細で多面的なエピソード記憶から構成されているExemplar(事例)と呼ばれる個別事例の音声の集まりと捉えています。

言ってしまえば、音声全体がそれぞれの意味を持つと言う考えです。全ての音声がランダムに存在するのではなく、類似のパターンがあり、それらは共通です。しかし、最小単位の音が連なり単語となり、単語が連なり文になると言う考えではなく、全体的な音そのものが意味を持っているのです。

この事例基盤の考え方は音声認識では覚えている記憶の音との照合になります。全部が聞こえなくても聞き取る事が可能です。「どうもありがとうございます。」は「どうも」だけが聞き取れれば十分と言う事になります。

現実的に「こんにちは」を「ちは」と言うだけで通じますから、我々の音声認識はこの事例基盤の音声認識だと言えます。

全部を覚える必用がありますが、一つ一つの音はあまり重要ではなく、地方の訛りがあっても問題なく使えます。言葉に個性や地域性を生かせる言語システムこそ事例基盤のシステムです。

5.音声情報の特性

全ての言語は音声言語が基本です。言語は音声が先に生まれました。現在では文字情報の方がネットや印刷物で良く使われますが、音声情報の方が基本であり、学ぶのであれば音声言語の方が効果的な学習が可能になります。

音声情報なら文字の知らない幼児でも学習できます。音声言語の方が学ぶのが楽なのです。しかし、一般的には大人は音声言語があまり得意ではないと思われており、そのために論理的な文法で学ぶ方が良いと言う考えになっています。

音声言語の方が学び易いのは子供だけでなく、大人にも同じ事が言えます。その理由は音声情報と文字情報の大きな違いがあります。

文字情報とは一般的に紙や画面を使います。つまり縦と横の2次元の情報です。しかし、音声情報は縦と横と高さと時間の変化をもつ4次元の情報となります。情報が2次元から4次元になる事により、膨大に増える事になります。

言葉を文字で表現するとその意味しか伝わりません。しかし、電話で誰かと話せば年齢、性別、感情、教養、性格、文化、地域まである程度は分かります。どうして分かるかと言うのは暗黙知ですから説明ができなのですが、確かにそのような事は分かります。

英語を音で覚えると、意味、文法、使い方、感情の込め方まで学習できます。多くの情報が付加されているためコミュニケーションが楽になります。そしてもちろんそれだけの情報が含まれているからコミュニケーションが楽しくもなります。

全ての母語は音声言語から学習するにはそれなりの理由があるのです。その複雑な音声情報にはいろいろな情報が含まれているので、その情報を理解する、そしてその情報を自分でも使うとより楽しい英語学習となります。

それでは連続的に変化する音のストリームはどのように覚え、どのように改善できるのでしょうか。発音とリスニングはニワトリと玉子の関係にある訳でありません。リスニングができるから発音ができる訳でも、発音ができるからリスニングができる訳でもありません。

言語音は連続的に変化する音のストリームですから、正しい音そのものが存在しません。もし正しい音が存在するなら、その正しい音を学習する方が効果的です。

しかし、音声には音のストリームしか存在しませんから、ネイティブを真似て反復練習をして、フィードバック得て聞いた音のように真似るしかありません。

フィードバックを得ることができると発音が上手になった事が確認でき、嬉しい感情が沸いてきます。これは学習において記憶を定着させるためには非常に重要な条件です。

発音の練習では聞いて、音の特徴を自分で再現しますので、発音できている音は少なくとも十分に聞き分けができていることになります。

一般的にリスニングは発音より難しいと言われるのは、知らない音は聞き取れないからです。発音であれば自己流の発音でもなんとか音声を作る事は可能です。

6.ディープラーニング

音声は連続的に変化する音であるために、発音において基本となる音素を学んで並べる学習方法では効果的な学習ができません。

音声を学ぶ唯一の方法は日本語の習得と同じようにネイティブを真似る事です。そしてフィードバックを得て、修正と矯正をすることです。

これはディープラーニングとも呼ばれる脳の効果的な学習方法です。まわりの正しい発音を真似る事によりだんだん正しい発音に近づいていきます。正しい音が存在しないのですから、通じる発音に近づけていきます。

発音記号に忠実に発音すると非常に発音し難いのはそのような音を並べる事が発音ではないからです。日本語もそうですが、英語も子供が発音を覚える時は聞いた音を真似します。日本語でも発音の覚え方は同様です。

英語には基本の音がないのですから、連続的な音の変化として覚えるしかありません。

言語の基本は文法のようなルールではない、しかし相互に理解できる暗黙知があるのは明白です。子供が母親の言葉を真似る場合に言葉の形を真似る事から始まります。声帯のサイズが違うので、同じ音を真似る事ができないからです。特に幼児の場合に最初はあまり似ていなくてもだんだんそれらしい音になってきます。この方法は何か遠回りのようですが、効果的な学習方法です。

音声にはつまり正しい音が存在しませんから教える事も、チェックすることもできません。現在の音声認識ソフトでも統計的に判断していますから、正しいかどうかの判断はできません。

発音練習は発音記号のような音素があった方が練習は楽になります。個々の音を学び並べる事ができるからです。しかし、音声は連続的に変化する音のストリームですからそのまま練習して覚える以外に方法がありません。

言語の音声は文字や記号で説明できない暗黙知です。暗黙知である音声を学ぶ方法はネイティブを真似る方法です。そしてフィードバックを得て修正や矯正をします。

なんか難しく聞こえますが、日本語の発音を学んだ時と同じ事です。日本語は発音記号を基本に学習しないで正しい発音ができたのは、科学的に考えると正しい方法で学習していたのです。

ネイティブを真似ると言う事は特徴を真似る事です。特徴は何かと言われると暗黙知であり、残念ながら説明できません。

しかし、大事な事は特徴を少しずつ真似る事です。特に音の変局点が大事になりますから。特にリズムやイントネーションやアクセントは非常に大事な部分です。

ネイティブを真似て特徴を少しずつ学習する方法ですが、実はこれの方法で発音がどんどん改善されていきます。そして何度も反復している間に手続き記憶として自動化され長期記憶に保存されます。

ディープラーニングで覚えるから上手になるのか、覚えたから発音が上手になるのかは、見方によって違います。しかし、意識としては発音の練習をしていたら覚えてしまったと言う方が良いと思います。

脳は単純な繰り返しが好きでありません。しかし、繰り返さないと学習できません。発音練習ならフィードバックで常に発音を良くできるので意識した練習をすれば毎回出力は違ってきます。

すると発音が良くするためのディープラーニングをしている間に英語を覚えてしまう方が楽しい学習になります。

言語の知識は説明のできない暗黙知であります。すると言葉を話すためには相手に理解される音を覚えなくはなりません。ですから発音を練習する最大の目的は覚えるためです。言語の知識が形式知で、正しい音が並んでいるなら、最初に正しい音を習得すべきですが、その正しい音となる音素は概念の音で存在しません。すると発音とは理解される音を覚える事になります。それでは理解されれば何での良いかと言えば、そうではありません。

その音声には相手に理解して欲しい情報が含まれています。するとどうやって相手が理解できる情報を暗黙知として学習する必要があります。

発音はネイティブを真似て、フィードバックを得て矯正しますから、正しい学習ができればどんどん発音がよくなります。そしてネイティブを真似るのはいろいろな要素も真似ていますが、メインとなるのは発音と言う事になります。

しかしながら、発音練習の大きな目的こそがディープラーニングで忘れないように覚えると言う事になります。

発音は記憶との照合ですから、発音記号を並べるような精密さは必要ありません。それでも通じる仕組になっています。しかし、覚える事で英語を話し、そして聞き取る事もできる訳ですから、発音練習の大事な目的は覚える事にあります。

するとディープラーニングで発音練習する場合に最も大事な要素は最適化をして最も覚えやすい調音こそ理想の発音となります。そしてその理想の発音こそがネイティブの発音であり、ネイティブの発音を真似る事はいかに重要かが理解いただけると思います。

簡単に言ってしまうと、ネイティブのような発音になれば、発音も良くなるし、もちろん覚えるのも楽になり、そして聴くのも楽になります。

7.発音は自己修正

我々日本人がもし日本語を話す外国人の発音の評価を聞かれたら何と言えるでしょうか。上手とか下手とか言えますが、正しいとか、間違っているという評価はできません。点数を付けるのも難しいと思います。それは正しい音が存在しないからです。日本語の正しい音だと言う事を日本人の我々でも証明できません。

では我々は日本語の発音をどう学んだのでしょうか。単に周りの人つまり日本語ネイティブの発音を真似たに過ぎません。実際にはそれらしい音を出しているにすぎません。

これは英語ネイティブも同じ事です。彼らも英語ネイティブの真似をして発音できるようになっただけです。臨界期はあっても発音を矯正できるのは自分だけです。その方法はネイティブの発音と自分の発音を比べる事です。そのためにはフィードバックを得る方法が良い方法です。

発音は正しい音を並べる事ではなく、ネイティブの発音の特徴を真似、そして発音のし易い最適化された音を目指します。

するとその最適化をするとプロセスにおいては実際に調音している本人しか判断できません。そのような発音においてネイティブであろうといろいろな指導を受けるのは、あまりお勧めできる事ではありません。

誰かにアドバイスを受けるより、自分でフィードバックを生かす学習をすべきなのです。

8.自動化と最適化

発音練習の最大の目的は発音をネイティブに近づけるためというよりは、忘れないように覚えるためのものです。少なくとも我々にとって日本語の発音はそうでした。しかし、特に臨界期以降に学ぶ英語の発音はそんな簡単なものでありません。

英語の発音が難しいのは発音練習の方法に問題があると思っています。間違った方法とは発音記号を並べて単語の発音練習、単語を並べて英語の表現を発音しようとするからです。つまり音を積み上げていくからなのです。

日本語の発音は積み上げ式ではなく、全体的な発音から始めています。その結果日本人の日本語は自然なきれいな発音になっています。英米人の英語の発音に練習も我々の日本語と同じです。

言語の発音とは正しい音を並べるのが目的ではなく、話すためには覚える事が先決です。つまり覚え易い音を模索する必要があります。覚え易い音とは自然な音であり、自然な音とは最適化されている音なのです。

人間は発音器官の筋肉を使って言葉を話します。我々が野球のボールを投げるのを練習すると、練習を続けていく成果として自然に動作が投げ易くかつ飛び易い動きに収束して行くように思われます。あたかも筋肉が物理的な効率の良い動きが知っているようになります。

例えばオリンピックの水泳の選手は速く泳ぐ事が目的ですが、結果的には全員がきれいなフォームしています。あのフォームも形を教えられたものでなく、選手がなるべく速く泳ぐための最適化の結果として、全員が同じ型になるのだと思います。

発音の場合にもある音の羅列を発音しようとしたときには、自然に調音の動きを少なくし、横隔膜や舌や口唇などの構音器官に負担が少なくなるように学習していくと思います。発音がなぜ重要か理解していただけると思います。

9.習熟すると省エネ活動

脳と記憶の原理を知ると英会話を話すためには余程脳が高速に働かなければならないように感じます。コンピュータ的に考えれば情報量が増え判断が多くなるので必然的にCPUの働きは活発になるはずです。しかし実は脳の動きはそうではないのです。脳はコンピュータとは違った大変な能力を持っているのです。短く言えば英語や発音に習熟すれば脳の負担は劇的に減るのです。

2005年2月16日の日経新聞に東京大学の酒井助教授が“英語を習熟すれば脳の活動を節約”を発表したと言う記事が掲載されていました。これは英語を習い始めた中学1年生と英語に習熟している東大生を対象に英語の文法テストをして機能的磁気共鳴画像装置のfMRIで観察した結果が出ていました。実験の結果中学生が英語の学習を始めると少しずつ脳の活動が増えていきます。学習によって脳が活発に働くようになったのです。しかし脳はこのまま情報量に応じて働きが活発になるのでなく習熟してくると脳の動きはドラマチックに少なくなると言うのです。

大学生では英語に正答率が高い学生ほど、左のこめかみの奥にあるブローカ野の文法中枢への血流集中が見られず、エネルギーを節約していることが分かったのです。正答率が低い学生では、文法中枢が活発に働いていることが分かりました。英語が十分に身についた学生では、こめかみの奥にある脳の文法中枢が少ないエネルギーでも働く省エネになるらしいのです。

英語に習熟すると脳の回転が速くなると思われがちですが実は脳の回転は遅くなるのです。これは英会話学習に大事なヒントを与えてくれます。英語では文法においても習熟することが非常に大事であるということです。残念なのはこの実験が文法であったことです。私は自分の体験から文法よりは発音の方が習熟度が省エネに貢献するのは遥かに大きいと感じているからです。

大石晴美氏と木下徹氏の英語学習におけるメタ認知ストラテジーの脳科学的効果の研究ででも同じ結果を発表しています。課題遂行時の学習者の言語野の血流増加量は、初級学習者から中級学習者になるにつれ増加し、中級学習者から上級学習者になるにつれ減少していることが観測されました。上級学習者では、血流増加量については、中級学習者より有意に少なく、初級学習者とは違いがなかったのです。これは大変面白い研究結果です。

それは脳に血流がたくさん流れることが良い学習ではないと言うことです。中級になると増える血流は上級者になるにつれ、現象しているのです。しかし、血流が増えている時は意識的に増やしている学習ですから、少なくとも楽しい時期では無いと思います。しかし上級になると血流が増えますがこの時期が最も楽しい時期です。多分このころになると自分でも上達した実感が得られますから気持ちとしても快感を楽しめる事ができると思います。

現在、学習過程や問題解決の過程を脳の血流で判断する場合がありますが、大変重要なのは血流が増えることは脳が活発に働いていると言う判断に異論がありませんが、だからその状態が理想ではありません。本当に求めるべき状態は脳が習熟して省エネ状態になった時が良いのであって、血流だけからみれば初心者も習熟者も代わらないのです。

このような省エネ処理ができるのは脳が記憶に依存しているからです。脳細胞の処理速度は以外に遅いので、学習した結果を蓄積しておくのです。人間が非常に複雑な事ができるのはリアルタイムの処理が速い訳でなく、学習した結果を忘れないで覚えておくことができるからです。

脳の負荷とすれば学習して覚えようとしている時の方が大きくなります。習熟すると省エネになるのは、習熟すると単に記憶を使うだけになるからです。

発音の練習はどこから始めるべきでしょうか。一般的な発音教材は発音記号の発音から始まるのがほとんどです。音声の認識は音素ではないと言う人も発音記号を練習の基点として始める事を勧める人がいます。発音教材では教材が教える音が標準で会話では音が崩れるとか、音がくだけると言っておりますが発音の標準的な音は何でしょうか。言葉には標準的な音の定義がありません。音声学で記述している音の説明は典型的な音であって、誇張すればあのような音になるという説明し易い音です。しかし音声学で説明する音にしたがって発音すると、発音し難く、聞き難い音となります。発音の運用面から言えば標準ではありません。

例えば歩くとか、走る場合の標準的なフォームは何かを言えば、最もリラックスした状態で歩いたり、走ったりするフォームではないでしょうか。すると発音する場合も最もリラックスした状態は通常の会話の時の発音です。また発音の目的は発音し易くして、聞き易い音を求めるのですから、最終のゴールを目指すのであればなるべくゴールに近い方が有利です。すると発音教材で説明している音はいずれは崩したり、くだけた音にしたりするので下手な癖をつけるのは避けるべきです。第二言語を習う場合大きな障害は母語の発音習慣の干渉です。

すると皆さんが現在発音している発音と発音教材が教えている発音では、皆様が使っている発音方法の方がより自然な発音に近いと言えます。そうであれば発音の練習は現在の発音からなるべく早めに自然な発音する練習を始めるべきだと思います。わざわざ発音教材の言う典型的な音が発音し易いなら別ですが、発音し難い癖をつけて、それを自然な音に変えるのは時間の無駄です。

10.口の形は重要ではない

発音教材には口の形が重要だと言う教材も教室もたくさんあります。しかし実際にネイティブの画像を見ても、自分の口を見ているわけでないので自分の口の動きが良く分からないのです。教材には鏡で見ると良いと書いてありますが、実際に顔を鏡で見ると鏡を見る事で発音がおろそかになります。

自分の口の形を見ることができないので、その口の形を真似る事は無理な事です。日本語の発音を覚えた時に母親の口の形を真似たのではなく、聞いた音の流れ、その音の全体的な形を真似したのです。音の流れを真似るのですから、発音で大事な事は自分の発音がどうなっているか聞く事です。

発音しながら自分の発音が聞き取れない場合は録音して時間差のフィードバックを得る事です。

反復練習は繰り返し発音を練習することです。しかし、反復練習では通常は回数をこなすことで発音が楽になる事がありますが、必ずしも発音がより正しくなっているのではありません。これは慣れただけの事ですから、その音が聞いた音の特徴に似ているかどうかは別の問題です。

極端な場合は英語のカタカナ式発音でも繰り返す事により、発音としては楽になっていきます。例えばシャドーイングと音読は確かに発音の練習になります。例えば日本語でも台詞を何度か繰り返すと発音易くなるのと同じです。大事な事は外国語の場合の場合でも回数を繰り返すだけでは発音は正しくなりません。

発音矯正は正しい発音に近づける行為ですが、必ずしも回数を多く繰り返すのでなく、自分の発音のまずいところ探しそれを矯正する意識を持って練習します。

英会話のために発音とリスニング練習は発音矯正だけでなく、何度も繰り返して発音矯正をして自然な発音にすることにより、発音練習や暗唱まで可能とします。では最初から発音練習や暗唱をする方法とくらべるとどちらが効率的でしょうか。それは単なる発音練習や暗唱では、覚えてしまうとかある程度発音が楽になると練習がつまらなくなり学習意欲が低下します。

11.言語音の調整

日本語で話す時は最初にどのような音で話し始めているのでしょうか。実は母音は次の音を出すときに前の音との関係で次の音が理解でるように音を調整します。これが相対音感の特徴なのです。相対音感ではどの音で始まる事ができますが、常に音を調整しなければなりません。

ではその最初の音はどう出すのでしょうか。自分の経験から一番作り易い音を使っています。言語は音楽に似ていますが、音楽の演奏の場合は調音と言って音を調整します。

オーケストラの場合には調整し難いオーボエの音に合わせます。しかし、言語音にはその調音は必要ありません。言語音はどんな音で始まっても相対的な音を保てば十分に機能するからです。

音楽の場合は楽譜があります。そしてその楽譜上の音は周波数まで決まっています。オーケストラの場合も楽譜がありますが、もっと音を合わせる必要がありますから演奏前に調音をします。

言語音は楽譜もありませんし、音も決まっておりません。その結果として常に相対的な音を保つ必要があります。英語でも日本語でも常に音を聞きながら調節しています。自分の声がまったく聞こえない状態で日本語や英語話すと調子が外れてきます。音の調整ができなくなるからです。

言語音ではまずおおよその音を出して自分で聞いて常に調整しながら話しています。英語でも日本語でも音の絶対的な特性があるのではなく相対的なものであるために常時調整する必要があります。「あ」の音が絶対的に存在するのではなく、「い」の音を出すならから「あ」始まって相対的に「い」の関係になる音を出します。その相対的な関係を維持できるから人間は体に合わせて声帯が成長し音の調子はだんだん低くなっても問題なく明瞭な発音が可能です。特に男性の変声期にはがらりと音が低くなりますのがまったく問題無く話せるのはそのためです。どんな音で始まっても良い大変に柔軟性に富んだメカニズムですが、常時調整する必要がでてくるかなり高度なシステムです。

でも人間の発声器官は楽器としては大変アバウトなものですから、聞く場合にはアバウトの音を言葉として認知するために更に難しい技術が必要となります。その認知の方法が記憶して、その記憶と照合する方法です。

言語は常に自分で調整して発音しているので、自分自身が学習して学ぶ必要があります。

12.発音は自己修正

音声学の牧野武彦氏は次のように書いています。

「なお、説明に従ってやってみて出せる音と、耳を澄まして聞いて真似をして出せる音が食い違っている場合、自分の耳の方を信じてください。説明はあくまでも最大公約数的な手助けで、万人に効くとは限らないからです。」

英語の発音の本では自分で発音を判断するのは難しいからそれは無理だと言う人がいます。では発音を良くするために誰が、どのような形で評価するのが一番理想的でしょうか。

英語の本や英語学校ではネイティブに発音を判断してもらいなさいと言います。それでは地方の訛りを矯正したい人に、標準語を話せる人が適切なアドバイスができるでしょうか。標準的な発音を聞かせる事はできるかもしれませんが、他に何のアドバイスができるでしょうか。

このように英語のネイティブといえども母語の発音は自分で矯正しています。その方法はネイティブを真似る方法です。真似るとは特徴を少しずつ抽出するのですから、自分できても、それを説明できません。

英語を話すとい知恵は自転車に乗ると同じように、文字で説明できない暗黙知です。自分でしか学ぶ事ができないのですから、その音の調整も自分でしかできません。

13.音声認識ソフト    

翻訳システムも音声認識システムも形式知であると思っていたためにデジタルのコンピュータで半世紀以上も研究されてきました。しかし、西暦2000年頃になるとコンピュータの性能もプログラムも進歩したのに音声認識の精度も限界を迎えました。

当時の音声認識は音素ベースであり、音声を小さな音の単位に切り離し、そしてその音の断片の音素を特定して、その音素の並びから単語や熟語を認識すると言う手法です。

しかし、問題は音声に音素が規則正しく並んでいないため誤認識が多くスペルチェックなどで補正しても精度に限界がありました。

そこで西暦2000年頃からは言語は形式知ではない、暗黙知ではないかと考える研究機関が多くなりました。暗黙知として扱うシステムにより、翻訳や音声認識の精度がどんどん上がりました。

Baidu(百度、バイドゥ)は中国最大の検索会社であり、人工知能でも研究開発を加速しています。人工知能ではGoogleがトップを走っていましたが、2016年頃は音声認識ではBaiduが首位の座を奪ったようです。音声認識はシリコンバレー人工知能研究部門が手掛けています。

Deep Speechとは、人間の脳の構造を模した学習モデルのDeep Neural Networkを使った音声認識技術を指します。音声領域でNeural Networkを多層に展開することから、この名前が付きました。

人工知能の技術開発が大きく進展しているのですが、音声認識の領域は遅れており、まだ人間による聞き取りが、ソフトウエアの性能を大きく上回っています。特に、騒がしい環境での発言や、訛りのある言葉をシステムが聞き取るのは難しいのです。普通の自然な会話を聞きとるのは非常に難しいのです。

最近では画像解析にDeep Neural Networkを適用し、認識率が格段に向上しましたが、同様に音声認識にDeep Neural Networkを適用することで、性能が格段に向上しています。しかし、音声認識の最大の課題は、画像と異なり入力信号の長さが異なります。画像認識では、異なる大きさの画像は特定の大きさに正規化できますが、音声ではこの処理ができないのです。入力シグナルの長さに応じて、モデルを変える必要があります。

このため、Deep SpeechはRecurrent Neural Networkというモデルを導入しました。RNNはフィードバックループを含んだNeural Networkを指し、時系列なデータの入出力で使われています。Deep Speechで適用されるRNNは五階層のネットワークから構成されています。

RNNは入力された音声スペクトラムから学習するだけでなく、一つ前のタイムステップからも学習できます。入力音声のデータサイズは異なりますが、音声スペクトラムごとに処理するので、異なる長さのデータに対応できます。

Deep Speechの性能は上述のモデルだけでなく、教育データにも依存する。画像認識と異なり音声認識では、教育データとなる音声とトランスクリプトのデータセットは少なく、これらをどう準備するかが大きな問題となります。

Deep Speechは学習用のデータを人為的に生成する手法でこれに対応しました。通常の音声認識ソフトは音素辞書を介在させますが、音声から直接テキストに変換し、シンプルな認識でスピード上げました。これは人間の音声認識に似た仕組みで、シンプルな構造から学習効果を反映できます。

また学習データにノイズを組み合わせ、データ量を大きく増やしました。自動車の中でスマホに音声で入力するような環境も実現しており、実社会に近い環境を生成することに成功しました。

人工知能の事例基盤の音声認識は音声のデータからその特性の似た音を選び、その音のテキストを音声認識の結果とします。

この仕組みを見れば、スマホやタブレットで英語の音声認識をさせて認識結果が出た時は正しい発音であるから認識結果が出た訳ではありません。正しい音素が規則正しくならんでいないのですから、正しいかどうかの判定はできません。

統計的に判断してネイティブの登録された音声に似ている音声があったというだけの事です。もちろん正しい音が存在しないのですから、発音を採点する事も不可能です。

悪徳サイトでは音声認識ソフトを使い英語発音練習を勧めている業者もいますが、統計的な類似性の判断ですから、避けるべき判断方法です。

類似性のマッチングをやっていますがその類似性も独自に使った方法で類似性を判断していますから、正しい発音であるかどうか分かりません。認識しなかったのに、練習して認識されるようになったら、それは発音が良くなったというよりは、その音声認識ソフトの判断基準に合わせただけに過ぎません。

言語の音声は連続的に変化する音のストリームであり、ネイティブの音声にも正しい音素が並んでいません。当然英語を学習している方の音声にも音素は並んでおりません。

正しい基準が無い音声において、正しい発音とか、その評価はできません。確かのそれをやっているサイトやアプリが存在しますが、勝手に判断しているもので、発音が良くなるものではありません。

ELSAと言うソフトはネイティブレベルの何%と言う判断をします。つまりネイティブにどのくらい近いかと言う判断です。ネイティブの音声にも音素が並んでいません。もちろんその音素の物理的な特性もありません。存在しない音に対してネイティブレベルの何%の判断や計算はできません。それより英国英語も米国英語もあり、それぞれのネイティブレベルの何%と言う判断も違ってくるはずです。

ソフトの判断基準を満足させているに過ぎません。

一緒に英語を学びませんか

ディープラーニングで一緒に英語を勉強しませんか。次のサイトにメソッドと教材があります。

https://英会話革命.com/

SNSで練習相手を見付けて次のように対話練習もできます。

英語の学び合いのDISCORDのSNSには次のリンクから参加できます。

上記画面下のConnectをタップ(クリック)すると参加できます。アプリでもブラウザでも参加できます。