なぜ日本語が最も習得の難しい言語とされるのか|Copilotの日本語能力を調べて見えてくること

世界で最も習得が難しいとされる日本語について考えてみる

 日本語は外国人が学習するのに取り付きやすい言語ですが、習得するのが最難関の言語の一つのようです。

 取り付きやすい言語である理由は、語順が適当でも意味が通じること。単語を適当に並べても日本人はその意味を理解してくれます。日本語は語順の縛りがとても緩い言語です。片言の日本語を話す外国人に対し「日本語がお上手ですね」と褒める日本人。しかし、その後には、日本語習得のための困難な “いばらの道” が待っています。

 日本語が習得の最も困難な言語とされる理由の一つに、単語の「読み方」がたくさんあることが挙げられます。

 YouTubeを観ていたら、「日」の読み方がたくさんあることに困惑している外国人がいました。日本人なら当たり前に読めるのに、外国人には読むのがとて難しい日本語の文章。それが次のようなものです。

1月1日は日本の祝日です。その日は日曜日で5日ぶりに雨が降りました。

日本人でこの文章を読めない人はいませんが、外国人にはとてつもなくハードルが高いようです。心が折れそうになるほどに。

 「日」という単語は、1文字では「ヒ」と「ニチ」の二つの読み方しかありません。小学校第一学年で習得する最も簡単な漢字の一つです。ところが、二文字以上になると途端に読み方が増加し、外国人の日本語学習者を悩ませることになります。

 では、最新AIを搭載しているCopilotなら正しく読めるのでしょうか。早速、試してみます。

AIなら日本語を正しく読めるのか

日本人なら当たり前のように読める文章なのに、外国人には難しくて読めない文章として、「1月1日は日本の祝日です。その日は日曜日で5日ぶりに雨が降りました。」をサンプルとしてAIが正しく読めるのか検証してみたいと思います。

ネコ師
ネコ師

つぎの日本語の読みをカタカナで表記して。「1月1日は日本の祝日です」「その日は日曜日で5日ぶりに雨が降りました」

Copilot
Copilot

もちろんです。「1月1日は日本の祝日です」は「イチガツ イチニチ ハ ニホン ノ シュクジツ デス」と読みます。「その日は日曜日で5日ぶりに雨が降りました」は「ソノ ヒ ハ ニチヨウビ デ ゴニチ ブリ ニ アメ ガ フリマシタ」と読みます。

あまり期待していなかったのですが、結構上手に読んでいますね。間違い箇所を指摘せずにやり直しを命じます。

ネコ師
ネコ師

その読みが間違っていることに気づきませんか。日本人ならそんな読み方はしませんよ。やり直し。

Copilot
Copilot

申し訳ありません、間違いがありました。「1月1日は日本の祝日です」は「イチガツ ツイタチ ニホン ノ シュクジツ デス」と読みます。「その日は日曜日で5日ぶりに雨が降りました」は「ソノ ヒ ニチヨウビ デ イツカブリ ニ アメ ガ フリマシタ」と読みます。ご指摘いただきありがとうございます。

今度は正確に読みました。優秀です。・・・、と思っていたら、たまたまできただけのようです。再現ができない。同じ質問を新規チャットでやると、間違った回答を延々と出力します。この時正解できたのは、まさに「たまたま」だったようです。1日と5日が読めない。更に、「ハ」なのか「ワ」なのかが分からず混乱していることが分かりました。管理人が「正解」と思った回答ですが、実は間違いがありました。読みをカタカナで書くのなら、「その日は」は「ソノヒ ハ」ではなく「ソノヒ ワ」としなければなりません。

 日本語能力が飛び抜けて高いと思っていたCopilotでもこの程度なのかと驚きました。それだけ日本語が難しいと言うことです。

AIは日本語をどのように認識しているのか

 「日(ヒ)」は中国語で「日(ピンイン:)ですが、読み方(音)が当然違います。「ヒ」の発音は中国語にはありません。このため、「ヒ」の音は、ピンインでは「xi」(日本人には「ジ」に聞こえる)があてられるようです。

 キ、ケ、コ、セ、ソ、テ、ノ、ヘ、メの9文字が中国語の発音にはないそうです。こんなに多くの日本語の文字を中国人は発音できないのです。

 ということは、「その決めを経て結婚せり」などの発音がとても苦手と言うことになります。なりすまし中国人を見つけるのに役立つかも知れません。

 この9文字すべてを含む文書をCopilotが生成すると、

 「ーキをーブルに置き、ーヒーをット。彼はートを開き、モを取りました。そして、そくりを数えながら、ファーでくつろぎました。」となります。この程度の文章しか生成できません。

英語ではどうなのでしょうか。

GoogleとMicrosoftの翻訳機で試してみましょう。

驚いたことに、どちらのエンジンも日本語の音としての「はひふへほ」を正確に認識できません。

Google翻訳で発音を聞いてみると、日本語も英語も「はひふへほ」の音ではありません。

Microsoft Translatorも同様に、「はひふへほ」の音を正しく認識できません。

 ヘボン式ローマ字で書けば問題なく日本語の音を認識できると信じ込んでいましたが、違いました。管理人としてはとてもショックです。

なぜローマ字が発音を正しく表していないのか

小学校で習うローマ字ですが、正式には「訓令式ローマ字」と言います。あれ? ヘボン式ローマ字じゃないの? そもそもヘボン式との違いは?

学校で習うローマ字は「訓令式
(くんれいしき)
」と呼ばれるもので、あまり使われていません。実際に日常で看板などに見ることができるローマ字は中学校英語科で学習する「ヘボン式」です。両者の違いは母音を伸ばすとき「^(またはĀのように上に横棒)」がつくか否かといった違いや一部のスペルの違い (例:「ち」は訓令式だと「ti」だがヘボン式だと「chi」、ヘボン式で「ti」は「てぃ」)などです。しかし、その大部分は共通しているので、訓令式を学び、中学校でヘボン式と区別をつけることが必要です。

Wikibook、「ローマ字の種類」

なるほど。小学校で習うのは「訓令式」ですが、ほとんど使われておらず、実社会で使われているのは「ヘボン式」ということですね。

ヘボン式ローマ字(ヘボンしきローマじ、英: Hepburn romanization)は、日本語表記をラテン文字表記に転写する際の規則、いわゆるローマ字の複数ある表記法のうち、日本国内および国外で最も広く利用されている方式である。

ジェームス・カーティス・ヘボン(James Curtis Hepburn)によって考案された。

ローマ字の表記法としては日本式ローマ字およびそれを基にした訓令式ローマ字と競合する方式である。日本語話者向けに日本語の翻字さらには正書法(日本語ローマ字化)となることを目指して開発された日本式系と比べ、英語・ラテン語の発音への親和性を重視したヘボン式は外国人のための案内や日本語の翻訳用途に向いている。

Wikipedia, 「ヘボン式ローマ字」

 パソコンのローマ字入力は、「訓令式」、「ヘボン式」の両方に対応しているようです。管理人は「かな入力」なので詳しくは知りません。

 「地球」は、[tikyuu]でも[chikuu]でも変換できます。

 さて、ここで奇妙なことに気づきました。それは、なぜ「ヘボン式」と発音するのか、ということです。

 ヘボンのスペルを確認すると、「Hepburn」です。あれ? もう気づきましたね。通常、この人名は「ヘップバーン」と発音します。有名な女優オードリー・ヘップバーン(Audrey Hepburn)。オードリー・ヘボンとは誰も言いません。

 ヘボン式ローマ字を作ったジェームス・カーティス・ヘボン(James Curtis Hepburn)さんをヘップバーンさんとは誰も言いません。それはなぜ?

 Wikipediaには次のように書かれています。

姓の「ヘボン」は原語の発音を重視した仮名表記とされており、本人が日本における名義として用いたことで彼固有の表記として定着したものだが、Hepburn 全般の音訳としては「ヘプバーン」「ヘップバーン」が普及したことから、彼の姓もそれに従って表記される場合がある。

Wikipedia, 「ジェームス・カーティス・ヘボン」

 これって本当でしょうか。原語の発音を重視すると「ヘボン」になるのでしょうか。「Hepburn」をGoogle翻訳のスピーカーで聴いても「ヘボン」には聞こえません。

 日本人はこのような矛盾に対して無頓着です。そもそも、外国人の名字の日本語表記にはいくつものパターンが存在します。元米国大統領のロナルド・レーガン(英語: Ronald Reagan)も、リーガン大統領とも表記されていました。

 なぜ、たくさんの表記方法が存在するのか、など誰も問題視しません。そのうち、一つの表記方法に落ち着くのを日本人なら知っているからです。それまでの間は、いくつもの表記方法があっても気にしない。しかし、日本語を学んでいる外国人にとっては悩みの種でしょう。

 何でもありの日本語ですが、特定の読み方にこだわる人が中にはいます。一つの読み方が正しく、それ以外は間違っていると信じ込んでいる人です。

 なぜ、そのような人がいるのかというと、単に頭が硬い人ということではなく、「ある訓練を受けた人」によく見られる特徴です。特定の組織内では、一種類の表記しか認められず、それを入社してすぐに厳しくたたき込まれます。

 会社だけではなく、論文を書く場合でも、一種類の表記方法しか認めていない学会も多くあります。さらに、それが学会毎に違うから困ります。日本人なら、そのルールを覚えるだけですが、外国人にとって、そんなルール自体が意味不明だと感じることでしょう。

 論文の書き方で指摘されるのが、「1つには、」のような書き方です。アラビア数字を「ひと」と読ませているわけですから、誤った、論文としてふさわしくない表記としてだめ出しを喰らいます。

パソコンの日本語入力

パソコンのローマ字入力は、様々なローマ字方式に対応するように設計されているようです。

八丁堀は、ローマ字で「Hatchōbori」ですが、ローマ字入力ではこれを認識してくれません。「Hacchoubori」なら正しく変換してくれます。

 ところで、「おとっさ゜ん」「おっかさ゜ん」など、日本人でも読めない特殊な単語が存在します。これは、方言の音を正確に表記するために開発されたもののようで、管理人が小学生の時に友達が使っていたの驚きました。「おとっさ゜ん」は「おとっつぁん」みたいな発音になるようです。

 マンガの世界では、”あ゛あ゛あ゛” のような日本語も見かけます。そして、この存在しない文字を見て、それがどんな場面なのかを推測できるところが、日本人です(www)。

これが日本語を難しくする正体

 日本語を難しくしている本当の理由は、日本語には正書法が存在しないことにあります。「正書法」とは文字通り「正しい書き方」のこと。何が正しいのか、その対象は「文章」。語を単位とした正しい書き方が「正書法」ということです。しかし、日本語にはこれがない。

 日本語には正書法が存在しないのですから、ネット上で見かける自称専門家の記事は嘘ということになります。本当の言語学者は、日本語の揺らぎを常に意識しているため、「間違った日本語」のような言い方は決してしません。言語は常に移り変わるものだと認識しているからです。そもそも正書法がないのに、何を基準に「間違った日本語」と言えるのでしょうか。

 普段は気づきませんが、街頭インタビューなどで話している人の日本語は、はっきり言ってめちゃくちゃな日本語です。それが普通の日本人の会話です。しかし、めちゃくちゃな日本語なのに、間違いなく日本人の日本語であることが分かります。外国人の片言日本語とは明らかに違います。

 一方、日本語が上手と褒められている外国人の話す日本語で気になるのが、「めっちゃ」という言葉の多用です。たしかに若者は「めっちゃ」をよく使いますが、TPOを誤ると軽薄に聞こえます。

 ほとんどの日本人は、その言い回しは軽薄に聞こえるから止めた方がいいよ、と指摘することはありません。しかし、その外国人の日本語が上手だと、とても違和感を感じます。間違った日本語を覚えたな、と。

 たぶん、その外国人は、一生、おかしな日本語だと気づかないのでしょう。誰も指摘しないので。

 めちゃくちゃな日本語を話す日本人。日本人よりも流ちょうで正確な日本語を話す外国人。しかし、外国人の話す少し奇妙な日本語であることは否めません。この違いが理解できないと日本人の話す日本語を一生話せないでしょう。

 めちゃくちゃな日本語を話す日本人でも、「てにをは」を使ってうまく辻褄を合わせ、日本語として成立させることができます。話の途中で助詞を使うことでいくらでも日本語として成立させることができる。日本人で文法を意識して話している人は皆無でしょう。しかし、助詞を無意識に使い分けています。これは外国人学習者が理解できない部分でしょう。

 外国人の日本語学習者の話す日本語ですぐに気づくのが、助詞の省略箇所なのかも。日本人なら絶対に省略しない場所の助詞を省略すると、まさに、片言の日本語に聞こえます。幼児言葉のように。

 ということは、日本人の話す日本語は、助詞を省略する場所をとても意識していると感じます。これを間違えると「片言の日本語」になるのを無意識に理解しているのかも知れません。

 昔から漫画やアニメなどで観られる典型的な中国人の日本語は、「ワタシ、行く、あるね、急ぐあるよ」などの特徴的な話し方です。

 日本人は、主語を言わない、助詞がない、語順が変、と感じますが、日本人も普段、これと似た話し方をしています。でも、日本人のおかしな日本語でも、日本人の日本語だと即座に聞き分けられる日本人。それは、日本人なら、絶対に省略しない助詞の存在にあるのではないかと感じました。

 中国の方からは、「アムロ、行きます」と言っているじゃないか。何が違う? と疑問の声が出そうですが。

 「アムロ、行きます」で、助詞を入れろと言われても困ります。「アムロ、行きます」でも「アムロ行きます」でも変です。ガンダムが何体もあるのなら、(次は)アムロが出撃します、という意味で「アムロ行きます」もありかも知れませんが、ホワイトベースにはガンダムは1体しかないので、この場合、「アムロ、行きます」以外の言葉は思いつきません。

 外国人が日本語を習得する際に最も高いハードルが「尊敬語/謙譲語/丁寧語」の存在でしょう。

 最初は、「日本語がお上手ですね」と言っていた人でも、無礼な日本語を使い続ける外国人に対してはキレます。しかし、外国人にとって、この違いが全く理解できません。確かに、このハードルはとてつもなく高いと感じます。

日本語習得が簡単な理由

 日本語習得は簡単だと主張する外国人がいますが、その理由として、「動詞が変化しないこと」をまっ先に挙げています。

 ほぼすべてのヨーロッパ系言語では、動詞が変化します。時制、性別、人称、単複などにより動詞が変化します。

 ところが、日本語の動詞は基本的に変化しません。時制により少し変化するだけです。

(私、私たち、君、君たち、貴方、貴方たち、彼、彼ら)は、明日、ディズニーランドに行きます

(私、私たち、君、君たち、貴方、貴方たち、彼、彼ら)は、昨日、ディズニーランドに行きました

 更に、名詞も単複で変化しません。形容詞も性別で変化しません。

 なんて楽ちんな言語なのでしょうか。こんな簡単な言語ってあるの? レベルの日本語の持つ驚きの特性です。

 発音の面でも、五十音は、基本的に a i u e o の口の形で、「あかさたなはまやらわ」を発音すれば正しく発音できます。例えば、「い」の口の形で「か」と言えば、「き」の発音になります。

 日本語の五十音表。まさに、表にできる言語なのです。実際には、そうなるように設計された言語です。

 こんな規則的で語形変化もほとんどない言語など日本語だけなのではないでしょうか。

 というわけで、日本語は、学習を始めるのはとても簡単な言語です。

 しかし、学習が進むと、挫折する人が続出するという、世界最難関の言語でもあります。

 

日本語が世界最難関の言語である理由

 日本語が難しい理由の一つに、一つの漢字でも読み方がたくさんあることが挙げられます。それも、音読みと訓読み、更に、音読みには、呉音、唐音、漢音、慣用音、さらには新漢音読みがあることでしょう。

 訓読みは、漢字の意味にあたる日本語が固定化したものです。音読みは、中国の発音に倣ったものですが、漢字の伝来時期の違いで読み方(音)が異なります。年代と地域により中国の発音が違うのが原因です。

 例えば呉音は、5~6世紀の揚子江下流域で使われていた音が使われています。漢音は7、 8世紀、奈良時代後期から平安時代の初めごろまでに、遣隋使・遣唐使や留学僧などにより伝えられた音です。唐音は、唐王朝とは関係なく、江戸時代に、長崎を通じて伝えられた、中国、明から清の初期の中国語の発音によるもの。または、江戸時代以前から広まった宋音をも含めた「唐宋音」をいうこともあるようです。

 冒頭の「日」の例では、呉音では「にち」(日曜日など)、漢音では「じつ」(終日など)の用例があります。

 日本人は、耳から覚えたから使い分けられるのであって、中国のどの時代の発音なのかなど意識することはないでしょう。というか、誰も知らないという言い方が正しいのかも。

中国語の発音は日本語の10倍もあるのに、中国人は日本語を発音できない不思議

 管理人的には、日本語より中国語の方が世界最難関の言語のように感じます。中国語は、とにかく発音がたくさんありすぎで覚える気力が湧きません。四声、ピンイン、簡体字など、ハードルが高いと感じます。

 中国語の発音の数はどのくらいあるのだろうか、Copilotに聞いてみました。

中国語と日本語の発音の数について説明します。

まず、中国語の発音についてです。中国語の発音はピンイン(pinyin)というアルファベットを使った記号で表現されます1。ピンインには母音が36個、子音が21個あります2。これらが組み合わせることで約400通りの音になります3。さらに、これらの音に4種類の音程の上げ下げ(声調)を組み合わせると、約1300種類の音が存在します3

次に、日本語の発音についてです。日本語の音韻は、日本語において別々の音と分析される抽象的な音の全体である4。日本語の基本音は母音の5つのみで、これらと9つある子音と組み合わせても45音しかありません5。しかし、言語学者の金田一春彦氏によると、日本語の音は112あるとされています6。これに増え続ける外来語音(「ティ」「ヴァ」などのカタカナ語の音)を加えると、約130音になります6

以上が中国語と日本語の発音の数についての説明です。どちらの言語も多くの音を持っており、それぞれの言語の特性を理解することが重要です。

Copilotの無責任生成結果

 Copilotの回答が本当かどうかは別として、発音の数は日本語の10倍くらいのようです。

 ここで、不思議なことに気づきます。そんなに多くの発音があるのに、中国人は日本語の発音ができません。中国人の話す日本語はいつまで経っても上達しません。なぜなのでしょうか。中国語は、約1300の音があるのに、たった130音の音しかない日本語の音をカバーしていないのです。

 とても不思議です。

オノマトペの難しさ

 日本語のオノマトペの多様性が外国人日本語学習者を悩ませているようです。それでもマンガやアニメにより、ある程度理解している人もいるようです。

 さて、日本人はこの多様なオノマトペをどうやって覚えたのでしょうか。不思議だったのですが、この謎が解けました。

 先日、孫に絵本を読んであげていたときのこと。なっ、何だこの絵本は!? と驚きました。そうです。オノマトペのオンパレードだったのです。絵本の99%がオノマトペで構成されています。こんな絵本があるんだ、と感心しました。

 絵本は、文字を読めるようになる以前から、乳幼児が目にする本です。文字を読めなくても、絵に書かれているシーンから、子供たちはそれがどんな場面かは理解できます。そして、それが、オノマトペの「音」とセットで学習することになります。絵本は、何度も何度も繰り返し読むものです。このため、オノマトペの「音」の巧みさが子供の心に刻み込まれます。

 せっかくなので、Copilotに聞いてみます。

ネコ師
ネコ師

重いものが地面に落ちたときの音を日本語のオノマトペではどのように表記するか。

Copilot
Copilot

重いものが地面に落ちたときの音を表現する日本語のオノマトペには、いくつかの表現があります。例えば:

  • ドスン: 重いものが落ちたときの鈍い音。
  • ドカン: 大きな音を伴う衝撃音。
  • ゴツン: 硬いものがぶつかる音。

これらのオノマトペは、状況や物の種類によって使い分けられます。

Copilot
Copilot

他にもいくつかのオノマトペがあります。例えば:

  • バタン: 大きな物が倒れたり落ちたりする音。
  • ドシン: 重い物が地面に落ちたときの強い音。
  • ガシャン: 硬い物が割れたり壊れたりする音。
Copilot
Copilot

さらにいくつかのオノマトペを紹介しますね:

  • ドカッ: 重い物が地面にぶつかる音。
  • ズシン: 非常に重い物が落ちたときの深い音。
  • バサッ: 大きな物が落ちて広がる音。
  • ガタン: 重い物が倒れたり、落ちたりする音。

これらのオノマトペも、状況や物の種類によって使い分けられます。

 Copilotはなかなか優秀です。日本人でも、これらの音のニュアンスの違いを説明するのは難しいと思います。

後記

 とりとめもなく書きましたが、日本語はとても不思議な言語だと再認識しました。こんな不思議な言語を学習する外国人の方には頭が下がります。

 日本人だからといって日本語が分かっているわけではありません。国語のテストでいつも満点だった人以外のほとんどの日本人は、国語としての日本語を満足に理解していません。

 日本語が難解なのは日本人も感じています。日本人でも難しくて1ミリも分からない日本語の文章を書くことができる。例えば、国語の教科書に載っている小林秀雄の評論などがあります。どうすればこんな意味不明な日本語を書けるのかと授業で苦労した人も多いと思います。大人になって、今なら理解できるかと言えば、そんなことはなく、彼の書く文章は難しすぎて読む気力さえ失ってしまいます。 

 大人に、国語のテストをしたら、何点取れるのでしょうか。ほとんどの日本人が落第点しか取れないと思います。しかし、それでも困ることは何もありません。本当に何も困ることはないのです。

 今回は、日本語の不思議について、外国人が学習する場合という視点から書きましたが、いかがだったでしょうか。