Googleページ翻訳が暴走か?

何でこんなことになっているのだろう?

 たいした話ではないのですが、少し気になったのでここに書き留めておきます。

 まずは、何が気になったのかを説明します。下の画像をご覧下さい。

 

Wikipedia, Googleページ翻訳

「バミューダ・トライアングル」についてのWikipedia英語版を、Googleページ翻訳で日本語にしたときに表示された画面です。

 管理人は知らなかったのですが、Googleは、 「バミューダ・トライアングル」 が北朝鮮西部にあると考えているようです。

 まあ、いつもの誤訳だろうと最初は考えます。でも、・・、もし、この部分を誤訳したとしても「北朝鮮」という単語が出てくるはずがないということに気づきます。

 この部分の原文は、次のようになっています。 

The Bermuda Triangle, also known as the Devil’s Triangle, is a loosely defined region in the western part of the North Atlantic Ocean where a number of aircraft and ships are said to have disappeared under mysterious circumstances. Most reputable sources dismiss the idea that there is any mystery.

Wikipedia, “Bermuda Triangle”

 

Wikipedia, “Bermuda Triangle”

いかがでしょうか。この原文から「北朝鮮」という翻訳がなぜ出てくるのでしょうか。

はっきり言って、絶対にあり得ない翻訳結果です。だからとても不思議なのです。これはもはや誤訳のレベルではありません。意図的なねつ造レベルの翻訳結果になっています。

では、Googleページ翻訳ではなく通常のGoogle翻訳では、この部分をどのように翻訳しているのでしょうか。その結果は、上の誤訳とは大違いのまっとうな翻訳になっています。

 管理人は、ここで困り果ててしまいました。というのは、 Google ページ翻訳も通常のGoogle翻訳も同じ翻訳エンジンを使っているからです。鳴り物入りで登場したニューラル機械翻訳(NMT)です。

 本サイトでは、通常であればこのような誤訳の謎を追うのですが、以前やった経験から、この謎は解き明かせないことを知っているので、今回はやりません。

・・と思ったのですが、少しだけやってみます。

 ブラウザを変えても、アドオンを変えてもページ翻訳結果に変化はありません。誤訳が表示されます。

 考えられるのは、Google社がGoogleページ翻訳に使うエンジンを別のものに変えたということです。それがなんなのかは不明です。

ページ翻訳のurlを確認する

 まず、Google翻訳サイトurlを確認します。日本から検索する場合、主に次のサイトが使われるようです。

  • https://translate.google.com/  
  • https://translate.google.jp/   
  • https://translate.google.co.jp/  

 このいずれのサイトでも、正常に翻訳されることを確認しました。

 次に、ページ翻訳で使われている url の確認です。Chromeでは確認できないので、Firefoxで「S3.Translator」により確認します。

  「S3.Translator」 アイコンをクリックするとプルダウンメニューが表示されます。リストの2番目にある「Translate the page via Google Web site」をクリックすると、別タブが開き、日本語翻訳が表示されます。

 別タブでは、以下のような翻訳ページが表示されます。その翻訳内容は、「北朝鮮」という誤訳版になっています。つまり、このページを表示している url が誤訳の原因になっていると推測できます。

 この url を見ると、” translate.goog” となっており、”Google” とはなっていない! フェイクサイトかも、と考えたのですが、調べた結果、Google社のサイトであることを確認できました(Google透明性レポート)。Googleの親会社であるAlphabet Inc は、クラスの違うGoog株Google株を発行しているようです。 

Google翻訳の二つの翻訳エンジン

 ところで、Googleの使用している翻訳エンジンには、「フレーズベース機械翻訳(PBMT)」と「ニューラル機械翻訳(NMT)」の二つがあります(ありました!)。

  「S3.Translator」 のプルダウンメニューの「ページを翻訳」では「PBMT」が、 「Translate the page via Google Web site」 では「NMT」が使われていました。このため、管理人はこれを使い分けて利用していました。ところが、Google翻訳の仕様が変更になったらしく、「PBMT」の利用ができなくなっています。すべて「NMT」となります。そして、誤訳が発生している。

 どうして誤翻訳が「NMT」だと考えるのかというと、 PBMT の場合、フレーズ毎に翻訳するため、存在しない単語「北朝鮮」などを使った偽翻訳はあり得ないからです。

 「S3.Translator」のオプションから「Domain for Google-Translator」を指定できるのですが、どうやっても「NMT」になります。

ページ翻訳urlの構造 

誤翻訳をする url に戻って調べてみます。

元ページのurl: https://en.wikipedia.org/wiki/Bermuda_Triangle

ページ翻訳url: https://en-m-wikipedia-org.translate.goog/wiki/Bermuda_Triangle?_x_tr_sl=auto&_x_tr_tl=ja&_x_tr_hl=ja&_x_tr_pto=nui

 ページ翻訳url を見ると、「ドメイン」+「translate.goog」+「ページ」+「検索条件」という「URLパラメータ」の構成になっています。「ドメイン」の部分は、コンマ「.」がバー「-」に置き換えられています。

 パラメータを見ると、次のようになっています。これを「&」(アンパサンド)でつないでいます。

  •  _x_tr_sl=auto  元言語抽出(sl: Source Language) 元が英語指定の場合 ⇒ _x_tr_sl=en
  •  _x_tr_tl=ja    日本語へ (tl: Target Language)
  •  _x_tr_hl=ja    ブラウザで設定されている使用言語 画面の表示言語(操作ボタンなど)
  •  _x_tr_pto=nui  不明。この項を削除しても表示には変化がない。

 こうしてみると、残ったのは、「 translate.goog 」の部分だけになります。

 通常(これまで)のGoogle翻訳では、”https://translate.google.co.jp/”というアドレスが使われていました。

 たとえば、https://translate.google.com/website?sl=auto&tl=ja&u=https://en.wikipedia.org/wiki/Bermuda_Triangle  のように。ところが、これはリダイレクトされ、

“https://en-m-wikipedia-org.translate.goog/wiki/Bermuda_Triangle?_x_tr_sl=auto&_x_tr_tl=ja&_x_tr_hl=ja” となります。

 ページ翻訳だけ 「 translate.goog 」 が使われているようです。これはGoogleページ翻訳の仕様だから諦めるしかないのでしょうか。それとも、まっとうな翻訳ができるようにする何らかの方法があるのでしょうか。

 外国の質問サイトを見ても、質問者と回答者の応答がちぐはぐでかみ合わず、まともな回答になっていません。たぶん、回答者は問題を確認・理解できていないように感じました。

Google誤翻訳を修正するには

 今回の誤翻訳の原因となっている「the North Atlantic Ocean」を文節として翻訳しないという問題。実はこれがとても厄介な問題のように感じます。

 通常であれば、この部分を引用符(” “)で囲めば問題ないはずなのに、文節として認識されません。ハイフン( - )を使ってもだめ。どうやっても「北大西洋」という翻訳ができません。

 しかたなく、「改行」することで文節として認識されました。

 これで、「北朝鮮」という誤訳ともおさらばです。

 Wikipedia上で英文の改行を行っていますが、このやり方については、過去記事『webで開いたページを編集可能にする方法』を参照して下さい。ボタン一つでできます。