ChatGPTを翻訳に使うときに役立つトークン数とは

 ChatGPTのずば抜けた日本語能力には驚くばかりです。これを翻訳に使わない手はない。そこで問題となるのは、一度に翻訳できる文字数です。いったい、何文字まで翻訳可能なのでしょうか。

 さっそく、ご本人(ChatGPT)に聞いてみましょう。

 

 

ネコ師
ネコ師

一度に何文字入力可能ですか

ChatGPT
ChatGPT

ChatGPT(GPT-3.5)は、一度に最大で4096文字の入力を受け付けることができます。ただし、長い入力文は、応答の品質や速度に影響を与える可能性があります。通常、より短い文やパラグラフを使用すると、モデルの応答がより適切かつ迅速になる傾向があります。

ネコ師
ネコ師

このチャットの冒頭、「ChatGPT(GPT-3.5)は、一度に最大で4096文字の入力を受け付けることができます。ただし、長い入力文は、応答の品質や速度に影響を与える可能性があります。通常、より短い文やパラグラフを使用すると、モデルの応答がより適切かつ迅速になる傾向があります。」という回答がありましたが、4096文字とは日本語カウントですか。

 

 

ChatGPT
ChatGPT

申し訳ありません、先ほどの回答における4096文字の制限に関して誤解を招く表現がありました。GPT-3.5モデルは、実際にはトークン数に基づいて入力制限があります。トークンとは、テキストを一定の単位(文字、句読点、空白など)に分割したものです。

GPT-3.5の場合、一度の入力でのトークンの最大数は4096トークンです。ただし、日本語の場合、一文字が1つのトークンとなるわけではなく、漢字や複数の文字で構成される言葉も1つのトークンとして数えられます。したがって、具体的な文字数としての制限は一意には決まりません。

一般的に、日本語の文章では英語の文章よりもトークン数が多くなる傾向があるため、日本語の場合は4096トークンを超える長い入力文を使用すると、応答の品質や速度に影響が出る可能性が高くなります。なるべく短い文やパラグラフを使用することが推奨されます。ご理解いただきありがとうございます。

ネコ師
ネコ師

具体的に教えてください。次の文章は何トークンですか? カギ括弧も含めてカウントしてください。  「吾輩は猫である。まだ、名前はない。」

ChatGPT
ChatGPT

与えられた文章「吾輩は猫である。まだ、名前はない。」をトークン数でカウントしてみましょう。

「吾輩は猫である。まだ、名前はない。」は以下のようにトークンに分割されます(カギ括弧はトークンとして数えます):

[“吾輩“, ““, ““, “である“, ““, “まだ“, ““, “名前“, ““, “ない“, ““]

したがって、与えられた文章は11個のトークンから構成されています。

 なるほど。やっと理解できました。(回答が違いますが)、カギ括弧を含めれば、13トークンということのようです。質問文の文字数カウントは、カギ括弧を含めて19文字なので、トークン数はそれよりも少なくなるようです。

 ついでに、英文のトークン数についても聞いてみます。

ネコ師
ネコ師

次の英文は何トークンですか? “I am a cat. I don’t have a name yet.”

ChatGPT
ChatGPT

与えられた英文 “I am a cat. I don’t have a name yet.” をトークン数でカウントしてみましょう。

“I am a cat. I don’t have a name yet.” は以下のようにトークンに分割されます(句読点や空白もトークンとして数えます):

[“I“, “am“, “a“, “cat“, “.“, “I“, “don’t“, “have“, “a“, “name“, “yet“, “.“]

したがって、与えられた英文は12個のトークンから構成されています。

トークン数の数え方は、文字数ではなく、単語単位。句読点やカギ括弧は1トークン。英語も日本語も同じ考え方のようです。

 ChatGPTが翻訳機として役に立つのはロシア語などを翻訳する時です。通常の翻訳エンジンはロシア語をまともに翻訳できません。これは「ディアトロフ峠事件」や「ディアナ号」などロシアに関係する記事を書いているとき痛感したことでした。

 ChatGPTが翻訳ソフトとしてその実力を発揮するのは、再翻訳をするときです。翻訳間違いを指摘すると、どんどん高精度の翻訳になります。これは、Google翻訳にもDeepLにもない機能です。

 ここで思ったのは、ロシアの詐欺サイトがChatGPTを使って日本文を作成し詐欺攻撃を仕掛けるケースです。ChatGPTが生成した日本語はほぼ完璧なので、文面を読んだだけではおかしいと気づかない恐れがあります。いや、だれも気づかないでしょう。

 便利な世の中になりましたが、それは、詐欺サイト運営者にとっても同じこと。これまで以上に気をつける必要がありそうです。