ChatGPTのずば抜けた日本語能力には驚くばかりです。これを翻訳に使わない手はない。そこで問題となるのは、一度に翻訳できる文字数です。いったい、何文字まで翻訳可能なのでしょうか。
さっそく、ご本人(ChatGPT)に聞いてみましょう。
一度に何文字入力可能ですか
ChatGPT(GPT-3.5)は、一度に最大で4096文字の入力を受け付けることができます。ただし、長い入力文は、応答の品質や速度に影響を与える可能性があります。通常、より短い文やパラグラフを使用すると、モデルの応答がより適切かつ迅速になる傾向があります。
このチャットの冒頭、「ChatGPT(GPT-3.5)は、一度に最大で4096文字の入力を受け付けることができます。ただし、長い入力文は、応答の品質や速度に影響を与える可能性があります。通常、より短い文やパラグラフを使用すると、モデルの応答がより適切かつ迅速になる傾向があります。」という回答がありましたが、4096文字とは日本語カウントですか。
申し訳ありません、先ほどの回答における4096文字の制限に関して誤解を招く表現がありました。GPT-3.5モデルは、実際にはトークン数に基づいて入力制限があります。トークンとは、テキストを一定の単位(文字、句読点、空白など)に分割したものです。
GPT-3.5の場合、一度の入力でのトークンの最大数は4096トークンです。ただし、日本語の場合、一文字が1つのトークンとなるわけではなく、漢字や複数の文字で構成される言葉も1つのトークンとして数えられます。したがって、具体的な文字数としての制限は一意には決まりません。
一般的に、日本語の文章では英語の文章よりもトークン数が多くなる傾向があるため、日本語の場合は4096トークンを超える長い入力文を使用すると、応答の品質や速度に影響が出る可能性が高くなります。なるべく短い文やパラグラフを使用することが推奨されます。ご理解いただきありがとうございます。
具体的に教えてください。次の文章は何トークンですか? カギ括弧も含めてカウントしてください。 「吾輩は猫である。まだ、名前はない。」
与えられた文章「吾輩は猫である。まだ、名前はない。」をトークン数でカウントしてみましょう。
「吾輩は猫である。まだ、名前はない。」は以下のようにトークンに分割されます(カギ括弧はトークンとして数えます):
[“吾輩“, “は“, “猫“, “である“, “。“, “まだ“, “、“, “名前“, “は“, “ない“, “。“]したがって、与えられた文章は11個のトークンから構成されています。
なるほど。やっと理解できました。(回答が違いますが)、カギ括弧を含めれば、13トークンということのようです。質問文の文字数カウントは、カギ括弧を含めて19文字なので、トークン数はそれよりも少なくなるようです。
ついでに、英文のトークン数についても聞いてみます。
次の英文は何トークンですか? “I am a cat. I don’t have a name yet.”
与えられた英文 “I am a cat. I don’t have a name yet.” をトークン数でカウントしてみましょう。
“I am a cat. I don’t have a name yet.” は以下のようにトークンに分割されます(句読点や空白もトークンとして数えます):
[“I“, “am“, “a“, “cat“, “.“, “I“, “don’t“, “have“, “a“, “name“, “yet“, “.“]したがって、与えられた英文は12個のトークンから構成されています。
トークン数の数え方は、文字数ではなく、単語単位。句読点やカギ括弧は1トークン。英語も日本語も同じ考え方のようです。
ChatGPTが翻訳機として役に立つのはロシア語などを翻訳する時です。通常の翻訳エンジンはロシア語をまともに翻訳できません。これは「ディアトロフ峠事件」や「ディアナ号」などロシアに関係する記事を書いているとき痛感したことでした。
ChatGPTが翻訳ソフトとしてその実力を発揮するのは、再翻訳をするときです。翻訳間違いを指摘すると、どんどん高精度の翻訳になります。これは、Google翻訳にもDeepLにもない機能です。
ここで思ったのは、ロシアの詐欺サイトがChatGPTを使って日本文を作成し詐欺攻撃を仕掛けるケースです。ChatGPTが生成した日本語はほぼ完璧なので、文面を読んだだけではおかしいと気づかない恐れがあります。いや、だれも気づかないでしょう。
便利な世の中になりましたが、それは、詐欺サイト運営者にとっても同じこと。これまで以上に気をつける必要がありそうです。