ChatGPT・Claude・Geminiのプロンプトが約何トークンになるかを概算(日本語対応)
トークンとは、ChatGPT(GPT)・Claude・GeminiといったLLM(大規模言語モデル)が文章を処理する際の最小単位です。LLMは入力された文章をそのまま文字として扱うのではなく、単語や単語の一部、あるいは文字のまとまりを「トークン」という単位に分割してから処理します。API料金の課金もコンテキスト長(一度に扱える上限)の管理も、すべてこのトークン数を基準に行われます。そのため、プロンプトや文章が「およそ何トークンになるか」を事前に把握しておくと、料金の見積もりやコンテキスト上限の確認に役立ちます。
トークンの分割ルールは言語によって大きく異なります。英語は1つの単語がそのまま1トークン、あるいは数文字で1トークンになることが多いのに対し、日本語は1文字または数文字ごとに区切られやすく、同じ文字数でも英語より多くのトークンを消費しやすい傾向があります。たとえば英語の文章と、それを翻訳した日本語の文章を比べると、内容は同じでも日本語の方がトークン数が大きくなりがちです。
このツールは、入力されたテキストを全角文字(日本語のひらがな・カタカナ・漢字など)と半角文字(英数字・記号)に分けてカウントし、全角は約2.5文字で1トークン、半角は約4文字で1トークンとして概算しています。計算式は「概算トークン数 = 切り上げ(全角文字数 ÷ 2.5 + 半角文字数 ÷ 4)」です。あくまで文字数ベースの概算であり、正確なトークン数はモデルごとのトークナイザ(OpenAIのtiktokenなど)によって異なります。厳密な値が必要な場合は、各モデル公式のトークナイザで確認してください。
代表的な文字数が、本ツールの概算ロジックでおよそ何トークンになるかをまとめた早見表です。日本語(全角)と英数字(半角)で消費トークン数が異なる点に注目してください。
| テキスト | 文字数 | 概算トークン数 |
|---|---|---|
| 日本語 | 100字 | 40 |
| 日本語 | 500字 | 200 |
| 日本語 | 1,000字 | 400 |
| 日本語 | 2,000字 | 800 |
| 英数字 | 400字 | 100 |
| 英数字 | 1,000字 | 250 |
※ トークン数は文字数ベースの概算です。実際の値はモデルのトークナイザにより前後します。正確な値は上の計算ツールで概算を確認しつつ、最終的には各モデル公式のトークナイザでご確認ください。