短语“Hello world”怎么可能有两个英语令牌和 12 个印地语令牌?
在我最近发表了一篇关于如何估算OpenAI的API成本的文章后,我收到了一条有趣的评论,有人注意到OpenAI API在其他语言中比在英语中贵得多,例如使用中文,日语或韩语(CJK)字符的语言。
标记化示例
令牌化长度的差异是一个问题,因为 OpenAI API 以 1,000 个令牌为单位计费。因此,如果您在可比较文本中拥有多达 15 倍的代币,这将导致 API 成本增加 15 倍。
实验:不同语言的令牌数量让我们将短语“Hello world”翻译成日语(こんにちは世界)并将其转录为印地语(हैलोवर्ल्ड)。当我们使用 OpenAI 的 GPT 模型中使用的分词器标记新短语时,我们得到以下结果(您可以在本文末尾找到我用于这些实验的代码):cl100k_base
英语、日语和印地语中短语“Hello world”的字母和标记 () 数cl100k_base
从上图中,我们可以做出两个有趣的观察:
字母数为...相关文章
猜你喜欢