1
yinmin 2023-10-07 00:49:35 +08:00 via iPhone
openai 的 python 库有这个功能
|
2
yinmin 2023-10-07 00:52:39 +08:00 via iPhone
|
3
yinmin 2023-10-07 01:32:35 +08:00
openai 有个坑,https://platform.openai.com/tokenizer 不支持中文的,这个页面计算中文 token 的结果是错误的,几乎多算了 1 倍。https://github.com/openai/tiktoken 的结果和 openai api 是一致的。
例如在 GPT3.5 下 (不含引号): "晚上好!有什么我可以帮助您的吗?" 实际是 20 个 token "晚上好!我是一个 AI 助手,我一直在线,可以随时为你提供帮助。你有什么问题或者需要什么帮助吗?" 实际是 50 个 token "我是一个人工智能助手,没有感情,所以我没有晚上好不好的情绪。但是很高兴能为您提供帮助,有什么可以帮您的?" 实际是 58 个 token GPT3.5 和 GPT4 的 token 算法不一样,不能混用。 |