1
houshuu 2023-04-08 10:40:56 +08:00 via iPhone
应该不同的,我记得官方给的是 GPT2 的 Fast Tokenize 实现
|
2
HimeHina 2023-04-09 05:29:16 +08:00
官方的 tokenizer 网页应该是给 GPT3 用的。GPT3.5 和 GPT4 用的 encoding 不太一样。可以用官方提供的 tiktoken 库来计算,不过官方示例说是一个估计值,但我用下来和账单的数据是一样的(可能会差一两个 token )。
具体看[官方示例]( https://github.com/openai/openai-cookbook/blob/main/examples/How_to_count_tokens_with_tiktoken.ipynb)的第 6 小节。 |