大模型中的Token,一文读懂

Token是大模型最基础、最常见的概念,如何翻译没有定论,“标记”“词”“令牌”都有,复旦大学计算机学院邱锡鹏教授将其翻译为“词元”,个人认为比较恰当。

众所周知,大语言模型训练语料数量、上下文的限制、生成速度都用Token表示。

比如:

  • 通义千问-7B使用超过2.4万亿tokens的数据进行预训练,
  • 模型后面带着8k、32k,就是指在生成响应或进行预测时最大文本长度
  • 评估大模型生成速度的TPS,指的是每秒输出token数

Token是指语言模型中用来表示中文汉字、英文单词、或中英文短语的符号。

Token可以是单个字符,也可以是多个字符组成的序列。

网上各种资料,关于一个 token是多少汉字说法不一。

最为知名的大模型ChatGPT,模型使用Byte Pair Encoding (BPE,一种子词分词方法,可以将词语进一步划分为更小的可重复部分)进行文本编码,这种编码方式在处理不同语言时的效率可能会有所不同。

GPT-3:每词输出最高上限为2049个Token,大约可以写出1000字的中文文章、1720字的英文文章 GPT-4:每词输出最高上限为32768个Token,约是16056个中文字、25000个英文字

对于汉语等字形语言,一个token可能只包含一个字符,但对于英语等词素语言,一个token可能包含一个或多个单词

OpenAI官方文档中介绍:“1000个token通常代表750个英文单词或500个汉字。1 个token大约为 4 个字符或 0.75 个单词。”

1个字母=1个字符,举例,hello=5字符
1个汉字=1个字符,举例,你好=2字符

这里有OpenAI官方的token计算工具 : https://platform.openai.com/tokenizer

就如刚才所说,不同模型可能有自己的切分方法,对应地,一个Token对应地汉字数也不一样。一个Token对应汉字,0.75到1.8个汉字不等。

百度文心一言也提供了token计算器来在线计算文心大模型的字符转token数。

网址:https://console.bce.baidu.com/support/#/tokenizer

阿里通义千问也有:https://dashscope.console.aliyun.com/tokenizer

所以一个Token有多少个汉字,具体取决于分词器的设计。

目前的各种tokenization技术,涉及到将文本分割成有意义的单元,以捕捉其语义和句法结构,如字级、子字级(例如,使用字节对编码或 WordPiece)或字符级。

根据特定语言和特定任务的需求,每种技术都有自己的优势和权衡。比如Qwen-7B采用UTF-8字节级别的BPE tokenization方式,并依赖OpenAI开源的tiktoken软件包执行分词。

  • 字节对编码(BPE):为AI模型构建子词词汇,用于合并出现频繁的字符/子字对。
  • 子词级tokenization:为复杂语言和词汇划分单词。将单词拆分成更小的单元,这对于复杂的语言很重要。
  • 单词级tokenization:用于语言处理的基本文本tokenization。每个单词都被用作一个不同的token,它很简单,但受到限制。
  • 句子片段:用习得的子词片段分割文本,基于所学子单词片段的分段。
  • 分词tokenization:采用不同合并方法的子词单元。
  • 字节级tokenization:使用字节级token处理文本多样性,将每个字节视为令牌,这对于多语言任务非常重要。
  • 混合tokenization:平衡精细细节和可解释性,结合词级和子词级tokenization。

关于tokenization,如果大家感兴趣,下一篇我详细讲讲。

最后再推荐一个网站,可以一目了然地查看大模型性能:https://llmbenchmark.liduos.com/?r=cdr

这个网站会实时展示不同大模型的:TTFT、TPS 和 Total,表头支持排序和筛选。

llmbenchmark.liduos.com是@juberti的团队发布thefastest.ai的国内版

大家如果对国外大模型API性能感兴趣可以访问:https://thefastest.ai

这个项目还是开源的:https://github.com/fixie-ai/thefastest.ai

最后推一下我的星球:只聊技术变现,不复制粘贴资讯,不会搬运他人观点。我会在这里分享对新技术的思考,风口赚钱项目,介绍变现套路,为大家答疑解惑。你可以把我当作你的另一双眼睛,帮你筛选,解读最有价值的信息。现在加入附赠1)AI资料大礼包;2)GPT、Claude 、Gemini、Llama、Qwen、DeepSeek、Minimax、Moonshot、Yi、GLM国内网络免费使用;3)部分公众号付费专栏或付费阅读的文章免费畅读;4)AI绘画、高效AI工具、高质量资料分享;5)微信群&有问必答

大模型最新情报

Pandas 加速150倍!

用机器学习来优化人生

我“参加了”阿里巴巴全球数学竞赛决赛,分享一下经验

搭建机器学习开发环境及Python基础,108页PDF

116页PDF小册子:机器学习中的概率论、统计学、线性代数


相关推荐

  • MSRA:视觉生成六大技术问题
  • 大模型剧本杀开源:6个Claude里藏一个凶手!刚上线服务器就被挤爆,免费免下载免注册
  • OpenAI新模型「草莓」曝光:强推理/长任务规划/超大规模训练!还给出AGI分级
  • Project Leyden 早期访问版本开放下载:Java 程序启动速度提升 2 至 3 倍
  • 金融数字化营销的“陷阱”与“出路” | 直播预告
  • 大型银行和中小银行眼中的“五篇大文章”有何不同?
  • 微软中国 CTO 韦青:亲身经历大模型落地的体会与思考
  • 干财务的学Python到底有没有用?
  • 实现一个直击用户灵魂的 Loading 效果(附源码)
  • 为消除幻觉,Amazon Bedrock开大招! 推出上下文基础和 RAG 连接器!
  • GPT-4o们其实都是眼盲!OpenAI奥特曼自曝自家模型:推理比人弱。研究证明:多模态能力还差得远,杨立昆上大分
  • CVPR 2024 冠军!视频版GPT-4o
  • 项目终于用上了 PowerJob,真香!
  • 深度学习时间序列异常检测方法
  • 为啥本科生都能发顶会,而博士一篇都没有?
  • 压箱底:10 个超强的 Web 资源汇总!
  • Node进程管理器PM2使用
  • 密歇根州立大学崔梓筠教授课题组2025春/秋博士招聘
  • 五年后的今天,训练GPT-2只需不到700刀、24小时,Karpathy又整新活
  • 美联储鲍威尔 | 货币政策众议院半年度听证 (全文+视频)