周末,儿子突然抬头问我:"爸,什么是 token?"
我张口想答,结果讲了一通,他听得似懂非懂,我自己心里也没底。
于是我认真研究了一晚上,重新讲给他听。今天也分享给你。
token 是人为发明的文本计量单位,天然不存在,就像公里、斤两——专门用来"量"文字。AI 看不懂汉字,得先靠"分词"把文字拆成一串数字编码。
大致折算:中文 1.5 个字 ≈ 1 个 token,标点、空格也都算进去(不同模型的词表拆法略有差异)。你提的问题,被 CPU 拆成"输入 token",不占显卡算力;AI 生成的回答,则是 GPU 一个字一个字算出来的"输出 token",这才是成本大头。
完整链路就是:原文 → CPU 分词(输入 token)→ GPU 运算 → 输出 token → CPU 解码成你能读的字。
AI 是按 token 计价的。这笔钱大致花在四处:算力(显卡折旧 + 电费)约 55%、研发运维 20%、带宽机房 15%、平台利润 10%。
所以输出比输入贵——输入只是读一遍显存,开销很低;输出要显卡满负荷逐字运算,损耗大,单价通常是输入的 2~6 倍。
拿 DeepSeek V4‑Pro 举例:未缓存的新输入 3 元/百万 token,命中缓存只要 0.025 元/百万(几乎可忽略),生成输出 6 元/百万 token。提示词固定时可以开缓存,日常基本只用算输出这一笔。换算到真实场景:
算明白这笔账你会发现:真正贵的从来不是 token,而是你愿不愿意把一件事,琢磨到能讲给别人听。