您现在的位置:kastop>> Kas信息 Web3信息>>正文内容

Token不是真正的资产 智能体才是

作者:张烽

一、科技公司员工天量token消耗

2026年5月,一则报道引发行业广泛关注:某科技公司因未对员工的Claude使用许可证设置上限,单月Token消耗折合约5亿美元。这一极端案例之所以值得审视,不在于其规模本身,而在于其暴露的度量逻辑断层:该公司将Token消耗等同于员工AI使用强度的度量,却未建立任何与业务产出挂钩的控制机制。

如果说这起“账单爆仓”尚属行政管理疏漏,那么Meta、亚马逊等硅谷头部企业的内部实践则揭示了更深层的问题。Meta内部曾推出名为“Claudeonomics”的排行榜,追踪逾8.5万名员工的Token消耗情况,设立“Token传奇”“模型鉴赏家”等头衔进行排名激励。数据显示,30天内全员累计消耗约60万亿Token,按Anthropic公开定价估算对应账单约9亿美元;排名最高的员工单月消耗约2810亿Token,折合约140万美元以上。亚马逊内部的“Kirorank”榜单最初旨在推动AI在业务场景的应用,结果却诱发了员工刻意执行无意义操作以“刷分”的现象,最终被高级副总裁直斥“不要为了用AI而用AI”。Token消耗量这一技术计量单位,在企业内部被异化为管理考核尺度后,正在制造大规模激励错位。

由此引出的核心命题是:Token消耗量能否作为评价AI智能体、企业或员工效能的依据?如果答案是否定的,那么什么指标才真正具有评价意义?

我们认为,以Token消耗量为评价指标是危险的,因为它混淆了“成本”与“价值”、混淆了“过程”与“产出”。在智能体正在成为AI应用主流的当下,真正的资产不是Token,而是智能体本身。

FmhoyZmO01SABZtSCtcyFkVqcmoG3jyBDXH1JkwD.jpeg

二、token资产化是怎么来的?

2.1 Token计价的商业化成熟

Token作为大模型处理文本的最小单位,已被确立为AI产业的基础计价单元。2026年3月,全国科学技术名词审定委员会正式将Token的中文名称定为“词元”,面向全社会发布试用,国家数据局进一步将其定义为智能时代的“结算单位”。据国家数据局披露,2026年第一季度我国日均Token调用量已突破140万亿,较2024年初增长超千倍 。这一术语标准化动作,反映了Token计价体系的产业共识正在形成。

从定价格局看,当前Token市场呈现极端分化。国际主流模型方面,OpenAI GPT-4o的输入价格为每百万Token 2.5美元、输出为10美元;Claude Sonnet 4.6输入3美元、输出15美元。2026年4月,OpenAI正式发布GPT-5.5系列及高级版GPT-5.5 Pro,API定价方案为GPT-5.5 Pro输入30美元、输出180美元每百万Token。与此同时,国内大模型以价格战姿态展开剧烈竞争:2026年5月27日,小米宣布MiMo-V2.5系列API永久降价最高达99%,其中MiMo-V2.5-Pro缓存命中输入价格降至0.025元每百万Token ;DeepSeek发布V4系列,旗舰版V4-Pro在优惠期间缓存命中输入价格亦低至0.025元每百万Token。Token计价单位并无统一的“公允价值”——不同模型、不同场景下,同等Token消耗可能对应价格相差百倍甚至千倍。

2.2 Tokenmaxxing的兴起与问题

Token作为计价单位的技术合理性与监管背书,与企业将其异化为管理尺度的实践之间,存在一条危险的断裂带。“Tokenmaxxing”约于2025年开始在企业内部流行,其底层管理逻辑是:既然公司已经购置了AI工具,员工应最大化使用以体现投资回报率。

然而数据揭示了这一逻辑的脆弱性。有研究估算,企业每1美元AI Token采购成本背后可能伴随约0.5至0.8美元隐性损耗,包括错误修复、代码重写和审查延迟。有分析指出,Claude Code前10%的重度用户消耗Token量为普通开发者的约十倍,但产出成果仅为后者的两倍左右。亚马逊、Meta已先后关停各自的Token内部排行榜,Uber则在四个月内耗尽全年AI Token预算。行业正从“用AI多牛”的叙事,急转进入“钱花得是否值”的审慎阶段。

2.3 智能体经济的涌现

然而,以Token消耗为焦点的讨论,几乎完全忽略了同一时期发生的结构性变化:智能体正在从大模型的“附加能力”成长为独立的技术与经济实体。2026年5月,国家网信办、国家发展改革委、工业和信息化部联合印发《智能体规范应用与创新发展实施意见》,明确智能体是人工智能产品及服务的重要形态 。Anthropic在2026年5月的开发者大会上,将Claude Code从“终端里的AI编程助手”推向“工程团队的异步自动化基础设施”,并正式转向“基础费+按实际算力消耗付费”的混合定价模式。其Claude Managed Agents策略代表了一种更深层的转向:模型厂商开始直接销售Agent运行层基础设施,商业模式正从卖Token转向卖智能体的运行能力。

正是在这一背景下,Token消耗量度量的局限性变得愈发凸显,替代性评价体系的探索也加速展开。

三、token作为度量指标真的合适吗?

3.1 Token作为度量指标的四重结构性缺陷

其一,Token混淆成本与价值。李彦宏在Create2026百度AI开发者大会上明确提出,“Token只是代表成本,并不代表收益;它衡量的是投入,而不是产出”。清华大学马少平教授则从技术底层阐明,“Token本身不携带智能,它只是承载信息的载体;AI的智能体现在对Token序列的关系建模上”。把Token消耗量作为效能指标,相当于一家工厂以耗电量作为产值考核标准——电费花得越多,不一定意味着产出越高,反倒可能说明设备低效或管理失控。

其二,Token缺乏跨模型、跨任务的度量基准。不同大模型的Token计算方式不一致,Anthropic在相关版本中的分词器调整可能导致相同文本消耗Token数量发生显著变化。不同任务中完成同等业务目标所需的Token量也存在数量级差异。更根本的是,当Token计价本身已在大模型厂商之间形成了百倍以上的价差时,以其作为效能度量锚点,在逻辑上处于无法自洽的状态。

其三,Token考核引发激励错位。当Token消耗量被纳入绩效考核后,企业面临的并非员工因过度使用AI而“浪费成本”,而是员工主动选择“最大化Token消耗”这一伪目标。工程师不再追求用最少Token完成最优任务,而是通过膨胀任务链条、增加冗余推理步骤来提高Token计数——这种行为经济学意义上的“指标异化”,在Meta和亚马逊的实践中均有明确体现。

其四,Token难以捕捉完成质量。一个能够准确一次性解决复杂工程问题的智能体,消耗的Token可能远少于一个需要反复试错、多次回退、逐步逼近答案的低质量智能体。Token消耗量越多,往往意味着运行效率越低——这与考核目标的方向恰恰相反。

3.2 智能体作为核心资产的再定义

上述分析指向一个根本性的结论:Token是被消耗的资源,而智能体是创造价值的实体二者之间的关系,类似于电力消耗与驱动电力的电动机之间的关系——可以统计总耗电量,但真正有价值的是电动设备完成了多少工作、产出了什么产品。

Anthropic的发展战略提供了佐证。2026年5月发布的新版Claude模型将重点放在了“agentic coding、computer use、knowledge work、financial analysis”——即智能体可介入的真实工作场景。更值得关注的是Anthropic在managed agents中展示的平台化战略:厂商正从销售模型调用权,转向提供智能体运行层服务。这种变化的本质是价值载体从底层算力消耗向上迁移至应用层实体。

据Claude Code负责人透露,若按现行纯订阅定价该产品并不盈利。这一现实表明,单靠Token计价难以覆盖智能体的真实成本结构——智能体的价值来源在于任务完成度、自动化深度和工作流嵌入度,而这些都无法在Token计量维度中被有效捕捉。

3.3 新一代评价基准的涌现

当Token度量被证明不足时,行业正在探索替代方案。从任务完成基准看,SWE-bench Verified已成为代码智能体领域公认的严格评测标准,要求模型在真实GitHub代码库中自主定位并修复Bug。公开排行榜数据显示,Claude Sonnet 4在SWE-bench Verified上得分约80.20%,Claude Opus 4.6等模型在该基准上得分约78%至80%不等 。这些基准的核心是不统计消耗了多少Token,而是评估智能体完成了多少“任务单元”。

在业务价值评价侧,百度提出DAA(日活智能体数),其定义是“每天有多少智能体踏踏实实在替人干活、交付结果”。DAA的核心转向是把评价重心从“使用了多少AI”转向“AI完成了多少任务”。

亚马逊也在内部探索以“归一化部署”指标替代Token追踪,重点衡量工程师能否通过AI持续生成有实际价值的代码。FinOps Foundation的2026年报告显示,98%的受访企业已在管理AI成本,较两年前仅31%大幅上升,成本可见性成为行业首要挑战。这一趋势暗示行业对AI支出的精细化评估需求正从“是否有支出”转向“支出与产出关系”的结构性审视。

这些探索的共同逻辑在于:以智能体完成任务的质量和数量为度量基准,而非以消耗资源的总量为度量基准——这正是“真正的资产不是Token,而是智能体本身”这一命题的实证支撑。

四、token度量与价格战的比较

4.1 Token度量派 vs 智能体度量派

Token度量派的基本立场可追溯至黄仁勋在2026年3月GTC大会上的相关表述:“如果一位年薪50万美元的工程师一年消耗不掉25万美元的Token,我会深感焦虑”,并主张将Token预算视为工程师生产力的投入指标。这一叙事框架的核心是将Token消耗视为生产力投入指标,其隐含假设是“Token消耗的多少与价值创造的正相关”。

然而,这一假设正遭遇多重挑战。Uber首席运营官Andrew Macdonald直接点出了困境的本质:“我们很难把员工个人生产力的提升,和公司整体的业务影响联系起来”。在企业实践中,员工通常将AI用于自身“不喜欢的工作”而非“对公司最有价值的工作”。企业财务层面,有调查显示仅14%的CFO表示能够看到AI投资具有清晰可衡量的回报。Uber在耗尽年度Token预算后,未能呈现匹配的绩效增长。这些证据指向一个共同方向:Token预算与业务增长之间缺乏可验证的因果关系,Token不应被赋予评价尺度职能。

4.2 Token价格战的双刃剑效应

围绕Token定价的激烈竞争,为上述度量争议增添了新的维度。OpenAI于2026年4月发布的GPT-5.5 Pro API定价输入30美元、输出180美元每百万Token,较此前的GPT-5.4 Pro定价上涨数倍。与此同时,DeepSeek将V4-Pro优惠价降至0.025元每百万Token,小米亦将MiMo-V2.5-Pro缓存命中价降至0.025元每百万Token 。Token价格体系的分化程度,已超过任何传统商品市场的价格梯度。在同等基础设施层面,输入百万Token的调用成本可从不足0.03元跨越至约210元人民币(约30美元)。

这一动态对Token作为度量尺度的可信度构成了根本性威胁:如果同等Token在不同供应商之间的成本差异可达数百乃至数千倍,Token消耗量又如何成为横向对比企业AI效能的依据?对于投资人与分析师而言,基于Token消耗量的风险评估和业绩预测也将面临越来越大的偏差。Token计价本身正在经历极速分化,以消耗量衡量的“投入规模”正在失去参照系意义。

五、事实胜于雄辩

场景一:Meta“Claudeonomics”的失效

2026年4月,Meta一名员工开发了名为“Claudeonomics”的内部仪表盘,用以统计公司超8.5万员工的Token使用量。数据显示,30天内全员累计消耗约60万亿Token,按Anthropic公开定价估算对应账单约9亿美元。排名最高的个人单月消耗约2810亿Token,折合约140万美元以上。

这一案例完整呈现了Token度量导向激励的三个阶段:第一阶段,以Token用量激励员工使用AI工具;第二阶段,员工主动寻找甚至生成Token消耗任务以维持排名;第三阶段,公司算力资源被无效消耗,产出质量严重低于预期。最终,Meta关停了该榜单。

场景二:Anthropic的算力瓶颈与扩张

Token度量的另一面是模型厂商自身的成本与算力压力。2026年5月,为缓解Claude用户的容量限制,Anthropic宣布将接管SpaceX旗下Colossus 1数据中心的全部算力,获得超过300兆瓦新增容量、逾22万张英伟达GPU。据协议,新增算力将直接用于提升Claude Pro和Claude Max会员的服务承载能力。这一扩张动作揭示了Token计价体系对算力供给的高度依赖,也折射出Token计价的长期稳定性尚存变数。

场景三:企业Token账单的普遍压力

有报道称微软一度限制员工使用Claude Code。Uber在四个月内花完全年AI Token预算。Shopify、Spotify、ServiceNow、Roku等科技公司的财报会议均提到AI成为运营支出的主要压力来源。当Token账单的急速膨胀开始影响季度财报数据时,企业界才真正开始系统性审视Token消耗与业务产出之间的关系。

场景四:智能体作为资产的正向案例

在Token度量派叙事面临挑战的同时,聚焦智能体本身构建评价体系的企业呈现出不同的发展路径。Anthropic聚焦企业服务的战略有显著成效:其C端活跃用户不及ChatGPT的2%,但在年化收入上持续追近OpenAI。据媒体报道,Anthropic年化收入于2025年底约90亿美元,至2026年3月已突破300亿美元,正式超越OpenAI同期250亿美元的水平。有分析指出,这种反差的根源之一是Anthropic的智能体在企业后台执行合同处理、数据分析、供应链调度等真实任务——用户看不见智能体的存在,但每天有稳定价值产出。

据The Information等媒体报道,Claude Code的年化收入在2025年至2026年初持续高速增长。企业为智能体能够完成任务的质量付费,而非仅为算力消耗量付费——这正是“智能体是真正的资产”命题的有力佐证。

六、以token资产为中心将转向智能体资产为中心

综上,我们不难看出,正反两方面的趋势已经日渐明显。

第一,Token消耗量作为效能评价指标存在结构性缺陷。它混淆了投入与产出、成本与价值;它缺乏跨模型、跨场景的度量基准;它将考核目标与经营目标分离,诱发了严重的激励错位。Meta和亚马逊的内部实践已有明确证实。

第二,智能体正在成为AI经济中最具实质性的价值载体。智能体的定义特征是“完成任务单元”,而非“消耗算力单元”。一个高效智能体可能消耗极少量Token就完成高度复杂的任务;一个低效智能体可能消耗大量Token却没能解决任何真实问题。因此,Token消耗量既不反映智能体的能力边界,也无法预测企业的AI投资回报。

第三,行业正在从Token中心转向智能体中心的评价体系。SWE-bench等任务完成基准为智能体能力的横向比较提供了框架;DAA等业务价值指标试图从智能体运行层面衡量AI的经济贡献;企业在内部探索以产出质量为维度的绩效指标。

总之,真正的资产不是Token,而是智能体本身。Token是智能体运行的燃料,但企业的竞争力取决于发动机的效率,而非油箱的容量。从Token中心到智能体中心的度量范式转换,将是未来三到五年AI产业评价体系重构的主线之一。



感动 同情 无聊 愤怒 搞笑 难过 高兴 路过
【字体: 】【收藏】【打印文章】 【 打赏 】 【查看评论

相关文章

    没有相关内容