您现在的位置：kastop>> Kas信息 Web3信息>>正文内容

Token不是真正的资产智能体才是

作者：未知来源：kastop.com 发布时间：2026年06月02日

作者：张烽

一、科技公司员工天量token消耗

2026年5月，一则报道引发行业广泛关注：某科技公司因未对员工的Claude使用许可证设置上限，单月Token消耗折合约5亿美元。这一极端案例之所以值得审视，不在于其规模本身，而在于其暴露的度量逻辑断层：该公司将Token消耗等同于员工AI使用强度的度量，却未建立任何与业务产出挂钩的控制机制。

如果说这起“账单爆仓”尚属行政管理疏漏，那么Meta、亚马逊等硅谷头部企业的内部实践则揭示了更深层的问题。Meta内部曾推出名为“Claudeonomics”的排行榜，追踪逾8.5万名员工的Token消耗情况，设立“Token传奇”“模型鉴赏家”等头衔进行排名激励。数据显示，30天内全员累计消耗约60万亿Token，按Anthropic公开定价估算对应账单约9亿美元；排名最高的员工单月消耗约2810亿Token，折合约140万美元以上。亚马逊内部的“Kirorank”榜单最初旨在推动AI在业务场景的应用，结果却诱发了员工刻意执行无意义操作以“刷分”的现象，最终被高级副总裁直斥“不要为了用AI而用AI”。Token消耗量这一技术计量单位，在企业内部被异化为管理考核尺度后，正在制造大规模激励错位。

由此引出的核心命题是：Token消耗量能否作为评价AI智能体、企业或员工效能的依据？如果答案是否定的，那么什么指标才真正具有评价意义？

我们认为，以Token消耗量为评价指标是危险的，因为它混淆了“成本”与“价值”、混淆了“过程”与“产出”。在智能体正在成为AI应用主流的当下，真正的资产不是Token，而是智能体本身。

二、token资产化是怎么来的？

2.1 Token计价的商业化成熟

Token作为大模型处理文本的最小单位，已被确立为AI产业的基础计价单元。2026年3月，全国科学技术名词审定委员会正式将Token的中文名称定为“词元”，面向全社会发布试用，国家数据局进一步将其定义为智能时代的“结算单位”。据国家数据局披露，2026年第一季度我国日均Token调用量已突破140万亿，较2024年初增长超千倍。这一术语标准化动作，反映了Token计价体系的产业共识正在形成。

从定价格局看，当前Token市场呈现极端分化。国际主流模型方面，OpenAI GPT-4o的输入价格为每百万Token 2.5美元、输出为10美元；Claude Sonnet 4.6输入3美元、输出15美元。2026年4月，OpenAI正式发布GPT-5.5系列及高级版GPT-5.5 Pro，API定价方案为GPT-5.5 Pro输入30美元、输出180美元每百万Token。与此同时，国内大模型以价格战姿态展开剧烈竞争：2026年5月27日，小米宣布MiMo-V2.5系列API永久降价最高达99%，其中MiMo-V2.5-Pro缓存命中输入价格降至0.025元每百万Token ；DeepSeek发布V4系列，旗舰版V4-Pro在优惠期间缓存命中输入价格亦低至0.025元每百万Token。Token计价单位并无统一的“公允价值”——不同模型、不同场景下，同等Token消耗可能对应价格相差百倍甚至千倍。

2.2 Tokenmaxxing的兴起与问题

Token作为计价单位的技术合理性与监管背书，与企业将其异化为管理尺度的实践之间，存在一条危险的断裂带。“Tokenmaxxing”约于2025年开始在企业内部流行，其底层管理逻辑是：既然公司已经购置了AI工具，员工应最大化使用以体现投资回报率。

然而数据揭示了这一逻辑的脆弱性。有研究估算，企业每1美元AI Token采购成本背后可能伴随约0.5至0.8美元隐性损耗，包括错误修复、代码重写和审查延迟。有分析指出，Claude Code前10%的重度用户消耗Token量为普通开发者的约十倍，但产出成果仅为后者的两倍左右。亚马逊、Meta已先后关停各自的Token内部排行榜，Uber则在四个月内耗尽全年AI Token预算。行业正从“用AI多牛”的叙事，急转进入“钱花得是否值”的审慎阶段。

2.3 智能体经济的涌现

然而，以Token消耗为焦点的讨论，几乎完全忽略了同一时期发生的结构性变化：智能体正在从大模型的“附加能力”成长为独立的技术与经济实体。2026年5月，国家网信办、国家发展改革委、工业和信息化部联合印发《智能体规范应用与创新发展实施意见》，明确智能体是人工智能产品及服务的重要形态。Anthropic在2026年5月的开发者大会上，将Claude Code从“终端里的AI编程助手”推向“工程团队的异步自动化基础设施”，并正式转向“基础费+按实际算力消耗付费”的混合定价模式。其Claude Managed Agents策略代表了一种更深层的转向：模型厂商开始直接销售Agent运行层基础设施，商业模式正从卖Token转向卖智能体的运行能力。

正是在这一背景下，Token消耗量度量的局限性变得愈发凸显，替代性评价体系的探索也加速展开。

三、token作为度量指标真的合适吗？

3.1 Token作为度量指标的四重结构性缺陷

其一，Token混淆成本与价值。李彦宏在Create2026百度AI开发者大会上明确提出，“Token只是代表成本，并不代表收益；它衡量的是投入，而不是产出”。清华大学马少平教授则从技术底层阐明，“Token本身不携带智能，它只是承载信息的载体；AI的智能体现在对Token序列的关系建模上”。把Token消耗量作为效能指标，相当于一家工厂以耗电量作为产值考核标准——电费花得越多，不一定意味着产出越高，反倒可能说明设备低效或管理失控。

其二，Token缺乏跨模型、跨任务的度量基准。不同大模型的Token计算方式不一致，Anthropic在相关版本中的分词器调整可能导致相同文本消耗Token数量发生显著变化。不同任务中完成同等业务目标所需的Token量也存在数量级差异。更根本的是，当Token计价本身已在大模型厂商之间形成了百倍以上的价差时，以其作为效能度量锚点，在逻辑上处于无法自洽的状态。

其三，Token考核引发激励错位。当Token消耗量被纳入绩效考核后，企业面临的并非员工因过度使用AI而“浪费成本”，而是员工主动选择“最大化Token消耗”这一伪目标。工程师不再追求用最少Token完成最优任务，而是通过膨胀任务链条、增加冗余推理步骤来提高Token计数——这种行为经济学意义上的“指标异化”，在Meta和亚马逊的实践中均有明确体现。

其四，Token难以捕捉完成质量。一个能够准确一次性解决复杂工程问题的智能体，消耗的Token可能远少于一个需要反复试错、多次回退、逐步逼近答案的低质量智能体。Token消耗量越多，往往意味着运行效率越低——这与考核目标的方向恰恰相反。

3.2 智能体作为核心资产的再定义

上述分析指向一个根本性的结论：Token是被消耗的资源，而智能体是创造价值的实体。二者之间的关系，类似于电力消耗与驱动电力的电动机之间的关系——可以统计总耗电量，但真正有价值的是电动设备完成了多少工作、产出了什么产品。

Anthropic的发展战略提供了佐证。2026年5月发布的新版Claude模型将重点放在了“agentic coding、computer use、knowledge work、financial analysis”——即智能体可介入的真实工作场景。更值得关注的是Anthropic在managed agents中展示的平台化战略：厂商正从销售模型调用权，转向提供智能体运行层服务。这种变化的本质是价值载体从底层算力消耗向上迁移至应用层实体。

据Claude Code负责人透露，若按现行纯订阅定价该产品并不盈利。这一现实表明，单靠Token计价难以覆盖智能体的真实成本结构——智能体的价值来源在于任务完成度、自动化深度和工作流嵌入度，而这些都无法在Token计量维度中被有效捕捉。

3.3 新一代评价基准的涌现

当Token度量被证明不足时，行业正在探索替代方案。从任务完成基准看，SWE-bench Verified已成为代码智能体领域公认的严格评测标准，要求模型在真实GitHub代码库中自主定位并修复Bug。公开排行榜数据显示，Claude Sonnet 4在SWE-bench Verified上得分约80.20%，Claude Opus 4.6等模型在该基准上得分约78%至80%不等。这些基准的核心是不统计消耗了多少Token，而是评估智能体完成了多少“任务单元”。

在业务价值评价侧，百度提出DAA（日活智能体数），其定义是“每天有多少智能体踏踏实实在替人干活、交付结果”。DAA的核心转向是把评价重心从“使用了多少AI”转向“AI完成了多少任务”。

亚马逊也在内部探索以“归一化部署”指标替代Token追踪，重点衡量工程师能否通过AI持续生成有实际价值的代码。FinOps Foundation的2026年报告显示，98%的受访企业已在管理AI成本，较两年前仅31%大幅上升，成本可见性成为行业首要挑战。这一趋势暗示行业对AI支出的精细化评估需求正从“是否有支出”转向“支出与产出关系”的结构性审视。

这些探索的共同逻辑在于：以智能体完成任务的质量和数量为度量基准，而非以消耗资源的总量为度量基准——这正是“真正的资产不是Token，而是智能体本身”这一命题的实证支撑。

四、token度量与价格战的比较

4.1 Token度量派 vs 智能体度量派

Token度量派的基本立场可追溯至黄仁勋在2026年3月GTC大会上的相关表述：“如果一位年薪50万美元的工程师一年消耗不掉25万美元的Token，我会深感焦虑”，并主张将Token预算视为工程师生产力的投入指标。这一叙事框架的核心是将Token消耗视为生产力投入指标，其隐含假设是“Token消耗的多少与价值创造的正相关”。

然而，这一假设正遭遇多重挑战。Uber首席运营官Andrew Macdonald直接点出了困境的本质：“我们很难把员工个人生产力的提升，和公司整体的业务影响联系起来”。在企业实践中，员工通常将AI用于自身“不喜欢的工作”而非“对公司最有价值的工作”。企业财务层面，有调查显示仅14%的CFO表示能够看到AI投资具有清晰可衡量的回报。Uber在耗尽年度Token预算后，未能呈现匹配的绩效增长。这些证据指向一个共同方向：Token预算与业务增长之间缺乏可验证的因果关系，Token不应被赋予评价尺度职能。

4.2 Token价格战的双刃剑效应

围绕Token定价的激烈竞争，为上述度量争议增添了新的维度。OpenAI于2026年4月发布的GPT-5.5 Pro API定价输入30美元、输出180美元每百万Token，较此前的GPT-5.4 Pro定价上涨数倍。与此同时，DeepSeek将V4-Pro优惠价降至0.025元每百万Token，小米亦将MiMo-V2.5-Pro缓存命中价降至0.025元每百万Token 。Token价格体系的分化程度，已超过任何传统商品市场的价格梯度。在同等基础设施层面，输入百万Token的调用成本可从不足0.03元跨越至约210元人民币（约30美元）。

这一动态对Token作为度量尺度的可信度构成了根本性威胁：如果同等Token在不同供应商之间的成本差异可达数百乃至数千倍，Token消耗量又如何成为横向对比企业AI效能的依据？对于投资人与分析师而言，基于Token消耗量的风险评估和业绩预测也将面临越来越大的偏差。Token计价本身正在经历极速分化，以消耗量衡量的“投入规模”正在失去参照系意义。

五、事实胜于雄辩

场景一：Meta“Claudeonomics”的失效

2026年4月，Meta一名员工开发了名为“Claudeonomics”的内部仪表盘，用以统计公司超8.5万员工的Token使用量。数据显示，30天内全员累计消耗约60万亿Token，按Anthropic公开定价估算对应账单约9亿美元。排名最高的个人单月消耗约2810亿Token，折合约140万美元以上。

这一案例完整呈现了Token度量导向激励的三个阶段：第一阶段，以Token用量激励员工使用AI工具；第二阶段，员工主动寻找甚至生成Token消耗任务以维持排名；第三阶段，公司算力资源被无效消耗，产出质量严重低于预期。最终，Meta关停了该榜单。

场景二：Anthropic的算力瓶颈与扩张

Token度量的另一面是模型厂商自身的成本与算力压力。2026年5月，为缓解Claude用户的容量限制，Anthropic宣布将接管SpaceX旗下Colossus 1数据中心的全部算力，获得超过300兆瓦新增容量、逾22万张英伟达GPU。据协议，新增算力将直接用于提升Claude Pro和Claude Max会员的服务承载能力。这一扩张动作揭示了Token计价体系对算力供给的高度依赖，也折射出Token计价的长期稳定性尚存变数。

场景三：企业Token账单的普遍压力

有报道称微软一度限制员工使用Claude Code。Uber在四个月内花完全年AI Token预算。Shopify、Spotify、ServiceNow、Roku等科技公司的财报会议均提到AI成为运营支出的主要压力来源。当Token账单的急速膨胀开始影响季度财报数据时，企业界才真正开始系统性审视Token消耗与业务产出之间的关系。

场景四：智能体作为资产的正向案例

在Token度量派叙事面临挑战的同时，聚焦智能体本身构建评价体系的企业呈现出不同的发展路径。Anthropic聚焦企业服务的战略有显著成效：其C端活跃用户不及ChatGPT的2%，但在年化收入上持续追近OpenAI。据媒体报道，Anthropic年化收入于2025年底约90亿美元，至2026年3月已突破300亿美元，正式超越OpenAI同期250亿美元的水平。有分析指出，这种反差的根源之一是Anthropic的智能体在企业后台执行合同处理、数据分析、供应链调度等真实任务——用户看不见智能体的存在，但每天有稳定价值产出。

据The Information等媒体报道，Claude Code的年化收入在2025年至2026年初持续高速增长。企业为智能体能够完成任务的质量付费，而非仅为算力消耗量付费——这正是“智能体是真正的资产”命题的有力佐证。

六、以token资产为中心将转向智能体资产为中心

综上，我们不难看出，正反两方面的趋势已经日渐明显。

第一，Token消耗量作为效能评价指标存在结构性缺陷。它混淆了投入与产出、成本与价值；它缺乏跨模型、跨场景的度量基准；它将考核目标与经营目标分离，诱发了严重的激励错位。Meta和亚马逊的内部实践已有明确证实。

第二，智能体正在成为AI经济中最具实质性的价值载体。智能体的定义特征是“完成任务单元”，而非“消耗算力单元”。一个高效智能体可能消耗极少量Token就完成高度复杂的任务；一个低效智能体可能消耗大量Token却没能解决任何真实问题。因此，Token消耗量既不反映智能体的能力边界，也无法预测企业的AI投资回报。

第三，行业正在从Token中心转向智能体中心的评价体系。SWE-bench等任务完成基准为智能体能力的横向比较提供了框架；DAA等业务价值指标试图从智能体运行层面衡量AI的经济贡献；企业在内部探索以产出质量为维度的绩效指标。

总之，真正的资产不是Token，而是智能体本身。Token是智能体运行的燃料，但企业的竞争力取决于发动机的效率，而非油箱的容量。从Token中心到智能体中心的度量范式转换，将是未来三到五年AI产业评价体系重构的主线之一。


感动	同情	无聊	愤怒	搞笑	难过	高兴	路过

【字体：小大】【收藏】【打印文章】【打赏】【查看评论】

上一篇：疯狂烧了数十亿美元 Token 之后硅谷大厂…
下一篇：芝商所开启加密货币衍生品“全天候交易”…

没有相关内容

会员登录

本月排行TOP10

最新推荐

专题导航

网站统计

Token不是真正的资产智能体才是

一、科技公司员工天量token消耗