尽管单个代币的价格一年内下跌了75%,但大多数企业在人工智能领域的投入却在增加,而非减少。这种成本错觉就明摆着,却被人们忽视了。

那张没有缩小的账单
试想一位首席财务官正在审查季度cloud 。AI团队展示了一张极具说服力的图表:按令牌计算的推理成本同比下降了75%。模型运行更快,API费用更低,供应商还提供了批量折扣。一切迹象都表明成本有所降低。然而,当实际账单送达时,总额却比上个季度还要高。
这并非假设情景。这种情况正在各家企业中真实上演,并揭示了关于人工智能成本的普遍认知与实际运营状况之间的差距。业界欢庆代币价格暴跌,仿佛更低的投入成本就必然意味着更低的产出成本。但在实践中,企业应用人工智能的方式已发生翻天覆地的变化,因此单位价格的下降仅能说明问题的一半。
值得探讨的问题并非代币是否越来越便宜——它们确实如此。更具启发性的问题在于:这种低廉的价格是否真能转化为更低的人工智能开支,还是说它正在悄然助长某种消费模式,反而导致总体成本朝着相反的方向攀升。
降价是真的
需要明确的是:单代币价格的下降是真实且显著的。根据Ramp的企业支出数据,各大服务商每百万代币的平均成本在短短一年内从约10美元降至2.50美元。 Epoch AI的研究表明,若同时考虑价格和效率的提升,推理成本的下降速度正接近每年200倍。安德森·霍洛维茨(Andreessen Horowitz)创造了“LLMflation”这一术语来描述这种通缩曲线,将其与半导体领域的摩尔定律相类比。
驱动因素已十分明确。前沿模型提供商(OpenAI、Anthropic、Google、Meta)之间的竞争带来了激烈的定价压力。Llama 和 Mistral 等开放权重模型确立了价格下限,专有模型提供商无法忽视这一趋势。硬件的改进,包括 NVIDIA 的 Blackwell 架构以及 Google(TPU v6)和亚马逊(Trainium)的定制芯片,已稳步提升了每美元的推理吞吐量。 量化、投机解码和模型蒸馏等技术进一步降低了每令牌所需的计算量。
对于简单且范围有限的应用场景(例如回答常见问题的聊天机器人、处理文档的摘要工具),价格的下降确实带来了切实的成本节约。许多在早期就确定了人工智能使用模式的企业,如今的实际支出确实减少了。
一旦使用模式无法固定下来,问题便随之而来。
消费的爆发式增长
这里有一个鲜少成为头条新闻的方面:每个任务消耗的代币数量已增长了数个数量级,而且这一增长趋势还在加速。
一年前,一次典型的AI交互可能仅包含一次提示和一次响应,总计约2,000个令牌。 如今,基于多智能体的AI工作流已从根本上改变了这一计算模式。由多智能体系统执行的单项任务(如调研某个主题、起草文档、对照内部政策进行验证,然后根据反馈进行迭代)在产出最终结果前,可能消耗5万至50万个令牌。全天候运行的编码助手每天为每位开发者处理数百万个令牌。 像 OpenClaw 这样的多代理协调框架支持代理之间相互调用的工作流,每次交互都会使令牌消耗量呈指数级增长。
数据中清晰地反映了这一转变。TechCrunch 报道了一种被称为“tokenmaxxing”的现象,描述了那些使用固定费率 AI 订阅套餐、却消耗了惊人计算资源的重度用户。其中一些“推理鲸”每月仅支付 200 美元,却产生了超过 35,000 美元的计算成本。按此比例计算,服务提供商为这些最重度用户承担了高达 175 倍的补贴。
财务影响已在财报中显现。Notion披露,其毛利率下降了10个百分点,这直接归因于在产品中嵌入AI功能所产生的成本。OpsLyft对企业AI部署情况的分析发现,隐性成本(检索增强、嵌入生成、上下文窗口管理、重试逻辑)通常会在大多数团队所追踪的原始推理费用基础上额外增加40%至60%。
大多数组织在评估人工智能成本时采用的思维模式,仍停留在“按查询计费”的框架下。但如今我们已步入“按工作流计费”的时代,在此背景下,单次用户操作就可能触发跨多个模型的数十次推理调用。单个令牌成本的降低,乘以每项任务所需令牌数量的激增,并不一定意味着总支出的减少。
科技巨头正在调整战略
如果能耗问题仅仅是企业预算方面的挑战,或许尚可应对。但有迹象表明,即便是规模最大的科技公司也开始意识到补贴式AI应用的局限性。
谷歌近期对其人工智能订阅模式的重组颇具启示意义。该公司推出了分级制度:AI Pro每月 19.99美元,AI Ultra每月 249.99 美元,并引入了新的“AI 积分”机制,该机制按使用量计费,而非提供无限访问权限。 从“无限畅享”转向按量计费,这是一个重要的信号。这表明,即便是拥有谷歌这样强大基础设施和利润率的公司,也无法在数亿用户中维持按固定费率提供无限代币消耗的模式。
资本支出数据印证了这一观点。Alphabet此前预计2025年的资本支出为750亿美元,而目前预计2026年这一数字将达到1750亿至1850亿美元,一年内几乎翻了一番。其中大部分增量将投向人工智能基础设施:数据中心、定制芯片以及用于处理推理需求的网络容量。微软、亚马逊和Meta也各自做出了同等规模的投入承诺。
这并非那些已破解人工智能经济难题的企业所采取的支出模式。这其实是那些企业争相为需求曲线扩充产能的支出模式——它们预见到需求即将到来,却尚无法从中获利。补贴模式(即以亲民价格提供强大的AI功能来推动采用)在建立用户基础方面确实行之有效。问题在于,在定价必须反映实际计算成本之前,这种模式还能持续多久。
这种模式cloud 早期的状况如出一辙:当时服务商为了抢占市场份额,曾推出极具竞争力的低价策略,随后随着使用场景日趋成熟,逐渐引入了预留实例、分级定价以及按使用量计费的模式。人工智能的定价周期似乎将这一演变过程压缩到了一个更短的时间跨度内。
本地部署的复兴
对于密切关注这一动态发展的组织而言,一种熟悉的替代方案正重新受到关注:在本地部署人工智能基础设施。
NVIDIA 于 2026 年 3 月在 GTC 大会上发布的NemoClaw值得关注。NemoClaw 在 OpenClaw(这一开源代理式 AI 框架已迅速成为构建多代理系统的标准)的基础上,增加了企业级功能:安全控制、隐私路由、审计日志记录,以及对在本地硬件上运行的 NVIDIA 自家Nemotron系列模型的原生支持。 实际上,这是一款面向企业的智能体AI技术栈发行版,专为在本地或私有cloud 运行而设计。
黄仁勋直截了当地阐明了其重要性:“你们的OpenClaw战略是什么?”如今已成为董事会会议上的常见议题,他在GTC大会上对听众如是说。这意味着,AI代理基础设施正像十年前的cloud 一样,逐渐成为企业技术战略的基础,而各组织需要就其部署位置和运行方式制定明确的策略。
本地部署人工智能的吸引力不仅在于成本可预测性——尽管这一点确实重要。它还解决了数据主权(敏感数据绝不离开组织网络)、合规要求(随着《欧盟人工智能法案》的实施条款生效,这一点尤为重要)以及代币治理(能够精确监控、计量和控制推理资源的消耗量、使用者及用途)等问题。 在一个单个失控的代理工作流就可能在一夜之间耗尽数千美元代币的世界里,拥有基础设施级别的控制措施绝非奢侈。
这并不意味着每家组织都应急于采购 GPU 集群。其资本投入要求巨大,运维复杂度确实存在,而且模型迭代的速度意味着,如今的本地硬件在十八个月内就可能变得不够理想。但对于那些推理量巨大、受监管约束或对数据敏感性有严格要求的组织而言,自建系统的经济效益正日益与cloud 的定价形成有力竞争。
民主化的悖论
在成本动态的背后,存在着一种值得指出的更深层矛盾:正是那些让人工智能更易普及的力量,也在使其在大规模应用时的经济模式变得难以持续。
OpenClaw 或许是最鲜明的例证。作为构建智能体人工智能系统的开源框架,它极大地降低了创建复杂多智能体工作流的门槛。如今,一个小型团队就能开发出人工智能驱动的产品,而两年前这需要一支专门的基础设施团队才能完成。这确实是一场变革,而它所构建的生态系统使其几乎成为个人和企业人工智能领域的操作系统。
但民主化本身也伴随着成本曲线,而我认为业界对此的认识还不够充分。当部署智能代理变得轻而易举时,组织往往会大量部署它们。 每个代理都会消耗代币。每次多代理交互都会成倍增加消耗。这种复合效应导致,正是使AI变得强大的易用性,同时也使其变得昂贵——并非因为单次调用成本高昂,而是因为调用总量增长的速度远超任何人的预算预期。
这就是“代币成本错觉”的最纯粹表现:智能的单价正在下降,但每项成果所消耗的智能单位却以更快的速度增长。
企业面临的分岔路口
这些力量正朝着同一个方向发力:消费增长、补贴政策调整、本地部署方案日趋成熟,以及日益加剧的监管压力。这些因素共同推动企业做出一项战略抉择,这将决定未来数年其人工智能业务的经济格局。目前,三种主要路径正在浮现。
路径 A:本地部署主权。 构建或租赁专用 AI 基础设施,以实现成本控制、数据主权和合规要求。NemoClaw 及类似的企业级发行版使这一方案日益可行。最适合推断量大、拥有敏感数据或在受监管行业运营的组织。其取舍在于资本密集度与运营复杂性。
路径 B:Cloud 。 一种cloud 正在崛起,它们专注于人工智能计算,而非cloud 。这些提供商(如 CoreWeave、Lambda、Together AI 等)提供针对 GPU 进行优化的基础设施,并采用专为推断密集型工作负载设计的定价模式。它们代表了一种折中方案:cloud 又不必完全依赖超大规模云服务商的定价模式。
路径 C:对超大规模云服务商的依赖。 继续依托主要cloud AI服务,接受其定价策略的演变,以此换取更深度的集成、更广泛的生态系统以及更简便的运维。这条路径起步最为容易,但随着补贴的逐步取消,其受价格变动影响的风险最大。
实际上,大多数大型组织会采取混合模式,根据工作负载的敏感性、监管要求和成本状况,综合运用这三种模式的要素。关键在于,这正逐渐成为一项有意识的战略决策,而非默认选择。随着地缘政治紧张局势加剧、数据本地化要求日益严格,以及《欧盟人工智能法案》等监管框架的推动,人工智能推理的运行地点已不再仅仅是一个技术决策,而是一个治理决策。
负责任地管理人工智能的经济影响
关于人工智能成本的讨论正迎来一个转折点。过去两年间,主流观点一直聚焦于持续的成本下降:模型越来越便宜,推理速度越来越快,准入门槛越来越低。这种观点虽无误,却不够全面。它仅描述了单个令牌的价格,却未考虑企业实际消耗的令牌数量,以及这一数字增长的速度。
这一新兴领域或许可以称为“代币治理”:即企业以监控、预测cloud 、人员编制或资本配置时同样的严谨态度,来监控、预测和管理 AI 推理成本的组织能力。 这包括成本可观测性(实时掌握每个工作流、代理和团队的资源消耗情况)、消耗策略(对代理工作流设定限制以防止代币消耗失控),以及基础设施战略(针对推理的运行位置和成本做出审慎决策)。
那些能够妥善管理这一转型的组织,未必是人工智能投入最少的组织。它们将是那些能够精准把握自身投入及其原因的组织。在智能正逐渐成为一种基础服务的世界里,审慎管理其经济效益,其重要性或许不亚于发挥其功能。

博客






