AI支出管理正在成为企业IT治理的新战场。随着AI Agent和代码工具的普及,Token账单正式进入CFO视野,企业的应对方式正在重塑AI产业链的受益格局。
据追风交易台,瑞银证券分析师Karl Keirstead团队在6月23日发布的AI研究报告中给出核心判断:Token支出优化的激增可能暂时拖累AI收入增长,但长期趋势依然强劲。其前期调研显示,约60%的企业已以某种方式限制AI开支,核心动作是为Token使用加设护栏。这一比例意味着,AI支出的成本治理已从个别企业的自发行为演变为更广泛的行业现象。
变化的直接影响正在传导至产业链。高价前沿模型面临降档使用与开源替代的压力,中国开源模型——包括阿里Qwen、DeepSeek、MiniMax、智谱GLM等——开始进入企业采购与部署选项,一家大型全球银行已在本地部署Qwen以平衡Claude等高端模型的使用。
云厂商和硬件层所受冲击相对有限,软件公司则处于最为复杂的位置:既面临客户预算压缩,又有机会将自身定位为Token优化平台。
企业没有停用AI,只是开始看Token账单
企业AI使用的早期阶段以粗放为主要特征——鼓励员工尽量试用,优先追求采用率,成本纪律普遍较弱。随着AI Agent和AI Coding工具的普及,Token消耗从聊天机器人式的小流量演变为持续跑任务的大流量,"Token-maxxing"问题开始浮出水面。
从调研中可见具体案例的极端性:有公司年内Token预算被大量消耗,不得不将内部AI工具从5个收缩至2个;有企业在AWS Bedrock上出现单个用户单月花费3.5万美元的情况;还有DevOps团队成员每周Token用量达到配额的100%至200%,但企业暂未明确干预。
这并非一个统一的"踩刹车"故事。部分企业因AI已深度嵌入产品工作流,目标不是少用Token,而是提升每一美元的产出;还有企业将员工薪酬目标与AI使用挂钩,CFO的降本诉求与CEO的推广目标之间形成张力。Databricks CEO对这一轮变化的描述是:"这是一个大减速带,不是小减速带。"
真正被压缩的往往是ROI不清晰的使用场景。软件工程师代码产出提升、客服AI Agent带来的呼叫量减少、研发流程提速,这些指标让部分公司没有动力强行限用,企业愿意忍受高Token账单的前提是ROI看得见。
模型路由让高端模型从"默认项"变成"奢侈项"
Token优化最重要的技术动作不是简单限额,而是模型路由:将不同任务分配给不同模型,只有复杂推理、关键代码和长上下文分析才调用最贵的模型。
价格差异是推动这一行为的直接驱动力。以Anthropic模型定价为例,Haiku 4.5输出价格为每百万Token 5美元,Opus 4.5-4.8为25美元,Fable/Mythos 5则高达50美元——从最低端升至最高端,输出Token价格相差10倍。这一价差使得"按任务选模型"具有显著的成本意义。
更合理的计算维度是"每个成功结果的有效成本":高端模型若能一次生成高质量结果,可能比低端模型反复迭代更划算,但这也意味着高端模型必须持续证明自身溢价的合理性。以前将所有任务都提交给最强模型的团队,现在开始追问:这个任务真的需要最大上下文窗口吗?
微软近期推出的MAI小语言模型也踩中了这一方向。MAI "Thinking"被描述为350亿参数的中等规模模型,Code-1则定位低端前沿模型,目标是为企业提供"够用但更便宜"的选项。
中国开源模型进入企业成本曲线
降档不只发生在同一家模型供应商内部。企业正在更大规模地评估开源模型,尤其是来自中国的开源模型,包括阿里Qwen、DeepSeek、MiniMax、智谱GLM以及Moonshot旗下的Kimi。
据描述的案例,一家大型全球银行为管理Token支出,开始在本地部署Qwen,以平衡Claude等高端模型的使用。本地化部署将成本结构从按Token付费转变为本地硬件容量配置,同时规避了使用外部托管中国模型的合规风险。
云平台已将上述模型纳入标准菜单。AWS Bedrock的模型选项中已包含MiniMax、Kimi、Qwen、DeepSeek、GLM;微软方面通过Azure AI Foundry提供DeepSeek,并在多模型策略下持续评估不同模型的性能与成本组合。
对中国模型提供商而言,这是机会,但边界同样清晰。开源模型通常免费或低价,直接货币化空间有限,更现实的路径可能类似BMW与阿里围绕Qwen展开合作的项目模式。
云和芯片受到的不是同一种压力
模型层是此轮成本压力的直接承压点,云和硬件层的冲击则需绕道传导。
AWS、Azure、Google Cloud已是多模型平台,并未单押某一家前沿模型公司。客户从高价模型切换至小模型或开源模型,可能影响云厂商的模型API收入增速,但只要推理仍在云上运行,算力需求便不会消失。企业越重视成本管理,反而越可能将模型选择、部署、安全和计费统一托管至云平台。
对GPU云和AI基础设施定价权的影响是需要持续观察的变量:若模型公司因客户价格敏感而下调每Token价格,云算力是否仍具提价能力?这一问题已进入投资者讨论,但当前算力供给仍然偏紧,AI渗透仍处早期,训练与推理需求并未因优化行为而中断。
硬件层的判断整体偏向乐观。GB200/GB300等新一代算力刚开始形成规模,基于这些芯片训练和推理的模型有望带来更好的Token经济性。音频、视频、物理AI等多模态数据流需求仍在持续扩展算力边界。
软件公司:预算压力与"优化器"机会并存
AI Token支出上升后,企业预算并非可以无限扩张。目前可观察到的几个资金来源方向包括:放缓招聘、减少外部IT服务支出、压缩SaaS和应用软件预算增长。
Uber的例子具有代表性:AI使用继续推进,但通过放缓内部人员增长来抵消Token成本。这一框架也被用来解读IT服务公司和部分SaaS公司的疲弱表现。
大型席位制SaaS公司处境尤为复杂。Salesforce、ServiceNow、Workday等公司一方面面对客户预算重排,另一方面仍在推动从席位收费向"席位加使用量"的计费模式过渡——而当客户刚刚被AI账单冲击时,接受另一个使用量计费模型的意愿明显下降。
但软件公司也有一张反牌。Palantir约一个月前商业化AIP Evolve,帮助客户选择最适合任务的模型、调优Prompt、改善数据调用。据披露,Evolve在一个案例中推荐更换模型后,Token成本下降97%,上线前三周采用率达到90%。
软件公司的结构性优势在于"不绑定单一模型"——可将自身定位为模型中立的调度平台,在Claude、Qwen、Llama及各类小模型之间为客户做成本与性能调度,逻辑与多云数据库公司类似。
AI增长逻辑未变,斜率之争才刚开始
当前最难量化的变量是Token增速究竟会被压低多少。许多企业自身尚未完全摸清Token花在哪里,可靠的全行业数据更加稀缺。
一个较为保守的路径假设是:若某企业原本AI Token支出为100,且预计数月后增长至150,优化后实际可能落在120至130区间,而非倒退至80。也就是说,增速被压低,而非需求逆转。
瑞银旗下Evidence Lab对约130家企业的最新调查显示,仅8%的企业已在生产环境中大规模部署AI Agent,37%是生产中有限规模使用,29%仍在试点,26%只是使用Copilot或AI Coding等产品但尚未部署Agent应用。AI Agent真正大规模消耗Token的阶段才刚开始。
头部AI原生公司的数据印证了这一判断。法律AI公司Harvey披露,其Token消耗从1月的1万亿增长至5月的12万亿至13万亿,说明优化与扩张可以同时发生:企业会更精细地分配支出,但AI使用场景仍在持续向外扩展。
此轮Token优化与2022年至2024年后疫情时代云与软件的"预算回撤"存在本质差异:后者是成熟用量被砍,前者更接近新技术扩散早期的成本治理。其结果不是AI需求消失,而是重塑赢家排序——高价模型收入增速受压,低成本模型和路由工具受益,云平台继续吃多模型部署需求,软件公司则站在被砍预算与成为省钱工具的岔路口上。