瑞银发现：60%已开始控制AI支出，企业转向低成本模型与开源中国模型

AI支出管理正在成为企业IT治理的新战场。随着AI Agent和代码工具的普及，Token账单正式进入CFO视野，企业的应对方式正在重塑AI产业链的受益格局。

据追风交易台，瑞银证券分析师Karl Keirstead团队在6月23日发布的AI研究报告中给出核心判断：Token支出优化的激增可能暂时拖累AI收入增长，但长期趋势依然强劲。其前期调研显示，约60%的企业已以某种方式限制AI开支，核心动作是为Token使用加设护栏。这一比例意味着，AI支出的成本治理已从个别企业的自发行为演变为更广泛的行业现象。

变化的直接影响正在传导至产业链。高价前沿模型面临降档使用与开源替代的压力，中国开源模型——包括阿里Qwen、DeepSeek、MiniMax、智谱GLM等——开始进入企业采购与部署选项，一家大型全球银行已在本地部署Qwen以平衡Claude等高端模型的使用。

云厂商和硬件层所受冲击相对有限，软件公司则处于最为复杂的位置：既面临客户预算压缩，又有机会将自身定位为Token优化平台。

企业没有停用AI，只是开始看Token账单

企业AI使用的早期阶段以粗放为主要特征——鼓励员工尽量试用，优先追求采用率，成本纪律普遍较弱。随着AI Agent和AI Coding工具的普及，Token消耗从聊天机器人式的小流量演变为持续跑任务的大流量，"Token-maxxing"问题开始浮出水面。

从调研中可见具体案例的极端性：有公司年内Token预算被大量消耗，不得不将内部AI工具从5个收缩至2个；有企业在AWS Bedrock上出现单个用户单月花费3.5万美元的情况；还有DevOps团队成员每周Token用量达到配额的100%至200%，但企业暂未明确干预。

这并非一个统一的"踩刹车"故事。部分企业因AI已深度嵌入产品工作流，目标不是少用Token，而是提升每一美元的产出；还有企业将员工薪酬目标与AI使用挂钩，CFO的降本诉求与CEO的推广目标之间形成张力。Databricks CEO对这一轮变化的描述是："这是一个大减速带，不是小减速带。"

真正被压缩的往往是ROI不清晰的使用场景。软件工程师代码产出提升、客服AI Agent带来的呼叫量减少、研发流程提速，这些指标让部分公司没有动力强行限用，企业愿意忍受高Token账单的前提是ROI看得见。

模型路由让高端模型从"默认项"变成"奢侈项"

Token优化最重要的技术动作不是简单限额，而是模型路由：将不同任务分配给不同模型，只有复杂推理、关键代码和长上下文分析才调用最贵的模型。

价格差异是推动这一行为的直接驱动力。以Anthropic模型定价为例，Haiku 4.5输出价格为每百万Token 5美元，Opus 4.5-4.8为25美元，Fable/Mythos 5则高达50美元——从最低端升至最高端，输出Token价格相差10倍。这一价差使得"按任务选模型"具有显著的成本意义。

更合理的计算维度是"每个成功结果的有效成本"：高端模型若能一次生成高质量结果，可能比低端模型反复迭代更划算，但这也意味着高端模型必须持续证明自身溢价的合理性。以前将所有任务都提交给最强模型的团队，现在开始追问：这个任务真的需要最大上下文窗口吗？

微软近期推出的MAI小语言模型也踩中了这一方向。MAI "Thinking"被描述为350亿参数的中等规模模型，Code-1则定位低端前沿模型，目标是为企业提供"够用但更便宜"的选项。

中国开源模型进入企业成本曲线

降档不只发生在同一家模型供应商内部。企业正在更大规模地评估开源模型，尤其是来自中国的开源模型，包括阿里Qwen、DeepSeek、MiniMax、智谱GLM以及Moonshot旗下的Kimi。

据描述的案例，一家大型全球银行为管理Token支出，开始在本地部署Qwen，以平衡Claude等高端模型的使用。本地化部署将成本结构从按Token付费转变为本地硬件容量配置，同时规避了使用外部托管中国模型的合规风险。

云平台已将上述模型纳入标准菜单。AWS Bedrock的模型选项中已包含MiniMax、Kimi、Qwen、DeepSeek、GLM；微软方面通过Azure AI Foundry提供DeepSeek，并在多模型策略下持续评估不同模型的性能与成本组合。

对中国模型提供商而言，这是机会，但边界同样清晰。开源模型通常免费或低价，直接货币化空间有限，更现实的路径可能类似BMW与阿里围绕Qwen展开合作的项目模式。

云和芯片受到的不是同一种压力

模型层是此轮成本压力的直接承压点，云和硬件层的冲击则需绕道传导。

AWS、Azure、Google Cloud已是多模型平台，并未单押某一家前沿模型公司。客户从高价模型切换至小模型或开源模型，可能影响云厂商的模型API收入增速，但只要推理仍在云上运行，算力需求便不会消失。企业越重视成本管理，反而越可能将模型选择、部署、安全和计费统一托管至云平台。

对GPU云和AI基础设施定价权的影响是需要持续观察的变量：若模型公司因客户价格敏感而下调每Token价格，云算力是否仍具提价能力？这一问题已进入投资者讨论，但当前算力供给仍然偏紧，AI渗透仍处早期，训练与推理需求并未因优化行为而中断。

硬件层的判断整体偏向乐观。GB200/GB300等新一代算力刚开始形成规模，基于这些芯片训练和推理的模型有望带来更好的Token经济性。音频、视频、物理AI等多模态数据流需求仍在持续扩展算力边界。

软件公司：预算压力与"优化器"机会并存

AI Token支出上升后，企业预算并非可以无限扩张。目前可观察到的几个资金来源方向包括：放缓招聘、减少外部IT服务支出、压缩SaaS和应用软件预算增长。

Uber的例子具有代表性：AI使用继续推进，但通过放缓内部人员增长来抵消Token成本。这一框架也被用来解读IT服务公司和部分SaaS公司的疲弱表现。

大型席位制SaaS公司处境尤为复杂。Salesforce、ServiceNow、Workday等公司一方面面对客户预算重排，另一方面仍在推动从席位收费向"席位加使用量"的计费模式过渡——而当客户刚刚被AI账单冲击时，接受另一个使用量计费模型的意愿明显下降。

但软件公司也有一张反牌。Palantir约一个月前商业化AIP Evolve，帮助客户选择最适合任务的模型、调优Prompt、改善数据调用。据披露，Evolve在一个案例中推荐更换模型后，Token成本下降97%，上线前三周采用率达到90%。

软件公司的结构性优势在于"不绑定单一模型"——可将自身定位为模型中立的调度平台，在Claude、Qwen、Llama及各类小模型之间为客户做成本与性能调度，逻辑与多云数据库公司类似。

AI增长逻辑未变，斜率之争才刚开始

当前最难量化的变量是Token增速究竟会被压低多少。许多企业自身尚未完全摸清Token花在哪里，可靠的全行业数据更加稀缺。

一个较为保守的路径假设是：若某企业原本AI Token支出为100，且预计数月后增长至150，优化后实际可能落在120至130区间，而非倒退至80。也就是说，增速被压低，而非需求逆转。

瑞银旗下Evidence Lab对约130家企业的最新调查显示，仅8%的企业已在生产环境中大规模部署AI Agent，37%是生产中有限规模使用，29%仍在试点，26%只是使用Copilot或AI Coding等产品但尚未部署Agent应用。AI Agent真正大规模消耗Token的阶段才刚开始。

头部AI原生公司的数据印证了这一判断。法律AI公司Harvey披露，其Token消耗从1月的1万亿增长至5月的12万亿至13万亿，说明优化与扩张可以同时发生：企业会更精细地分配支出，但AI使用场景仍在持续向外扩展。

此轮Token优化与2022年至2024年后疫情时代云与软件的"预算回撤"存在本质差异：后者是成熟用量被砍，前者更接近新技术扩散早期的成本治理。其结果不是AI需求消失，而是重塑赢家排序——高价模型收入增速受压，低成本模型和路由工具受益，云平台继续吃多模型部署需求，软件公司则站在被砍预算与成为省钱工具的岔路口上。