2026 年的大多数首席技术官都在堆栈的可见层设计人工智能战略。他们正在购买 Copilot 座椅,推出企业聊天机器人,并组建供应商许可证组合。这些工作都是实实在在的,而且在许多公司,这些工作对生产率的提升都是有目共睹的。从任何诚实的角度来看,这也是每个人都能看到的冰山上的 20%。. 水线以下的 80% 是真正建立代理组织的地方。. 那些从不往下看的团队会继续花钱购买聊天机器人,而他们的竞争对手却悄悄地变成了另一个样子。.
人工智能原生公司的架构分为四层: 应用程序、人工智能平台、LLM 基础设施和硬件。. 大多数董事会已经讨论过应用层。未来 24 个月真正的战略决策将在其他三个层中做出。.
应用层是人类与人工智能相遇的表面。. 它包括嵌入在生产力工具中的聊天机器人、开发人员协同机器人、低代码代理构建器,以及一些团队已经开始交付的更先进的自主代理。购买使用权是一项采购工作。供应商是众所周知的。价格已经公布。部署主要是一个变更管理问题。.
这就是为什么大多数人工智能战略对话都止步于此。应用层对于执行委员会来说是清晰易懂的,易于编制预算,并能在一个季度内让其他业务部门看到。它所产生的故事可以很好地转化为全体会议的内容。.
这也是最难建立差异化竞争的一层。一个行业中的每家公司都在向同一批供应商购买产品。界面日益标准化。用户体验趋同。推出 Copilot 本身并不构成一项战略。它只是获得了一种公司尚未设计的能力。. 如果没有下面的层级,这种访问只能产生一个聊天机器人,而不是一个能在企业内部行动的代理。.
将首席技术官推向水线以下的三大压力
直到最近,将堆栈的其他部分留给超级计算机的理由还站得住脚。2024 年,企业可以在前沿应用程序接口(API)的基础上提供一个有用的内部助手,并认为工作已经完成。今年,三种压力交织在一起,让这种想法变得更加难以实现。.
1- 平台压力
第一种压力是 人工智能平台层不再是可选项。. 这一层定义了人工智能系统的知识和能力。它包括主提示和技能库、针对向量 databases 和结构化知识库的检索、允许代理跨业务系统行动的连接协议,以及允许代理跨会话保持状态的持久内存。.
一年前,这一层还是一个有趣的研究方向。如今,它已成为重中之重。从聊天机器人试点到部署代理的公司都是通过在这里投资实现的。仍在进行试点的公司通常跳过这一层,试图将业务上下文直接连接到应用端的提示和集成中。这种方法只适用于一个界限明确的用例。. 它无法扩展到整个企业的代理组合。.
2- 成本压力
第二种压力是经济压力。. 前沿人工智能实验室的补贴定价即将结束。. 过去由模型提供商承担的推理成本正越来越多地转嫁到用户身上,而早期的信号并不明显。据报道,Uber 在今年前四个月就消耗掉了 2026 LLM 的全部预算。这种超支不再是采购方面的轶事,而是一个信号:推理经济学理应在首席技术官的季度审查中占据一席之地。.
对策不是减少人工智能的使用。对策是 利用前沿模型和较小模型之间的智能路由、微调或专门模型,制定慎重的推理策略 对于不需要前沿推理的大批量任务,在某些情况下,还可以使用围绕开源权重构建的定制工具包。. 几乎没有一家企业在其发展蓝图中提出的举措是,针对工作量大的工作负载培训或微调自己的模型。. 小语言模型、LoRA 风格的微调和特定领域的架构开始变得不那么像一种研究好奇心,而更像一种运营成本决策。.
3- 主权压力
第三种压力是政治和监管压力。Data 居住要求、欧盟人工智能法案、金融服务和医疗保健行业的特定规则,以及更广泛的计算地缘政治分化,都是对人工智能的压力。 首次将硬件和基础设施决策推到首席技术官的办公桌上。. 谁掌握着模型运行基础架构的钥匙,这曾经是一个 IT 采购细节问题。2026 年,对于任何处理受监管的 data 或跨辖区运营的公司来说,这已成为董事会层面的问题。.
这种压力与十年前的 cloud 主权之争也有本质区别,这种区别值得我们深思。cloud 争论的焦点是商品计算:服务器、存储和带宽。在基础设施所支持的每一个有意义的决策中,人类都处于环路之中。. 人工智能基础设施不是商品计算。. 在这些 GPU 上运行的是智能,而且在业务流程中所占的份额越来越大、, 基础设施将不仅仅是支持人类的决策,它还将做出决策。.
这就改变了谁控制硬件的政治分量。在这三种压力中,"主权 "在今天的影响最大,因为 大多数董事会还没有意识到,利用不属于自己的情报来开展业务意味着什么。. 一旦物理人工智能开始大规模应用,情况就会变得更加明朗。届时,那些已经制定了深思熟虑的硬件战略,并了解如何根据自身情况进行设置的公司,很可能会发现自己拥有以下优势 竞争优势,而这需要数年时间才能实现。.
这三种压力合在一起,就会瓦解 2024 年的舒适态势。它们都无法在应用层得到解决。每一种压力都会将首席技术官拉入堆栈的不同部分。.
四个层次,简化为每个层次回答的问题
要对堆栈做出深思熟虑的决定,就必须将每一层还原为它实际回答的问题。.
应用层是人类与人工智能相遇的表面。. 问题是:在我们的运营中,人类在哪里与人工智能相遇,它们又是如何协作的?可供选择的范围很广,从嵌入到生产力工具中的聊天机器人,到由 Teams 或 Slack 中的消息触发的代理,到由工作流事件触发的代理,再到嵌入到 SAP 或 Salesforce 等业务系统中的代理。正确的模式取决于工作中可容忍的人工参与程度。.
人工智能平台是定义人工智能的知识和能力的层。. 问题是 我们的代理商从哪里获得业务背景,我们可以授予他们哪些权力? 这些选择包括静态上下文(主提示、技能、结构化规则文件)、根据知识库和矢量存储进行检索、通过标准化的代理连接协议进行操作,以及跨会话的持久记忆。每种选择都对应着赋予代理不同程度的自主权。.
LLM 基础设施是访问、路由、管理和优化模型的层。. 问题是 如何以合适的成本为合适的工作提供合适的机型? 可供选择的范围很广,从用于复杂推理的前沿 LLM,到用于大批量定义明确任务的小型或微调模型,到用于语音或文档理解的专业模态模型,再到用于延迟关键型工作的边缘模型。这就是推理经济学的实际所在层。.
硬件层包括 GPU、推理服务器和运行模型的协调。. 问题是 我们的模型究竟在哪里执行,谁掌握着基础设施的钥匙? 从超级分销商管理的计算,到私有 cloud 或专用基础设施,到内部推理集群,到定制硅或嵌入式计算,应有尽有。对于大多数企业来说,答案是由 hyperscaler 管理。对于对 data 敏感的行业,答案则越来越另类。.
这四个层次并不是独立的战略。它们是在四个深度层次上表达的一种战略。.
测序节拍覆盖率
坦率地说,并不是每家公司都应该拥有每一层。在 2026 年,一些最能捍卫人工智能地位的公司将属于那些有意识地选择在堆栈底部使用超级分销商抽象,并将投资集中在其他地方的公司。. 拥有更多的堆栈并不是争论的焦点。问题的关键在于,选择必须经过深思熟虑。.
如果首席技术官已经决定了微软、AWS、谷歌或其他合作伙伴在其堆栈中的位置,并决定了自己的团队今年将投资哪一层,那么他就有了自己的战略。而从未做出过决定的首席技术官则需要为自己的战略买单。这种疏忽造成的损失会越来越大:团队最终会拥有一个由互不关联的试点组成的组合,采购账单的增长速度会超过价值的增长速度,而当董事会询问下一年的投资方向时,却没有明确的答案。.
那么,工作就是排序。. 问题不在于拥有哪一层,外包哪一层, 因为在足够长的时间内,每家人工智能原生公司都必须在这四个方面都采取立场。. 问题是现在优先考虑哪一层,12 个月、24 个月和 36 个月后再考虑哪一层。.
公司的原型是排序的最强信号: 初创企业、小型专业服务机构和精品店通常可以将投资重点放在应用层和平台层上。.
- CPG、B2B、制药、法律和医疗保健领域的跨地区公司 通常需要扩展到平台层来管理其业务上下文,并随着推理量的增加有选择性地迁移到基础设施层。.
- 人工智能成熟度较高的跨地区企业,尤其是金融服务、电信和数字原生行业的企业, 现在,我们已经在围绕路由、微调和驻留问题做出真正的基础设施决策。.
- 大科技、政府和高度专业化的制造业, 在这种情况下,人工智能能力本身就是产品或战略资产,最终要在硬件层做出真正的选择。.
问题的关键不在于一种原型比另一种原型更先进。而是说 四层的顺序各不相同。. 一家制药公司如果试图在硬件层表现得像 SpaceX 一样,那就是在浪费资本。一家银行如果在平台层表现得像一家初创公司,那么它的核心资产--data 环境--就会无人管理。.
云过渡,时钟更快
这种转变的形式以前就出现过。2012 年,大多数会议室里的 cloud 对话都是二元对立的:我们应该使用 AWS,还是不应该?到 2018 年,这个单一的问题已经发展成为一个多轴决策,涉及哪些工作负载属于哪里、哪些提供商适合哪些用例、什么是多 cloud,以及 data 驻留在哪里很重要。. 那些在 2012 年将 cloud 作为单一采购决策的公司,在接下来的六年里一直在追赶那些从一开始就将其作为架构决策的公司。.
人工智能堆栈正在以更快的速度经历同样的成熟过程。cloud 花了十年的时间才从一个单一的问题分裂成一个分层的决策。而人工智能堆栈只需三到四年就能完成。首席技术官们如果能像 2012 年最优秀的首席技术官对待 cloud 那样对待 2026 年的人工智能,将其视为一项架构决策,而不是采购决策,那么他们就会 到本十年结束时,他们可能会发现自己比同龄人高出好几年。.
这对今年的首席技术官意味着什么
有三项行动尤其值得列入议程。.
首先是 人工智能平台层值得明确拥有。. 对于大多数在过去两年中交付了 Copilot 式工作的企业来说,未来 12 个月的投资将在这一层产生最大的差异化回报。情境是堆栈中数字化成本最低的部分。模式会不断改进,价格也会不断变化。公司自身的结构化知识、决策规则以及与运营系统的连接点是赋予模型业务意义的关键。.
其次是 推理经济学现已列入季度议程. .严谨的推理策略包括智能路由、针对批量层的小型或微调模型,以及至少在单位经济效益合理的情况下,就内部培训工作负载进行探索性对话。前沿推理的成本曲线不会向单一方向移动,任何依赖于单一供应商定价的策略在结构上都是脆弱的。.
第三是 应重新审视硬件和基础设施的选择、, 即使最终的答案暂时是 hyperscaler。采用托管堆栈是一个合理的决定,但这应该是一个决策,而不是一种默认。对于受监管行业而言,主权推断、混合部署和内部堆栈等问题已不再是假设。.
这些举措都不需要在内部构建一切。它们要求大多数董事会以对待应用层的同样认真态度来考虑每一层。.
一次一个问题
人工智能原生公司的架构是由一个个问题决定的,每个问题都有不同的层次。可见的 20% 是容易的部分。. 复合物的工作发生在水线以下,发生在供应商演示中无法显示的层中。.
止步于可见层的首席技术官最终只能管理工具。着眼于水线以下的首席技术官最终只能管理认知能力。. 问题不在于购买哪种模式,而在于公司决定成为哪种 CTO:运营型还是战略型。.

博客







