Data Platforms for the Agentic Era

将 data 堆栈升级为人工智能堆栈前的三个必备条件

大多数公司还没有准备好用 AI 堆栈取代仪表板时代的 data 堆栈。Salesforce 最新发布的《Data 和分析现状》报告显示，84% 的 data 和分析领导者表示，在 AI 计划取得成功之前，他们的战略需要彻底改革。据领导者估计，他们的 data 中有 26% 是不可信的，只有 43% 报告了正式的 data governance 框架，约 50% 对自己生成和及时交付洞察力的能力没有信心。同时，70% 认为最有价值的洞察力被锁定在非结构化的 data 中。结论很简单：障碍不是热情，而是基础，在代理系统能够扩展之前，基础必须改变。.

代理人工智能将 data platforms 转化为行动系统，可读取合同和票据、监视摄像头、监听呼叫、与日志和事件相关联，然后执行。仪表盘可以容忍延迟，而代理却不能；合规性可以通过文档进行操作，而代理却需要在运行时进行控制。在任何企业宣布建立人工智能堆栈之前，有三个要素必须是不容商量的：多模态作为默认设置、流式作为运行模式、治理作为运行时系统。接下来的章节将把这些信念转化为架构选择，以便在生产规模上承载代理工作负载。.

多模式作为默认设置

将文档、图像、音频、视频和日志视为二等资产，在设计上限制了代理的能力。适合代理的平台可将表格和张量作为同级资产存储在一个目录下，并配备统一的沿袭系统和一致的访问模型，这样高维媒体就能像关系型 data 一样经历相同的生命周期。在实践中，这意味着分块或平铺布局可实现部分读取和感兴趣区域提取；内容指向标识符与版本化的侧卡元 data，从而使每个人工制品都具有可重复性；以及允许谓词和坐标下推的数组和列本地格式。文本和文档需要嵌入式作为主要衍生工具，这种嵌入式可以确定性地生成，与来源一起进行版本控制，并以明确的权衡方式进行索引，例如，当回忆占主导地位时，可以使用 HNSW 索引；当内存和延迟必须平衡时，可以使用 IVF PQ 索引；当产品代码和编号至关重要时，可以使用混合密集加词法索引。检索应返回证据包，如段落、页面、帧或片段，因为代理对证据而不是孤立的子串进行推理。.

最大的收益来自融合，但只有在平台层面解决了对齐问题，融合才有价值。早期融合可捕捉细粒度的交互，例如将文本跨度与图像区域对齐；后期融合可保留特定模式模型，直至决策边界；混合方法可在交互点定义明确的情况下将两者结合起来。对齐是最难的部分。不同采样率的数据源之间的事件时间同步、不同传感器之间的空间注册以及语义链接，使 PDF 文件中的订单 ID、车道三相机帧、振动尖峰和分类账事件解析到相同的业务对象，这些功能都属于目录和脉络层。如果没有这种共享的时间、身份和出处概念，代理就会对上下文产生幻觉，或根据陈旧的信号采取行动。有 70% 的领导者认为，最有价值的见解就在非结构化的 data 中，因此多模态不可能是第二阶段的附加功能。它是解锁上下文的默认设置。.

将流媒体作为运行模式

代理工作引入了一个核心服务级目标：决策延迟，即从现实世界的信号到可接受的行动之间的时间。要实现这一目标，需要一个流媒体第一平台。主干平台是一个事件日志，作为记录系统，在写入和事件时间语义上执行模式，并带有水印，因此窗口反映的是业务真相，而不是到达顺序。在该骨干网上运行的有状态流处理器可保持持久的本地状态、可预测地处理背压、将热流连接到冷参考 data，并发出决定而不仅仅是转换行。为了支持人类和代理进行检查和论证，需要建立一个实时分析层，直接从日志中摄取信息，并在持续更新的表上回答以秒为单位的查询。.

热路径和冷路径应使用相同的结构。将数据流转换为具有 ACID 事务和时间旅行功能的开放式表格式，这样 replays、回填、审计和培训就可以在不冻结管道的情况下进行。这就打破了在快速和短暂与持久和缓慢之间的错误选择。操作纪律形成闭环。定义延迟预算和撤回规则，记录 replay 和死信运行手册，并使用带镜像流量的金丝雀部署，使推出具有可逆性。有了这些做法，欺诈代理就可以在结算前进行阻止，个性化服务可以在会话中进行调整，可靠性代理可以在漂移首次出现时安排维护，服务代理可以在挫败感上升时而不是在客户流失后进行升级。.

作为运行系统的治理

随着自主权的增加，信任就成了关键。文件和定期审计并不能防止错误决策，运行时的控制才是关键。有两项举措可以建立这种控制。首先，在写入时执行 data 合约，因此生产者会发布模式、语义和新鲜度目标，注册表会阻止不兼容的变更或将其路由到隔离区，消费者会声明期望值，当期望值被打破时，事件会自动触发，因此代理权限会被降级，直到条件恢复。其次，将策略作为代码评估每项操作，无论是由人工还是代理触发。当请求使用工具或 dataset 时，策略引擎应评估谁在调用、出于什么目的、通过哪个 data、在什么风险下以及承担什么义务，例如，附加证据捆绑包、编辑敏感字段或要求超过阈值的人工联合签名。结果必须是经签署的决定和可审计的线索。.

安全需要零信任态势，即假定每次调用都存在漏洞并进行验证。最小权限、持续验证、沙箱工具执行和严格的出口控制是赌注，而特定于代理的风险（如提示注入、检索中毒和工具滥用）需要在运行时进行遥测和控制，而不仅仅是以模型为中心的调整。在 Salesforce 的同一项研究中，利害关系显而易见：只有 43% 的领导者报告了正式的治理框架，89% 的已使用人工智能的团队经历过不准确或误导性的输出，88% 表示人工智能需要新的治理和安全方法。经过验证的治理意味着平台可以显示谁采取了行动、采取了什么行动data、在什么政策下、使用了什么模型或工具版本，以及必要时如何回退，这就是让人印象深刻的试点与经受住审计的系统之间的区别所在。.

三要素如何融合

该蓝图是一个有生命力的系统，它将生产者、存储、计算和策略连接在一起，而不会发生削弱信任的交接。生产者会发出变更事件，并将 PDF、图像、音频和视频等人工制品存入分块存储，同时全局目录会登记资产、所有权、历史沿革和适用策略。近 data 管道可进行规范化、编辑、嵌入和对齐，由此产生的特征和嵌入将流入具有文档化检索配置文件的索引存储区。有状态的流处理器在运动中进行丰富和决策，实时分析界面向人类和代理展示新的事实。与此同时，相同的事件会被分级到具有 ACID 语义和时间旅行功能的开放式湖泊表中，因此实时和历史视图都在一个受管理的基底中。代理通过狭隘的最小权限工具进行交互；每个调用都要经过策略检查，每个操作都要签名并与历史记录相关联。这种模式解决了阻碍扩展的信任、及时性和可访问性方面的差距。.

结论

旨在扩大人工智能规模的企业应克制冲动，不要将代理功能嵌入到仪表板时代的堆栈中。首先必须改变基础。将多模态作为默认设置，这样每个有用的信号都可以归入一个目录，共享身份、时间和脉络，这样检索返回的是证据而不是片段。将流作为运行模式，使决策尊重事件时间，并在规定的延迟预算内完成，同时将相同的流放在开放的表格中，以便审计和学习。将管理从幻灯片升级到运行时，在写入时强制执行合约，对每项操作进行策略评估，对工具和 data 应用零信任，并持续观察，以便在质量下滑时暂停或降低自主性。总之，这些举措用行动基底取代了报告基底。这样，代理就能在明确的护栏内，根据新鲜的多模态证据进行操作，并内置解释，这就是飞行员如何成为生产者，以及人工智能如何创造价值而非异常。.

联系我们

Data 面向代理时代的平台

作者

将 data 堆栈升级为人工智能堆栈前的三个必备条件

多模式作为默认设置

将流媒体作为运行模式

作为运行系统的治理

三要素如何融合

结论