将数据堆栈升级为 AI 堆栈前的三个不可妥协的条件

大多数企业尚未做好准备,无法用人工智能技术栈取代仪表盘时代的数据技术栈。Salesforce最新的《数据与分析现状》报告显示,84%的数据与分析负责人表示,在实现人工智能目标之前,他们的战略需要进行彻底改革。 这些负责人估计,其数据中有26%不可靠,仅43%的企业表示拥有正式的数据治理框架,约50%的企业对其生成并及时交付洞察的能力缺乏信心。与此同时,70%的人认为最有价值的洞察被锁定在非结构化数据中。结论很明确:障碍不在于热情,而在于基础,只有当这一基础发生改变,自主系统才能实现规模化。

代理型人工智能将数据平台转变为行动系统,能够读取合同和工单、监控摄像头、监听通话、关联日志和事件,并据此采取行动。 仪表盘可以容忍延迟,而智能体则不能;合规性可以通过文档来实现,但智能体需要在运行时进行控制。在任何企业宣称拥有AI技术栈之前,有三个要素是不可妥协的:以多模态为默认模式,以流式处理为运行模式,并将治理作为运行时系统。下文将这些理念转化为架构选择,以支持在生产规模上承载智能体工作负载。

默认采用多模态

将文档、图像、音频、视频和日志视为二等资产,从设计上就限制了代理的能力。适合代理的平台会将表和张量作为平等的对象存储在同一个目录下,并配备统一的血统系统和一致的访问模型,从而使高维媒体能够与关系型数据遵循相同的生命周期。 具体而言,这意味着采用分块或瓦片布局以支持部分读取和目标区域提取;采用内容寻址标识符并配有版本化旁路元数据,确保每个成果均可复现;以及支持数组和列原生格式的设计,从而实现谓词和坐标下推。 文本和文档需要嵌入作为主要衍生形式,这些嵌入需确定性生成、与源文件版本同步,并采用权衡明确的索引策略:例如,当召回率是首要目标时使用 HNSW;当需平衡内存与延迟时采用 IVF PQ;而当产品代码和数字至关重要时,则采用密集索引与词汇索引的混合方案。 检索应返回证据集合(如段落、页面、帧或片段),因为智能体是基于证据进行推理,而非孤立的子字符串。

融合能带来最大的收益,但只有在平台层面上解决了对齐问题,融合才具有价值。早期融合可捕捉细粒度的交互,例如将文本片段与图像区域对齐;后期融合则在决策边界出现之前保留模态特异性模型;而混合方法则在交互点明确定义的情况下将两者结合。对齐是难点所在。 跨采样率源的事件时间同步、跨传感器的空间配准,以及语义关联(确保PDF中的订单ID、第三车道摄像头帧、振动峰值和账簿事件都能解析为同一业务对象),这些能力都应归属于目录与血统层。若缺乏时间、身份和来源的共享概念,智能体将产生上下文错觉或对过时信号做出反应。 鉴于70%的行业领袖认为最有价值的洞察力蕴藏在非结构化数据中,多模态分析绝不能只是第二阶段的附加功能。它是解锁上下文的默认模式。

流式传输作为运行模式

代理式工作引入了一个核心的服务级别目标:决策延迟,即从现实世界信号出现到采取可接受行动之间的时间。要实现这一目标,需要一个以流处理为先的平台。其骨干是一个事件日志,它充当记录系统,在写入时强制执行模式,并通过水印实现事件时间语义,从而确保时间窗口反映业务真相而非数据到达顺序。 在此骨干架构上运行着带状态的流处理器,它们维护持久的本地状态,可预测地处理反压,将热流与冷参考数据进行关联,并输出决策而非仅仅是经过转换的行数据。为了支持人类和代理双方的审查与论证,需部署一个实时分析层,该层直接从日志中摄取数据,并对持续更新的表进行亚秒级查询。

热路径和冷路径应位于同一架构中。数据流应以支持 ACID 事务和时间回溯的开放表格式存储,这样重放、回填、审计和训练操作即可在不冻结数据管道的情况下进行。这消除了“快速但短暂”与“持久但缓慢”之间虚假的二选一困境。运营纪律则确保闭环运行。 定义延迟预算和撤销规则,记录重放和死信处理手册,并采用带镜像流量的哨兵部署,确保发布操作可逆。当这些实践到位时,欺诈检测代理可在结算前拦截异常,个性化服务可在会话中动态调整,可靠性代理可在偏差初现时安排维护,而服务代理可在用户体验恶化时及时升级处理,而非等到用户流失后才采取行动。

治理作为运行时系统

随着自主性的增强,信任便成为关键所在。文档记录和定期审计无法防止错误决策;唯有运行时的控制才能做到这一点。有两个举措可以建立这种控制。首先,在写入时强制执行数据契约:生产者需发布模式、语义和新鲜度目标,注册表会阻止不兼容的更改或将其转入隔离区;消费者需声明预期,一旦预期被违反,系统将自动触发事件,从而降低代理的权限,直至条件恢复。 其次,对每一项操作(无论由人类还是代理触发)都作为代码来评估策略。当请求工具或数据集时,策略引擎应评估调用者身份、操作目的、涉及数据、风险等级及相关义务,例如附加证据包、屏蔽敏感字段,或要求超过阈值时需人工共同签署。最终结果必须是经过签名的决策以及可审计的轨迹。

安全领域需要采取“零信任”策略,即假定系统已遭入侵并验证每次调用。最小权限原则、持续验证、沙箱化工具执行以及严格的出站控制是基本要求,而诸如提示词注入、检索中毒和工具滥用等与代理相关的风险,则需要在运行时通过遥测和隔离措施加以应对,而不能仅依赖以模型为中心的调优。 Salesforce 的同一份研究中,风险已显而易见:仅有 43% 的企业高管表示建立了正式的治理框架;89% 已使用 AI 的团队曾遭遇不准确或具有误导性的输出;88% 的受访者认为 AI 需要全新的治理和安全方法。成熟的治理意味着平台能够清晰展示:谁采取了行动、使用了哪些数据、遵循了何种政策、采用了哪个模型或工具版本,以及必要时如何回滚。这正是令人印象深刻的试点项目与能够通过审计的系统之间的根本区别。

这三个要素如何交汇

该蓝图是一个动态系统,它将数据生产者、存储、计算和策略无缝连接起来,避免了会削弱信任的交接环节。数据生产者发布变更事件,并将PDF、图像、音频和视频等数据资产存储到分块存储中,同时全局目录会记录资产、所有权、数据血统及适用策略。 近数据管道负责数据标准化、脱敏、嵌入和对齐,生成的特征和嵌入向量流入带有文档化检索配置文件的索引存储库。带状态的流处理器在处理过程中实时增强数据并做出决策,而实时分析界面则向人类和代理展示最新事实。与此同时,相同的事件会被分层存储到具备 ACID 语义和时间回溯功能的开放式湖仓表中,从而使实时视图和历史视图共存于一个受管控的基础架构中。 代理通过具备最小权限原则的专用工具进行交互;每次调用均受策略检查,每项操作均经过签名并关联至溯源链。该模式解决了阻碍规模扩展的信任、及时性和可访问性缺口。

结论

致力于扩展人工智能的企业应抵制将智能代理功能生硬地嫁接到“仪表盘时代”技术栈上的冲动。必须首先改变基础架构。将多模态作为默认模式,确保每个有用的信号都归入一个具有共享标识、时间和血统的目录中,从而使检索结果呈现的是完整证据而非零散片段。将流式处理作为运行模式,确保决策遵循事件时间并能在规定的延迟预算内完成,同时将相同的流数据写入开放表中以供审计和学习。 将治理从幻灯片层面升级至运行时层面,具体措施包括:在写入时强制执行合约、对每项操作评估策略、对工具和数据实施零信任,并进行持续监控,以便在质量下降时暂停或降级自主运行。综合来看,这些举措将报告型底层架构替换为行动型底层架构。随后,代理将在明确的防护栏内基于最新的多模态证据运行,并内置解释机制——这正是试点项目转化为正式生产环境、AI 创造价值而非引发异常的关键所在。