引言
自2022年年中爆发式兴起以来,生成式人工智能迅速吸引了全球的关注。 这一技术最初主要聚焦于语言领域,如今已扩展至图像、音频和视频模型等令人振奋的新领域。2023年初,关于该技术可能对各行业企业产生影响的猜测日益增多,同时涌现出许多令人振奋的早期应用案例。随着越来越多的开发者开始利用这些模型构建解决方案,公众的普遍看法逐渐转向:最广泛使用的模型将不断推出更新、更大、且有望更强大的版本。
随着2024年的到来,一个关键的洞见逐渐显现:部署人工智能绝非仅仅是直接采用现成的最新、最大规模的模型。虽然人们通常认为人工智能解决方案是现成的,或者认为增加模型规模就能自动带来更好的效果,但这种做法很少能满足大多数企业的特定需求。实际上,成功的应用需要量身定制、灵活且高效的人工智能解决方案。
为实现这一目标,我们转向复合型人工智能系统。与单一的整体式模型不同,复合型人工智能系统整合了多个专业化的AI组件,每个组件都针对特定角色进行了优化。这种架构确保了高度的可定制性、适应性和精准度,将人工智能从通用工具转变为专为特定目的打造的解决方案。通过组合小型且相互连接的AI组件,企业能够实现远超现成模型所能达到的性能和成果。 因此,为了在各行业产生最佳的商业影响,我们认为战略愿景应优先考虑更智能的系统设计,而非仅仅构建更大、计算需求更高的模型。
理解复合人工智能系统
伯克利人工智能研究实验室(BAIR)将复合人工智能系统定义为“利用多个相互交互的组件来处理人工智能任务的系统,包括对模型、检索器或外部工具的多次调用”。 例如,检索增强生成(RAG)系统就是一种复合系统,它结合了大型语言模型(LLM)、信息检索机制和向量化数据库。相比之下,生成式人工智能模型是一种统计模型;例如,大型语言模型(LLM)会根据训练数据预测文本中的下一个词元。
在此背景下,模型可以被视为一个独立的模块,而复合型人工智能系统则更像是由多个构建模块组成的机器,每个模块都承担着特定的功能,以实现系统的总体目标。

模型与人工智能复合系统。来源
此类系统有何帮助
专长:大锤并非万能工具
在应对特定应用或行业需求时,仅依赖GPT-4这类通用人工智能模型可能不够。尽管这类模型功能强大,但它们的设计初衷是处理广泛的任务,可能缺乏特定应用所需的专门知识,因此在达到一定程度后,其效果会逐渐递减。
例如,一家希望开发用于投资分析或财富管理聊天机器人的金融机构,需要一个既包含专业知识又融合企业特定专长的系统。鉴于该行业的特性,人们会关注隐私问题(企业可能要求采用本地部署方案并仅使用开源模型)、准确性(解决方案必须绝对精准)以及效率。即使使用最强大的语言模型作为独立解决方案,也绝非最佳选择。 相反,通过整合多个专业组件(如检索增强生成(RAG)系统和定制化AI代理),复合型AI系统将能发挥极高的效能。这种方法确保了系统中的每个部分都能针对其特定角色进行优化。
灵活性:模块化系统可轻松适应不断变化的需求
当系统采用模块化组件构建时,更换或升级单个部件便变得简单得多。这一原则同样适用于由多个模块组成的复合人工智能系统。如果复合人工智能解决方案中的某个组件过时或无法满足新的合规要求,只需更换该组件即可,无需对整个系统进行彻底改造。 例如,如果出现了更合适的新模型,即可将其集成到系统中以取代旧版本。同样地,如果开发出了更高效的信息检索机制,也可以在不影响整个系统运行的情况下将其替换进来。这种灵活性不仅限于模型和检索系统,还延伸至其他组件,例如数据处理单元、分析引擎或合规模块。
可扩展性:智能组件的集群胜过单一巨头
复合人工智能系统的模块化特性在可扩展性方面具有显著优势。由于允许各个组件独立扩展,这些系统能够高效地应对不断增长的数据量和日益增加的复杂性,而无需进行全面改造。
可以通过将系统复制成一个系统网络来实现扩展,理论上这允许无限扩展。这就是为什么单个语言模型,无论其规模多大或功能多强大(就目前而言),都无法在庞大的数据库中有效搜索特定信息。 要提升模型的搜索能力,就必然需要构建一个多组件系统来增强搜索功能。如果连信息检索这样最简单的任务,都无法通过单一模型有效扩展,那么很明显,单个组件本身无法支撑大规模、复杂的应用程序。
复合型人工智能系统为何具有商业价值
从商业角度来看,采用复合型人工智能系统不仅关乎技术上的精妙,更在于它能提供与商业目标直接契合的战略优势。甚至可以说,如果企业希望利用生成式人工智能,就别无选择,只能构建(或购买)一个复合型系统。虽然这听起来很简单,但它挑战了商业界的一种普遍假设,即认为独立的现成模型足以满足专业化的需求。
提升客户满意度
仅凭最先进的人工智能模型本身,无法创造个性化的体验。这只能通过一个复合系统来实现,该系统能够提供高度定制化且符合上下文的客户体验。 例如,微软的“定制神经语音”(Custom Neural Voice)技术将通用大型语言模型(LLMs)与定制语音训练相结合,使品牌能够打造与自身独特语调和风格精准契合的数字助理。这种定制化能力在广告等面向客户的行业中尤为强大,因为客户往往会对被视为特别且被理解的感觉产生积极反应。从商业角度来看,将这项技术与添加上下文的能力相结合,能够产生个性化的结果,从而最终提升客户满意度。
成本效益
与那些以固定成本提供固定质量水平的单一模型不同,复合式人工智能能够提供灵活的成本-质量配置方案。例如,企业可以将一个较小的、经过指令微调的模型与搜索启发式等专用组件相结合,从而以低于大型独立模型的成本获得高质量的结果。这种灵活性使得企业能够采用更小、且可能是开源的模型,通过针对性的工程优化,这些模型所能提供的结果可与更昂贵的解决方案相媲美。
更佳的掌控与信任
对于企业而言,AI 输出的可靠性和可信度至关重要。仅依赖单一模型,很难获得始终如一、内容准确且格式规范的结果。例如,教育行业的一位老客户曾要求开发一套解决方案,基于其学校数据和信息自动填写申请表。起初,我花了数月时间,基于先进的提示词工程构建了一个顺序系统,但并未采用复合方法。 虽然结果有所改善,但始终无法达到我们所期望的“完全填写完毕的申请表”标准。直到引入RAG(检索增强生成)概念后,才开始出现完全可控的结果。然而,仅靠RAG仍不够;还需要额外的组件来对信息进行分类、保持上下文连贯性,并处理其他细节。只有到那时,我们才实现了客户所需的可靠性和精准度。
结论
审视当前人工智能在工业应用领域的现状,可以发现一个明显的趋势:仅依靠单一模型来执行复杂功能往往难以保证可靠性。随着应用场景日益复杂以及企业采用率的提升,对高度专业化且功能强大的人工智能解决方案的需求必将不断增长。为了满足这一需求,必须构建一种能够整合增强型和专业化模型的解决方案架构,从而避免陷入范围狭窄、单一化的陷阱。
开发者社区正因一系列令人兴奋的应用程序而沸腾,这些应用涵盖从医疗到零售的各个领域,它们都是通过将小型、专业化的组件组合起来,构建成功能强大且量身定制的解决方案。
即便是人工智能,仅凭自身也无法聪明到足以实现战略性商业目标。它必须辅以更高层次的协同智能。
附录
复合型人工智能系统的示例
以下是一系列具有深远影响且引人入胜的复合人工智能系统,它们充分展现了这一概念的实用价值。无论开发者采用何种基础设施,其目标都是观察将多个人工智能组件与其他工具相结合,如何实现非常具体的目标。
RAG 通过提供来自模型原始训练数据之外的向量化数据库中的具体上下文,从而提升大语言模型(LLM)的输出质量。虽然大语言模型是在海量数据集上训练而成,并利用数十亿个参数来生成响应,但 RAG 更进一步。它使大语言模型能够访问并引用具体的、最新的信息,无论这些信息是特定领域的,还是来自组织的内部知识库。 这一过程显著提升了生成内容的相关性、准确性和实用性,且无需对模型进行重新训练。
拥有海量数据集且需要高效方法来整理内部知识的企业,可以在本地部署此解决方案,并采用其选定的模型来检索精准的信息。例如,财务分析师可以快速在历史报告中定位相关数据,而无需手动逐份筛选。该模型借助这些上下文信息,还能生成更准确、更有用的响应,从而简化整个信息检索流程。
以下是一个典型的RAG架构:

RAG 架构概述
下表列出了几种常见的复合人工智能系统(来源):


博客






