本文Artefact 与法国科技企业联盟(French Tech Corporate Community)合作,为Medium博客撰写。

针对ChatGPT及其他生成式人工智能的反应既丰富又多样,无论持怀疑态度还是热情拥护,都表明这些技术正在引发变革,其影响已远远超出了通常的技术圈。这与前几代人工智能形成了鲜明对比——后者本质上属于预测型,相关文章或论文通常仅局限于研究与创新领域。

对于企业而言,生成式人工智能也与以往的人工智能有所不同。若将其与最相似的技术(例如用于文本语料库的自然语言处理(NLP)或用于视听数据的计算机视觉)进行比较,生成式人工智能带来了四大变革,随着企业对其进行实践探索,这些变革正逐渐被企业所认知。

首先,与以往的人工智能相比,生成式人工智能在加速概念验证方面显著加快了用例的部署。其次,它开辟了一个全新的可能性领域,使非结构化数据的增强变得更加简单、高效且成本更低。 此外,与以往使用的模型相比,生成式人工智能所产生的结果在质量、数量和多样性方面都焕然一新。所有这些因素意味着,我们需要应对终端用户日益高涨的期望——这种期望正受到围绕该技术炒作的推动。下面我们将详细阐述以下四点。

生成式人工智能能够更快地验证用例的附加价值

在生成式人工智能领域,用例的部署通常比以往的人工智能更快、更省力。生成式人工智能采用的方法常被比作拼装乐高积木,即通过组合现有的组件来创造新的成果。这种易于实验和实施的特性有助于缩短开发周期。此外,与用户进行对话式的交互模式也加速了其应用普及。

一个数据用例可以归结为一个业务问题、数据、模型和提示词。传统上,创建和优化模型是整个过程中最复杂且耗时最长的环节。借助生成式人工智能,这一步骤变得更加简单。生成式人工智能提供了预训练的、即用型模型,使企业无需投入大量时间开发和优化模型,即可受益于先进的技术专长。 在实际应用中,模型(如 Azure 的 GPT 4.0)支持“按需”调用,或可通过 API 进行部署(如 Google 的 Gemini Pro BARD)。部分服务商甚至针对特定领域提供专门微调的模型,例如生成法律、医疗或金融文本。

模型部署完成后,剩下的唯一任务就是对生成式 AI 模型进行“锚定”,即将模型生成的结果与现实世界信息相结合,从而限制模型在给定范围内进行响应。这通常涉及添加约束条件或补充信息,以引导模型生成在特定语境下连贯且相关的内容。 然而,这与我们迄今为止所使用的AI模型的训练时间相比,简直是天壤之别。

让我们以呼叫中心逐字分析用例为例来说明这一点。Artefact ,如果使用基于传统AI的模型来开发此类用例,从检索数据到使其可用,通常需要三到四周的时间。如今,得益于生成式AI,这一过程仅需一周,效率提升了三倍以上。主要挑战在于选择合适的业务分类来适配模型。

生成式人工智能将人工智能的应用范围扩展到了以往鲜少使用或被误用的数据

有些油田只有在油价飙升时才有利可图。同样的原理也适用于数据。得益于生成式人工智能,如今可以对某些非结构化数据进行挖掘,这为训练或微调模型开辟了一个全新的可利用数据领域,并为专注于特定领域的应用提供了广阔前景。

此外,一个崭新的前景正在浮现:生成式人工智能能够在训练过程中处理和整合任何类型的数据,从而省去了将企业数据进行结构化整理和质量提升以使其可用的繁琐耗时的工作。但根据目前的观察,这一前景尚未实现。

生成式人工智能不仅得益于注意力机制的真正突破,还得益于机器日益增强——且必不可少——的算力。

注意力机制的工作原理有点像人在试图理解或创作某物时,将注意力集中在图像或文本中重要部分的能力。试想一下,当你试图根据一张照片绘制风景画时,你不会一次性查看整张图片,而是将注意力集中在某些看似重要的部分,比如山脉或树木。这有助于你更好地理解重要细节,从而绘制出更准确的画作。 同样地,注意力机制使模型在生成内容时能够聚焦于图像或文本的特定部分。模型无需一次性处理所有输入,而是专注于最相关且重要的部分,从而产出更准确、更有意义的结果。这使其能够更高效、更逼真地学习如何生成图像、文本或其他类型的内容。

注意力机制具有极佳的并行化能力。通过使用多种注意力机制,可以对数据进行更丰富、更稳健的表征,从而在机器翻译、文本生成、语音合成、图像生成等众多任务中提升性能。

因此,不久前还看似不可能实现的应用场景,如今已完全能够实现。例如,在总统竞选期间计算媒体上的发言时间便是如此。就在两年前,准确计算每位候选人的发言时间还是一项繁琐的工作。如今,得益于生成式人工智能的应用,这已成为可能。

在计算能力方面,六年前,OpenAI发布的一份分析报告显示,自2012年以来,最重要的AI训练项目所消耗的计算量呈指数级增长,其翻倍周期仅为3.4个月(相比之下,摩尔定律的翻倍周期为两年)。 自2012年以来,这一指标已增长了30多万倍(若按两年翻一番的周期计算,增长幅度仅为7倍)。

生成式人工智能模型通常需要巨大的计算能力来进行训练,尤其是因为这些模型旨在具备通用性,因此需要海量的内容进行训练。处理大型数据集并执行复杂的优化算法,需要强大的计算资源,例如高端GPU或TPU。 新款 NVIDIA A100 Tensor Core GPU 似乎提供了前所未有的加速能力。据 NVIDIA 称,A100 的性能比上一代产品高出 20 倍,并可划分为七个 GPU 实例,以动态适应不断变化的需求。据报道,它还拥有全球最快的内存带宽,每秒超过 2 太字节(TB/s),足以运行最大规模的模型和数据集。

需要指出的是,计算能力的提升一直是人工智能发展的关键因素。只要这一趋势持续下去,我们就应做好准备,应对那些能力远超当今水平、并将进一步突破现有界限的系统所带来的影响,同时权衡这些系统带来的价值与其产生的成本——尤其是能源和环境方面的成本。我们将在今后的文章中探讨这些问题。

生成式人工智能能够提升所获结果的多样性、质量和数量

生成式人工智能在其模型生成的结果方面,显然与以往的人工智能有所不同。不仅生成的结果数量有所增加,其质量和多样性也得到了提升。然而,生成式人工智能模型较低的可重复性,限制了这些积极方面的发挥。

如果将数据分析比作拼图,那么数据分析就如同拼图的过程:每一条数据都代表一块拼图,需要按顺序排列才能呈现出一幅完整的画面。人工智能在填补缺失数据方面发挥着关键作用,它利用现有信息来推断并重建那些缺失的部分。 生成式人工智能不仅限于补充现有数据,更能基于现有数据生成新的数据。这一过程拓展了分析能力,使人们能够从现有数据中发现新信息,从而将生成式特质推到了前沿。

class="lazyload

与以往几代人工智能不同,后者生成的结果往往大同小异,而生成式人工智能模型则能够通过探索不同的变体和替代方案,生成更加多样化的结果。这种多样性的提升使得生成更丰富、更多元化的内容成为可能,从而实现了从数量到质量的转变,并能满足更广泛的需求和偏好。

OpenAI近日造访好莱坞,展示了其名为“Sora”的最新模型,该模型能够根据文本生成视频。好莱坞制片人迈克·佩里表示:“听说它能做到这些是一回事,但亲眼目睹其能力确实令人惊叹。”他特别强调了生成式人工智能所具备功能的多样性和质量。

然而,由于生成式人工智能模型能够探索更广阔的可能性空间,其可重复性往往不如以往的人工智能,且结果的准确性也会受到影响。具体而言,每次运行模型时,要精确复现完全相同的结果更为困难,这在某些关键任务应用中可能会对系统的可靠性和可预测性构成挑战。

这一局限性对需要精确答案的生成式人工智能应用构成了重大挑战。这也是企业当前研发工作的重点领域:旨在让模型在高度专业化的领域中更具专长,从而提高答案的准确性;同时,通过将生成式人工智能与基于规则的模型或结构化数据查询的输出结果相结合,既保留了前者在结构化数据处理上的稳健性,又兼顾了生成式人工智能在易用性和用户交互方面的优势。

终端用户期望值提高

在管理预期以及用户与技术的关系方面,生成式人工智能带来了若干具体挑战。由于其能够快速产出结果,生成式人工智能往往会引发特别高的期望。反之,幻觉现象和不良结果的出现,则会严重动摇用户对这些解决方案的信任。

生成式人工智能能够快速且自动地生成结果,这可能会让终端用户产生一种错觉,认为该技术能够即时且高效地解决他们所有的问题。这可能导致人们对生成式人工智能的实际能力抱有过高的期望,而一旦结果未能完全达到这些高期望,便会引发失望情绪。

当然,生成式人工智能并非完美无缺,有时会产生意料之外或不理想的结果,例如内容前后矛盾、虚假或不恰当。此类不理想结果的出现可能导致终端用户对该技术失去信心,从而对其可靠性和实用性产生质疑。此外,当意外结果损害了生成式人工智能所生成信息的完整性时,还会引发对数据安全和隐私的担忧。

2023年2月,当被问及美国宇航局(NASA)詹姆斯·韦伯太空望远镜的发现时,谷歌的聊天机器人Bard(后更名为Gemini)提供了错误信息。它错误地声称该望远镜拍摄到了首张系外行星的照片。 这一说法并不准确,因为首张系外行星照片可追溯至2004年,而詹姆斯·韦伯太空望远镜直到2021年才发射升空(来源:CNET法国团队,2024年)。

因此,生成式人工智能系统的终端用户必须清楚了解这些系统的局限性。正因如此,部署此类解决方案的大多数企业都致力于为用户提供使用支持:包括指导用户掌握提示词编写技巧、阐明系统的局限性、明确哪些期望能够实现、哪些无法实现,以及提醒用户遵守相关的数据保护规定。

ChatGPT发布一年多以来,人们对这项新技术的期待依然高涨。然而,其蕴含的价值尚未在具体的应用场景中得到体现。在接下来的文章中,我们将探讨企业采用该技术相关的话题,以及该技术如何在组织内部推广。

在以下人员的领导下:

  • 纪尧姆·拉梅——首席数据官——法兴银行

  • 安托万·勒弗尔——苏伊士集团数字解决方案副总裁

class="lazyload

Artefact 的 Medium 博客。

本文最初发表于Medium.com。
欢迎关注我们的Medium博客!