class="lazyload

在2023年4月20日举行的Artefact 人工智能大会上,生成式人工智能领域的关键人物分享了他们的见解,并就这项新技术以及企业如何利用它来提升业务效率进行了交流。

最新的生成式人工智能模型能够与用户进行复杂的对话,基于训练数据生成看似原创的内容(图像、音频、文本),并执行诸如撰写电子邮件、编写代码或合成复杂文档等手动或重复性任务。对于决策者而言,当务之急是制定清晰且具有说服力的生成式人工智能战略,并将数据治理与生成式人工智能(AIGen)商业解决方案的设计列为优先事项。

会议主办方和主题演讲嘉宾:

生成式人工智能:探索创意新领域

文森特·卢西亚尼在会议开幕致辞中指出:“世界各地的人们都对这项新技术及其将对组织和员工产生的影响充满期待。迄今为止,我们在人工智能领域所拥有的,主要是借助机器学习增强的相对确定性应用。我们能够进行预测、个性化定制和优化,但还无法真正实现创造。” 

“但今天,我们首次见证了人与机器之间真正的互动。如今,一种真正的智能正从这项技术和这些算法中涌现,尽管科学界对于这究竟是一场革命还是进化仍存在分歧…… 

“我们已经讨论过‘增强人类’或‘增强活动’:很快,我们将讨论‘增强企业’。”在简要概述了本次会议将涉及的主题并把发言权交给主题演讲嘉宾之前,他提醒听众说:

“尽管新一代生成式人工智能应用层出不穷,但保持克制至关重要:成功的业务转型并非一蹴而就,它需要深思熟虑、深入研究和充分准备。”
文森特·卢西亚尼,Artefact首席执行官兼联合创始人

生成式人工智能市场的展望与机遇

首位主题演讲嘉宾哈南·奥赞(Hanan Ouazan)首先概述了文本模型的发展历程,从谷歌2017年那篇具有革命性的论文《Attention is all you need》,该论文催生了Transformer模型,而该模型正是当今几乎所有大型语言模型(LLMs)的基础。“众所周知,研究需要时间,但如今我们正处于一个加速发展时期,每天都能看到利用数据和基础设施日益普及优势而诞生的新模型。”

哈南探讨了生成式人工智能模型民主化和普及化的多个方面,特别强调了该技术应用的加速进程:“发展速度令人惊叹:ChatGPT仅用五天就达到了100万用户。”

在谈到大型语言模型(LLM)的训练方法策略时,他阐述了预训练、微调和提示工程的优势,并分别列举了相应的工业应用案例,同时Artefact模型策略决策矩阵。

class="lazyload

除了拥有成本、性能和局限性之外,哈南还谈到了变革管理,以及生成式人工智能可能对就业产生的影响。

“这无疑会改变我们的工作方式,Artefact我们并不认为这会导致某些职业消失:它将增强从事这些职业的人的能力。”
HananArtefact数据科学合伙人兼生成式人工智能负责人

一个基于生成式人工智能的电商图片平台

主题演讲嘉宾马蒂厄·鲁伊夫(Matthieu Rouif)是PhotoRoom的首席执行官兼联合创始人。PhotoRoom是一款应用程序,借助图像生成式人工智能技术Stable Diffusion,让其8000万用户能够通过智能手机拍摄出媲美专业摄影棚品质的照片。

自新冠疫情推动电子商务平台蓬勃发展以来,每年有20亿张照片经过编辑处理。而PhotoRoom应用正通过为商家提供自动裁剪、阴影渲染以及逼真的背景生成功能,发挥着重要作用。“我们利用生成式人工智能为客户提供看起来像专业摄影师拍摄的照片,甚至能在不到一秒的时间内添加独特且逼真的AI生成背景,”马蒂厄说道。

class="lazyload
“我们通过提供丰富、优质且价格低廉的图片,帮助客户拓展业务。这些图片既能体现其品牌特色,又能以最佳方式展示产品,从而吸引并留住客户。”
马蒂厄·鲁伊夫,PhotoRoom首席执行官兼联合创始人

重新思考企业的人工智能应用

伊戈尔·卡隆(Igor Carron)是LightOn 的首席执行官兼联合创始人。LightOn 是一家法国公司,旗下拥有新一代生成式人工智能平台 Paradigm,其性能超越 GPT-3。该平台不仅能运行最先进的模型来处理服务器和数据,还能确保企业的数据主权。

在主题演讲中,伊戈尔谈到了公司的创立历程。“2016年我们创立LightOn时,致力于研发利用光线为人工智能进行运算的硬件。这是一种不同寻常的方法,但确实奏效了——我们的光学处理单元(OPU),作为全球首款光子人工智能协处理器,如今已被世界各地的研究人员广泛采用,并集成到了全球最大的超级计算机之一中。”

“自2020年GPT问世以来,我们一直在探索如何利用我们的硬件构建自己的大型语言模型(LLMs)——既供内部使用,也服务于外部客户。 我们掌握了开发大语言模型的技能,实际上还做得相当不错。但在2021年、2022年最初与人们交流时,他们对GPT-3一无所知,因此我们不得不向目标受众进行科普。”

“我们与一位客户合作开发了一个更大的模型,该模型最近以400亿参数的规模发布,其训练方式独具匠心,旨在与GPT-3一较高下,但使用的参数却少得多。这意味着您无需投入大量硬件资源,也无需花费巨资即可使用该模型。”

伊戈尔强调了大型语言模型的价值,并表示:

“我认为未来大多数公司都将基于大型语言模型(LLM)……这些工具将使它们能够从自身数据中创造真正的价值。”
Igor Carron,LightOn首席执行官兼联合创始人

“我们目前为客户提供的产品名为Paradigm:它能帮助企业管理组织内部的数据流,并利用这些数据对模型进行重新训练和优化。这确保了企业的内部流程或产品能够从与大型语言模型(LLMs)的交互中获得的智能中受益。”

“法国或欧洲生态系统中的许多参与者都依赖于OpenAI API或其他北美竞争对手。”伊戈尔警告道:“将数据发送至公共API的危险在于,这些数据会被重复用于训练后续模型。 比如,假设采矿业的人——他们确实知道哪里有金矿——将他们的技术报告发送给该API……几年后,如果你问ChatGPT-8或-9之类的模型:‘金矿在哪里?’它就会告诉你金矿的位置!”他强烈建议企业开始利用内部生成的数据来训练自己的模型。

生成式人工智能国家战略

最后一位主题演讲嘉宾约翰·拉勒(Yohann Ralle)是法国经济、财政、工业及数字主权部的生成式人工智能专家。他首先阐述了自己构建最先进大型语言模型(LLM)的“魔法公式”:计算能力 + 数据集 + 基础研究:

“在计算能力方面,法国政府投资建设了‘让·泽伊’超级计算机这一数字公共资源,旨在服务于人工智能领域。该超级计算机已成功用于训练欧洲多语言BLOOM模型。”
约翰·拉勒(Yohann Ralle),法国经济、财政及工业与数字主权部生成式人工智能专家。
class="lazyload

“在数据集方面,Agdatahub等举措有助于整合、标注和筛选学习和测试数据,从而开发高效且值得信赖的人工智能——这也将有助于提升法国的竞争力。 在基础研究方面,国家战略通过建立3IA研究所、资助博士合同、启动IRT Saint Exupéry和SystemX项目,以及在法国和欧洲各地开展多项学生培训计划等举措,有效构建了人工智能研发生态系统。”

Artefact首席执行官文森特·卢西亚尼主持的生成式人工智能圆桌讨论

人工智能是否通过了图灵测试(即,人工智能是否已达到人类水平的智能)?

尽管对此问题的反应不一,但普遍共识是:虽然确实存在智能,却缺乏主观意图。

马蒂厄:“我觉得确实如此……只要你不问具体日期,你就会觉得那里确实有人。但在时间维度上,它还行不通。”
伊戈尔:“我想问的是,你为什么会问这个问题?因为图灵测试对商业来说并不怎么有意思。但在交互层面,是的,可以说人工智能已经通过了测试。”

约翰:“图灵测试非常主观。当我们把人类特质归因于人工智能,即进行拟人化时,就存在风险。还记得谷歌工程师布莱克·勒莫因的案例吗?他曾认为自己对话的LaMDA聊天机器人已经具备了意识……图灵测试不过是一项有趣的练习,仅此而已。”

哈南:“关于ChatGPT,我们已经很接近了,但还没完全实现。”

ChatGPT的出现是一场革命,还是一种演变,抑或是发展进程中的一部分?

伊戈尔:“尽管目前尚无法完全理解ChatGPT对大型语言模型(LLMs)的长期影响,但随着时间的推移,这些技术将涌现出具有重要社会影响的新用途。这场讨论固然引人入胜,但最关键的因素在于那些将详细阐述大型语言模型改进方案的实际科研论文。这些模型当前及潜在的实际应用不应被忽视或低估。”

对企业而言,最具前景的应用场景是什么?是聊天机器人,还是图像生成?

哈南:“显然,聊天机器人一直是人工智能领域的重要组成部分,未来也将继续成为重要的应用场景。因为现在借助ChatGPT,只需将其连接到数据库,48小时内就能搭建好一个,这简直太神奇了。另一个应用场景是创建能够无需人工干预即可执行特定任务的自主代理,比如一个能为你预订前往意大利旅行所需的所有机票、酒店和餐厅的旅行代理。”

约翰:“我看到CGT驱动的插件拥有巨大潜力,比如Kayak或Booking。我认为这将重塑数字环境,届时OpenAI将整合各类聚合平台。”

伊戈尔:“我预见了一种定制企业级大型语言模型(LLM)的可能性。除了数据湖之外,企业将开始懂得如何利用非结构化数据,以及如何通过私有大型语言模型从内部数据中创造真正的价值。与此同时,我认为得益于ChatGPT,人们的搜索方式和互联网使用方式将发生翻天覆地的变化。”

文森特:我认为企业内部数据与大语言模型将融合成一种“超级FAQ+”,可以通过搜索或增强型智能助手进行查询。查询的概念正在演变:未来,人们会购买一个或多个关键词,还是会购买一个概念?在广告领域,目标一直是以人为本、以受众为中心;如今,随着我们对个人数据的保护,我们正朝着基于上下文的方向发展。 这将催生出更有趣的广告形式。”

如今,生成式人工智能在企业中是如何被应用的?它是否影响了就业?

马蒂厄:“我们很幸运,我们的竞争优势之一在于人工智能已融入我们的基因。我们鼓励内部使用更多生成式工具。我们的技术团队在开发中使用 Copilot,而程序员们则同时使用 ChatGPT 和 Copilot。 借助这些工具,我们的创造力得到了提升。至于招聘,公司正在扩张,因此我们计划招募新员工……但与此同时,有了优秀的软件,我们也能用更精简的团队完成更多工作。”

伊戈尔:“我们一直以一个小团队——七八个人——来运作,却能达到与谷歌等公司同样高水平的技术实力,而他们的团队规模可是我们的十倍。我们的小团队发挥着远超其规模的影响力。认为必须依靠庞大的团队才能成就大事,这种想法是错误的。”

约翰:“十年前,一项美国研究曾预测,20年内将有47%的岗位因人工智能而消失,但我们可以看到这种情况并未发生。经合组织(OECD)最近的一项调查显示,这一比例更接近14%。我认为我们应该从任务的角度来思考,而不是从岗位的角度。” 正如OpenAI最近的一项研究所述,80%至90%的岗位将受到生成式人工智能的影响——但这实际上意味着90%的员工在10%的工作任务中会受到影响。有趣的是,那些我们曾认为不受人工智能影响的职业概念正面临挑战,例如创意、法律、金融等领域的职业。法国政府已成立Le LaborIA,旨在协助探讨这些问题。”

这些模型在主权和监管方面存在哪些限制?

哈南:“第一个限制涉及知识产权(IP)。目前,我们有三种模型:公共模型,如ChatGPT,用户发送的数据可能会被用于商业目的;没有知识产权所有者的私有模型,如谷歌在Lamba上的API;以及自行安装的开源模型。由于GPT和PaLM并非欧洲企业所有,而是由美国企业持有,因此数据主权成为了一个问题。”

约翰:“监管问题在欧洲备受关注。意大利已全面禁止使用ChatGPT,目前正在调查该应用是否符合《通用数据保护条例》(GDPR)的隐私规定。OpenAI必须对其个人数据的使用做出极其明确的说明,例如发布免责声明,说明其使用个人数据的情况,并允许用户选择退出数据收集以及要求删除其数据。 关于大型语言模型(LLM)的另一个问题是“幻觉”现象:它们经常给出错误答案。如果查询涉及公众人物,而模型生成了“假新闻”报道,这可能会对当事人造成实际伤害,后果将十分严重。”

文森特:“你研究过知识产权问题以及盖蒂图片社起诉Stability AI一案所引发的争议吗?关于从互联网上抓取图片来训练模型,目前存在很多争议……”

约翰:“我们正在考虑这个问题。开源或许是一种创建干净、无版权且尊重知识产权的数据库和数据集的方式。”

马蒂厄:“关于个人数据和产品:让ChatGPT、Midjourney或PhotoRoom能够良好运行的,并不是个人数据,而是用户反馈。”

约翰:“用户反馈固然理想,但在大型语言模型(LLM)的情况下,收集反馈的成本高得令人望而却步。”

伊戈尔:“钱在哪里?这就是我的问题。你们提出的所有问题都是技术层面的,在没有资金聘请工程师并建立生态系统之前,我们无法解决这些问题,而我们目前还远未做好准备。”

随着越来越多的LLM模型被开发出来,你认为会爆发一场GPU“大战”吗?

约翰:“这确实是个风险。目前,英伟达在这里处于垄断地位,他们掌控着市场和价格。遗憾的是,欧洲没有真正的竞争对手。从定义上讲,这是一种稀缺资源,因此竞争异常激烈。”

马蒂厄表示:“GPU供应短缺不仅严重制约了我们的生产效率,也阻碍了整个欧洲各地企业的增长。”

伊戈尔:“由于我们最初是硬件制造商,早在2016年我们就已面临这一问题……如今,有些在竞争对手公司工作的人,其全职工作就是寻找足够的GPU来训练模型……市场正在爆发式增长,但芯片产量却跟不上——无论在世界哪个角落。”

哈南:“GPU瓶颈在所难免,但我们可以学会提高效率,而且必须这样做。此外,我们需要思考如何将开源技术融入企业,而不仅仅是如何使用所有最新技术。”

您认为未来最具价值的是什么?开源模型?还是大型语言模型(LLMs)?

马蒂厄:“在PhotoRoom,我们使用开源技术,这让我们能够加快发展步伐,并开发自己的知识产权。我们在巴黎拥有庞大的Hugging Face社区,他们为我们提供了至关重要的反馈。”

伊戈尔:“我们使用大型语言模型(LLMs),但并不拘泥于这种商业模式。我们也可以采用开源方案。关键在于能否以及如何复用我们的专有数据来训练未来的模型。我们的目标是打造一个能够为其他公司定制这些模型的行业。”

约翰:“关于开源与专有软件的演变如何推动了生成式人工智能的发展。人工智能界通力合作,使其他参与者能够借助这项基础研究来构建自己的模型。我怀疑这些开源模型的性能是否会低于专有模型,但这种情况可能会改变。无论如何,人们不禁要问:谷歌是否后悔向外界敞开了其ChatGPT技术的大门!”

圆桌讨论结束后,举行了观众问答环节,其中关于科技行业女性匮乏的问题引发了特别热烈的讨论。约翰详细介绍了法国政府在教育领域针对女孩和女性采取的若干措施,而文森特则谈Artefact 数据Artefact Artefact倡议以及其他科技公司为改善这一状况所做的努力。

与会者还就以下问题提出了讨论:自闭症患者及其他残障人士使用大型语言模型(LLMs)的包容性;人工智能“幻觉”问题;企业计划采取哪些措施来保护环境;以及在互联网数据抓取方面,欧洲与法国各自扮演的角色。如欲了解与会者对这些问题的回答,请观看会议回放。