1

在2023年4月20日举行的Artefact 生成式人工智能 (Generative AI) 会议上,来自生成式AI领域的主要参与者分享了他们的知识,并交流了关于这项新技术以及公司可以利用它来提高其业务生产力的方法。

最新的生成式AI模型能够与用户进行复杂的对话,从他们的训练数据中创造出看似原始的内容(图像、音频、文本),并执行手动或重复的任务,如写电子邮件、编码或合成复杂的文件。 对于决策者来说,今天制定一个明确和令人信服的生成式AI战略,并优先考虑数据治理和AI生成(AIGen)业务解决方案的设计至关重要。

会议主持和主旨嘉宾:

生成式AI:探索新的创意领域

Vincent Luciani在介绍会议时说:"各地的人们都对这项新技术以及它对组织和员工的影响感到兴奋。到目前为止,我们在人工智能方面所拥有的是由机器学习增强的相对确定性的应用。我们能够预测、个性化、优化,但不能真正创造。 

"但今天,我们第一次看到人与机器之间的真正互动。现在,一种真正的智能形式正在从这种技术和这些算法中出现,即使科学界对这是一场革命还是一场进化的问题存在分歧...... 

"我们已经谈论过增强人类或增强活动:很快我们将谈论增强的企业"。在对会议将涉及的主题进行快速概述并将发言权交给主讲人之前,他提醒听众说

"尽管新兴的生成式AI应用不断到来,但克制是至关重要的:成功的业务转型不会在一夜之间发生,它需要思考、研究、准备。"
Vincent Luciani,Artefact 首席执行官兼联合创始人

生成式AI市场的前景和机会

第一位主旨嘉宾Hanan Ouazan首先概述了文本模型,从谷歌2017年革命性的 "注意力是你所需要的"开始。 论文,该论文导致了变形金刚的产生,而变形金刚是今天使用的几乎所有大型语言模型(LLM)的基础。"如你所知,研究需要时间,但今天,我们正处于一个加速期,我们每天都能看到新的模型,它们利用了更多的数据和基础设施。"

Hanan探讨了生成式AI模型的民主化和可及性的几个方面,特别强调了该技术的加速采用:"这个速度是惊人的:ChatGPT在短短五天内就达到了100万用户"。

关于LLM训练方法策略,他介绍了预训练、微调和及时工程的优势,并列举了每种方法的工业使用案例,并介绍了Artefact的模型策略决策矩阵。

1

除了所有权成本、性能和限制,Hanan还谈到了变革管理和生成式AI可能影响工作的方式。

"它肯定会改变我们的工作方式,但在Artefact ,我们认为它不会令职业覆灭:它将增强从事这些职业的人类。"
Hanan Ouazan,Artefact 数据科学合作伙伴兼生成式AI业务负责人

生成式AI驱动的电子商务照片平台

主旨嘉宾Matthieu Rouif是PhotoRoom的首席执行官和联合创始人,PhotoRoom是一个应用程序,它使其8000万用户能够使用智能手机创建工作室质量的照片,使用的是稳定扩散技术,这是一种图像生成式AI技术。

自从由COVID-19疫情刺激的电子商务市场爆发以来,每年有20亿张照片被编辑。而PhotoRoom应用程序通过为商家自动剪裁、显示阴影和生成逼真的背景,正在发挥很大的作用。"Matthieu说:"我们使用生成式AI为客户提供看起来像由专业摄影师拍摄的照片,甚至在不到一秒钟的时间内添加独特的、现实的AI生成的背景。

1
"我们帮助我们的客户拓展他们的业务,为他们提供丰富的、高质量的、低成本的照片,以最好的方式展示他们的产品,尊重他们的品牌,进而吸引和留存客户。"
Matthieu Rouif,PhotoRoom首席执行官兼联合创始人

关于AI商业应用的深思

Igor Carron是LightOn的首席执行官兼联合创始人,LightOn是一家法国公司,其背后是新的生成式AI平台Paradigm,较GPT-3更强大。它带来了最先进的模型来运行服务器和数据,同时保证了企业的数据主权。

在Igor的主题演讲中,他讨论了他的公司的起源:"当我们在2016年创建LightOn时,我们正在建造利用光来为AI进行计算的硬件。这是一个不寻常的方法,但它成功了——我们的光学处理单元(OPU),世界上第一个光子AI协同处理器,现在已经被世界各地的研究人员使用,并被集成到世界上最大的超级计算机之一。

"自2020年以来,在GPT出现后,我们一直致力于弄清楚如何利用我们的硬件来构建我们自己的LLM——既为我们自己使用,也为外部客户使用。我们学会了如何制造LLM,并且事实上已经相当擅长了。但当我们第一次与2021年、2022年的人交谈时,他们对GPT3毫无所知,所以我们必须教育我们的目标受众。

"我们与一个客户合作,创建了一个更大的模型,最近发布的是400亿,以独特的方式训练,与GPT3竞争,但使用的参数要少很多。这意味着你可以以较少的硬件、繁重的基础设施,并不花费你大量成本。"

Igor强调了大语言模型 (LLM) 的价值,他说:

"我认为,在未来,大多数公司将以LLM为基础......这些工具将使他们能够从自己的数据中产生真正的价值。"
Igor Carron,LightOn 首席执行官兼联合创始人

"我们现在为客户提供的是一种叫做Paradigm的产品:它使公司能够在其组织内管理自己的数据流,并重新使用这些数据来重新训练和改进这些模型。这确保他们的内部流程或产品可以从与他们的LLM的互动中获得的情报中受益。

"法国或欧洲生态系统中的许多人都依赖于开放的AI API或其他北美的竞争对手的"。Igor提醒道:"将你的数据发送到公共API的危险在于,它将被重新用于训练连续的模型。因此,比方说数据挖掘领域的人,他们从字面上就知道哪里有黄金,把他们的技术报告发给它......几年后,如果你问ChatGPT-8或-9或其他什么,'黄金在哪里? '它就会告诉你黄金在哪里!"他强烈建议公司开始使用他们内部产生的数据来训练他们的模型。

生成式AI的国家战略

最后一位主旨嘉宾Yohann Ralle是法国经济、财政、工业和数字主权部的生成式AI专家。他首先解释了他建立一个最先进的LLM的 "神奇公式":计算能力+数据集+基础研究:

"在计算能力方面,法国政府已经投资了一个数字公域,即Jean Zay超级计算机,旨在为AI社区服务。它使欧洲多语言BLOOM模型的训练成为可能"。
Yohann Ralle,法国经济、财政、工业和数字主权部的生成式AI专家
1

"在数据集方面,Ahdatahub等举措有助于汇总、注释和鉴定学习和测试数据,以开发高效和值得信赖的人工智能--这也可以促进法国的竞争力。至于基础研究,国家战略已经帮助构建了AI研究和发展的生态系统,创建了3IA研究所,资助博士合同,IRT圣埃克苏佩里和SystemX项目的启动,多个学生培训计划以及整个法国和欧洲的更多项目。"

生成式AI圆桌讨论,由Artefact 首席执行官Vincent Luciani主持

AI是否通过了图灵测试(即人工智能是否达到了人类的智能水平)?

虽然这个问题有着不同的回答,但普遍的共识是,虽然智力确实存在,但意向性并不存在。

Matthieu:"我认为它有......你觉得那里有一个人,只要你不问日期。有一个时间方面的问题是不行的。"
Igor:"我的问题是你为什么要问这个问题?因为图灵测试对商业来说不是很有趣。但是,在互动方面,是的,你可以说AI已经通过了测试。"

Yohann:"图灵测试是非常主观的。当我们把人类的品质赋予AI时,当我们把AI拟人化时,就会有风险。记得谷歌工程师Blake Lemoine的案例,他认为与他交谈的LaMDA聊天机器人已经有了智慧......图灵测试是一个有趣的练习,仅此而已。"

Hanan:"关于ChatGPT,我们正在接近,但我们还没有达到。"

ChatGPT的到来是一场革命,还是一场进化,或者是一个连续体的一部分?

Igor:"虽然ChatGPT对LLMs的长期影响还不能完全理解,但随着时间的推移,这些技术的新用途将出现,并产生重要的社会影响。讨论是有趣的,但最重要的因素是实际的科学论文,这些论文将详细说明对LLM的改进。这些模型的当前和潜在的实际应用不应该被忽视或低估"。

对公司来说,最有前景的应用是什么?机器人、图像生成?

Hanan:"显然,聊天机器人在AI中一直很重要,并将继续成为一个重要的应用,因为现在,通过ChatGPT,你可以在48小时内将其与数据库连接起来,这很惊人。另一个应用案例是创建自主代理,可以在没有人类干预的情况下执行特定的任务,比如一个旅行社,为你访问意大利预订所有酒店和餐馆的门票"。

Yohann:"我看到了很多由CGT驱动的插件的机会,比如Kayak或Booking。我认为它将重构数字环境,OpenAI将聚合各种聚合器。"

Igor:"我设想了一种定制企业LLM的可能性。除了数据湖之外,公司将开始了解如何使用非结构化数据,以及如何通过私有的LLMs从内部的数据中产生真正的价值。同时,我认为由于ChatGPT的出现,我们将看到人们搜索和使用互联网的方式发生巨大的变化。"

Vincent:我认为会有一种企业内部数据和LLMs的融合,成为一种'主FAQ+'',可以通过搜索或增强代理进行查询。查询的概念正在演变:明天,人们将购买一个或许多关键词,还是购买一个概念?在广告业,目标一直是以人为本,以受众为基础;现在,随着我们对个人数据的保护,我们正在走向以情境为基础。而这可以带来更有趣的广告。"

生成式AI如何在当今的组织中被应用?它是否影响了就业?

Matthieu:"我们很幸运,我们的竞争优势之一是我们的DNA里有AI。我们鼓励内部使用更多的生成式工具。我们的技术团队使用Copilot进行开发,我们的编码员同时使用ChatGPT和Copilot。我们用这些工具更有创造力。至于就业,我们的组织正在成长,所以我们计划雇用新人......但同时,当我们拥有强大的软件时,我们可以用较小的团队做更多的事情。"

Igor:"我们一直以小团队运作——七八个人——来实现与谷歌一样的高水平技术实力,例如,谷歌的团队要大十倍。我们的小团队有一个完全不相称的效果。认为你需要一个大的团队来实现大的事情,这是一个错误的想法。"

Yohann:"十年前,美国的一项研究说,在20年内,47%的工作将因AI而失去,但我们可以看到它并没有发生。最近的一项经合组织调查说,这接近于14%。我认为我们应该从任务的角度考虑,而不是工作。正如OpenAI最近的一项研究中提到的,80%到90%的工作将受到生成式AI的影响,但这实际上意味着90%的员工将在10%的任务中受到影响。有趣的是,我们认为AI无法触及的职业的概念正在受到挑战,比如那些创意、法律、金融和其他领域。法国政府已经创建了Le LaborIA,以帮助探索这些问题"。

围绕主权和法规,这些模型有哪些限制?

Hanan:"第一个限制涉及知识产权(IP)。今天,我们有三种模式:公共模式,如ChatGPT,你发送的数据可用于商业目的;没有知识产权所有者的私人模式,如谷歌在Lamba上的API;以及自行安装的开源模式。数据主权是一个问题,因为GPT和PaLM不是欧洲的,而是美国的"。

Yohann:"法规在欧洲是一个大问题。意大利已经完全禁止使用ChatGPT,等待调查该应用程序是否符合GDPR的隐私规定。OpenAI需要非常清楚地说明他们对个人数据的使用,例如提出一个免责声明,说他们使用个人数据,并允许用户选择退出数据收集,让他们删除自己的数据。关于法律硕士的局限性,另一个问题是幻觉:他们经常给出错误的答案,如果请求涉及公众人物,模型产生的'假新闻'故事会对相关人员造成真正的伤害,那就会很严重"。

Vincent:"你研究过知识产权的问题以及Getty Images对Stability AI的诉讼所提出的问题吗?关于从互联网上刮取图片来训练模型,有很多问题......"

Yohann:"我们正在考虑这个问题。开放源代码可能是一种创建干净的、无版权的数据库和数据集的方式,尊重知识产权。"

Matthieu:"关于个人数据和产品:让ChatGPT或Midjourney或PhotoRoom运作良好的不是个人数据,而是客户反馈。"

Yohann:"用户的反馈是理想的,但在LLM的情况下,收集反馈的成本太高了。"

Igor:"钱在哪里?这是我的问题。你提出的所有问题都是技术性的,在我们有资金雇佣工程师并建立一个生态系统之前,我们无法解决这些问题,而我们现在根本没有准备好。"

随着越来越多的LLM被建造,你认为会有一场GPU "战争 "到来吗?

Yohann:"这是一个真正的风险。现在,这里有一个NVIDIA的垄断,他们控制着市场和价格。不幸的是,在欧洲没有真正的竞争对手。根据定义,这是一种有限的资源,是一种稀有的资源,所以这是一场严重的战斗。"

Matthieu:"缺乏GPU的可用性不仅严重限制了我们的生产力,而且也限制了欧洲各地公司的发展"。

Igor:"自从我们作为硬件生产商开始,我们在2016年已经面临这个问题......今天,有一些人在我们的竞争对手那里工作,他们的全职工作是寻找足够的GPU来训练模型......市场正在爆炸,但芯片生产无法跟上--在世界任何地方。"

Hanan:"不可避免地会有一个GPU瓶颈,但我们可以学习更有效率,我们需要这样。而且我们需要看到我们如何将开源融入我们的公司,而不仅仅是如何使用所有最新的技术。"

您认为未来最大的价值会在哪儿?开源模型?大语言模型(LLMs)?

Matthieu:"在PhotoRoom,我们使用开放源码,它让我们走得更快,开发我们自己的知识产权。我们在巴黎有一个广泛的Hugging Face社区,给我们提供必要的反馈。"

Igor:"我们使用LLM,但我们没有与这种商业模式联姻。我们可以使用开放源代码。重要的是能够并知道如何重新使用我们的专有数据来训练未来的模型。目标是一个为其他公司定制这些模型的行业。"

Yohann:"关于开源与专有的演变,推动了生成式AI。AI社区一起工作,所以其他行为者可以从这个基础研究中受益,建立他们自己的模型。我质疑这些开源模型的性能是否不会低于专有模型,但这可能会改变。在任何情况下,人们不得不怀疑,谷歌是否不后悔打开他们的ChatGPT技术的大门!"

圆桌会议讨论之后是观众问答环节,我们围绕技术领域缺乏女性的问题进行了特别热烈的讨论。Yohann详细介绍了法国政府在教育方面采取的一些专门针对女孩和妇女的措施,而Vincent则谈到了Artefact 数据学院Women@Artefact倡议和其他科技公司为纠正这种情况所做的努力。

其他问题包括:自闭症患者和其他残障人士使用LLM的包容性;AI的幻觉问题;公司计划采取的保护环境的措施;欧洲与法国在互联网抓取数据方面的作用。要看与会者如何回答这些问题,请观看会议回放。

Artefact Newsletter

Interested in Data Consulting | Data & Digital Marketing | Digital Commerce ?
Read our monthly newsletter to get actionable advice, insights, business cases, from all our data experts around the world!