Data & ML challenges for 2022

作者

布鲁斯-德拉特

Data Artefact 科学家经理

阅读我们的文章

2021 年 data 和 ML 的主要趋势......以及它们对 2022 年的意义

2021 年，与 data 和人工智能相关的新闻相当丰富。接下来会发生什么呢？在本文中，我们选取了几篇我们认为很有见地的报道和博文，退后一步，试图从这些早期 “迹象 ”中推断出 2022 年的前景。.

本文的撰写得益于 Arthur Derennes、Robin Doumerc、Amale El Hamri、Benoît Goujon、Vincent Luciani 和 Hanania Ouazan 的贡献。.

1 - 驯服基础模型的不雅性

2021 年确实出现了一些新的大型机型。在 GPT-3 (布朗等人，2020 年前一年，您可能听说过剪辑或者，最近, 地鼠. .这些 “基础模型 Bommasani 等人（2021 年）由于它们的架构经常被重复使用、稍作改动以适应特定的机器学习任务，或者它们还经常通过迁移学习进行进一步微调），它们的旅程和进步仍在继续，因为优化或 data 利用来训练它们的参数数量似乎没有任何限制。. 有趣的是，这些模式带来了巨大的生产率收益, 正如 Bommasani 和合著者所指出的那样，"我们 "利用了产生和均质.

先说同质化： 不仅如此，你在文献中看到的大多数模型都是从这些通用架构改编而来的 (想想如今无处不在的 BERT）；; 但实践者往往也不会改变架构, 因此，它们只是通过迁移学习对现有的 “大 ”模型进行微调，以适应下游任务。这种架构 “不变性 ”意味着 一个基础模型的新改进可以很容易地应用到其所有子模型中.

其次，新技术的出现源于它们训练 data 的方式。在自我监督下，依靠未以特定方式标记的原始 data 进行训练，它们开始显示出可以满足最初设计时未考虑到的需求（“零射击 ”能力）。. 利用这些模型从大块 data 中提取的 “知识”，可以更好地解决 data 可用性极差的复杂机器学习任务。. .我们仍处于早期阶段，结果往往是令人不安的多于成功的，但例如，GPT-3 可以直接从它在训练期间未见过的提示中学习解决任务 (至少，理论上不应该看到......). 这种计划外能力的出现意味着，我们可能会朝着更多的方向发展。 能力和通用性 机器学习。.

这些好处并非没有结构性变化。由于其性质庞大，能够创建此类模式的组织和公司数量有限。. 通过专有的人工智能应用程序接口或提示界面，将基础模型的训练和维护工作抽象给工程师，这无疑会促进机器学习的应用。. .另一方面，由于更多的模式将依赖于单亲家庭，我们可能会期待对这些模式进行更多的监管、伦理和社会调查（因为孩子们会继承其基础模式的偏见）。. 了解这些界面背后以某种方式隐藏的能力、限制和偏见......从他们的碳足迹开始，与人才合作的价值肯定会越来越大。.

2 - 让人工智能可持续发展

毫不奇怪，这些新形式的人工智能会带来高昂的碳排放成本: Strubell 等人. 据估计，在 GPU 上进行一次 BERT 训练大致相当于一次从纽约到旧金山的飞行。塔迪奥等人. 评估一次 GPT-3 培训一年的二氧化碳排放量相当于 49 辆汽车的排放量。.

人工智能最初被视为解决气候变化相关问题的重要工具（参见 NeurIPS 2019 年 “用机器学习应对气候变化 ”中的许多观点）。工作坊)，但许多专家也指出了它的碳足迹。. “可持续的人工智能”正如 Aimee van Wynsberghe 所说，"人工智能 "不仅应包括促进可持续性的人工智能，还应包括人工智能的可持续性 (也不应仅限于生态问题）。.

阿比舍克-古普塔建议, 在 支持可持续人工智能意味着探索新的工作方式. .TinyML 可以帮助我们避免无线计算的能源成本, 而碳意识这将帮助我们了解在哪个地理位置最适合训练和部署机器学习模型。更合理地利用现有硬件和服务也是每个人都关心的问题。.

无论采用何种解决方案来实现可持续的人工智能，我们都希望决策者在启动人工智能项目之前能够三思而后行. .这就提出了以下挑战测量机器学习对环境的影响。.

2022 年，机器学习的发展应与更系统的二氧化碳排放报告以及性能指标同步进行（例如，参见代码碳），cloud 提供商的透明度更高（见 GCP 碳足迹仪表盘)，最重要的是，对利用人工智能的好处和成本进行更深入的思考。. 最有说服力的项目将是那些采用整体方法的项目：不仅量化计算的碳足迹，而且将其与这些新产品带来的效率进行权衡, 同时不忘考虑潜在的反弹效应. .仅仅测量这些大型模型的碳足迹是不够的： 我们应考虑到整个终端到终端的流水线：培训、部署、监测及其对人们工作方式的影响.

3 - 为您的 MLOP 增添一抹禅意

这一点非常重要，因为机器学习的生产方面越来越复杂和精密. .今年，多边澳门威尼斯人官网业会议继续蓬勃发展，并出现了许多创新或令人耳目一新的概念，如 Matt Turck 解释. .简单地想想特色商店, 分流我们将在下文介绍 DataOps 的功能和所有举措。.

虽然 2021 年又是一个蓬勃发展的年份多氯联苯, 我们还开始 见证深思熟虑的批评，针对其自身的嗡嗡声. .这些论点是公平的：澳门葡京赌场官网的格局是几乎无法辨认、, 包括数以百计的概念和工具，也许往往过度杀戮并 可以合理地认为，一个普通项目不一定都需要. .大多数“合理规模”的公司 FAANG (即. 没有庞大的技术团队，没有人工智能带来的无限投资回报率，合理的 data 数量）。 宜简不宜繁.

目前仍难以预测这一格局将如何演变未来：毫无疑问，我们应该期待更多的初创公司出现，同时也期待大公司的同质化和合并。无代码或低代码工具肯定会继续发展，并让每个人都能使用这些功能。然而，事情可能会有转机、, 我们也坚信，未来几年将出现开放标准和 “典型 ML 堆栈”。” 例如，人工智能基础设施联盟打算构建 (免责声明：Artefact 是联盟的一部分）。.

因此，我们希望您能为自己增添一抹禅宗在 2022 年为您的 MLOP. .这意味着，首先，退后一步，然后 删繁就简，突出重点例如，通过“...... "来提高机器学习模型的效率和 data 科学家的工作效率。“帮倒忙”的心态。那么，正如大多数反模式在机器学习项目中，data 的作用似乎更大、, 努力巩固项目的基础：如何采购和加工 data 本身. .正如 Ciro Greco 所说，data 确实应该成为“一等公民”的生产堆栈。.

4 - 使 data 成为产品而非简单的输入

“它一直与 data 有关 ”应该宣布 2021 年对其重新产生兴趣，当然，这可以从以下方面得到证明 Data-Centric AI 由吴恩达发起的运动。. data 不仅是机器学习模型性能的燃料，也是问题的根源所在，因为不平衡、有偏差或标记不当的 data 肯定会对下游算法产生不利影响。. .因此，对于一个给定和固定的模型，我们只需在其输入端 data 上下功夫，就能提高质量。.

值得关注的是，这一运动应协调价值链上的每一个人，从 data 工程设计方面及其最近呼吁培养 DataOps 实践（我们自己今年也非常高兴地将诸如远大前程 data的科学家和分析师，他们将不会缺乏复杂的方法以完善手头的 data（扩增、标记、偏差校正、取样......）。. 当然，我们认为，如果没有高层管理者的明确投资和明确的应用，这是不可能实现的。进程 data governance 首先要识别，然后构建组织内不同领域及其所有者的结构。.

再加上 data 的移动将越来越方便，这要归功于以下举措 Airbyte 的并不断改进 data 共享我们的现代 data 堆栈中的技术将允许 公司显然要寻找新的视角来自 data 本身, 与此同时，人工智能也带来了自动化和洞察力。.

***

就是这样！在这个新年之际，我们衷心希望您摒弃不雅的基础模型，让人工智能可持续发展，为您的 MLOP 增添一抹禅意，并最终将您的 data 作为产品来培育，而不仅仅将其视为一种输入。而您呢？ 去年最让你吃惊的是什么？您预计今年会发生什么？