生成各类合成罕见事件的算法

artificial intelligence 的一个常见应用是为感兴趣的人或事件分配概率或分数。这种评分问题适用于许多领域,例如疾病检测、工厂的预测性维护、在线访客的购买倾向或失去用户的风险。在这些情况下,感兴趣的事件数量远远超过可用的总数量 data。这种不平衡使得机器学习模型的训练变得尤为复杂,因为它们往往会关注大多数情况,而忽略或低估罕见情况,如果部署人工智能,就会带来多种操作问题。虽然存在一些算法,但它们并不适合分类 data,而且通常无法提高最终模型的准确性。.

为了应对这一挑战, Artefact 的研究中心 为表 data 提出了一种新的再平衡方法, 同时考虑数字变量和分类变量。在开放源代码 data 上进行了测试, 这种方法在保持 data 的一致性、可信度和可解释性的同时,在性能方面也有显著改进,而这正是现有方法经常忽略的方面。Data 重新平衡需要创建虚拟示例,而虚拟示例存在不可信的风险,如不存在的客户资料。在分析师必须手动验证模型预选的最可能示例的情况下,这种风险直接影响到 artificial intelligence 的采用。Artefact 解决了这一问题,只在重新平衡时创建可信的 data,便于企业采用。.

 

为法国兴业银行应用案例提供交钥匙研究合作伙伴关系

这项工作是以下三方合作的成果 Artefact Research Center, 索邦大学概率、统计和建模实验室(LPSM)和法国兴业银行. .通过合作,确定了一个为期三年的研究课题,在统计和信息技术挑战与业务团队面临的具体问题(目前尚无最先进的解决方案)之间取得平衡。事实上,在这一应用中,不同的销售专家都报告了现有方法生成的银行档案不一致的问题,这限制了他们采用基于人工智能的工具,从而提出了以下挑战 在重新平衡算法中保持合理的建议。.

通过这种合作关系,Artefact 和索邦大学的研究人员得以在 data 真实银行上测试他们的方法,从而验证了拟议算法的统计准确性。此外,测试拟议方法性能的一个独特要素是 可扩展至数百万个 data 点 在合理的时间内进行处理,因此超过了同等开放源代码 datasets 的大小。. 代码是开源的,科学文章中详细解释了使用方法, 从而让尽可能多的人将该方法用于其他计分用例。.

法国兴业银行集团首席人工智能官 Etienne GUIBOUT 解释说:

这种合作使法国兴业银行能够从学术界获得互补的专业知识。它通过纳入各种视角来促进创新,旨在确定越来越适合我们问题的解决方案。获得A级会议的认可是法兴银行团队质量的标志。它表明同行和行业专家对我们工作影响力的认可。参与此类活动使我们能够分享我们的研究成果,同时也是生态系统的一部分。法兴银行的业务团队,尤其是合规团队,参与了本文的撰写。他们的行业专业知识和反馈意见证实了文章内容的相关性和适用性。这种跨学科合作确保文章反映市场现实,并首先满足我们和客户的需求”。”

Emmanuel Malherbe,Artefact Research Center主任:

“对于我们的研究中心来说,这是一个理想的合作伙伴关系,完美诠释了我们应用、有用和共享研究的愿景。机器学习是一个总是以 data 和实际问题为起点的领域。通过这次合作,我们得以重点解决在不平衡的表格 data 上评分这一尚未解决的问题,这也是商业中经常出现的问题,并引发了许多统计问题。能够在真实的 data 上测试和验证该方法也是实现快速、高效和准确算法的关键。”

科学论文和算法代码的链接:

Artefact 的研究中心是连接学术界和产业界的桥梁

我们是一支由 20 名研究科学家组成的团队,从事机器学习、计算机科学和管理科学领域的研究。我们致力于改进人工智能模型,无论是使其更具可解释性和可控性,还是研究其在公司内部的应用。我们的所有工作都是开源的,包括在同行评审的国际会议上发表的演讲、科学出版物、白皮书和免费提供的代码。我们与知名大学教授密切合作。我们的理念是在产业界和学术界之间架起一座桥梁。我们研究领域的灵感来自与客户合作的 Artefact 项目中遇到的实际问题,我们不断建立行业合作伙伴关系,在实际使用案例和 data 设置中测试我们的方法。.

 

一个重要的例子涉及统计模型的可解释性。由于某些模型具有 “黑箱 ”性质,或者换句话说,缺乏透明度和可理解性,机器学习模型的采用在许多使用案例中受到阻碍。因此,必须提出更加透明的模型,同时尽量减少预测性能的下降。通过提出解决方案,该研究中心能够提供业界所需的保证,从而提高人工智能的采用率。.