一种用于生成各类合成稀有事件的算法

人工智能的一个常见应用是为感兴趣的人或事件分配概率或评分。这种评分问题适用于许多领域,例如疾病检测、工厂的预测性维护、在线访客的购买倾向,以及流失订阅者的风险。 在这些情况下,目标事件的数量远少于可用数据的总量。这种不平衡使得机器学习模型的训练变得尤为复杂,因为模型往往会侧重于多数案例,而忽略或低估罕见案例,这在人工智能投入实际应用时会引发多种运营问题。虽然已有相关算法,但它们并不适用于分类型数据,且通常无法提高最终模型的准确性。

为应对这一挑战, Artefact的研究中心 提出了一种针对表格数据的新型重新平衡方法,该方法同时兼顾了数值型和分类型变量。经在开源数据集,该方法在保持数据一致性、合理性和可解释性(现有方法常忽略的方面)的同时,在性能方面展现出显著提升。 数据再平衡需要生成虚拟样本,这存在产生不合理数据的风险,例如不存在的客户档案。在分析师必须手动验证模型预选出的最可能样本的情况下,这种风险会直接影响人工智能的采用。Artefact 通过在再平衡过程中仅生成合理数据Artefact 这一问题,从而促进其在企业中的应用。

 

一项面向法国兴业银行应用场景的交钥匙式研究合作

这项成果是以下三方合作的结果: Artefact 、索邦大学概率、统计与建模实验室(LPSM)以及法国兴业银行。此次合作促成了一个为期三年的研究课题,该课题在统计与信息技术挑战,以及业务团队面临且尚无尖端解决方案的具体问题之间取得了平衡。事实上,就该应用而言,多位销售专家曾反映现有方法生成的银行客户画像存在不一致的问题,这限制了他们对基于人工智能工具的采用,从而提出了在 在再平衡算法过程中保持建议的合理性。

通过此次合作Artefact 大学的研究人员得以利用真实的银行数据对他们的方法进行测试,从而验证了所提算法的统计准确性。此外,在测试该方法性能时,一个独特之处在于将其处理规模扩展至数百万个数据点,并在合理的时间内完成处理,这使得其处理规模超越了同类开源数据集的规模。该代码采用开源形式,相关方法论已在科学论文中详细阐述,以便尽可能多的人能够将该方法应用于其他评分场景。

法国兴业银行集团首席人工智能官埃蒂安·吉布(Etienne GUIBOUT)解释道:

此次合作使法国兴业银行得以获取学术界互补的专业知识。通过融合多元视角,我们致力于寻找越来越贴合实际问题的解决方案,从而推动创新。在顶级学术会议上获得发表机会,是对法国兴业银行团队质量的认可。这体现了同行及行业专家对相关工作影响力的肯定。参与此类活动不仅让我们能够分享研究成果,同时也让我们始终融入这一生态系统。 法国兴业银行的业务团队,特别是合规部门,参与了本文的撰写。他们凭借行业专长和反馈,确认了文中内容的切合度与实用性。这种跨学科合作确保了文章既能反映市场现实,又能首先满足我们自身及客户的需求。”

埃马纽埃尔·马勒贝,Artefact 主任:

“这对我们的研究中心而言是一次理想的合作,完美诠释了我们关于应用型、实用型和共享型研究的愿景。 机器学习这一领域总是始于数据和实际问题。通过此次合作,我们得以聚焦于不平衡表格数据评分这一长期未解的难题——尽管如此,这仍是商业领域中反复出现的问题,并引发了许多统计学上的疑问。能够在真实数据上测试和验证该方法,也是实现快速、高效且精准的算法的关键。”

科学论文及算法代码的链接:

Artefact研究中心作为连接学术界与产业界的桥梁

我们是一个由20名研究科学家组成的团队,致力于机器学习、计算机科学和管理科学领域的研究。我们专注于改进人工智能模型,无论是通过提升其可解释性和可控性,还是研究其在企业中的应用。我们的所有工作均采用开源模式,成果包括在经同行评审的国际会议上的演讲、科学论文、白皮书以及可自由获取的代码。我们与知名大学教授保持着紧密的合作。我们的理念是架起产学研之间的桥梁。 我们的研究方向源于与客户Artefact 遇到的实际问题,并持续建立产业合作伙伴关系,以便在真实的应用场景和数据集上验证我们的方法论。

 

一个关键的例子涉及统计模型的可解释性。在许多应用场景中,机器学习模型的采用受到阻碍,原因在于某些模型具有“黑箱”性质,换言之,即缺乏透明度和可理解性。因此,必须提出更具透明度的模型,同时尽量减少对预测性能的影响。该研究中心通过其提出的解决方案,为行业提供了所需的保障,从而促进了人工智能的广泛应用。