Artefact 研究中心
弥合学术界与产业应用之间的间隙

研究更透明、更合乎道德的模式,以促进人工智能业务的采用。

人工智能偏见举例
- AppleCard根据种族主义标准发放抵押贷款
- Lensa AI让女性自拍变得性感
- Facebook 根据种族主义进行图片分类,将非洲裔美国人识别为猴子
- 微软推特聊天机器人变得纳粹、性别歧视和咄咄逼人
- ChatGPT编写的代码声称优秀的科学家是白人男性
当前的挑战
AI在许多用例中都是准确并且易于部署的,但由于黑盒子和道德问题,仍然很难完全掌控。
Artefact 研究中心的使命
一个完整的生态系统,在基础研究和实际工业应用之间架起了一座桥梁。
基础研究与实际工业应用之间的桥梁。


埃马纽埃尔-马勒贝
研究负责人
研究领域:深度学习、机器学习
从攻读适用于电子招聘的自然语言处理(NLP)模型的博士学位开始,Emmanuel一直在纯粹的研究和有影响力的应用之间寻求有效的平衡。他的研究经验包括为华为公司提供5G时间序列预测,以及为欧莱雅的美发和化妆客户提供计算机视觉模型。加入Artefact之前,他曾在上海担任欧莱雅亚洲AI研究负责人。目前,他在Artefact的职位提供了一个绝佳的机会和的环境,来弥合学术界和行业之间的差距,在影响行业应用的同时促进他的现实研究。
阅读我们最新的Artefact 研究中心新闻
横向研究领域
凭借我们独特的定位,我们的目标是应对人工智能的普遍挑战,无论是统计建模还是管理研究。
这些问题贯穿于我们的所有学科,也促进了我们的研究。
以一个完整的生态系统,在基础研究和实际行业应用之间架起桥梁

主题
我们的几个博士课题涉及工业用例和最先进限制的交叉领域。
对于每个课题,我们都与大学教授合作,并能获得工业数据,从而在特定的现实世界场景中解决主要研究领域的问题。
1 - 预测与定价
用可控的多元预测模型对时间序列进行整体建模。通过这种建模,我们可以找到提高销售预测的最佳参数,从而解决定价和促销规划问题。通过这种整体方法,我们的目标是捕捉产品之间的兼并和互补。这将使我们能够控制预测,并保证预测保持一致。
2 - 可解释和可控制的评分
广泛使用的机器学习模型系列以决策树为基础:随机森林算法和提升方法。虽然这些模型的准确性往往达到了最先进的水平,但它们却给人一种黑盒子的感觉,用户在其中的控制能力有限。我们的目标是提高这些模型的可解释性和透明度,特别是在不平衡数据集的情况下改进 SHAP 值的估算。我们还致力于为此类模型提供一些保证,例如,针对训练外样本或通过更好地实现单调性约束。
3 - 组合优化
商品组合是零售商在选择店内销售商品时面临的一个主要商业问题。利用大型行业数据集和神经网络,我们的目标是建立更稳健、更可解释的模型,以更好地捕捉顾客在面对各种产品时的选择。处理产品之间的兼并和互补问题,以及更好地了解客户集群,是在商店中找到更优化的产品组合的关键。
4 - 企业采用人工智能
在企业更好地采用AI面临的挑战一方面是改进AI模型,另一方面是了解人和组织方面的问题。在定性管理研究和社会研究的交叉轴心上,我们试图探索企业在采用AI工具时面临的困难。现有的创新采用框架并不完全适用于机器学习创新,因为在AI方面存在监管、人员培训或偏见等典型差异,尤其是在Gen AI方面。
5 - 数据驱动的可持续性
该项目将采用定性和定量研究方法,解决两个关键问题: 公司如何有效衡量社会和环境可持续性绩效?为什么可持续性措施常常未能给组织实践带来重大变化?
一方面,该项目旨在探索数据驱动的衡量标准,并确定指标,使组织程序与社会和环境可持续发展目标保持一致。另一方面,该项目将侧重于把这些可持续发展措施转化为公司内部的具体行动。
6 - 计算机视觉中的偏差
当模型根据图像(例如显示人脸的图像)进行预测时,它可以获取敏感信息,例如种族、性别或年龄,这些信息可能会使其推理产生偏差。我们的目标是开发一个框架来从数学角度衡量这种偏差,并提出在模型训练过程中减少这种偏差的方法。此外,我们的方法将从统计学角度检测出强烈偏差的区域,以解释、理解和控制此类模型在哪些方面强化了数据中存在的偏差。
7 - 用于信息检索的 LLM
大型语言模型(LLMs)的一个主要应用是与一组文档语料库配对,这些文档代表着一些工业知识或信息。在这种情况下,存在一个信息检索步骤,LLMs在其中显示出一些限制,比如输入文本的大小对于文档索引来说太小。同样,在最终答案中也可能出现“幻觉效应”,我们的目标是利用检索到的文档和推断时的模型不确定性来检测这种效应。
Artefact兼职研究人员
除了专门从事研究的团队,我们还有几位合作者,他们花了一些时间从事科学研究并发表论文。通过顾问工作,他们也能从客户遇到的实际问题中得到启发。
出版物
我们的技术专家撰写的 Medium 博客文章。
未来代理式人工智能是否将依赖知识图谱?
随着企业争相将人工智能投入实际应用,多数企业发现其数据基础设施从未为自主推理而设计。如今,高达80%的人工智能实施...
丰富 DIY 体验:ADEO 如何利用人工智能连接内容与知识
分类优化是零售业的一个关键流程,它涉及到策划理想的产品组合以满足消费者需求,同时考虑到许多物流因素。
MotherDuck 解释:下一代生成式人工智能与分析解决方案如何融入您的数据堆栈
MotherDuck 通过协作功能将 DuckDB 的分析性能扩展到cloud ,提供比 BigQuery 快 4 倍的性能,并通过...
利用 Python 中的离散选择模型进行分类优化
分类优化是零售业的一个关键流程,它涉及到策划理想的产品组合以满足消费者需求,同时考虑到许多物流因素。
偏好对齐总是增强基于 LLM 翻译的最佳选择吗?实证分析
用于机器翻译(MT)评估的神经指标因其与人类判断的相关性优于传统词汇指标而日益突出。
选择-学习:从机器学习的角度为业务环境建立大规模选择模型
离散选择模型的目的是预测个人从被称为 "品种 "的备选方案中做出的选择决定。著名的应用案例包括预测...
生成式人工智能时代:正在发生的变化
人们对 ChatGPT 和其他生成式人工智能的反应既丰富又多样,无论是持怀疑态度还是充满热情,都表明了它们正在带来的变化和影响...
Artefact 如何为软件工程师制定公平而简单的职业制度
在当今充满活力、不断发展的科技行业中,职业道路往往会让人感觉像在机会密林中蜿蜒曲折。随着科技行业的快速发展,我们的职业道路也在不断变化。
为什么需要大型语言模型操作 (LLMOps)
本文介绍了 LLMOps,这是一个融合 DevOps 和 MLOps 的专门分支,用于管理大型语言模型 (LLM) 带来的挑战...
释放 LangChain 表达式语言 (LCEL) 的力量:从概念验证到产品化
在不到一年的时间里,LangChain 已成为与 LLM 交互的最常用 Python 库之一,但 LangChain 主要是一个库...
我们如何使用Treasure Data Unification和SQL处理配置文件命名的统一问题
在这篇文章中,我们解释了 ID 协调所面临的挑战,并展示了我们在客户数据平台中创建统一配置文件 ID 的方法,特别是...
Snowflake的 Snowday'23:滚雪球般地取得数据科学的成功
当我们回味 11 月 1 日和 2 日 "雪天 "活动中分享的见解时,一连串令人兴奋的关于未来的启示......


















































