Artefact Research Center
弥合学术界与产业应用之间的间隙
Research on more transparent and ethical models to nurture AI business adoption.
Examples of AI biases
- AppleCard根据种族主义标准发放抵押贷款
- Lensa AI让女性自拍变得性感
- Facebook 根据种族主义进行图片分类,将非洲裔美国人识别为猴子
- 微软推特聊天机器人变得纳粹、性别歧视和咄咄逼人
- ChatGPT编写的代码声称优秀的科学家是白人男性
当前的挑战
AI在许多用例中都是准确并且易于部署的,但由于黑盒子和道德问题,仍然很难完全掌控。
Artefact 研究中心的使命
A complete ecosystem that bridges the gap between
fundamental research and tangible industrial applications.
Emmanuel MALHERBE
研究负责人
研究领域:深度学习、机器学习
从攻读适用于电子招聘的自然语言处理(NLP)模型的博士学位开始,Emmanuel一直在纯粹的研究和有影响力的应用之间寻求有效的平衡。他的研究经验包括为华为公司提供5G时间序列预测,以及为欧莱雅的美发和化妆客户提供计算机视觉模型。加入Artefact之前,他曾在上海担任欧莱雅亚洲AI研究负责人。目前,他在Artefact的职位提供了一个绝佳的机会和的环境,来弥合学术界和行业之间的差距,在影响行业应用的同时促进他的现实研究。
以一个完整的生态系统,在基础研究和实际行业应用之间架起桥梁
横向研究领域
With our unique positioning, we aim at addressing general challenges of AI, would it be on statistical modelling or management research.
Those questions are transversal to all our subjects and nurture our research.
Subjects
We work on several PhD topics at the intersection of industrial use cases and state-of-the-art limitations.
For each subject, we work in collaboration with university professors and have access to industrial data that allows us to address the major research areas in a given real-world scenario.
1 — Forecasting & pricing
用可控的多元预测模型对时间序列进行整体建模。通过这种建模,我们可以找到提高销售预测的最佳参数,从而解决定价和促销规划问题。通过这种整体方法,我们的目标是捕捉产品之间的兼并和互补。这将使我们能够控制预测,并保证预测保持一致。
2 — Explainable and controllable scoring
广泛使用的机器学习模型系列以决策树为基础:随机森林算法和提升方法。虽然这些模型的准确性往往达到了最先进的水平,但它们却给人一种黑盒子的感觉,用户在其中的控制能力有限。我们的目标是提高这些模型的可解释性和透明度,特别是在不平衡数据集的情况下改进 SHAP 值的估算。我们还致力于为此类模型提供一些保证,例如,针对训练外样本或通过更好地实现单调性约束。
3 — Assortment optimization
商品组合是零售商在选择店内销售商品时面临的一个主要商业问题。利用大型行业数据集和神经网络,我们的目标是建立更稳健、更可解释的模型,以更好地捕捉顾客在面对各种产品时的选择。处理产品之间的兼并和互补问题,以及更好地了解客户集群,是在商店中找到更优化的产品组合的关键。
4 — AI Adoption in businesses
在企业更好地采用AI面临的挑战一方面是改进AI模型,另一方面是了解人和组织方面的问题。在定性管理研究和社会研究的交叉轴心上,我们试图探索企业在采用AI工具时面临的困难。现有的创新采用框架并不完全适用于机器学习创新,因为在AI方面存在监管、人员培训或偏见等典型差异,尤其是在Gen AI方面。
5 — Data-driven sustainability
该项目将采用定性和定量研究方法,解决两个关键问题: 公司如何有效衡量社会和环境可持续性绩效?为什么可持续性措施常常未能给组织实践带来重大变化?
一方面,该项目旨在探索数据驱动的衡量标准,并确定指标,使组织程序与社会和环境可持续发展目标保持一致。另一方面,该项目将侧重于把这些可持续发展措施转化为公司内部的具体行动。
6 — Bias in computer vision
当模型根据图像(例如显示人脸的图像)进行预测时,它可以获取敏感信息,例如种族、性别或年龄,这些信息可能会使其推理产生偏差。我们的目标是开发一个框架来从数学角度衡量这种偏差,并提出在模型训练过程中减少这种偏差的方法。此外,我们的方法将从统计学角度检测出强烈偏差的区域,以解释、理解和控制此类模型在哪些方面强化了数据中存在的偏差。
7 — LLM for information retrieval
大型语言模型(LLMs)的一个主要应用是与一组文档语料库配对,这些文档代表着一些工业知识或信息。在这种情况下,存在一个信息检索步骤,LLMs在其中显示出一些限制,比如输入文本的大小对于文档索引来说太小。同样,在最终答案中也可能出现“幻觉效应”,我们的目标是利用检索到的文档和推断时的模型不确定性来检测这种效应。
Artefact’s part-time researchers
除了专门从事研究的团队,我们还有几位合作者,他们花了一些时间从事科学研究并发表论文。通过顾问工作,他们也能从客户遇到的实际问题中得到启发。
Publications
Medium blog articles by our tech experts.
生成式人工智能时代:正在发生的变化
The abundance and diversity of responses to ChatGPT and other generative AIs, whether skeptical or enthusiastic, demonstrate the changes they're bringing about and the impact...
How Artefact managed to develop a fair yet simple career system for software engineers
In today’s dynamic and ever-evolving tech industry, a career track can often feel like a winding path through a dense forest of opportunities. With rapid...
为什么需要大型语言模型操作 (LLMOps)
This article introduces LLMOps, a specialised branch merging DevOps and MLOps for managing the challenges posed by Large Language Models (LLMs)...
Unleashing the Power of LangChain Expression Language (LCEL): from proof of concept to production
LangChain has become one of the most used Python library to interact with LLMs in less than a year, but LangChain was mostly a library...
我们如何使用Treasure Data Unification和SQL处理配置文件命名的统一问题
In this article we explain the challenges of ID reconciliation and demonstrate our approach to create a unified profile ID in Customer Data Platform, specifically...
Snowflake的 Snowday'23:滚雪球般地取得数据科学的成功
As we reflect on the insights shared during the ‘Snowday’ event on November 1st and 2nd, a cascade of exciting revelations about the future of...