在为期五周的虚拟黑客马拉松比赛中,Artefact 团队开发了一个 NER(命名实体识别)管道,用于检测 Twitter 帖子中的美容和化妆品品牌,并建立了一个综合反馈回路,给评委们留下了深刻印象。.

由 data 科学家、ML 工程师和来自 Artefact 巴黎办事处的 data 工程师组成的团队在由以下机构主办的黑客马拉松比赛中获得第二名的好成绩 FlyteMLOps.community, 这是在 MLOps 社区专门知识领域:

  • MLOps.community 是一个开放社区,旨在满足人们日益增长的需求,即分享来自该领域工程师的实际机器学习运营最佳实践
  • Flyte 是一个用 Golang 实现的开源、容器原生、结构化编程和分布式处理平台

为期五周的虚拟黑客马拉松包括在作为 MLOps 平台的 Flyte 上创建端到端 ML 应用程序。以增加生产中的实际价值为目标,项目创意可以围绕任何 ML(机器学习)或 Data 应用,如零售用例、欺诈保护或计算机视觉。所有项目均根据创意、团队使用应用程序的执行情况以及模型 UI(用户界面)的易懂程度进行评判。.

由 Data 高级科学家/ML 工程师 Amale El Harmri、Data Engineer Louis Rousselot de Saint Ceran、Data 高级科学家 Karim Si Larbi、Data 高级科学家 Hugo Vasselin 和 Data 科学家 Sascha Lasry 组成的 Artefact 团队经验丰富,在完成客户和内部工作之余,还参与了此次黑客马拉松活动。比赛期间,该团队的名称为 “adorable-unicorns23”。”

“自愿参加这次黑客马拉松活动表明了我们团队对公司协作和创新价值观的承诺。无论是在办公室内还是在办公室外,我们都分享着作为一个团队创造新事物的激情”。”
Data 高级科学家/Artefact 的 ML 工程师 Amale El Harmri 说。.

由于美容和化妆品行业在不断发展变化,该团队重点研究了一种可能的战略,即寻找具有创新性、受公众欢迎的独立品牌或独立经营的品牌,并将其收购。因此,团队在 Twitter data 流量上建立了一个品牌识别模块,其中包括一个被盗的标签界面。.

为完成该项目,团队将流程分为三个部分:

  • NER 应用工作流程包括从 Twitter 搜刮与美容相关的推文,然后从帖子内容中提取 NER 实体
  • 标签工作室中的手动贴标部分注意:花时间给这些帖子贴标签,以检查是否有遗漏或不正确的实体 
  • NER 培训工作流程: 评估基于标记的 NER 模型,如果成功,则完成工作流程;如果不成功,则使用新标记的 data 训练新模型

“这是我们团队的成员第一次使用 Flyte,由于该平台直观的 SDK(软件开发工具包)和文档,团队能够非常快速地提交任务和工作流程。这次黑客马拉松对于团队展示他们先进的 MLOps 专业技能来说是一次难得的经历!”
Artefact 的 ML 工程师 Robin Doumerc 说。.

如需观看 Artefact 向 MLOps.community 评审委员会提交的完整在线项目介绍,作为 MLOps #98 的一部分,请点击链接 这里 跳到 41:22 的时间戳。.