使用 Python 进行机器学习 -Artefact

如今，机器学习已成为从企业内部不断增长的海量数据中提取知识和价值的最有效技术之一。

请跟随Artefact 的专家，了解 PythonArtefact 借助众多专业库和活跃的开发者社区，助您实现满足需求的机器学习解决方案。

这是一门为期3天（每天7小时，共3天）的培训课程，学习路径清晰且循序渐进。我们将确保您在学习过程中不会迷失方向，并帮助您牢记推进工作所需的知识。

目标

探索机器学习中常用的主要模型
理解分类、回归和聚类问题
掌握如何实施、评估和优化机器学习解决方案

学成归来，掌握……的能力

完成这门融合了理论讲解、Python互动练习及指导性案例分析的培训后，您将能够：

了解机器学习算法的不同类型
掌握机器学习项目实施的方法
使用工具实现复杂的机器学习模型
机器学习核心算法的评估与优化
进行文本挖掘
进行网页抓取

培训资料

一本总结培训重点的备忘卡手册
本次会议上展示的所有代码

评估

在整个培训期间，将通过工作坊和实践演练对学员的掌握情况进行评估。培训结束时，会系统性地进行学员满意度的即时评估，并向学员颁发培训证书，其中载明培训目标、性质、课程安排及培训时长，以及对所学内容的正式确认。

先决条件

Python 基础知识

公开

所需材料

Ordinateur portable récent (<5 ans) avec droits d’administration

报名参加本课程

首席讲师

拉法埃尔·阿伊加伦克

Artefact 成功处理了从数据营销到计算机视觉，再到自然语言处理及预测分析等各类复杂课题，服务对象涵盖多家企业。

特别是，拉斐尔在销售预测中评估促销活动影响方面经验丰富。

课程安排

模块 1模块 2第3单元第4单元第5单元第6单元

机器学习入门

3小时

1.1 机器学习导论
什么是机器学习？
1. 日常生活中的应用案例，当今工业巨头如何运用机器学习
2. 什么是机器学习？定义及关键步骤概览
3. 主要行业领域的潜在应用场景、其特点及共性
4. 性能与可解释性之间的权衡：是否必须二选一？

1.2 监督学习——数据科学流程
重点介绍最常见的算法类型：监督学习
1. 定义目标变量和解释变量。构建数据集并预处理样本。
2. 模型选择与训练：描述性统计的重要性及变量预测。
3. 如何量化并展示模型性能，同时选择符合需求的评估指标
实践作业

监督学习

4小时

2.1 监督学习——过学管理

理解并避免过度学习

学习数据中识别出的趋势，但不要死记硬背：过少学习与过度学习的问题
数据采样：如何正确选择训练集和测试集
在样本中保留数据的特征：分层抽样
在训练阶段处理未观测值测试中的数据缺失情况
通过交叉验证更好地利用现有数据
特例：时间序列

2.2 监督学习——经典算法

监督学习的核心算法

决策树及其基于决策树的集合理论模型：随机森林与梯度提升
支持向量机
超参数优化：网格搜索与随机搜索

无监督学习

3小时

3.1 无监督学习

如果没有目标变量，该怎么办？

无监督学习的方法与示例：基于k-means和DBSCAN的聚类分析
将监督学习与无监督学习相结合，以获得更具实用价值的成果。
一个典型的无监督问题：降维。主成分分析与特征选择

文本探索、网页抓取

4小时

4.1 文本挖掘

文本数据分析

术语及应用场景说明：NLP、NLU、NLG、NER
项目中可用的数据来源
文本预处理的步骤：清理、特殊字符处理、词形还原和词干化
主要算法：TF-IDF、隐狄利克雷分析、Word2Vec、Doc2Vec 等

4.2 网页抓取

从网络中提取数据：不同方法与实践应用

网络数据采集：API 与网络爬虫的对比。两种方法的成本与局限性。
使用的包：urllib 和 beautifulsoup。相关实践作业
法律限制：我们不能做所有我们有能力做的事情！

案例研究——数据探索

4小时

5.1 数据集的获取

数据科学项目的入门指南

Kaggle 平台介绍及数据集提取
数据探索：列类型 / 缺失值或异常值，值的分布。
数据可视化：单变量和双变量图表，特征间的相关性
变量处理：缺失值、异常值、分类变量的处理及特征工程

案例研究——建模与预测

3小时

6.1 创建模板

模型校准

创建训练集和验证集，定义评分指标。
选择待测试的模型及其调试。对该列车编组进行性能测试。
模型校准：交叉验证、超参数优化（网格搜索）。

6.2 预测

评估模型性能

在测试集上进行预测。若出现问题（例如未知分类变量），则进行故障排除。
在测试集上对预测结果进行性能评估，并与训练集上的指标进行比较。
分析结果，确定表现更优的模型，探讨可能的改进方向。

机器学习