课程教学大纲
1
课程基本信息
课程名称
Python数据分析与机器学习
学 分
2、3、4
课 时
32、48、64
2
课程目标
本课程采用理论与实践相结合的教学方式,通过学习Python语法基础、numpy数据处理、matplotlib数据可视化技术、Pandas数据预处理与分析技术、sklearn机器学习等内容,培养学生数据处理的能力,掌握机器学习的基本流程,并能够利用机器学习的方法挖掘数据中的有用价值,使学生更好地适应大数据和人工智能时代的工作与学习。
3
教材
杨年华,Python数据分析与机器学习,清华大学出版社,2023年1月
4
课程内容
1. Python语言与开发环境概述(2课时)
展开全文
(1)Python语言的特点、下载与安装、交互与文件两种使用方式。(1课时)
(2)代码的风格、模块的概念及其导入方式、帮助的使用、Anaconda环境的安装与使用(1课时)
2. Python语言基础(8课时)
(1)控制台的输入与输出、标识符、变量、赋值语句(1课时)
(2)常用数据类型、运算符、表达式(1课时)
(3)分支结构(2课时)
(4)循环结构(1课时)
(5)常用组合类型(列表、元组、字符串、字典、集合)(2课时)
(6)推导式、用于组合类型的常用内置函数、正则表达式(1课时)
3. 函数(5课时)
(1)函数的定义、调用、函数的返回值、位置参数与关键参数(2课时)
(2)默认参数、个数可变的参数、参数与返回值类型注解(2课时)
(3)lambda表达式、函数式编程的常用类与函数(1课时)
4. 自定义类与对象(3课时)
(1)Python中的对象与方法、类的定义与对象的创建(1课时)
(2)类的继承(2课时)
5. numpy数据处理基础(6课时)
(1)numpy数据结构、数据的准备、数组的索引与切片(2课时)
(2)改变数组的形状、对角线上元素的替换、插入维度、数组的基本运算、数组的排序、数组的组合、数组的分割(2课时)
(3)随机打乱数组中的元素顺序、多维数组的展开、其他适用于数组的函数与对象、利用numpy进行统计分析、数组在其他文件中的存取(2课时)
6.matplotlib数据可视化基础(6课时)
(1)绘制基本图形、绘制多轴图(2课时)
(2)坐标轴的刻度标签、主次刻度、网格设置、移动坐标轴、文字说明和注释、显示图片、日期作为横坐标(2课时)
(3)绘制横线与竖线、绘制其他二维图表、绘制三维图表(2课时)
7.Pandas数据处理与分析(6课时)
(1)数据结构与基本操作、文件与数据库中存取DataFrame对象(2课时)
(2)常用函数与方法(1课时)
(3)DataFrame数据清洗与处理、时间处理(2课时)
(4)移动数据与时间索引、统计分析、Pandas中的绘图方法(1课时)
8.机器学习方法概述与数据加载(5课时)
(1)机器学习概述、sklearn简介与安装(1课时)
(2)加载数据、划分训练集与测试集(2课时)
(3)sklearn中机器学习的基本步骤示例、sklearn编程接口风格(2课时)
9.数据预处理(3课时)
(1)特征的离散化(1课时)
(3)特征值的标准化、特征值的鲁棒缩放、无序分类数据的热编码、有序分类数据的编码、每个样本特征值的正则化(1课时)
10.模型评估与轨道(4课时)
(1)泛华、过拟合、欠拟合的概念;模型评估指标(2课时)
(2)交叉验证(1课时)
(3)轨道的创建与使用(1课时)
11.有监督学习之分类与回归(6课时)
(1)分类与回归概述、线性回归(2课时)
(2)逻辑回归与岭回归实现线性分类、支持向量机用于分类和回归(2课时)
(3)朴素贝叶斯分类、决策树用于分类和回归(2课时)
12.集成学习(4课时)
(1)投票法集成、bagging/pasting集成(2课时)
(2)提升法集成、堆叠法集成(2课时)
13.无监督学习之聚类与降维(4课时)
(1)用k-均值基于相似性聚类、层次聚类、基于密度的聚类(2课时)
(2)聚类性能评估、无监督的降维(2课时)
14.超参数调优与模型选择(4课时)
(1)基于循环语句的网格搜索、划分验证集避免过拟合、带交叉验证的网格搜索、带交叉验证的随机搜索(2课时)
(2)搜索多个不同特征的空间、对轨道中的超参数进行搜索、搜索算法和超参数(2课时)
5
不同学分的课时与教学内容安排建议
参考书籍
《Python数据分析与机器学习(微课视频版)》
作者:杨年华
定价:110.00元
扫码优惠购书
内容简介
本书首先简要介绍Python语言的基础知识,为后续内容的学习提供基础,接着介绍NumPy、Matplotlib和Pandas三个数据分析基础模块的用法,同时也为后面基于scikit-learn的机器学习提供基础,最后介绍基于scikit-learn机器学习及其模型的评价方法、超参数调优方法。全书通过大量案例,希望能让读者快速提高实践能力。
本书适合作为高校本科生或研究生数据分析、机器学习等相关课程的教材或参考书,也可作为数据分析和机器学习爱好者的自学教程,还可以作为相关科研工作者与工程实践者的参考书。
目录
向上滑动阅览
第1章 Python语言与开发环境概述
1.1 Python语言的特点
1.2 Python的下载与安装
1.3 开始使用Python
1.4 模块与库
1.5 使用帮助
1.6 Anaconda简介
习题1
第2章 Python语言基础
2.1 控制台的输入与输出
2.2 标识符、变量与赋值语句
2.3 常用数据类型
2.4 运算符与表达式
2.5 分支结构
2.6 循环结构
2.7 常用组合类型
2.8 正则表达式
习题2
第3章 函数
3.1 函数的定义
3.2 函数的调用
3.3 形参与实参
3.4 函数的返回
3.5 位置参数与关键参数
3.6 默认参数
3.7 个数可变的参数
3.8 参数与返回值类型注解
3.9 lambda表达式
3.10 函数式编程的常用类与函数
习题3
第4章 自定义类与对象
4.1 Python中的对象与方法
4.2 类的定义与对象的创建
4.3 类的继承
习题4
第5章 NumPy数据处理基础
5.1 数据结构
5.2 数据准备
5.3 常用数组运算与函数
5.4 使用NumPy进行简单统计分析
5.5 数组在其他文件中的存取
习题5
第6章 Matplotlib数据可视化基础
6.1 绘制基本图形
6.2 绘制多轴图
6.3 坐标轴的刻度标签
6.4 坐标轴的主次刻度、网格设置
6.5 移动坐标轴
6.6 文字说明和注释
6.7 显示图片
6.8 日期作为横坐标
6.9 绘制横线与竖线作为辅助线
6.10 绘制其他二维图表
6.11 绘制三维图表
习题6
第7章 Pandas数据处理与分析
7.1 数据结构与基本操作
7.2 文件与数据库中存取DataFrame对象
7.3 常用函数与方法
7.4 DataFrame对象的数据清洗与处理
7.5 时间处理
7.6 移动数据与时间索引
7.7 统计分析
7.8 Pandas中的绘图方法
习题7
第8章 机器学习方法概述与数据加载
8.1 机器学习概述
8.2 scikitlearn的简介与安装
8.3 加载数据
8.4 划分数据分别用于训练和测试
8.5 scikitlearn中机器学习的基本步骤示例
8.6 scikitlearn编程接口的风格
习题8
第9章 数据预处理
9.1 特征的离散化
9.3 特征值的MinMax缩放
9.4 特征值的标准化
9.5 特征值的稳健缩放
9.6 无序分类数据的热编码
9.7 有序分类数据编码
9.8 每个样本特征值的正则化
习题9
第10章 模型评估与轨道
10.1 模型评估的基本方法
10.2 轨道的创建与使用
习题10
第11章 有监督学习之分类与回归
11.1 分类与回归概述
11.2 线性回归
11.3 逻辑回归与岭回归实现线性分类
11.4 支持向量机用于分类和回归
11.5 朴素贝叶斯分类
11.6 决策树用于分类和回归
习题11
第12章 集成学习
12.1 投票法集成
12.2 bagging/pasting法集成
12.3 提升法集成
12.4 堆叠法集成
习题12
第13章 无监督学习之聚类与降维
13.1 用k-均值算法基于相似性聚类
13.2 层次聚类
13.3 基于密度的聚类
13.4 聚类性能的评估
13.5 无监督的降维
习题13
第14章 超参数调优与模型选择
14.1 搜索超参数来选择模型
14.2 对轨道中的超参数进行搜索
14.3 搜索算法和超参数
习题14
参考文献
在公众号书圈后台回复【9787302611516】,下载本书配套的教学资源