|
一、 实验教学内容及教学基本要求 本课程从数据分析的基础理论知识入手,按照数据分析的基本流程循序渐进的学习数据分析知识,并使用Python编程进行实战操作。实验部分通过完整数据分析实例的学习,帮助学生更好的掌握数据分析技能,做到理论与实践相结合,方法与应用相结合。 本课程除要求学生掌握数据分析的基础知识和相关Python库使用,更重要的是要求学生掌握理论与实践结合的学习方式,为更深入地学习打下良好的基础。 二、 实验安排 1.Python的安装与使用 (2学时) 了解Python的安装方法;了解Python在本课程中起到的作用;掌握Python的基础知识,如Python包的使用方法、注释的使用方法、Python语法知识等;掌握使用Python编写并运行简单程序的能力。 2.数据分析相关工具的安装与使用 (2学时) 了解NumPy、Pandas、scikit-learn的基本功能和安装方式;掌握多维数组对象ndarray的使用方式;掌握Pandas库的使用方式;掌握scikit-learn库的使用方式;了解Matplotlib的基本功能和安装方式;掌握Matplotlib库的使用方式;掌握修改图表样式、修改装饰项和添加注释的方法;掌握基础图表的绘制方法; 3.实战:影评数据分析与电影推荐(2学时) 了解本实例中对数据的采集和处理;使用pandas对用户评分数据和电影信息数据进行初步分析;了解用户评分统计信息的查看方式和相关图表的绘制方式;了解电影评分分布的查看方式和图表绘制方式;了解使用协同过滤算法实现电影推荐的方法。 4. 实战:汽车贷款违约的数据分析(2学时) 了解本实例中用到的数据的各项属性以及变量类型;了解数据预处理相关方法,如连续变量和分类变量的缺失值处理;了解模型建立与模型评估,包括采用回归模型进行数据分析、采用决策树模型进行数据分析、采用随机森林模型优化决策树模型等。 5. 实战:Python表格数据分析(2学时) 了解openpyxl的背景和安装方式;了解如何使用openpyxl创建工作簿;掌握使用openpyxl从Excel工作簿中读取、迭代访问、修改与插入数据;了解为Excel工作簿添加公式、条件格式、图表的方法;了解将openpyxl读取到的数据转为Dataframe对象的方式;了解绘制数据列直方图、相关性矩阵和散布矩阵的方式,并能够将可视化结果插入Excel工作簿; 6.实战:利用手机的购物评论分析手机特征(2学时) 了解利用Kaggle获取本实例的数据的方式;了解数据的筛选过程;了解词袋算法(Count Vectorizer和TF_IDF)和无监督学习算法;了解使用Count Vectorizer结合k均值提取数据;了解使用spaCy进行名词提取和使用TextBlob进行情感分析的方法,并根据数据生成柱状图。 7.实战:基于k近邻模型预测葡萄酒种类的数据分析与可视化(2学时) 了解k近邻模型的工作原理;了解k近邻模型的初步建立方式;了解数据归一化的方式;了解训练集、测试集的划分以及分类器正确率的测试方法;了解使用NumPy和scikit-learn建立k近邻模型并进行测试的方式;了解使用Matplotlib进行数据可视化的方法。 8. 实战:美国波士顿房价预测(2学时) 了解Jupyter Notebook的安装方式和使用方法;了解本实例用到的数据集的引入、描述和条件检索;了解对缺失值和异常值的处理方法;了解成对矩阵图的绘制;了解独热编码;了解相关度的热力图的绘制;了解箱线图的绘制;了解对目标变量分布的拟合以及概率曲线图;选择合适的模型进行拟合;了解集成学习;了解评估模型的指标auc的计算方法。 三、 建议教材及参考资料 建议教材: [1] 吕云翔,李伊琳主编. Python数据分析与可视化[M]. 北京:人民邮电出版社,2021.2 |
上一条:《机器学习》实验教学大纲