数据科学导论
课程介绍
《数据科学导论》课程定位培养学生学习数据科学分析的基本原理,掌握数据分析的基本思路、常见的分析方法以及应用场景,学会数据分析及可视化的方法,相关算法原理介绍和算法应用需求导向对接的垂直化课程体系设计,培养学生具备利用数据科学方法解决传媒大数据相关问题的能力。
课程目标
- 理解数据科学的基本概念和方法论
- 掌握数据收集、清洗、分析和可视化的基本技能
- 了解机器学习和统计学习的核心算法
- 培养利用数据科学方法解决实际问题的能力
- 建立数据驱动的思维方式
课程大纲
第一部分:数据科学基础
- 数据科学概述
- 数据收集与预处理
- 数据可视化基础
- 描述性统计分析
第二部分:统计学习方法
- 线性回归与分类
- 重抽样方法
- 模型选择和正则化
- 决策树与组合学习
第三部分:高级主题
- 支持向量机
- 神经网络基础
- 无监督学习
- 推荐算法
- 文本挖掘
- 社交网络分析
- 并行与分布式计算
课程资源
课程幻灯片
课程讲稿快捷入口
学习资料
课程讲稿
第1讲:数据科学的发展历史与研究问题
2026年03月10日
本讲围绕数据科学的发展脉络与研究问题展开,梳理统计学、数据挖掘、机器学习、大数据到数据科学的演进,说明数据科学如何围绕现实需求完成数据收集、清洗、建模、解释与决策支持。
查看完整讲稿第2讲:数据科学的基本方法
2026年03月17日
本讲介绍数据科学的基本方法体系,围绕监督学习、无监督学习、半监督学习、强化学习、统计学习与机器学习的关系展开,并说明 R 与 Python 在数据分析实践中的作用。
查看完整讲稿第3讲:统计学习的基本框架与模型评估
2026年03月24日
本讲围绕统计学习的基本框架与模型评估展开,介绍模型、策略、算法三要素,训练误差与测试误差、过拟合、正则化、交叉验证、泛化能力,以及生成模型与判别模型的区别。
查看完整讲稿第4讲:数据处理与清洗
2026年04月01日
本讲围绕数据处理与清洗展开,介绍结构化与非结构化数据、数据类型、缺失值处理、噪声与异常值识别、数据变换和标准化等内容,说明高质量数据是后续分析建模的基础。
查看完整讲稿第5讲:数据可视化
2026年04月07日
本讲围绕数据可视化展开,介绍图形在探索、发现、验证和表达中的作用,讲解基础作图参数、常见图形类型、图形选择原则,以及 ggplot2 的基本思想和应用提醒。
查看完整讲稿第6讲:回归分析
2026年04月14日
本讲围绕回归分析展开,介绍一元与多元线性回归的建模思想、总体回归函数、最小二乘估计、模型假设、拟合优度、显著性检验、预测方法,以及 R 中的回归实现。
查看完整讲稿第7讲:分类方法
2026年04月21日
本讲围绕分类方法展开,介绍二元分类问题、线性概率模型、Probit 与 Logistic 模型、判别分析、朴素贝叶斯、LDA、QDA,以及混淆矩阵、精确率、召回率、ROC 和 AUC 等评价指标。
查看完整讲稿第8讲:决策树与集成学习
2026年05月05日
本讲围绕决策树与集成学习展开,介绍决策树的基本思想、分类树和回归树,以及 Bagging、随机森林、Boosting、GBDT、XGBoost 等组合学习方法。
查看完整讲稿第10讲:支持向量机与朴素贝叶斯、推荐算法
2026年05月19日
本讲围绕支持向量机、朴素贝叶斯与推荐算法展开,介绍最大间隔分类器、软间隔、核函数、支持向量回归、贝叶斯分类器、条件独立假设,以及协同过滤、关联规则、内容推荐和深度学习推荐等方法。
查看完整讲稿第11讲:文本挖掘与社交网络分析
2026年06月12日
本讲整理文本挖掘与社交网络分析两部分内容,介绍文本数据获取、分词、词袋模型、TF-IDF、特征选择、文本分类、文本聚类、LDA主题模型,以及网络基本概念、中心性、凝聚性、随机图模型、块模型和关联网络推断。
查看完整讲稿优秀作业展示
智能助教
为提升学习体验,本课程配备 Scholar Hero 智能助教,支持课堂演示、代码示例和问答反馈。
联系我们
如果您对课程有任何问题或建议,欢迎联系课程负责人:
- 王小宁 副教授
- 邮箱:sdwangxiaoning@cuc.edu.cn
- 办公地点:中国传媒大学 46-303
