数据科学导论

课程介绍

《数据科学导论》课程定位培养学生学习数据科学分析的基本原理,掌握数据分析的基本思路、常见的分析方法以及应用场景,学会数据分析及可视化的方法,相关算法原理介绍和算法应用需求导向对接的垂直化课程体系设计,培养学生具备利用数据科学方法解决传媒大数据相关问题的能力。

课程目标

课程大纲

第一部分:数据科学基础

第二部分:统计学习方法

第三部分:高级主题

课程资源

课程幻灯片

课程讲稿快捷入口

学习资料

课程讲稿

第1讲:数据科学的发展历史与研究问题

2026年03月10日

本讲围绕数据科学的发展脉络与研究问题展开,梳理统计学、数据挖掘、机器学习、大数据到数据科学的演进,说明数据科学如何围绕现实需求完成数据收集、清洗、建模、解释与决策支持。

查看完整讲稿

第2讲:数据科学的基本方法

2026年03月17日

本讲介绍数据科学的基本方法体系,围绕监督学习、无监督学习、半监督学习、强化学习、统计学习与机器学习的关系展开,并说明 R 与 Python 在数据分析实践中的作用。

查看完整讲稿

第3讲:统计学习的基本框架与模型评估

2026年03月24日

本讲围绕统计学习的基本框架与模型评估展开,介绍模型、策略、算法三要素,训练误差与测试误差、过拟合、正则化、交叉验证、泛化能力,以及生成模型与判别模型的区别。

查看完整讲稿

第4讲:数据处理与清洗

2026年04月01日

本讲围绕数据处理与清洗展开,介绍结构化与非结构化数据、数据类型、缺失值处理、噪声与异常值识别、数据变换和标准化等内容,说明高质量数据是后续分析建模的基础。

查看完整讲稿

第5讲:数据可视化

2026年04月07日

本讲围绕数据可视化展开,介绍图形在探索、发现、验证和表达中的作用,讲解基础作图参数、常见图形类型、图形选择原则,以及 ggplot2 的基本思想和应用提醒。

查看完整讲稿

第6讲:回归分析

2026年04月14日

本讲围绕回归分析展开,介绍一元与多元线性回归的建模思想、总体回归函数、最小二乘估计、模型假设、拟合优度、显著性检验、预测方法,以及 R 中的回归实现。

查看完整讲稿

第7讲:分类方法

2026年04月21日

本讲围绕分类方法展开,介绍二元分类问题、线性概率模型、Probit 与 Logistic 模型、判别分析、朴素贝叶斯、LDA、QDA,以及混淆矩阵、精确率、召回率、ROC 和 AUC 等评价指标。

查看完整讲稿

第8讲:决策树与集成学习

2026年05月05日

本讲围绕决策树与集成学习展开,介绍决策树的基本思想、分类树和回归树,以及 Bagging、随机森林、Boosting、GBDT、XGBoost 等组合学习方法。

查看完整讲稿

第9讲:数据分析报告写作指南

2026年05月12日

本讲围绕数据分析报告写作展开,介绍优秀数据分析报告的问题意识、数据依据、方法选择、结果解释、结论建议、图表规范与课堂作业写作要求。

查看完整讲稿

第10讲:支持向量机与朴素贝叶斯、推荐算法

2026年05月19日

本讲围绕支持向量机、朴素贝叶斯与推荐算法展开,介绍最大间隔分类器、软间隔、核函数、支持向量回归、贝叶斯分类器、条件独立假设,以及协同过滤、关联规则、内容推荐和深度学习推荐等方法。

查看完整讲稿

第11讲:文本挖掘与社交网络分析

2026年06月12日

本讲整理文本挖掘与社交网络分析两部分内容,介绍文本数据获取、分词、词袋模型、TF-IDF、特征选择、文本分类、文本聚类、LDA主题模型,以及网络基本概念、中心性、凝聚性、随机图模型、块模型和关联网络推断。

查看完整讲稿

优秀作业展示

智能助教

为提升学习体验,本课程配备 Scholar Hero 智能助教,支持课堂演示、代码示例和问答反馈。

联系我们

如果您对课程有任何问题或建议,欢迎联系课程负责人: