数据科学导论

课程介绍

《数据科学导论》课程定位培养学生学习数据科学分析的基本原理，掌握数据分析的基本思路、常见的分析方法以及应用场景，学会数据分析及可视化的方法，相关算法原理介绍和算法应用需求导向对接的垂直化课程体系设计，培养学生具备利用数据科学方法解决传媒大数据相关问题的能力。

课程目标

理解数据科学的基本概念和方法论
掌握数据收集、清洗、分析和可视化的基本技能
了解机器学习和统计学习的核心算法
培养利用数据科学方法解决实际问题的能力
建立数据驱动的思维方式

课程大纲

第一部分：数据科学基础

数据科学概述
数据收集与预处理
数据可视化基础
描述性统计分析

第二部分：统计学习方法

线性回归与分类
重抽样方法
模型选择和正则化
决策树与组合学习

第三部分：高级主题

支持向量机
神经网络基础
无监督学习
推荐算法
文本挖掘
社交网络分析
并行与分布式计算

课程资源

课程幻灯片

课程讲稿快捷入口（第1-12讲）

第1-12讲课程讲稿汇总

学习资料

数据科学的学习资料

课程讲稿

第1讲：数据科学的发展历史与研究问题

2026年03月10日

本讲围绕数据科学的发展脉络与研究问题展开，梳理统计学、数据挖掘、机器学习、大数据到数据科学的演进，说明数据科学如何围绕现实需求完成数据收集、清洗、建模、解释与决策支持。

查看完整讲稿

第2讲：数据科学的基本方法

2026年03月17日

本讲介绍数据科学的基本方法体系，围绕监督学习、无监督学习、半监督学习、强化学习、统计学习与机器学习的关系展开，并说明 R 与 Python 在数据分析实践中的作用。

查看完整讲稿

第3讲：统计学习的基本框架与模型评估

2026年03月24日

本讲围绕统计学习的基本框架与模型评估展开，介绍模型、策略、算法三要素，训练误差与测试误差、过拟合、正则化、交叉验证、泛化能力，以及生成模型与判别模型的区别。

查看完整讲稿

第4讲：数据处理与清洗

2026年04月01日

本讲围绕数据处理与清洗展开，介绍结构化与非结构化数据、数据类型、缺失值处理、噪声与异常值识别、数据变换和标准化等内容，说明高质量数据是后续分析建模的基础。

查看完整讲稿

第5讲：数据可视化

2026年04月07日

本讲围绕数据可视化展开，介绍图形在探索、发现、验证和表达中的作用，讲解基础作图参数、常见图形类型、图形选择原则，以及 ggplot2 的基本思想和应用提醒。

查看完整讲稿

第6讲：回归分析

2026年04月14日

本讲围绕回归分析展开，介绍一元与多元线性回归的建模思想、总体回归函数、最小二乘估计、模型假设、拟合优度、显著性检验、预测方法，以及 R 中的回归实现。

查看完整讲稿

第7讲：分类方法

2026年04月21日

本讲围绕分类方法展开，介绍二元分类问题、线性概率模型、Probit 与 Logistic 模型、判别分析、朴素贝叶斯、LDA、QDA，以及混淆矩阵、精确率、召回率、ROC 和 AUC 等评价指标。

查看完整讲稿

第8讲：决策树与集成学习

2026年05月05日

本讲围绕决策树与集成学习展开，介绍决策树的基本思想、分类树和回归树，以及 Bagging、随机森林、Boosting、GBDT、XGBoost 等组合学习方法。

查看完整讲稿

第9讲：数据分析报告写作指南

2026年05月12日

本讲围绕数据分析报告写作展开，介绍优秀数据分析报告的问题意识、数据依据、方法选择、结果解释、结论建议、图表规范与课堂作业写作要求。

查看完整讲稿

第10讲：支持向量机与朴素贝叶斯、推荐算法

2026年05月19日

本讲围绕支持向量机、朴素贝叶斯与推荐算法展开，介绍最大间隔分类器、软间隔、核函数、支持向量回归、贝叶斯分类器、条件独立假设，以及协同过滤、关联规则、内容推荐和深度学习推荐等方法。

查看完整讲稿

第11讲：文本挖掘与社交网络分析

2026年06月12日

本讲整理文本挖掘与社交网络分析两部分内容，介绍文本数据获取、分词、词袋模型、TF-IDF、特征选择、文本分类、文本聚类、LDA主题模型，以及网络基本概念、中心性、凝聚性、随机图模型、块模型和关联网络推断。

查看完整讲稿

第12讲：无监督学习与大数据计算方法

2026年06月16日

本讲结合无监督学习和大数据计算方法，介绍聚类分析、主成分分析、因子分析、典型相关分析，以及并行计算、分布式计算、Hadoop、Spark 和云计算等内容。

查看完整讲稿