大数据分析软件 2022-09-05
本科, 中国传媒大学2021级网络与新媒体、2021数据科学与大数据技术, 2022
本科, 中国传媒大学2021级网络与新媒体、2021数据科学与大数据技术, 2022
本科一年级下, 数据科学与大数据技术、计算广告专业, 2022
传媒大数据专业,大三上, 掌握基本的新闻文本数据分析方法, 2021
传媒大数据专业,大三上, 掌握基本的贝叶斯建模和分析方法, 2022
传媒大数据专业,大二上, 掌握基本的社会媒体挖掘技术和分析方法, 2022
R语言入门者, 了解基本的数理统计方法, 2021
传媒大数据专业,大四上, 掌握基本的计算广告的技术和分析方法, 2022
本科生课程, 智能媒体、计算广告等相关专业, 2025
About me
本讲围绕数据科学的发展脉络与研究问题展开,梳理统计学、数据挖掘、机器学习、大数据到数据科学的演进,说明数据科学如何围绕现实需求完成数据收集、清洗、建模、解释与决策支持。
本讲介绍数据科学的基本方法体系,围绕监督学习、无监督学习、半监督学习、强化学习、统计学习与机器学习的关系展开,并说明 R 与 Python 在数据分析实践中的作用。
本讲围绕统计学习的基本框架与模型评估展开,介绍模型、策略、算法三要素,训练误差与测试误差、过拟合、正则化、交叉验证、泛化能力,以及生成模型与判别模型的区别。
本讲围绕数据处理与清洗展开,介绍结构化与非结构化数据、数据类型、缺失值处理、噪声与异常值识别、数据变换和标准化等内容,说明高质量数据是后续分析建模的基础。
本讲围绕数据可视化展开,介绍图形在探索、发现、验证和表达中的作用,讲解基础作图参数、常见图形类型、图形选择原则,以及 ggplot2 的基本思想和应用提醒。
本讲围绕回归分析展开,介绍一元与多元线性回归的建模思想、总体回归函数、最小二乘估计、模型假设、拟合优度、显著性检验、预测方法,以及 R 中的回归实现。
本讲围绕分类方法展开,介绍二元分类问题、线性概率模型、Probit 与 Logistic 模型、判别分析、朴素贝叶斯、LDA、QDA,以及混淆矩阵、精确率、召回率、ROC 和 AUC 等评价指标。
本讲围绕决策树与集成学习展开,介绍决策树的基本思想、分类树和回归树,以及 Bagging、随机森林、Boosting、GBDT、XGBoost 等组合学习方法。
本讲围绕数据分析报告写作展开,介绍优秀数据分析报告的问题意识、数据依据、方法选择、结果解释、结论建议、图表规范与课堂作业写作要求。