大数据分析软件 2022-09-05
本科, 中国传媒大学2021级网络与新媒体、2021数据科学与大数据技术, 2022
A list of all the posts and pages found on the site. For you robots out there is an XML version available for digesting as well.
本科, 中国传媒大学2021级网络与新媒体、2021数据科学与大数据技术, 2022
本科一年级下, 数据科学与大数据技术、计算广告专业, 2022
传媒大数据专业,大三上, 掌握基本的新闻文本数据分析方法, 2021
传媒大数据专业,大三上, 掌握基本的贝叶斯建模和分析方法, 2022
传媒大数据专业,大二上, 掌握基本的社会媒体挖掘技术和分析方法, 2022
R语言入门者, 了解基本的数理统计方法, 2021
传媒大数据专业,大四上, 掌握基本的计算广告的技术和分析方法, 2022
本科生课程, 智能媒体、计算广告等相关专业, 2025
About me
本讲围绕数据科学的发展脉络与研究问题展开,梳理统计学、数据挖掘、机器学习、大数据到数据科学的演进,说明数据科学如何围绕现实需求完成数据收集、清洗、建模、解释与决策支持。
本讲介绍数据科学的基本方法体系,围绕监督学习、无监督学习、半监督学习、强化学习、统计学习与机器学习的关系展开,并说明 R 与 Python 在数据分析实践中的作用。
本讲围绕统计学习的基本框架与模型评估展开,介绍模型、策略、算法三要素,训练误差与测试误差、过拟合、正则化、交叉验证、泛化能力,以及生成模型与判别模型的区别。
本讲围绕数据处理与清洗展开,介绍结构化与非结构化数据、数据类型、缺失值处理、噪声与异常值识别、数据变换和标准化等内容,说明高质量数据是后续分析建模的基础。
本讲围绕数据可视化展开,介绍图形在探索、发现、验证和表达中的作用,讲解基础作图参数、常见图形类型、图形选择原则,以及 ggplot2 的基本思想和应用提醒。
本讲围绕回归分析展开,介绍一元与多元线性回归的建模思想、总体回归函数、最小二乘估计、模型假设、拟合优度、显著性检验、预测方法,以及 R 中的回归实现。
本讲围绕分类方法展开,介绍二元分类问题、线性概率模型、Probit 与 Logistic 模型、判别分析、朴素贝叶斯、LDA、QDA,以及混淆矩阵、精确率、召回率、ROC 和 AUC 等评价指标。
本讲围绕决策树与集成学习展开,介绍决策树的基本思想、分类树和回归树,以及 Bagging、随机森林、Boosting、GBDT、XGBoost 等组合学习方法。
Short description of portfolio item number 1
Short description of portfolio item number 2 
[1] R语言实战(第2版),王小宁,刘撷芯,黄俊文,人民邮电出版社,2016.05
[1] Jiang Y, Hu S, Wang X, et al. VDSAgents: A PCS‐Guided Multi‐Agent System for Veridical Data Science Automation[J]. Stat, 2026, 15(1): e70126.
[1] 传媒数据学,柴剑平,王妍,倪业鹏,王小宁,高等教育出版社,2021.07
R语言入门者, 了解基本的数理统计方法, 2021
本书是与图灵教育合作的一个书籍,预计2023年9月份出版,具体更新内容详见链接:https://xiangyunhuang.github.io/data-analysis-in-action/
传媒大数据专业,大三上, 掌握基本的新闻文本数据分析方法, 2021
课前推荐材料:
本科一年级下, 数据科学与大数据技术、计算广告专业, 2022
传媒大数据专业,大三上, 掌握基本的贝叶斯建模和分析方法, 2022
课前阅读材料:贝叶斯的博弈 数学、思维与人工智能,人民邮电出版社,2021
传媒大数据专业,大二上, 掌握基本的社会媒体挖掘技术和分析方法, 2022
课前推荐阅读材料:
本科, 中国传媒大学2021级网络与新媒体、2021数据科学与大数据技术, 2022
本课程致力于学习Python软件的数据分析方法,从海量的网络信息中获取与自己学习领域相关的信息,并且利用大数据、自然语言处理相关技术加工处理所获取的信息,从而用于自己的专业学习领域。该课程可以锻炼学生的动手能力,培养基本的网络大数据获取与处理方面的技术。通过该课程的学习,可以学习并掌握开的爬虫软件,从网络上获取并处理自己需要的信息;学习并掌握开源分词、TF-IDF、N-gram和word2Vec等文本分析模型(或软件系统),分析并处理所获取的信息。
传媒大数据专业,大四上, 掌握基本的计算广告的技术和分析方法, 2022
课前推荐阅读材料:
本科生课程, 智能媒体、计算广告等相关专业, 2025
TraeAI是一门前沿的人工智能课程,专注于大语言模型、生成式AI和智能系统的原理与应用。本课程旨在培养学生掌握AI技术的核心概念、最新进展和实践技能,能够将AI技术应用于传媒、广告、数据分析等领域。
本讲围绕数据科学的发展脉络与研究问题展开,梳理统计学、数据挖掘、机器学习、大数据到数据科学的演进,说明数据科学如何围绕现实需求完成数据收集、清洗、建模、解释与决策支持。
本讲介绍数据科学的基本方法体系,围绕监督学习、无监督学习、半监督学习、强化学习、统计学习与机器学习的关系展开,并说明 R 与 Python 在数据分析实践中的作用。
本讲围绕统计学习的基本框架与模型评估展开,介绍模型、策略、算法三要素,训练误差与测试误差、过拟合、正则化、交叉验证、泛化能力,以及生成模型与判别模型的区别。
本讲围绕数据处理与清洗展开,介绍结构化与非结构化数据、数据类型、缺失值处理、噪声与异常值识别、数据变换和标准化等内容,说明高质量数据是后续分析建模的基础。
本讲围绕数据可视化展开,介绍图形在探索、发现、验证和表达中的作用,讲解基础作图参数、常见图形类型、图形选择原则,以及 ggplot2 的基本思想和应用提醒。
本讲围绕回归分析展开,介绍一元与多元线性回归的建模思想、总体回归函数、最小二乘估计、模型假设、拟合优度、显著性检验、预测方法,以及 R 中的回归实现。
本讲围绕分类方法展开,介绍二元分类问题、线性概率模型、Probit 与 Logistic 模型、判别分析、朴素贝叶斯、LDA、QDA,以及混淆矩阵、精确率、召回率、ROC 和 AUC 等评价指标。
本讲围绕决策树与集成学习展开,介绍决策树的基本思想、分类树和回归树,以及 Bagging、随机森林、Boosting、GBDT、XGBoost 等组合学习方法。