第1讲:数据科学的发展历史与研究问题
数据科学的发展历史与数据科学研究的主要问题——演讲提纲
一、导入:什么是数据科学
- 数据科学不是单纯“处理数据”,而是围绕现实问题解决展开的科学。
- 它强调从数据中提取信息、发现规律、形成知识并支持决策。
- 数据科学的形成建立在统计学、计算机科学、数据库、人工智能等多个领域基础之上。
二、数据科学的发展历史
1. 统计学阶段:数据科学的起点
- 数据科学的重要源头之一是统计学。
- 统计学的发展大致经历了三个阶段:
(1)古典统计学时期
- 主要服务于国家治理和社会管理。
- 关注人口、财政、社会状况等现象的记录、整理与描述。
- 核心特点:回答“发生了什么”。
(2)近代统计学时期
- 概率论逐渐进入统计学。
- 正态分布、大数定律、最小二乘法等理论不断发展。
- 统计学开始从简单描述走向规律探索。
- 核心特点:回答“为什么会这样”。
(3)现代统计学时期
- Fisher 等学者推动实验设计、方差分析、推断统计的发展。
- 统计学从描述总体特征进一步走向利用样本推断总体。
- 广泛应用于农业、生物、医学、工业等领域。
2. 高维数据阶段:方法创新的推动期
- 随着生物医学和计算机技术发展,出现了“变量多、样本少”的高维数据问题。
- 传统统计方法面临挑战。
- 由此催生了变量选择与正则化等新方法,如 Lasso。
- 启示:方法的发展往往来自现实问题的推动。
3. 数据挖掘阶段:从分析走向知识发现
- 20 世纪 90 年代后,互联网和数据库快速发展,海量数据不断积累。
- 数据挖掘兴起,强调从大量复杂数据中发现潜在模式和有价值知识。
- 研究重点从“统计分析”扩展到“知识发现”。
4. 机器学习与大数据阶段
- 机器学习关注让计算机从数据中自动学习规律并进行预测。
- 它与统计学联系紧密,也常被称为统计学习。
- 2011 年后,“大数据时代”概念流行。
- 大数据强调数据规模大、结构复杂、增长快,但其核心仍需依靠统计与算法方法解决。
5. 数据科学阶段:综合性交叉学科形成
- 数据科学比“大数据”更广,是一个综合性概念。
- 它融合了:
- 统计学
- 机器学习
- 数据挖掘
- 数据可视化
- 高性能计算
- 业务理解
- 数据科学家不仅要懂模型和编程,更要能把业务问题转化为数据问题,再转化为决策支持。
三、数据科学研究的主要问题
1. 数据科学研究什么
- 凡是与数据收集、清洗、整理、分析、建模、挖掘、解释和决策支持有关的问题,都属于数据科学研究范畴。
- 数据科学问题的来源不是方法本身,而是现实业务需求。
2. 典型研究问题类型
(1)关系发现与预测问题
- 例子:家庭收入与消费支出之间是否存在数量关系?
- 已知收入,能否预测消费?
- 对应方法:回归分析、预测建模。
(2)分类与风险识别问题
- 例子:消费贷客户是否会违约?
- 员工是否会离职?
- 对应方法:分类模型、风险评分、预警模型。
(3)影响因素识别问题
- 例子:哪些临床指标会影响某项健康指标?
- 关注哪些变量最重要、哪些变量作用较弱。
- 对应方法:变量筛选、解释性建模、因果分析初步探索。
(4)关联规则与推荐问题
- 例子:买了面包的人是否更容易买牛奶?
- 如何根据用户历史行为推荐商品?
- 对应方法:关联规则分析、推荐系统。
(5)降维与综合评价问题
- 例子:多个犯罪率指标能否压缩成少数几个综合变量?
- 如何构建综合指数对地区进行评价?
- 对应方法:主成分分析、因子分析等。
(6)聚类与细分问题
- 例子:如何根据多个特征把样本自动分成几类?
- 例如客户分群、用户画像、市场细分。
- 对应方法:聚类分析、无监督学习。
(7)文本挖掘与情感分析问题
- 例子:海量新闻主要讨论哪些主题?
- 能否识别文本情感倾向?
- 对应方法:文本挖掘、主题模型、情感分析。
四、总结
1. 数据科学的发展脉络
- 从统计描述出发,
- 走向统计推断,
- 再到数据挖掘、机器学习,
- 最终形成今天的综合性数据科学体系。
2. 数据科学研究的核心逻辑
- 把现实世界的问题转化为数据问题;
- 把数据问题转化为模型问题;
- 再把模型结果转化为可解释、可行动的结论。
3. 一句话总结
- 数据科学本质上是一门以数据为载体、以问题解决为导向、以决策支持为目标的交叉学科。