第1讲:数据科学的发展历史与研究问题

数据科学的发展历史与数据科学研究的主要问题——演讲提纲

一、导入:什么是数据科学

  • 数据科学不是单纯“处理数据”,而是围绕现实问题解决展开的科学。
  • 它强调从数据中提取信息、发现规律、形成知识并支持决策。
  • 数据科学的形成建立在统计学、计算机科学、数据库、人工智能等多个领域基础之上。

二、数据科学的发展历史

1. 统计学阶段:数据科学的起点

  • 数据科学的重要源头之一是统计学。
  • 统计学的发展大致经历了三个阶段:

(1)古典统计学时期

  • 主要服务于国家治理和社会管理。
  • 关注人口、财政、社会状况等现象的记录、整理与描述。
  • 核心特点:回答“发生了什么”。

(2)近代统计学时期

  • 概率论逐渐进入统计学。
  • 正态分布、大数定律、最小二乘法等理论不断发展。
  • 统计学开始从简单描述走向规律探索。
  • 核心特点:回答“为什么会这样”。

(3)现代统计学时期

  • Fisher 等学者推动实验设计、方差分析、推断统计的发展。
  • 统计学从描述总体特征进一步走向利用样本推断总体。
  • 广泛应用于农业、生物、医学、工业等领域。

2. 高维数据阶段:方法创新的推动期

  • 随着生物医学和计算机技术发展,出现了“变量多、样本少”的高维数据问题。
  • 传统统计方法面临挑战。
  • 由此催生了变量选择与正则化等新方法,如 Lasso。
  • 启示:方法的发展往往来自现实问题的推动。

3. 数据挖掘阶段:从分析走向知识发现

  • 20 世纪 90 年代后,互联网和数据库快速发展,海量数据不断积累。
  • 数据挖掘兴起,强调从大量复杂数据中发现潜在模式和有价值知识。
  • 研究重点从“统计分析”扩展到“知识发现”。

4. 机器学习与大数据阶段

  • 机器学习关注让计算机从数据中自动学习规律并进行预测。
  • 它与统计学联系紧密,也常被称为统计学习。
  • 2011 年后,“大数据时代”概念流行。
  • 大数据强调数据规模大、结构复杂、增长快,但其核心仍需依靠统计与算法方法解决。

5. 数据科学阶段:综合性交叉学科形成

  • 数据科学比“大数据”更广,是一个综合性概念。
  • 它融合了:
    • 统计学
    • 机器学习
    • 数据挖掘
    • 数据可视化
    • 高性能计算
    • 业务理解
  • 数据科学家不仅要懂模型和编程,更要能把业务问题转化为数据问题,再转化为决策支持。

三、数据科学研究的主要问题

1. 数据科学研究什么

  • 凡是与数据收集、清洗、整理、分析、建模、挖掘、解释和决策支持有关的问题,都属于数据科学研究范畴。
  • 数据科学问题的来源不是方法本身,而是现实业务需求。

2. 典型研究问题类型

(1)关系发现与预测问题

  • 例子:家庭收入与消费支出之间是否存在数量关系?
  • 已知收入,能否预测消费?
  • 对应方法:回归分析、预测建模。

(2)分类与风险识别问题

  • 例子:消费贷客户是否会违约?
  • 员工是否会离职?
  • 对应方法:分类模型、风险评分、预警模型。

(3)影响因素识别问题

  • 例子:哪些临床指标会影响某项健康指标?
  • 关注哪些变量最重要、哪些变量作用较弱。
  • 对应方法:变量筛选、解释性建模、因果分析初步探索。

(4)关联规则与推荐问题

  • 例子:买了面包的人是否更容易买牛奶?
  • 如何根据用户历史行为推荐商品?
  • 对应方法:关联规则分析、推荐系统。

(5)降维与综合评价问题

  • 例子:多个犯罪率指标能否压缩成少数几个综合变量?
  • 如何构建综合指数对地区进行评价?
  • 对应方法:主成分分析、因子分析等。

(6)聚类与细分问题

  • 例子:如何根据多个特征把样本自动分成几类?
  • 例如客户分群、用户画像、市场细分。
  • 对应方法:聚类分析、无监督学习。

(7)文本挖掘与情感分析问题

  • 例子:海量新闻主要讨论哪些主题?
  • 能否识别文本情感倾向?
  • 对应方法:文本挖掘、主题模型、情感分析。

四、总结

1. 数据科学的发展脉络

  • 从统计描述出发,
  • 走向统计推断,
  • 再到数据挖掘、机器学习,
  • 最终形成今天的综合性数据科学体系。

2. 数据科学研究的核心逻辑

  • 把现实世界的问题转化为数据问题;
  • 把数据问题转化为模型问题;
  • 再把模型结果转化为可解释、可行动的结论。

3. 一句话总结

  • 数据科学本质上是一门以数据为载体、以问题解决为导向、以决策支持为目标的交叉学科。