面向数据科学家的实用统计学
上QQ阅读APP看书,第一时间看更新

第1章 探索性数据分析

在过去的一个世纪中,统计学作为一门学科得到了长足的发展。概率论是统计学的数学基础,它基于托马斯 ·贝叶斯、皮埃尔 ·西蒙·拉普拉斯和卡尔 ·高斯等人的工作,在17世纪至19世纪期间形成并发展。与概率论的纯理论本质不同,统计学是一门应用科学,关注的是数据的分析和建模。现代统计学是一门严谨的科学,其根源可上溯至19世纪末的弗朗西斯·高尔顿和卡尔·皮尔逊。20世纪初,罗纳德·艾尔默·费希尔成为现代统计学的先驱之一,他提出了实验设计法最大似然估计等重要概念。不少其他统计学概念在很大程度上也深深地植根于数据科学中。本书的主要目标就是帮助你理解这些概念,并阐明这些概念在数据科学和大数据的背景下是否依然重要。

本章的重点是探索数据,这是所有数据科学项目的第一步。探索性数据分析(EDA)是统计学中一个相对新的领域。经典统计学几乎只注重推断,即从小样本得出关于整体数据的结论,这往往是一个复杂的过程。1962年,约翰 ·图基(图1-1)发表了一篇著名的论文“The Future of Data Analysis”,由此引发了对统计学的重构。在论文中,图基提出了他称之为数据分析的一门新学科,并将统计推断包括于其中,由此建立了与工程和计算机科学界的联系[他提出了术语比特软件,其中“比特”(bit)是“二进制数字”(binary digit)的缩写]。出乎意料的是,这一初始理念被延续了下来,并成为了数据科学的基础之一。图基编著并在1977年出版了Exploratory Data Analysis一书,该书开创了探索性数据分析这一研究领域,现已成为一本经典图书。

图1-1:约翰·图基,著名统计学家,他在50多年前提出的理论构成了数据科学的基础

随着计算能力和数据分析软件可用性的提高,探索性数据分析的发展已远超其最初的范围。该学科的主要驱动力来自于新技术的快速发展、更多及更大规模的可访问数据,以及定量分析在多个学科中更广泛的应用。斯坦福大学统计学教授戴维·多诺霍曾撰写过一篇很好的文章,文中将数据科学的起源追溯为图基在数据分析领域所做的开创性工作。多诺霍教授在本科期间曾得到图基的指导,该文是他基于自己在美国新泽西州普林斯顿召开的图基教授百年纪念研讨会上的演讲Donoho, David.“50 Years of Data Science” (2015).而撰写的。