1.1 统计学、模型以及本书采用的方法
统计学主要是关于收集、组织、分析并解释数据的科学,统计学的基础知识对数据分析来说至关重要。在数据分析中,主要有以下两种统计学方法。
❏ 探索性数据分析(Exploratory Data Analysis,EDA):数值统计,比如均值、众数、标准差以及四分位距等,这部分内容也称作描述性统计。此外EDA还涉及用一些你可能已经熟悉的工具(如直方图或散点图)对数据做可视化分析。
❏ 统计推断:主要是指在已有数据基础上做陈述。我们可能希望了解一些特定的现象,也可能是想对未来(或尚未观测到)的数据进行预测,又或者是希望从对观测值的多个解释中找出最合理的一个。统计推断为解决这类问题提供了一系列方法和工具。
提示:本书重点关注如何做贝叶斯统计推断,然后用EDA对贝叶斯推断的结果做总结、解释、检查和交流。
大多数统计学入门课程,至少对非统计学专业的人而言就像一份菜谱,这些菜谱或多或少是这样的:首先,到统计学的后厨拿一瓶罐头并打开,加点儿数据上去尝尝,然后不停搅拌直到得出一个稳定的值,该值最好低于0.05。这类课程的目的是教会你如何选择一瓶合适的罐头。我从来不喜欢这种方法,主要是因为最常见的结果是人们会很困惑,甚至连概念都无法掌握。本书采用的是另外一种方式:首先我们也需要点儿原料,不过这次是自己亲自做的而不是买来的罐头,然后学习如何把新鲜的食材混合在一起以适应不同的烹饪场景,更重要的是教会你如何把这些概念应用到本书例子之外的地方。
采用这种方式有两方面原因。
● 本体论:统计学是建立在概率论数学框架之下的一种统一的建模方式。概率论的方法能为一些看起来非常不一样的方法提供统一的视角,比如统计学和机器学习(Machine Learning,ML)从概率论的角度来看就非常相似。
● 技术:如PyMC3这样的现代软件允许实践者以相对简单的方式定义和解决问题。在几年前,这类问题可能是无法解决或者需要很高的数学水平和技术复杂度。