1.5 矩阵:数字排列成长方形
矩阵(matrix)将一系列数字以长方形方式排列,如
通俗地讲,矩阵将数字排列成表格,有行、有列。式(1.9)给出了三个矩阵,形状分别是2行3列(记作2×3)、3行2列(记作3×2)和2行2列(记作2×2)。
鸢尾花书用大写、斜体字母代表矩阵,比如矩阵A和矩阵B。
图1.16所示为一个n×D(n by capital D)矩阵X,n是矩阵的行数(number of rows in the matrix),D是矩阵的列数(number of columns in the matrix)。X可以展开写成表格形式,即
图1.16 n×D矩阵X
再次强调:先说行序号,再说列序号。鸢尾花书中,数据矩阵一般采用大写、粗体、斜体X表达。
矩阵X中,元素(element)xi,j被称作i,j元素(i j entry或i j element),也可以说xi,j出现在i行j列(appears in row i and column j)。比如,xn,1是矩阵X的第n行、第1列元素。
表1.4总结了如何用英文读矩阵和矩阵元素。
表1.4 矩阵有关英文表达
Bk3_Ch1_09.py利用numpy.array()定义矩阵,并提取矩阵的某一列、某两列、某一行、某一个位置的具体值。
鸢尾花数据集
绝大多数情况,数据以矩阵形式存储、运算。举个例子,图1.17所示的鸢尾花卉数据集,全称为安德森鸢尾花卉数据集(Anderson’s Iris data set),是植物学家埃德加·安德森(Edgar Anderson)在加拿大魁北克加斯帕半岛上采集的150个鸢尾花样本数据。这些数据都属于鸢尾属下的三个亚属。每一类鸢尾花收集了50条样本记录,共计150条。
图1.17中数据第一列是序号,不算作矩阵元素。但是它告诉我们,鸢尾花数据集有150个样本数据,即n=150。紧随其后的是被用作样本定量分析的四个特征——花萼长度(sepal length)、花萼宽度(sepal width)、花瓣长度(petal length)和花瓣宽度(petal width)。
图1.17中表格最后一列为鸢尾花分类,即标签(label)。三个标签分别为——山鸢尾(setosa)、变色鸢尾(versicolor)和维吉尼亚鸢尾(virginica)。最后一列标签算在内,矩阵有5列,即D=5。
图1.17 鸢尾花数据表格(单位:cm)
这个150×5的矩阵的每一列,即列向量为鸢尾花一个特征的样本数据。矩阵的每一行,即行向量,代表某一个特定的鸢尾花样本。
鸢尾花数据集可以说是鸢尾花书最重要的数据集,没有之一。我们将用各种数学工具从各种视角分析鸢尾花数据。图1.18所示给出了几个例子,鸢尾花书会陪着大家理解其中每幅图的含义。
图1.18 用各种概率统计、数据科学、机器学习工具分析鸢尾花数据
矩阵形状记号
大部分数学教科书表达矩阵形状时采用m×n;鸢尾花书表达矩阵形状时,一般用n×D,n表示行数,D表示列数。
采用n×D这种记号有以下几方面的考虑。
首先m和n这两个字母区分度不高。两者长相类似,而且发音相近,这会让初学者辨别行、列时有很大疑惑。而n和D,一个小写字母,一个大写字母,且发音有显著区别,很容易辨识。
此外,在处理数据时大家会发现,比如pandas.DataFrame定义的数据帧中,列代表特征,如性别、身高、体重、年龄等;行一般代表样本,如小张、小王、小姜等。而统计中,一般用n代表样本数,因此决定用n来代表矩阵的行数。字母D取自dimension(维度)的首字母,方便记忆。
鸢尾花书横跨代数、线性代数、概率统计几个板块,n×D这种记法方便大家把矩阵运算和统计知识联系起来。
本书编写之初,也有考虑用feature(特征)的首字母F来表达矩阵的列数,但最终放弃。一方面,是因为鸢尾花书后续会用F代表一些特定函数;另一方面,n和F的发音区分度不如n和D那么高。
基于以上考虑,鸢尾花书后续在表达样本数据矩阵形状时都会默认采用n×D这一记法,除非特别说明。