![数据科学与机器学习:数学与统计方法](https://wfqqreader-1252317822.image.myqcloud.com/cover/83/47684083/b_47684083.jpg)
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人
1.5.3 双变量的数据可视化
本节将介绍一些有用的视觉辅助工具,以探索两个特征之间的关系。图形表示方式将取决于这两个特征的类型。
1.两个类别变量的图
两个类别变量的对比条形图需要在图中引入子图。图1.5是1.3节中列联表的可视化图形,此图交叉显示老年人家庭状况与性别。这里只是在同一个图形中显示两个相邻的条形图。
![](https://epubservercos.yuewen.com/C30954/27086998107751806/epubprivate/OEBPS/Images/23_04.jpg?sign=1738939698-gtzE4gPGmh0iUWSUTxhJNMBBBBcB0hcB-0-7fc5624e16168600fc997f1aa9d13822)
图1.5 两个类别变量的条形图
该图是使用seaborn软件包制作的,seaborn是专为简化统计可视化任务设计的。
![](https://epubservercos.yuewen.com/C30954/27086998107751806/epubprivate/OEBPS/Images/24_01.jpg?sign=1738939698-pRB5BN87Mq6wKbOmQexjGo9iWj4pWNpQ-0-3afb72bcf9c3605669f325063d5a33c4)
2.两个定量变量的图
我们可以使用散点图将两个定量特征之间的模式可视化。这可以用plt.scatter命令实现。下面的代码可生成nutri数据中weight相对height的散点图,如图1.6所示。
![](https://epubservercos.yuewen.com/C30954/27086998107751806/epubprivate/OEBPS/Images/24_02.jpg?sign=1738939698-u8Eph634xZSSgqTvgs3BX7YIc3GS1dAr-0-21f2464381ce4eb418b027b06df45480)
![](https://epubservercos.yuewen.com/C30954/27086998107751806/epubprivate/OEBPS/Images/24_03.jpg?sign=1738939698-y4pBLA1vsW5AUfkwBxw74UqxYtO8ctjz-0-08c674b106741fd0dd3729e22e8338bc)
图1.6 weight(体重)相对height(身高)的散点图
下面的Python代码演示了怎样绘制高度复杂的散点图,如图1.7所示。图中显示了婴儿出生体重与母亲抽烟(三角形)或母亲不抽烟(圆圈)的关系。另外,对两组数据进行直线拟合,结果表明:母亲抽烟时,婴儿出生体重随母亲年龄的增加而下降;母亲不抽烟时,婴儿出生体重随母亲年龄的增加而增加!问题是这些趋势是有统计学意义,还是纯属偶然。我们将在本书后面重新讨论这个数据集。
![](https://epubservercos.yuewen.com/C30954/27086998107751806/epubprivate/OEBPS/Images/24_04.jpg?sign=1738939698-i5JvLOMftgFAUIr33avA7dchJIGK3gcq-0-7fc8409b7ccb850de2f092f038b70c26)
![](https://epubservercos.yuewen.com/C30954/27086998107751806/epubprivate/OEBPS/Images/25_01.jpg?sign=1738939698-ZTcbNvDhyYCxDupFjOqV2gzEaRdcTibm-0-546809c3d611e324fa9db94f2098427f)
![](https://epubservercos.yuewen.com/C30954/27086998107751806/epubprivate/OEBPS/Images/25_02.jpg?sign=1738939698-wmcDhG5S6g5gmMwdtPrstL4BVAOytJxU-0-c154ebc2f355d43f36c07adc7ab23ac8)
图1.7 婴儿出生体重与抽烟或不抽烟母亲的年龄关系
3.定性变量和定量变量的图
在这种情况下,针对每个分类特征绘制定量特征的箱形图很有意思。假设变量结构正确,使用以下代码中的plt.boxplot函数可以生成图1.8:
![](https://epubservercos.yuewen.com/C30954/27086998107751806/epubprivate/OEBPS/Images/25_03.jpg?sign=1738939698-AUGjHlKuTh0eHUGTStkWZLvpkOsrGZ47-0-81bc40b827c36c0784e1828cedcee70f)
![](https://epubservercos.yuewen.com/C30954/27086998107751806/epubprivate/OEBPS/Images/25_04.jpg?sign=1738939698-aij4E3po8KcejC0Q8SreR5teC9BSjiEo-0-6a9a72433916afc2bec7595c2b5cd923)
图1.8 将定量特征coffee(每天咖啡消耗量)看作分类特征gender(性别)的函数,绘制箱形图。注意,我们这次使用了“缺口”样式的箱形图