
第3章 数据的图表展示
一、单项选择题
1.下面哪个图形保留了原始数据的信息?( )[对外经济贸易大学2015研]
A.直方图
B.茎叶图
C.条形图
D.箱线图
【答案】B
【解析】茎叶图是保留并反映原始数据分布的图形,它由茎和叶两部分构成,其图形是由数字组成的。ACD三项都需要对原始数据进行处理,求得一些测度值之后再作出图形。
2.下列哪种分类结果属于非顺序数据?( )[华中农业大学2015研]
A.产品质量按等级分类
B.人口按男女性别分类
C.考核结果按优秀、良好、合格、不合格分类
D.学历按小学、初中、高中、大专、本科、硕士及以上分类
【答案】B
【解析】顺序数据是只能归于某一有序类别的非数字型数据,顺序数据虽然也是类别,但这些类别是有序的。ACD三项均属于顺序数据。B项,人口按男女性别分类只能归于某一类别,属于分类数据。
3.频数分布盒形图中,盒子的宽窄表示( )。[东北财经大学2013研]
A.离散程度的大小
B.平均水平的高低
C.偏态
D.峰态
【答案】A
【解析】盒形图是由一组数据的最大值、最小值、中位数、两个四分位数这五个特征值绘制而成的。盒子的高低表示平均水平的大小,而盒子的宽窄则表示离散程度的大小。
4.样本数据中大于下四分位数小于上四分数的观测值的个数占全部观测值个数的( )。[东北财经大学2013研]
A.25%
B.40%
C.50%
D.75%
【答案】C
【解析】将所有数值按大小顺序排列并分成四等份,处于三个分割点位置的得分就是四分位数。最大的四分位数称为上四分位数,最小的四分位数称为下四分位数。因此样本数据中大于下四分位数小于上四分位数的观测值的个数占全部观测值个数的二分之一。
5.下面表述正确的是( )。[四川大学2013研]
A.直方图的高反映总体内各部分频数
B.直方图的高反映变量值大小
C.直方图的宽度无意义
D.直方图的宽和高均没有意义
【答案】A
【解析】直方图的高表示频数,高与宽的乘积为该部分的频率。
6.影响次数分布的因素有( )。[四川大学2013研]
A.组距、组数、组中值和组限
B.组距、全距、组中值和组限
C.全距、组数、组中值和组限
D.组距、组数、全距和组限
【答案】D
【解析】组中值受次数分布的影响,但次数分布不受组中值的影响。
7.落在某一特定类别或组中的数据个数称为( )。
A.频数
B.频率
C.频数分布表
D.累积频数
【答案】A
【解析】频率是每个类别的频数与数据总数的比值。把各个类别及落在其中的相应频数全部列出,并用表格形式表现出来,称为频数分布表。累积频数就是将各有序类别或组的频数逐级累加起来得到的频数。
8.一个样本或总体中各个部分的数据与全部数据之比称为( )。
A.频数
B.频率
C.比例
D.比率
【答案】C
【解析】比例也称构成比,它是一个样本(或总体)中各个部分的数据与全部数据之比,通常用于反映样本(或总体)的构成或结构。
9.样本或总体中各不同类别数值之间的比值称为( )。
A.频数
B.频率
C.比例
D.比率
【答案】D
【解析】比率是样本(或总体)中不同类别数据之间的比值,由于比率不是部分与整体之间的对比关系,因而比值可能大于1。
10.将比例乘以100得到的数值称为( )。
A.频率
B.百分数
C.比例
D.比率
【答案】B
【解析】将将比例乘以100得到的数值称为百分数,用%表示。
11.下面的哪一个图形适合于比较研究两个或多个样本或总体的结构性问题?( )
A.环形图
B.饼图
C.直方图
D.茎叶图
【答案】A
【解析】环形图中间有一个“空洞”,每个样本用一个环来表示,样本中的每一部分数据用环中的一段表示。因此环形图可显示多个样本各部分所占的相应比例,从而有利于对构成的比较研究;饼图是用圆形及圆内扇形的角度来表示数值大小的图形,它通常可以直观地展示各部分在总体或样本中所占的比例,适用于描述单个总体或样本的结构性问题。
12.将全部变量值依次划分为若干个区间,并将这一区间的变量值作为一组,这样的分组方法称为( )。
A.单变量值分组
B.组距分组
C.等距分组
D.连续分组
【答案】B
【解析】在连续变量或变量值较多的情况下,通常采用组距分组。它是将全部变量值依次划分为若干个区间,并将一个区间的变量值作为一组。
13.组中值是( )。
A.一个组的上限与下限之差
B.一个组的上限与下限之间的中点值
C.一个组的最小值
D.一个组的最大值
【答案】B
【解析】组中值是每一组中下限值与与上限值中间的值。使用组中值代表一组数据时有一个必要的假定条件,即各组数据在本组内呈均匀分布或在组中值两侧呈对称分布。
14.对于大批量的数据,最适合描述其分布的图形是( )。
A.条形图
B.茎叶图
C.直方图
D.饼图
【答案】C
【解析】直方图是用于展示分组数据分布的一种图形,它是用矩形的宽度和高度(即面积)来表示频数分布的;茎叶图是反映原始数据分布的图像,它由茎和叶两部分构成,其图形是由数字组成的。在应用方面,直方图通常适用于大批量数据,茎叶图通常适用于小批量数据。
15.对于时间序列数据,用于描述其变化趋势的图形通常是( )。
A.条形图
B.直方图
C.箱线图
D.线图
【答案】D
【解析】线图主要用于反映现象随时间变化的特征。对于时间序列数据则可以绘制线图。
16.为描述身高与体重之间是否有某种关系,适合采用的图形是( )。
A.条形图
B.对比条形图
C.散点图
D.箱线图
【答案】C
【解析】散点图是用二维坐标展示两个变量之间关系的一种图形。题中需描述身高与体重这两个变量之间的关系,因此适合采用散点图。
17.气泡图主要用于描述( )。
A.两个变量之间的相关关系
B.三个变量之间的相关关系
C.两个变量的对比关系
D.三个变量的对比关系
【答案】B
【解析】气泡图可用于展示三个变量之间的关系,它与散点图类似,绘制时将一个变量放在横轴,另一个变量放在纵轴,而第三个变量则用气泡的大小来表示。
18.为了研究多个不同变量在不同样本间的相似性,适合采用的图形是( )。
A.环形图
B.茎叶图
C.雷达图
D.箱线图
【答案】C
【解析】雷达图是显示多个变量的常用图示方法,也称蜘蛛图。假定各变量的取值具有相同的正负号,则总的绝对值与图形所围成的区域成正比,利用雷达图可研究多个样本之间的相似程度。
19.10家公司的月销售额数据(万元)分别为:72,63,54,54,29,26,25,23,23,20。下列哪种图形不宜用于描述这些数据?( )
A.茎叶图
B.散点图
C.条形图
D.饼图
【答案】B
【解析】散点图是用二维坐标展示两个变量之间关系的一种图形。题中只有一个变量月销售额,因此无法用散点图展示这些数据。
20.与直方图相比,茎叶图( )。
A.没保留原始数据的信息
B.保留了原始数据的信息
C.不能有效展示数据的分布
D.更适合描述分类数据
【答案】B
【解析】与直方图相比,茎叶图既能给出数据的分布状况,又能给出每一个原始数值,即保留了原始数据的信息。在应用方面,直方图通常适用于大批量数据,茎叶图通常适用于小批量数据。
21.下面的哪个图形不适合描述分类数据?( )
A.条形图
B.饼图
C.帕累托图
D.茎叶图
【答案】D
【解析】描述分类数据的图示有条形图、帕累托图、饼图、环形图。茎叶图是描述未分组数值型数据的图示。
22.下面的哪个图形适合描述顺序数据?( )
A.直方图
B.茎叶图
C.累积频数分布图
D.箱线图
【答案】C
【解析】顺序数据和分类数据都是归于某一类别的非数字型数据。描述分类数据的图示有条形图、帕累托图、饼图、环形图、累积频数分布图。直方图、茎叶图和箱线图是描述数值型数据的图示。
23.将某企业职工的月收入依次分为2000元以下、2000元~3000元、3000元~4000元、4000元~5000元、5000元以上几个组。第一组和最后一组的组中值近似为( )。
A.1500,6500
B.1000,5500
C.1500,5500
D.1000,6500
【答案】C
【解析】对于开口组的组距通常以相邻组的组距作为其组距。因此第一组的组中值=上限-邻组组距/2=2000-1000/2=1500元,最后一组的组中值=下限+邻组组距/2=5000+1000/2=5500(元)。
24.直方图与条形图的区别之一是( )。
A.直方图的各矩形通常是连续排列的,而条形图则是分开排列的
B.条形图的各矩形通常是连续排列的,而直方图则是分开排列的
C.直方图主要用于描述分类数据,条形图则主要用于描述数值型数据
D.直方图主要用于描述各类别数据的多少,条形图则主要用于描述数据的分布形图则主要用于描述数据的分布
【答案】A
【解析】直方图与条形图的区别:①条形图是用条形的长度(横置时)表示各类别频数的多少,其宽度(表示类别)则是固定的;②直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或频率,宽度则表示各组的组距,因此其高度与宽度均有意义;③由于分组数据具有连续性,直方图的各矩形通常是连续排列,而条形图则是分开排列;④条形图主要用于展示分类数据,而直方图则主要用于展示数值型数据。
二、多项选择题
1.适合于描述品质型变量的频数分布图是( )。[东北财经大学2013研]
A.直方图
B.饼形图
C.盒形图
D.条形图
E.茎叶图
【答案】BD
【解析】帕累托图、饼形图、累积频数分布图、环形图、条形图都适用于描述品质型变量。
2.何种图形在描述数据的频数分布时没有信息损失( )。[东北财经大学2014研]
A.盒形图
B.直方图
C.散点图
D.茎叶图
【答案】CD
【解析】A项,盒形图又称箱线图,是由一组数据的最大值、最小值、中位数、两个四分位数这五个特征值绘制而成的,没有保留所有的信息。B项,直方图是用于展示分组数据分布的一种图形,它是用矩形的宽度和高度(即面积)来表示频数分布的。D项,茎叶图是反映原始数据分布的图形。它由茎和叶两部分构成,其图形是由数字组成的。茎叶图类似于横置的直方图,与直方图相比,茎叶图既能给出数据的分布状况,又能给出每一个原始数值,即保留了原始数据的信息,而直方图虽然能很好地显示数据的分布,但不能保留原始的数值。C项,散点图是用二维坐标展示两个变量之间关系的一种图形,每组数据在坐标系中用一个点表示,因此没有信息损失。
3.下列哪些图形适用于描述数值型数据的频数分布状态?( )。[东北财经大学2014研]
A.条形图
B.直方图
C.盒形图
D.茎叶图
【答案】BCD
【解析】对于分组数据一般使用直方图来表示数据的分布状态,对于未分组数据,一般使用茎叶图和箱线图来表示数据的分布状态。所以,BCD三项都适用于描述数值型数据。
4.在进行统计分析时,需要对获取的数据进行审核,请问以下哪些是需要审核的内容?( )[西安交大2008研]
A.数据的完整性
B.数据的准确性
C.数据的适用性
D.数据的时效性
E.数据的随机性
【答案】ABCD
【解析】数据审核就是检查数据中是否有错误。对于通过调查取得的原始数据,主要从完整性和准确性两个方面去审核。完整性审核主要是检查应调查的单位或个体是否有遗漏,所有的调查项目是否填写齐全等;准确性审核主要是检查数据是否有错误,是否存在异常值等。对于通过其他渠道取得的二手数据,应着重审核数据的适用性和时效性。
5.在组距数列中,组距大小与( )。
A.全距的大小成正比
B.全距的大小成反比
C.只与全距大小有关
D.组数多少成正比
E.组数多少成反比
【答案】AE
【解析】组距=(最大值-最小值)/组数=全距/组数,因此组距大小与全距的大小成正比,与组数多少成反比。
6.从形式上看,统计表由( )组成。
A.表头
B.行标题
C.列标题
D.数字资料
E.宾栏
【答案】ABCD
【解析】统计表一般由四个主要部分组成,即表头、行标题、列标题和数字资料。此外,必要时可以在统计表的下方加上表外附加。
7.下列关于数据分组的说法,正确的有( )。
A.数据分组的组数一般与数据本身的特点及数据的多少有关
B.对于数据分组的组数并没有什么要求,可以任意分组
C.一般情况下,一组数据所分的组数不应少于5组且不多于15组
D.如果组数太少,数据的分布就会过于集中
E.一般情况下,一组数据所分的组数应大于10组
【答案】ACD
8.对于分组数据的组中值的计算方法有( )。
A.闭口组组中值=(上限+下限)/2
B.开口组末组组中值=下限+上限/2
C.开口组首组组中值=上限-下限/2
D.开口组首组组中值=上限-邻组组距/2
E.开口组末组组中值=下限+邻组组距/2
【答案】ADE
【解析】各组的上限和下限之间的中点叫组中值,组中值代表着各组内变量值的一般水平,是各组变量值的代表值。闭口组的组中值计算方法是:组中值=(上限+下限)/2;开口组的组中值计算方式是:首组的组中值=最小组的上限-相邻组的组距/2,末组的组中值=最大组的下限+相邻组的组距/2。
9.一张好的图形应具有的特征是( )。
A.显示数据
B.避免歪曲
C.强调数据之间的比较
D.应当是多维的
E.有对图形的统计和文字说明
【答案】ABCE
【解析】一张好的图形应具有以下基本特征:①显示数据;②让读者把注意力集中在图形的内容上,而不是制作图形的程序上;③避免歪曲;④强调数据之间的比较;⑤服务于一个明确的目的;⑥有对图形的统计描述和文字说明。
三、简答题
1.简述直方图与茎叶图的区别。[对外经济贸易大学2016研]
答:直方图与茎叶图的区别主要表现为:
(1)直方图是用于展示分组数据分布的一种图形,它是用矩形的宽度和高度(即面积)来表示频数分布的。茎叶图是反映原始数据分布的图形,它由茎和叶两部分构成,其图形是由数字组成的。
(2)茎叶图类似于横置的直方图,与直方图相比,茎叶图既能给出数据的分布状况,又能给出每一个原始数值,即保留了原始数据的信息;而直方图虽然能很好地显示数据的分布,但不能保留原始的数值。在应用方面,直方图通常适用于大批量数据,茎叶图通常适用于小批量数据。
2.何谓统计分组?统计分组有哪些作用?[西安交大2005研、江苏大学2009研、上海财大2002研]
答:根据统计研究的目的和客观现象的内在特点,按某个标志(或几个标志)把被研究的总体划分为若干个不同性质的组,称为统计分组。
统计分组的作用有:(1)发现社会经济现象的特点与规律;(2)将复杂的社会经济现象划分为性质不同的各种类型;(3)反映总体内部结构;(4)揭示现象之间的依存关系。
3.简述统计分组的原则。[首经贸2009研、中南财大2002研]
答:采用组距分组时,需要遵循不重不漏的原则。不重是指一项数据只能分在其中的某一组,不能在其他组中重复出现;不漏是指组别能够穷尽。即在所分的全部组别中每项数据都能分在其中的某一组,不能遗漏。
为解决不重的问题,统计分组时习惯上规定“上组限不在内”。即当相邻两组的上下限重叠时,恰好等于某一组上限的变量值不算在本组内,而计算在下一组内。而对于连续变量,可以采取相邻两组组限重叠的方法,根据“上组限不在内”的规定解决不重的问题,也可以对一个组的上限值采用小数点的形式,小数点的位数根据所要求的精度具体确定。
4.统计分组标志选择的原则。[北京林业大学2004研]
答:在进行统计分组标志选择时要遵循三个原则:
(1)应根据研究目的与任务选择分组标志。同一研究总体,研究的目的不同,可选用的分组标志也不同。
(2)要选用能反映事物本质或主要特征的标志。一般情况下,社会经济现象有多种特征,在选择分组标志时,可以使用这种标志,也可以选择另一种标志,这就需要根据被研究对象的特征,选择主要的、能抓住事物本质的标志进行分组。
(3)要根据现象所处的历史条件及经济条件来选择标志。由于社会是不断发展的,在不同的历史条件与经济条件下,选择的分组标志也不一样,要根据情况的变化而变化。
5.说明条形图和直方图的区别和联系。[中央财大2009研、人大2001研]
答:(1)条形图与直方图的区别:
①条形图是用条形的长度表示各类别频数的多少,其宽度则是固定的;直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或频率,宽度则表示各组的组距,因此其高度与宽度均有意义。
②由于分组数据具有连续性,直方图的各矩形通常是连续排列,而条形图则是分开排列。
③条形图主要用于展示分类数据,而直方图则主要用于展示数值型数据。
(2)条形图与直方图的联系:
两者都是用矩形表示数据分布情况;当矩形的宽度相等时,都是用矩形的高度来表示数据的分布情况。
四、计算题
1.某企业2013年3月1日对15名员工的调查表明,他们从居住地到达工作地点花费的时间如下(分钟):10,55,70,25,30,45,30,50,25,40,55,90,40,60,70。
(1)计算数据的均值、中位数和众数。你认为哪一个结果最能反映这组数据的一般水平?为什么?
(2)根据以上数据给出数据的茎叶图。
(3)绘制以上数据的简单箱线图。
(4)根据以上计算和图形分析数据分布的特征。[中央财经大学2014研]
解:(1)对数据从小到大进行排序:10,25,25,30,30,40,40,45,50,55,55,60,70,70,90
均值(分钟)
中位数
因此为第8个数值,(分钟)
众数Mo=25,30,40,55,70(分钟)
其中均值最能反映这组数据的一般水平,因为均值是集中趋势的最主要测度值,且该组数据中不存在明显极端值,均值能较准确地反映这组数据的中心值。
(2)茎叶图如图3-1所示。

图3-1
(3)题目数据中,最大值=90,最小值=10,中位数=45
下四分位数QL的位置=15/4=3.75,因此QL=25+0.75×(30-25)=28.75
上四分位数QU的位置=15×(3/4)=11.25,因此QU=55+0.25×(60-55)=56.25
所以,绘制简单箱线图如图3-2所示。

图3-2
(4)从(1)中计算可知,均值大于中位数;从(2)中茎叶图可以看出数据分布不对称;从(3)中箱线图可以看出数据呈右偏分布,从箱子的长度可以看出,此样本的数据分布比较分散。
2.某位职员每天上班有两种方法:公共交通和自己开车。每种方法所需的时间纪录的样本数据如表3-1所示。时间以分钟为单位。
表3-1

(1)哪种方法更好?试解释之。
(2)画出每种方法的箱图。两个箱图的比较结果是否支持你的结论?[中央财大2004研]
解:(1)公共交通所需时间的平均数与标准差分别为:


自己开车所需时间的平均数与标准差分别为:


两种上班方式所需时间的平均数相等。但是自己开车所需时间的标准差比公共交通所需时间的标准差小,即自己开车比公共交通所需时间与均值的离散程度较小。所以选择自己开车上班较为合理。
(2)将公共交通所需时间从小到大进行排序:25,28,29,29,32,32,33,34,37,41,则最大值为41;最小值为25;中位数=(32+32)/2=32;下四分位数的位置=(10+1)/4=2.75,故下四分位数=28×0.25+29×0.75=28.75;上四分位数的位置=3×(10+1)/4=8.25,故上四分位数=34×0.75+37×0.25=34.75。
同理可得,自己开车所需时间的最大值为35,最小值为29,中位数为32,下四分位数为30.75,上四分位数为33.25。则两种上班方式所需时间的箱线图如图3-3所示。

图3-3 箱图
两个箱图的比较结果也说明上班时自己开车的方法更好。
由箱图可以看出,上班时采取公共交通和自己开车所需的平均时间是相同的,从其离散程度来看,自己开车上班所需时间比较集中(箱子较短),而采取公共交通的上班时间则比较分散。从分布形状上看,自己开车上班所需的时间大体上为对称分布(中位数在箱子的中间位置)。
3.某家商场为了了解前来该商场购物的顾客的学历分布情况,随机抽取了100名顾客。其学历表示为:1:初中,2:高中或中专,3:大专,4:本科及以上。调查结果如表3-2所示。
表3-2

(1)上表中的数据属于什么类型?
(2)制作一张频数分布表。
(3)绘制一张条形图,反映顾客的学历分布。
解:(1)表中的数据属于顺序数据。
(2)制作频数分布表,如表3-3所示。
表3-3 频数分布表

(3)绘制条形图,如图3-4所示。

图3-4 条形图
4.已知一组15名工人的资料,如表3-4所示。
表3-4 工人资料

要求:
(1)按照性别、文化程度和技术级别分别对数据进行分组。
(2)以组距为10岁、20岁以下、60岁以上各为一组,编制频数分布表。
解:(1)按照性别进行分组,如表3-5所示。
表3-5

按照文化程度进行分组,如表3-6所示。
表3-6

按技术等级进行分组,如表3-7所示。
表3-7

(2)编制频数分布表,如表3-8所示。
表3-8

5.抽样调查某地区50户居民的月消费品支出额数据资料,如表3-9所示(单位:元)。
表3-9

要求:
(1)试根据上述资料编制频数分布表。
(2)编制向上和向下累积频数、频率分布表。
解:(1)编制次数分布和频率分布表,如表3-10所示。
表3-10 居民户月消费品支出额频数分布和频率分布表

(2)编制向上累积和向下累积频数以及频率分布表,如表3-11、3-12所示。
表3-11 居民户月消费品支出额向上累积表

表3-12 居民户月消费品支出额向下累积表

6.抽样调查某省50户城镇居民平均每人全年可支配收入资料,如表3-13所示。
表3-13 居民年人均可支配收入(单位:百元)

要求:
(1)试根据上述资料编制频数分布表;
(2)根据所编制的频数分布表绘制直方图。
解:(1)由题中数据可得频数分布表,如表3-14所示。
表3-14 频数分布表

(2)利用Excel可绘制直方图,如图3-5所示。

图3-5