
2.4 SPSS基础及其在统计数据整理中的应用
在统计研究中,所面临的数据常常是非常复杂并且规模庞大的。在这种情况下,如果利用传统的手工方式来处理数据,不仅工作量很大,而且不可避免地会存在误差,工作的效率和质量都难以保证。为了减轻整理和计算大量数据的负担,提高工作效率和工作质量,常常需要借助统计软件来处理数据。
目前,常用的统计软件有SPSS INC公司的SPSS统计软件、SAS统计分析软件和Microsoft公司的Excel软件等。其中,SPSS(Statistical Package for the Social Sciences,社会科学统计软件包)以其强大的分析功能、友好的操作界面、便捷的操作流程,获得了广大统计分析用户的青睐,成为社会科学研究人员首选的统计软件。SPSS软件从开发至今不断地完善、升级,本书将运用SPSS 16.0版本来介绍它在统计研究中的使用方法。如无特殊说明,本书中的SPSS均指SPSS 16.0版本。
2.4.1 SPSS软件的基本操作环境
在正式使用SPSS软件之前,首先需要熟悉SPSS软件的基本操作环境。
1.SPSS软件的启动
在已经安装有SPSS软件的计算机上执行以下操作,启动SPSS软件:
① 选择开始→程序→SPSS Inc→SPSS 16.0,或者双击桌面快捷方式,运行SPSS 16.0 for Windows。
② 启动SPSS软件后,弹出如图2-13所示的启动对话框。

图2-13 SPSS启动对话框
启动对话框中各选项的含义如表2-13所示。
表2-13 启动对话框中各选项的含义

用户可以根据自己的需要在以上几个选项中做出选择,然后单击OK按钮继续工作。
2.SPSS软件的基本窗口
了解SPSS软件的基本窗口是SPSS操作的基础。SPSS软件包括数据编辑窗口、结果输出窗口和编程窗口三个基本窗口。
(1)SPSS数据编辑窗口
在启动SPSS软件后,首先进入的就是数据编辑窗口。
数据编辑窗口是SPSS以电子表格形式创建、编辑、浏览数据文件的主程序窗口,SPSS中的所有统计分析功能都是针对数据编辑窗口中的数据而言的。这些数据通常以SPSS数据文件的形式保存,其文件扩展名为“.sav”。
数据编辑窗口由标题栏、菜单栏、工具栏、数据编辑区和系统状态显示区组成,数据编辑区又分为Data View(数据视图)和Variable View(变量视图)两个视图,它们可以通过区域左下角相应的标签进行切换,如图2-14所示。

图2-14 SPSS软件的数据编辑窗口
(2)结果输出窗口
在对数据编辑窗口中的数据执行相应的操作时,系统会自动打开结果输出窗口,显示SPSS统计分析结果、图表、各种警告和错误信息。
结果输出窗口由标题栏、菜单栏、工具栏、分析结果显示区和系统状态显示区组成,分析结果显示区又包括左侧的结果目录区和右侧的输出结果区两部分,如图2-15所示。

图2-15 SPSS软件的结果输出窗口
在SPSS 16.0中,结果输出文件不再保存为“.spo”格式,而是“.spv”格式。
(3)编程窗口
SPSS软件的大多数功能可以利用菜单命令来完成,但是也有少数功能只能通过编写程序来实现。SPSS软件向用户提供编程窗口,用户可以在此窗口中编写、调试和运行SPSS程序,如图2-16所示。

图2-16 SPSS软件的编程窗口
用户可以通过依次单击菜单中的File→New→Syntax打开编程窗口;也可以在各命令过程的对话框中单击Paste按钮打开编程窗口并自动生成程序,用户可以进一步编辑这些程序,以便使用特殊的SPSS功能。
3.SPSS软件的退出
在菜单栏中依次单击File→Exit,或者单击标题栏右侧的关闭按钮退出SPSS软件。
2.4.2 SPSS数据文件
SPSS数据文件是一种有结构的数据文件,它不仅记录了所包含数据的取值,还记录了数据类型、取值说明、数据缺失情况等必要说明。因此,建立SPSS数据文件时不仅需要录入和编辑SPSS的数据,还需要定义和修改SPSS数据的结构。
1.SPSS数据文件的建立
第一步:启动SPSS软件时,在启动对话框中选择“Type in data”选项,打开一个空数据编辑窗口。若在数据编辑窗口中已有数据,而又需要建立新的数据文件,可以在菜单栏依次单击File→New→Data,打开新的数据编辑窗口。
第二步:选择窗口左下角的Variable View标签或双击Data View视图中列的题头Var,打开变量视图,如图2-17所示,定义数据文件的每个变量及其相关属性,即数据结构。

图2-17 SPSS数据编辑窗口——变量视图
下面分别说明变量各属性的定义。
① Name(变量名)。在SPSS数据编辑窗口中,变量名将显示在数据视图列标题的位置上。变量名的定义规则一般有:在同一数据文件中变量名必须具有唯一性;变量名必须以字母或汉字开头,后面可以跟除“?”、“*”、“!”、“’”及空格之外的任何字符,不能以下划线、圆点结尾;变量名的长度在1~64字符之间;ALL、AND、OR等系统保留字不能作为变量名;英文字母作为变量名时,系统不区分大小写,等等。
② Type(类型)、Width(变量宽度)、Decimals(小数位宽)。SPSS中有8种基本数据类型,每种类型都有其默认的变量宽度和小数位宽,如表2-14所示,在定义这三个属性时应根据实际情况选择相应的属性值。
表2-14 SPSS中的8种基本数据类型

③ Label(变量名标签)。它是对变量名含义的进一步解释说明,总长度可达256个字符(即128个汉字)。
④Values(变量值标签)。它是变量值取值含义的解释说明,标签内容可以有120个字符。例如,对于变量“性别”,常用“1”代表“男性”,用“2”代表“女性”。具体操作:单击变量对应的Values单元,在弹出的对话框中,在Value文本框内输入1,在Label文本框内输入“男性”,单击Add按钮,则为该变量成功添加一个变量值,如图2-18所示。

图2-18 Value Labels对话框
⑤Missing(缺失值)。SPSS中包含两种缺失值:数据编辑窗口中任何空的数据单元的系统默认值“。”,称为系统缺失值;由于特殊原因造成的数据缺失或数据不完全,称为用户缺失值,例如,在某次客户满意度的问卷调查数据中,存在的未填写项目和不符合实际情况的失真数据都是用户缺失值。定义用户缺失值的操作:单击变量对应的Missing单元,在弹出的对话框中可以定义3个单独的缺失值,或定义一个缺失值的范围和一个单独的缺失值,如图2-19所示。

图2-19 Missing Values对话框
⑥ Columns(列显示宽度)。数据编辑窗口的数据值或者数据值标签显示输出时占用的列宽度。
⑦ Align(对齐方式)。选择变量值在数据单元中的对齐方式。
⑧ Measure(计量尺度)。统计数据是对客观现象的计量,按照其精确程度可分为Scale(定距型数据)、Ordinal(定序型数据)和Nominal(定类型数据)。
【例2-5】 华艺厨具公司有32名员工参加了企业文化培训,公司在培训结束之前进行了培训考核。现要根据考核成绩表建立SPSS数据文件,已定义好的变量及其属性如图2-20所示。

图2-20 变量定义示例
第三步:选择Data View标签,将数据编辑窗口切换到数据视图,将数据录入电子表格中。
【例2-6】 在例2-5中已定义的数据结构基础上,将数据录入到数据编辑窗口,如图2-21所示。

图2-21 数据录入
在数据视图中,每一行代表一个观察个体(Case),或称个案,它由该观察对象的所有属性(变量)构成;每一列代表一个变量(Variable),是所有观察对象的某个属性的集合。
第四步:在菜单中依次单击File→Save→Save as,在弹出的对话框中选择存放数据文件的目标路径,填写数据文件的文件名,并根据实际需要选择数据文件的格式。
例如,将通过例2-5和例2-6建立的数据文件保存为train record.sav。
需要注意的是,在建立SPSS数据文件时,既可以先定义变量后输入数据,也可以先输入数据后定义变量属性,因而上述步骤并不是固定不变的。如果直接输入数据值而不定义变量属性,则变量名系统自动定义,相关属性显示为系统默认属性。
2.SPSS数据文件的编辑
在向SPSS中录入数据时,由于各种因素的影响和干扰,有时会出现错误。因此,对于已建立的数据文件,有时需要对其中的数据进行编辑。SPSS数据的编辑包括定位、增加、删除、修改、移动等操作,在数据编辑窗口中的Data View中进行。
(1)SPSS数据的定位
在编辑SPSS数据时,常常会遇到数据文件较大的情况。这时,可以利用SPSS的定位功能将当前数据单元定位到目标单元中,这种方法相对于人工浏览数据来说更为方便、快捷。SPSS数据的定位,其定位条件可以是个案的号码,也可以是变量名,还可以是某个变量值。
① 按个案号码定位。操作步骤:将当前单元定位在任何单元中,在菜单栏中依次单击Edit→Go to Case,在出现的窗口中输入欲定位的个案号码并单击Go按钮,则当前数据单元定位到其原来所在列满足指定条件的个案。
② 按变量名定位。操作步骤:将当前单元定位在任何单元中,在菜单栏中依次单击Edit→Go to Variable,在出现的窗口中选择欲定位的变量名,并单击Go按钮,则当前数据单元定位到满足指定条件的变量列。
③ 按变量值定位。操作步骤:将当前数据单元定位在某变量列的任何一个个案上,在菜单栏中依次单击Edit→Find,在出现的窗口中输入定位变量值并确认,则当前数据单元定位到其原来所在位置下方满足指定条件的第一个个案。
(2)插入和删除一个个案
插入一个个案,就是在数据编辑窗口的某个个案前插入一个新的个案,即在SPSS电子表格中某个数据行的前面插入一空行。操作步骤:将当前数据单元定位到某个案上,在菜单栏中依次单击Edit→Insert Cases,于是当前数据单元在该个案的前面插入一空行,该空行中数值型变量的变量值自动为系统缺失值。
删除一个个案,就是删除数据编辑窗口中的某个个案,即删除SPSS电子表格中的某行数据。操作步骤:在欲删除个案的个案号码上单击鼠标左键,于是待删除的个案数据全部反向显示,单击鼠标右键,从弹出的快捷菜单中选择Clear选项,则该个案被整条删除。
(3)插入和删除一个变量
插入一个变量,就是在数据编辑窗口的某个变量前插入一个新变量,即在SPSS电子表格中某数据列的前面插入一新列。操作步骤:将当前数据单元定位到某变量上,在菜单栏中依次单击Edit→Insert Variable,于是当前数据单元在该变量的前面插入一空列,该空列的变量名及属性自动为系统默认值。
变量的删除与个案的删除操作类似,只是单击的位置在数据编辑窗口中欲删除变量的变量名上。
(4)数据的复制、移动和删除
在对数据编辑窗口中的数据进行编辑时,有时需要对数据视图中整块的数据进行整体操作,包括将整块数据复制到指定位置、将整块数据移动到指定位置,以及删除整块数据等。对于整块数据的这些操作有如下步骤。
第一步:选定数据块。将鼠标移到源数据块左上角的数据单元,按住鼠标左键并拖动鼠标至源数据块右下角的数据单元,使源数据块中的数据单元全部反向显示。
第二步:数据块的复制、剪切和删除。右键单击选定的数据块,在弹出的快捷菜单中:若要将源数据复制到指定位置,则选择Copy选项复制数据;若要将源数据移到指定位置,则选择Cut选项剪切数据;若要删除源数据,则选择Clear选项清除该数据块中的数据。
第三步:数据块的粘贴。当需要复制或移动数据时,在第二步的基础上,在目标位置左上角的数据单元上单击鼠标右键,并在弹出的快捷菜单中选择Paste选项粘贴数据块,源数据块中的数据就被整块地复制或移动到指定位置了。
2.4.3 SPSS数据的统计整理
在SPSS数据文件建好以后,接下来要根据研究的需要对数据文件中的数据做初步整理,以保证统计数据能够更好地服务于统计分析。本节首先介绍SPSS数据的预处理方法,然后介绍SPSS数据的图表展示与描述分布特征的方法。
1.SPSS数据的预处理
下面介绍三种比较常用的数据的预处理方法:数据的选取、数据的排序和数据的分类汇总。
(1)数据的选取
数据选取是根据分析的需要,从数据总体中按照一定的规则选取部分数据进行分析计算。在SPSS数据编辑窗口,从菜单栏依次单击Data→Select Cases,打开Select Cases对话框,如图2-22所示。

图2-22 Select Cases对话框
SPSS向用户提供如下四种选择数据的方法,其操作步骤如下:
① 按条件选取。选中If condition is satisfied选项,单击选项下面的If按钮,打开选择条件对话框,设置选择条件。
②随机选取。选中Random sample of cases选项,单击选项下面的Sample按钮,打开选择抽样对话框,设置随机抽样占总体的百分比。
③ 按数据范围选取。选中Based on time or case range选项,单击下面的Range按钮,打开选择范围对话框,设置选取数据的开始、结束位置。
④ 通过过滤变量选取。选中Use filter variable选项,选择左侧列表中将作为过滤变量的变量名,移入该选项下面的文本框中。过滤变量是数值型变量,值为零或缺失数据的观察个案将被过滤。
(2)数据的排序
数据排序是将数据编辑窗口中的数据按照一个或多个变量重新排列顺序。通过对数据排序,研究人员可在浏览数据时发现一些明显的特征或趋势,同时也有助于研究人员发现异常数据,并且为数据的纠错、重新归类或分组等提供方便。
数据排序的操作步骤如下。
第一步:在数据编辑界面,从菜单栏中依次单击Data→Sort Cases,打开如图2-23所示的对话框。

图2-23 Sort Cases对话框
第二步:选择左侧列表中的排序变量并移到Sort by列表框中,选择Sort Order选项组中的Ascending或Descending选项,确定排序为升序还是降序。
第三步:单击OK按钮,得到数据排序结果。
(3)数据的分类汇总
数据的分类汇总是将数据编辑窗口中的数据按照指定变量的数值进行分类汇总计算。例如,为了解不同部门职员的培训效果,需要对数据先按照部门进行分类,然后求出各部门职员的平均成绩。在该例中,“部门”为分类变量,“成绩”为汇总变量。
数据分类汇总的操作步骤如下。
第一步:在数据编辑界面,从菜单栏中依次选择Data→Aggregate命令,打开如图2-24所示的对话框。

图2-24 Aggregate Data对话框
第二步:在左侧列表中选择分类变量,移到Break Variable(s)列表框中,选择汇总变量,移到Summaries of Variable(s)列表框中。
第三步:单击Summaries of Variable(s)框下方的Function按钮,指定对汇总变量计算哪些统计量,SPSS默认计算均值。单击Name & Label按钮,设定汇总统计变量的变量名。
第四步:指定将分类汇总结果保存到何处。有三种选择,Add aggregated variables to active dataset选项表示把分类汇总的结果增加到原数据文件中;Create a new dataset containing only the aggregated variables选项表示创建一个新的数据集,其中包括分类变量和所有汇总变量,并在Dataset name文本框中命名这个数据集;Write a new data file containing only the aggregated variables选项表示创建新的数据文件,保存汇总结果。
第五步:单击OK按钮,得到数据的分类汇总结果。
2.SPSS数据的整理
在2.3节中已经介绍了统计数据整理的相关知识。下面借助一个具体的例子来介绍如何使用SPSS软件进行统计数据的整理。
【例2-7】 东方食品厂为加强质量管理,在某天生产的一批罐头中抽查了100个罐头,测得内装食品的净重数据如下(单位:g)。

将该组数据录入SPSS数据编辑窗口中,建立数据文件weight。sav,并对weight。sav中的数据按照“净重”属性进行降序排序,如图2-25所示。

图2-25 罐头质量抽样检测数据文件
(1)SPSS数据的图表展示
由于罐头质量是一个连续量,并且根据排序后的数据文件可知该组数据的最大值为358,最小值为332。取极端值a=331.5,b=358.5,并将 [331.5,358.5] 等分为区间长度为3的9个分组,分别为

① 利用数据重编码,对统计数据进行统计分组。为了能得到人为的分组,首先应对“净重”进行重编码,得到新变量“净重分组”,即weight。sav中数据根据“净重”的统计分组。
第一步:打开数据文件weight.sav。从菜单栏选择Transform →Recode into Different Variables命令,得到一个与重编码前不同的变量。打开其对话框,如图2-26所示。

图2-26 Recode into Different Variables对话框
第二步:在Recode into Different Variables对话框内,从变量列表中选择“净重”,将其移入Input Variable→Output Variable列表框内,然后将光标移到输出变量Output Variable栏的Name文本框内,输入新变量名“净重分组”四个字,在Name文本框的Label文本框内对其进行详细说明(也可不做说明),单击Change按钮。
第三步:单击Old and New Values按钮,打开Recode into Different Variables:Old and New Values对话框(如图2-27所示),定义新旧变量值的转换内容。

图2-27 Recode into Different Variables:Old and New Values对话框
在Recode into Different Variables:Old and New Values对话框内,左侧是原来的“旧值”Old Value栏,右侧是定义“新值”的New Value栏。
首先,在Old Value栏中选择Range,LOWEST through value选项,并在选项下面的文本框中填入334.5,在New Value栏选择Value并输入1,单击Add按钮,这样就定义了第一组。
然后,在Old Value栏中选择Range选项,在上面的文本框中输入334.5,在下边的文本框中输入337.5,然后在New Value栏选择Value并输入2,再单击Add按钮,这样便定义了第2组。依次类推,按数字序号依次定义以后各组,直至定义完第8组。
最后,在Old Value栏中选择Range,value through HIGHEST选项,并在选项下面的文本框中填入355.5,然后在New Value栏选择Value并输入9,单击Add按钮,这样就定义了最后一组,如图2-27所示。
在定义完所有组之后,单击下方的Continue按钮,回到Recode into Different Variables对话框。
第四步:在Recode into Different Variables对话框中,单击OK按钮,完成重编码,结果如图2-28所示。

图2-28 重编码后的数据文件
② 对“净重”重编码后的新变量“净重分组”做频数分析。
第一步:从菜单上依次选择Analyze→Descriptive Statistics→Frequencies命令,打开Frequencies对话框,如图2-29所示。

图2-29 Frequencies对话框
第二步:在Frequencies对话框中,将新变量“净重分组”变量移入Variable(s)列表框内。单击右侧的Charts按钮,打开Frequencies:Charts对话框,如图2-30所示。

图2-30 Frequencies:Charts对话框
第三步:在Frequencies:Charts对话框中,共有4 个单选按钮:None表示不作图,Bar charts表示条形图,Pie charts表示饼图,Histograms表示直方图。系统默认为None即不作图,本例中选择Histograms项,即直方图。然后单击Continue按钮,回到上一级Frequencies主对话框。
第四步:在Frequencies对话框中单击OK按钮,得到输出结果,如表2-15和图2-31所示。
表2-15 净重分组的频数分布表


图2-31 净重分组直方图
3.描述统计数据的分布特征
运用SPSS软件对该组数据的分布特征进行描述,操作步骤如下。
第一步:打开数据文件weight.sav。从菜单上依次选择Analysis→Descriptive Statictics→Frequencies命令,打开Frequencies对话框。
第二步:在Frequencies对话框中,将“净重”变量移入Variable(s)列表框内,单击右侧的Statistics按钮,打开Frequencies:Statistics对话框,如图2-32所示。

图2-32 Frequencies:Statistics对话框
该对话框中Percentile Values(百分比)选项组内有3个选项:Quartiles选项表示四分位数;Cut points for选项可列出标志值的n分位点,具体数值根据需要可填入后面的文本框中;Percentiles选项可自由规定输出标志值的百分位点。Central Tendency(集中趋势)选项组内有4个选项:Mean选项表示均值;Median选项表示中位数;Mode选项表示众数;Sum选项表示总和。Dispersion(离散程度)选项组内有6个选项:Std.deviation选项表示标准差;Variance选项表示方差;Range选项表示极差;Minimum选项表示最小值;Maximum选项表示最大值;S.E.mean选项表示标准误。Distribution(分布)选项组内有两个选项:Skewness选项表示偏度;Kurtosis选项表示峰度。
第三步:在图2-32所示对话框中依次选中Quartiles,Mean,Median,Mode,Std.deviation,Variance,Range,Minimum,Maximum,Skewness,Kurtosis选项,单击Continue按钮,回到上一级Frequencies对话框。
第四步:在Frequencies对话框中,单击OK按钮,输出结果如表2-16所示。
表2-16 净重数据统计结果
