
第3章 参数估计
【引例】 现实中的统计。
某市场推广咨询公司项目部张经理元旦假期后第一天上班,刚走进办公室还来不及与同事们互道新年问候,办公桌上的传真机就响了,这是一份来自国外一家投资公司的委托书,委托书上的文字十分简单:“2006年5月,美国Lion公司的品牌香槟酒将进入中国市场,现须了解北京市场的有关情况,委托业务费用为20万美元。”随后传来的还有Lion酒的产品介绍。张经理一看十分兴奋:本公司不仅在国外已有一定的知名度,而且这个项目的收入十分可观。在与同事们鼓掌庆祝后,张经理陷入了思考,委托书上的要求看似简单,但也是一个十分棘手的项目,如果稍有疏忽,不仅将影响到公司的声誉和发展前景,还有可能丢了自己的饭碗。想到这里,张经理马上召集部门的业务骨干,共商对策。经过一个多小时的紧张讨论,一个颇为周全的企划方案跃然纸上:这是一个十分典型的市场调查和抽样推断案例,了解市场有关情况,意味着掌握洋酒的市场价格、需求量、消费群体、产品市场定位、促销手段、同类产品的市场占有率、销售情况、广告宣传及消费者的心态、未来洋酒需求能力的推断、潜在用户挖掘的可能性等。做好这个项目,关键是切入点的确定。应该说,张经理做市场调查是轻车熟路,然而洋酒的市场调查,其调查对象与其他调查不一样。对于北京销售的除从法国进口的某些葡萄酒及香槟酒以外,诸如轩尼诗、人头马、拿破仑、路易十六等品牌,由于其昂贵的价格,市场消费群体并不大,销量也十分有限。为此,张经理与同事们反复论证,最后决定,首先拟订一个周密的市场调查方案,然后分头做市场调查及数据处理,最后通过对消费者购买的偏好、销售主体分布的不均匀性,加上收入水平和季节变动等因素影响的分析,给出了市场需求与销售额估计。最终完成了这一项目,得到国外用户的好评。
统计推断(Statistical Inference)就是根据样本的实际数据,对总体的数量特征做出具有一定可靠度的估计和判断。统计推断的基本内容有参数估计和假设检验两方面。概括地说,研究一个随机变量,推断它具有什么样的数量特征,按什么样的模式来变动,这属于估计理论的内容;而推测这些随机变量的数量特征和变动模式是否符合事先所做的假设,这属于检验理论的内容。参数估计和假设检验的共同点是,它们都对总体不清楚或不太了解,都是利用部分观察值所提供的信息,对总体的数量特征做出估计和判断,但两者所要解决问题的着重点的方法有所不同。本章先研究总体参数估计的问题。
3.1 参数估计的基本原理
估计是以样本统计量(即样本数字特征)作为未知总体参数(即总体数字特征)的估计量,并通过对样本单位的实际观察取得样本数据,计算样本统计量的取值并将其作为被估计参数的估计值。
不论社会经济活动还是科学试验,人们做出某种决策之前总是要对许多情况进行估计。例如,商品推销人员要估计消费者对新式时装的喜好程度,连锁超市经理要估计附近居民的购买能力,民意调查机构要估计竞选者的得票率,医药生产部门要推广某种药品的新配方,必须估计新药疗效的提高程度等。这些估计通常是在信息不完全、结果不确定的情况下做出的。参数估计提供了一套在满足一定精确度要求下根据部分信息来估计总体参数的真值,并做出同这个估计相适应的误差说明的科学方法。
总之,每当需要根据抽样结果估计总体时,首先要提出统计估计问题。实际上提出来的统计估计问题不胜枚举,但是归根结底,就是根据样本特征(频率、频率分布和样本数字特征)来估计总体特征(概率、概率分布及其数字特征)。
人类常想解决某些问题,例如,生态学家认为南极海域的蓝鲸面临绝种边缘,而想知道现在的蓝鲸存在的数量有多少。在这个问题中,蓝鲸存量就是感兴趣的“参数”,(如果感兴趣的是雄蓝鲸在此海域中所占的比率,那么“参数”就是雄蓝鲸的比例)。要得到总体参数(蓝鲸存量)的值,也许想到的方法有很多,可能方法之一是将南极海域的水抽光后,数一数有多少条蓝鲸,但这是不可能的事。较可行的方法是通过统计的方法获得资料再做估计,但数据的获得有时会因使用的收集方法(抽样调查)不正确,又或者实验方法不好,出现估计偏差。有时虽然抽样方法没有偏差,但因样本太小或运气不好,抽到的数据不具代表性,这种由于抽样数据算出的估计值与母体参数值之间的误差,称为抽样误差。所以,统计估计值可列成下面的关系式:

参数估计是以样本统计量(即样本数字特征)作为未知总体参数(即总体数字特征)的估计量,并通过对样本单位的实际观察取得样本数据,计算样本统计量的取值作为被估计参数的估计值。
科学的抽样估计方法要具备如下三个基本条件。
(1)要有合适的统计量作为估计量
统计量是样本随机变量,但不是所有的统计量都能够充当良好的估计量。例如,从一个样本可以计算均值、中位数、众数等,现在要用来估计总体均值,究竟以哪个样本统计量作为估计量更合适,如果采用样本均值作为估计量,这就需要回答样本均值和总体均值存在什么样的内在联系,以样本均值作为良好估计量的标准是什么等问题。只有解决了这些问题,才能通过样本的实际观察确定估计值,而估计值是参数估计的基础。
(2)要有合理的允许误差范围
允许误差范围又称抽样极限误差,指样本统计量与被估计总体参数离差的绝对值可允许变动的上限或下限。离差的绝对值越小,表明抽样估计的准确度越高,反之,表明准确度越低。由于统计量本身也是随机变量,所以要使所做的估计完全没有误差是难以实现的,但估计误差也不能太大,如果超过了一定限度,参数估计本身也就会失去价值。当然也不见得误差越小就是越好的估计,因为减小误差势必增加费用、时间、人力、物力、财力,这样甚至会失去组织抽样调查的意义。所以在做估计的时候应该根据所研究对象的变异程度和分析任务的要求确定一个合理的允许误差范围,凡估计值与被估计值之间的离差不超过允许范围,这种估计都算是有效的。例如,估计某汽车生产线的生产能力为日产600辆,允许误差范围6辆,这意味着如果实际的日生产量在594~606量之间都应该认为估计是有效的。把允许误差的区间594~606称为估计区间,允许误差与估计值之比称为误差率,(1-误差率)称为估计精度,本例误差率为6/600=1%,估计精度为1-1% =99%。
(3)要有一个可接受的置信度
估计置信度又称估计推断的概率保证程度,这是估计的可靠性问题。由于抽样是随机抽样,统计量是随机变量,估计值所确定的估计区间也是随机的,在实际抽样中并不能保证被估计的参数真值都落在允许误差的范围内,这就产生了要冒多大风险相信所做的估计的问题。如果一种估计可信度很低,这就意味着所冒的风险很大,这种估计也就没有什么价值。例如,愿意冒10%的风险,这表示如果进行多次重复估计,则平均每100次估计有10次错误,90次正确,则90%就称为置信度或概率保证程度。
在抽样估计中要求达到100%的置信度是难以做到的,但置信度小了,估计结论的可靠性太低,又会影响估计本身的价值,所以在做估计的时候,也应该根据所研究问题的性质和工作的需要确定一个可接受的估计置信度。当然,估计置信度的要求和准确度的要求应该结合起来考虑,估计的准确度很高而置信度很低,或准确度很低而置信度很高,都是不合适的。
为了便于叙述,把总体的分布参数及其函数(其中包括总体数字特征)统称为总体参数。如果总体的一个或若干参数未知,就产生了未知参数的估计问题。有两种类型的估计,一种是点估计,另一种是区间估计。