文档库 最新最全的文档下载
当前位置:文档库 › 数据的基本统计与非参数检验

数据的基本统计与非参数检验

数据的基本统计与非参数检验
数据的基本统计与非参数检验

建筑大学

理学院信息与计算科学专业实验报告

课程名称《数据分析》实验名称数据的基本统计与非参数检验实验地点基C-423 日期 2016 . 3 .17 班级学号指导教师成绩

(1)熟悉数据的基本统计与非参数检验分析方法;

(2)熟悉撰写数据分析报告的方法;

(3)熟悉常用的数据分析软件SPSS。

【实验要求】

根据各个题目的具体要求,完成实验报告

【实验容】

根据附件“住房状况调查”给出的相关数据,请选用恰当的分析方法,分别对数据的“家

庭收入”、“现住面积”,进行数据的基本统计量分析,撰写相应的分析报告;

根据附件“住房状况调查”给出的相关数据,请选用恰当的分析方法,分别分析不同学历

对家庭收入、现住面积是否有显著影响,撰写相应的分析报告。

根据附件“住房状况调查”给出的相关数据,请选用恰当的分析方法,分析家庭收入与10000元是否有显著差异,撰写相应的分析报告。

根据附件“住房状况调查”给出的相关数据,请选用恰当的分析方法,分析婚姻状况对家

现住面积是否有显著影响,撰写相应的分析报告。

根据附件“减肥茶数据”给出的相关数据,请选用恰当的分析方法,分析该减肥茶对减肥

是否有显著影响,撰写相应的分析报告。

【分析报告】

1.

表一家庭收入和现住面积的基本描述统计量

家庭收入现住面积

N 有效2993 2993

缺失0 0

均值17696.1567 62.7241

均值的标准误279.64310 .47349

中值15000.0000 60.0000

众数10000.00 60.00

标准差15298.80341 25.90383

方差 2.341E8 671.008

偏度 5.546 .910

偏度的标准误.045 .045

峰度55.425 3.078

峰度的标准误.089 .089

百分位数25 10000.0000 45.0000

50 15000.0000 60.0000

75 20000.0000 80.0000

表一说明,

家庭收入方面:

被调查者中家庭收入的均值为17696.16元,中值为15000元,普遍收入为10000元;

家庭收入的标准差和方差都相对较大,所以,各家庭收入之间有明显的差异;

偏度大于零,说明右偏;峰度大于零,说明数据呈尖峰分布;

由家庭收入的四分位数可知,25%的家庭,收入在10000以下,有50%的家庭,收入在15000以下,有75%的家庭,收入在20000以下;

现住面积方面:

被调查者中现住面积的均值为62.724平方米,中值为60平方米,普遍面积为60平方米;

现住面积的标准差和方差都相对较大,所以,各家庭现住面积之间有明显的差异;

偏度近似等于零,说明现住面积数据对称分布;峰度大于零,说明现住面积数据为尖峰分布;

由现住面积的四分位数可知,25%的家庭,现住面积为45平方米以下,有50%的家庭,现住面积在60平方米以下,有75%的家庭,现住面积在80平方米以下。

图一:家庭收入直方图

该图表明,家庭收入分布存在一定的右偏。

图二:现住面积直方图

该图形象的展示了现住面积的数据分布比标准正态分布更陡峭。

表二:学历与现住面积的交叉表

new

總計

1.00

2.00

3.00

4.00

5.00

文化程度

初中及以下 計數 796 8 1 0 0 805 預期計數 779.2 21.2 2.2 1.1 1.3 805.0 文化程度 內的 % 98.9% 1.0% 0.1% 0.0% 0.0% 100.0% new 內的 % 27.5% 10.1% 12.5% 0.0% 0.0% 26.9% 佔總計的百分比 26.6% 0.3% 0.0% 0.0% 0.0% 26.9%

殘差 16.8 -13.2 -1.2 -1.1 -1.3 標準殘差

.6 -2.9 -.8 -1.0 -1.2 高中(中专)

計數 1240 17 1 0 0 1258 預期計數 1217.6 33.2 3.4 1.7 2.1 1258.0 文化程度 內的 % 98.6% 1.4% 0.1% 0.0% 0.0% 100.0% new 內的 %

42.8% 21.5% 12.5% 0.0% 0.0% 42.0% 佔總計的百分比 41.4% 0.6% 0.0% 0.0% 0.0% 42.0%

殘差 22.4 -16.2 -2.4 -1.7 -2.1 標準殘差

.6 -2.8 -1.3 -1.3 -1.4 大学(专、本科)

計數 832 51 5 4 4 896 預期計數 867.3 23.6 2.4 1.2 1.5 896.0 文化程度 內的 % 92.9% 5.7% 0.6% 0.4% 0.4% 100.0% new 內的 % 28.7% 64.6% 62.5% 100.0% 80.0% 29.9% 佔總計的百分比 27.8% 1.7% 0.2% 0.1% 0.1% 29.9%

殘差 -35.3 27.4 2.6 2.8 2.5 標準殘差

-1.2 5.6 1.7 2.6 2.0 研究生及以上

計數 29 3 1 0 1 34 預期計數 32.9 .9 .1 .0 .1 34.0 文化程度 內的 % 85.3% 8.8% 2.9% 0.0% 2.9% 100.0% new 內的 % 1.0% 3.8% 12.5% 0.0% 20.0% 1.1% 佔總計的百分比 1.0% 0.1% 0.0% 0.0% 0.0% 1.1%

殘差 -3.9 2.1 .9 .0 .9 標準殘差

-.7 2.2 3.0 -.2 4.0 總計

計數 2897 79 8 4 5 2993 預期計數 2897.0 79.0 8.0 4.0 5.0 2993.0 文化程度 內的 % 96.8% 2.6% 0.3% 0.1% 0.2% 100.0% new 內的 % 100.0% 100.0% 100.0% 100.0% 100.0% 100.0% 佔總計的百分比

96.8%

2.6%

0.3%

0.1%

0.2%

100.0%

图三:学历与家庭收入直方图

表二表明:

首先,在所调查的2993个样本中,805个样本为初中及以下学历,1258为高中(中专)学历,896为大学(专,本科)学历,34为研究生及以上学历,分别占总样本的26.9%,42%,29.9%,和1.1%,可见高中学历居多;收入为0~5w,5w~10w,10w~15w,15w~20w,20w~25w的样本量分别为2897,79,8,4,5,各占样本的96.8%,2.6%,0.3%,0.1%,0.2%,收入在0~5w的占较大比例。

其次,对不同学历进行分析。在初中及以下学历中,98.9%的家庭收入在5万以下,1%的家庭收入在

5w~10w之间;在高中学历中98.6%的家庭收入在5万以下,1.4%的家庭收入在5w~10w之间;在大学学历中92.9%的家庭收入在5万以下,5.7%的在5w~10w之间;在研究生及以上学历中85.3%的家庭收入在5万以下,8.8%的家庭收入在5w~10w,2.9%的家庭收入在10w~15w之间。

最后,对家庭收入进行分析。在家庭收入为5w(2897)以下的样本中,学历为研究生及以上学历的最少,为29;其他家庭收入中,大学学历的占大多数。由此可以得出,学历与家庭收入有一定的联系。但是,样本中的各学历的样本量存在一定的悬殊。

本检验的原假设是:不同学历对家庭收入是否有显著影响。如果显著性水平a设为0.05,由于卡方的概率p-值小于a,因此应拒绝假设,认为不同学历与家庭收入是否无显著影响。这种无影响主要体现在家庭收入低的比例在低学历中低于总体比例,而家庭收入高的在比例在低学历中高于总体比例

表四:学历与现住面积交叉表

图四:不同学历与现住面积的直方图

表四表明:

首先,在所调查的2993个样本中,805个样本为初中及以下学历,1258为高中(中专)学历,896为大学(专,本科)学历,34为研究生及以上学历,分别占总样本的26.9%,42%,29.9%,和1.1%,可见高中学历居多;现住面积为0~60m2,60~120m2,120~180m2,180~240m2,240~300m2的样本量分别为

1413,1478,99,2,1,各占样本的47.2%,49.4%,3.3%,0.1%,0.0%,现住面积在第一和第二种情况下居多。

其次,对不同学历进行分析。在初中及以下学历中,58.8%的现住面积为60m2以下,38.1%的现住面积在60~120m2之间,3%的现住面积在120~180m2之间;在高中学历中,52.3%的现住面积为60m2以下,45.6%的现住面积在60~120m2之间,2%的现住面积在120~180m2之间;在大学学历中,30.5%的现住面积为60m2以下,64%的现住面积在60~120m2之间,5.5%的现住面积在120~180m2之间;在研究生及以上学历中,26.5%的现住面积为60m2以下,70.6%的现住面积在60~120m2之间,2.9%的现住面积在120~180m2之间。

最后,对家庭收入进行分析。在现住面积为60m2以下及60~120m2的样本中,学历为高中的占大多数;在现住面积120~180m2的样本中,大学学历的占大多数。由此可以得出,学历与家庭收入有一定的联系。但是,样本中的各学历的样本量存在一定的悬殊。

本检验的原假设是:不同学历对现住面积是否有显著影响。如果显著性水平a设为0.05,由于卡方的概率p-值小于a,因此应拒绝假设,认为现住面积与家庭收入是否无显著影响。这种无影响主要体现在现住面积小的比例在低学历中低于总体比例,而现住面积大的在比例在低学历中高于总体比例。

3.

由表五可知,2993个家庭的家庭收入的平均值为17696元,标准差为15298.8元,均值标准误差为

279.64。

由表六可知,,第二列t统计量的观测值为27.521;第三列的自由度为2992;第四列的t统计量的观测值的双尾概率P-值为0;第六列和第七列是总体均值与原假设值差的95%的置信区间(7147.84,8244.47),由此计算出总体均值的95%的置信区间为(8147.84,9244.47)元。

该问题应采用双尾检验,因此比较a/2与p/2,也就是比较a与p。如果a取0.05,由于p小于0.05,因此拒绝假设,认为家庭收入的平均值与10000元有显著的差异。95%的置信区间告诉我们有95%的把握人为家

庭收入的均值在8147.84~9244.47元之间,10000元没有包含在置信区间,也证实了上述推断。

4.

表七:婚姻状况的统计量

婚姻N 均值标准差均值的标准误现住面积已婚2685 63.1149 25.88033 .49946

否308 59.3168 25.90074 1.47583

表八是已婚和未婚家庭现住面积的均值检验结果。第一步,该检验的F统计量为0.410,对应的概率为0.522.如果显著水平a为0.05,由于概率P值大于0.05,可以认为两总体的方差无显著差异。第二步,由于两样本方差无显著差异,因此应看第三行t检验的结果。其中,t统计量的观测值为2.439,对应的双尾概率P值为0.015.如果显著性水平a为0.05,由于概率P小于0.05,可以认为两总体样本有显著差异,即已婚与未婚家庭的家庭收入的平均值有显著差异。

表九:喝茶前后体重的统计量

均值N 标准差均值的标准误对 1 喝茶前体重92.4667 45 9.53367 1.42120

喝后体重77.6889 45 10.23768 1.52614

表十:喝茶前后体重相关系数

N 相关系数Sig.

对 1 喝茶前体重&喝后体重45 .674 .000

表九表明,喝茶前和喝茶后样本的平均值有较大的差异。喝茶后的平均体重低于喝茶前的平均体重。

表十表明,在显著性水平为0.05时,肥胖志愿者服用减肥茶前后的体重有明显的线性变化,喝茶前和

核查后体重的线性相关程度较强

表十一,第二列是喝茶前后体重的平均差异,相差了14.8公斤;第三列是差值样本的标准差;第四列

是差值样本均值抽样分布的标准差;第五列是差值95%的置信区间的下限和上限;第七列是t检验统计量的

观测值;第八列示t分布的自由度;第九咧是t检验统计量观测值对应的双尾概率P值,接近零。如果显著

性水平a为0.05,由于概率P值小于显著性水平,应拒绝原假设,即认为总体上体重差的平均值与0无显著

不同,意味着喝茶前和喝茶后的体重平均值无显著差异,可以认为该减肥茶无显著的减肥效果。

非参数统计题目及答案

1.人们在研究肺病患者的生理性质时发现,患者的肺活量与他早在儿童时期是否接受过某种治疗有关,观察3组病人,第一组早在儿童时期接受过肺部辐射,第二组接受过胸外科手术,第三组没有治疗过,现观察到其肺活量占其正常值的百分比如下: 这一经验是否可靠。 解: H 0:θ2≤θ1≤θ 3 H 1 :至少有一个不等式成立 可得到 N=15 由统计量H= ) 112 +N N (∑=K i i N R 1i 2 -3(N+1)=)(1151512+(32×6.4+29×5.8+59×11.8)-3×(15+1)=5.46 查表(5,5,5)在P(H ≥4.56)=0.100 P(H ≥5.66)=0.0509 即P (H ≥5.46)﹥0.05 故取α=0.05, P ﹥α ,故接受零假设即这一检验可靠。

2.关于生产计算机公司在一年中的生产力的改进(度量为从0到100)与它们在过去三年中在智力投资(度量为:低,中等,高)之间的关系的研究结果列在下表中: 值等等及你的结果。(利用Jonkheere-Terpstra 检验) 解: H 0:M 低=M 中=M 高 H 1:M 低﹤M 中﹤M 高 U 12=0+9+2+8+10+9+10+2+10+10+8+0.5+3=82.5 U 13=10×8=80 U 23=12+9+12+12+12+11+12+11=89 J= ∑≤j ij U i =82.5+80+89=251.5 大样本近似 Z= []72 )32()324 1 2 1i 22 2∑ ∑==+-+--k i i i k i n n N N n N J ()(~N (0,1) 求得 Z=3.956 Ф(3.956)=0.9451 取α=0.05 , P >α, 故接受原假设,认为智力投资对改进生产力有帮助。

统计分布及参数检验

统计分布及参数检验 第五章统计量及其分布 §5.1总体与样本 一、总体与样本 在一个统计问题中,把研究对象的全体称为总体,构成总体的每个成员称为个体。对于实际问题,总体中的个体是一些实在的人或物。比如,我们要研究某大学的学生身高情况,则该大学的全体学生构成问题的总体,而每一个学生即是一个个体。事实上,每一个学生有许多特征:性别、年龄、身高、体重等等,而在该问题中,我们关心的只是该校学生的身高如何,对其他的特征暂不考虑。这样,每个学生(个体)所具有的数量指标——身高就是个体,而所有身高全体看成总体。这样,抛开实际背景,总体就是一堆数,这堆数中有大有小,有的出现机会多,有的出现机会小,因此用一个概率分布去描述和归纳总体是合适的,从这个意义上说: 总体就是一个分布,而其数量指标就是服从这个分布的随机变量。 例5.1.1考察某厂的产品质量,将其产品分为合格品和不合格品,并以0记合格品,以1记不格品,若以p表示不合格品率,则各总体可用一个二点分布表示: X p 0 1 1-p p 不同的p反映了总体间的差异。 在有些问题中,我们对每一研究对象可能要观测两个或更多个指标,此时可用多维随机向量及其联合分布来描述总体。这种总体称为多维总体。 若总体中的个体数是有限的,此总体称为有限总体;否则称为无限总体。实际中总体中的个体数大多是有限的,当个体数充分大时,将有限总体看作无限总体是一种合理抽象。

二、样本与简单随机样本1、样本 为了了解总体的分布,从总体中随机地抽取n个个体,记其指标值为x1,x2,?,xn, 则 x1,x2,?,xn 称为总体的一个样本,n称为样本容量或简称为样本量,样本中的个体称为样品。当n?30时,称x1,x2,?,xn为大样本,否则为小样本。 首先指出,样本具有所谓的二重性:一方面,由于样本是从总体中随机抽取的,抽取前无法预知它们的数值,因此样本是随机变量,用大写字母X1,X2,?,Xn 表示;另一方面,样本在抽取以后经观测就有确定的观测值,因此样本又是一组数值,此时用小写字母x1,x2,?,xn 表示。简单起见,无论是样本还是其观测值,本书中均用x1,x2,?,xn 表示,从上下文我们能加以区别。 每个样本观测值都能测到一个具体的数值,则称该样本为完全样本,若样本观测值没有具体的数值,只有一个范围,则称这样的样本为分组样本。从而知道分组样本与完全样本相比在信息上总有损失,但在实际中,若样本量特别大,用分组样本既简明扼要,又能帮助人们更好地认识总体。 例5.1.4 略。 2、简单随机样本 1 从总体中抽取样本可有不同的抽法,为了能由样本对总体作出较可靠的推断就希望样本能很好地代表总体。这就需要对抽样方法提出一些要求,最常用的有如下两个要求:1)样本具有随机性:要求每一个个体都有同等机会被选入样本,这便意味着每一样品xi与总体X有相同的分布。2)样本要求有独立性:要求每一样品的取值不影响其它样品的取值,这便意味着x1,x2,?,xn相互独立。若样本x1,x2,?,xn是n个相互独立的具有同一分布的随机变量,则称该样本为简单随机样本,简称为样本。注(1)若总体X的分布函数为F(x),则其样本的联合分布函数为?F(xi) i?1n(2)若总体X的密度函数为p(x),则其样本的联合密度为?p(xi)

非参数统计部分课后习题参考答案

课后习题参考答案 第一章p23-25 2、(2)有两组学生,第一组八名学生的成绩分别为x 1:100,99,99,100,99,100,99,99;第二组三名学生的成绩分别为x 2:75,87,60。我们对这两组数据作同样水平a=0.05的t检验(假设总体均值为u ):H 0:u=100 H 1:u<100。第一组数据的检验结果为:df=7,t 值为3.4157,单边p 值为0.0056,结论为“拒绝H 0:u=100。”(注意:该组均值为99.3750);第二组数据的检验结果为:df=2,t 值为3.3290,单边p值为0.0398;结论为“接受H 0:u=100。”(注意:该组均值为74.000)。你认为该问题的结论合理吗?说出你的理由,并提出该如何解决这一类问题。 答:这个结论不合理(6分)。因为,第一组数据的结论是由于p-值太小拒绝零假设,这时可能犯第一类错误的概率较小,且我们容易把握;而第二组数据虽不能拒绝零假设,但要做出“在水平a时,接受零假设”的说法时,还必须涉及到犯第二类错误的概率。(4分)然而,在实践中,犯第二类错误的概率多不易得到,这时说接受零假设就容易产生误导。实际上不能拒绝零假设的原因很多,可能是证据不足(样本数据太少),也可能是检验效率低,换一个更有效的检验之后就可以拒绝了,当然也可能是零假设本身就是对的。本题第二组数据明显是由于证据不足,所以解决的方法只有增大样本容量。(4分) 第三章p68-71 3、在某保险种类中,一次关于1998年的索赔数额(单位:元)的随机抽样为(按升幂排列): 4632,4728,5052,5064,5484,6972,7596,9480,14760,15012,18720,21240,22836,52788,67200。已知1997年的索赔数额的中位数为5064元。 (1)是否1998年索赔的中位数比前一年有所变化?能否用单边检验来回答这个问题?(4分) (2)利用符号检验来回答(1)的问题(利用精确的和正态近似两种方法)。(10分) (3)找出基于符号检验的95%的中位数的置信区间。(8分) 解:(1)1998年的索赔数额的中位数为9480元比1997年索赔数额的中位数5064元是有变化,但这只是从中位数的点估计值看。如果要从普遍意义上比较1998年与1997年的索赔数额是否有显著变化,还得进行假设检验,而且这个问题不能用单边检验来回答。(4分) (2)符号检验(5分) 设假设组:H 0:M =M 0=5064 H 1:M ≠M 0=5064 符号检验:因为n +=11,n-=3,所以k=min(n+,n-)=3 精确检验:二项分布b(14,0.5), ∑=-=3 0287 .0)2/1,14(n b ,双边p-值为0.0576,大于a=0.05, 所以在a水平下,样本数据还不足以拒绝零假设;但假若a=0.1,则样本数据可拒绝零假设。查二项分布表得a=0.05的临界值为(3,11),同样不足以拒绝零假设。 正态近似:(5分) np=14/2=7,npq=14/4=3.5 z=(3+0.5-7)/5.3≈-1.87>Z a/2=-1.96 仍是在a=0.05的水平上无法拒绝零假设。说明两年的中位数变化不大。 (3)中位数95%的置信区间:(5064,21240)(8分) 7、一个监听装置收到如下的信号:0,1,0,1,1,1,0,0,1,1,0,0,0,0,1,1,1,1,1,1,1,1,1,0,1,0,0,1,1,1,0,1,0,1,0,1,0,0,0,0,0,0,0,0,1,0,1,1,0,0,1,1,1,0,1,0,1,0,0,0,1,0,0,1,0,1,0,1,0,0,0,0,0,0,0,0。能否说该信号是纯粹随机干扰?(10分)

eviews-描述统计分析与参数假设检验

一、 描述统计分析与参数假设检验 1、序列的view 功能键 1.1 Histogram and stats Histogram and stats 选项中统计量包括均值(means )、中位数(median )、最大值(maximum )、最小值(minimum )、标准差(std.dev.)、偏度(skewness )、峰度(kurtosis )以及jarque-bera 统计量与其概率值。{根据其概率值p 来决定是否拒绝零假设,p 大于检验水平,不能拒绝样本序列服从正态分布的原假设} (显示选定序列的直方图以及给出序列的有关统计量) (表格形式显示有关统计量的值) (以表格形式进行分组统计) (以箱式图形式进行分组统计描述)

1.2 stats table(绘制序列统计表) stats table表示以表格的形式显示选定序列有关统计量的值。 1.3 stats by classification (序列分组统计描述)

1.4 one-way tabulation(绘制序列单因素列联表) output选项组供用户选择输出结果的显示项,包括区间内的观测值计数(show count)、是否显示百分比和累计百分比(show percentage)以及是否显示频数和累积频数(show cumulative)。

2、序列组基本统计分析2.1 序列组的统计描述 使用common sample选项要求序列组中各个序列在当前样本范围内都有观测值; 使用individual sample 选项在计算统计量时,将每个序列有值的观测值分别进行计算。 若序列组中没有缺失值或者各个序列的缺失值处于同一样本期间时,这两项没有区别。 多了两个统计量sum(样本和)和sum sq.dev. (样本方差)。 描述性统计 统计量齐性检验 多因素制表 相关系数矩阵 协方差矩阵 相关图 交叉相关系数 协整检验 格兰杰因果检验 (标签) 基本统计分 时间序列分析的统计量和统计检 验方法 (共同样本) (单个样本)

非参数统计

中国海洋大学本科生课程大纲 课程属性:公共基础/通识教育/学科基础/专业知识/工作技能,课程性质:必修、选修 一、课程介绍 1.课程描述: 非参数统计是数理统计学的一个分支,它是针对参数统计而言的。所谓参数统计,简 单地说就是建立在总体具有明确分布形式,通常多为正态分布形式的假定基础之上,所建立 的统计理论和统计方法。而非参数统计是在不假定总体分布形式或在较弱条件下,例如总体 分布形式完全未知或分布形式是对称的,诸如这样一些宽泛条件下,尽量从数据本身获 得的信息,建立对总体相关统计特征进行分析和推断的理论、方法。 2.设计思路: 本课程是在已学数理统计基础上,通过非参数统计的学习,引导数学专业学生进一步增强对一般总体分析、推断的能力并加深对相关理论和方法的理解。 课程内容着重于基本知识点的理解,避免难度较大或较长定理的证明。目的是使学生对理论有一个基本的理解和在应用能力上的提高。课程内容包括以下四个方面: (1).非参数统计的基本概念:非参数统计方法的主要特点,次序统计量及其分布,U统计量, 秩统计量的概念,一些统计量的近似分布。 (2).非参数估计的方法:总体分位数的估计,对称中心的估计,位置差的估计。 (3).非参数检验的方法:总体p分位数的检验,总体均值检验,两样本的比较,随机性与 独立性检验,多总体的比较。 - 1 -

(4).总体分布类型的估计与检验:分布函数的估计与检验,概率密度估计。 3. 课程与其他课程的关系: 先修课程:《概率论》,《数理统计》,《多元统计分析》;并行课程:《应用回归分析》;后置课程:《统计软件》。 非参数统计是应用数学专业、信息与计算科学专业的选修课程,但对于今后从事统计研究和统计应用工作的学生来讲可以作为专业必修课学习。 二、课程目标 非参数统计具有应用性广,稳健性好等特点。通过本课程学习,要求学生了解或理解非参数统计的一些基本理论和方法,注重利用理论和方法、借助计算机解决问题的能力。开课学期结束时,要求学生能够做到: (1)理解非参数统计方法的主要特点及与参数统计方法的区别。掌握次序统计量及其分布;理解并掌握U统计量秩统计量的概念;理解一些常用统计量的近似分布。重点是次序统计量及其分布; U统计量构造,秩统计量; (2)掌握总体分位数估计、对称中心的估计、位置差估计的方法。 (3)理解各种检验的基本思想,掌握检验的一般步骤,掌握检验统计及其拒绝域。难点在于检验统计量的选取及概率分布。 (4)理解分布函数估计及检验的基步骤和过程。 (5)为更深入学习非参数统计学理论打下初步的基础。也为学习专业统计软件的作好准备。 三、学习要求 要完成所有的课程任务,学生必须: (1)按时上课,认真听讲,认真完成作业。其中有一些作业需要学生自编程序用机器完成。(2)按时完成并按时提交书面形式的作业。延期提交作业需要得到任课教师的许可。 (3)完成一定量的阅读文献和背景资料,可以以小组的形式讨论学习,促进同学间的心得交 - 1 -

非参数统计分析NonparametricTests菜单详解

非参数统计分析――Nonparametric Tests菜单详解 非参数统计分析――Nonparametric Tests菜单详解 平时我们使用的统计推断方法大多为参数统计方法,它们都是在已知总体分布的条件下,对相应分布的总体参数进行估计和检验。比如单样本u检验就是假定该样本所在总体服从正态分布,然后推断总体的均数是否和已知的总体均数相同。本节要讨论的统计方法着眼点不是总体参数,而是总体分布情况,即研究目标总体的分布是否与已知理论分布相同,或者各样本所在的分布位置/形状是否相同。由于这一类方法不涉及总体参数,因而称为非参数统计方法。 SPSS的的Nonparametric Tests菜单中一共提供了8种非参数分析方法,它们可以被分为两大类: 1、分布类型检验方法:亦称拟合优度检验方法。即检验样本所在总体是否服从已知的理论分布。具体包括: Chi-square test:用卡方检验来检验二项/多项分类变量的几个取值所占百分比是否和我们期望的比例有没有统计学差异。 Binomial Test:用于检测所给的变量是否符合二项分布,变量可以是两分类的,也可以使连续性变量,然后按你给出的分界点一分为二。 Runs Test:用于检验样本序列随机性。观察某变量的取值是否是围绕着某个数值随机地上下波动,该数值可以是均数、中位数、众数或人为制定。一般来说,如果该检验P值有统计学意义,则提示有其他变量对该变量的取值有影响,或该变量存在自相关。 One-Sample Kolmogorov-Smirnov Test:采用柯尔莫哥诺夫-斯米尔诺夫检验来分析变量是否符

合某种分布,可以检验的分布有正态分布、均匀分布、Poission分布和指数分布。 2、分布位置检验方法:用于检验样本所在总体的分布位置/形状是否相同。具体包括: Two-Independent-Samples Tests:即成组设计的两独立样本的秩和检验。 Tests for Several Independent Samples:成组设计的多个独立样本的秩和检验,此处不提供两两比较方法。 Two-Related-Samples Tests:配对设计的两样本秩和检验。 Tests for Several Related Samples:配伍设计的多样本秩和检验,此处同样不提供两两比较。 一、分布位置检验方法 1、Two Independent Samples Test与 K Independent Samples Test 用于检验两独立样本/多独立样本所在总体是否相同。 Two-lndependent-Samples Test对话框: (1) Test Variable框,指定检验变量。 (2) Grouping Variable框,指定分组变量。Define Groups对话框,Groupl和Groupl后的栏中,可指定分组变量的值。 (3) TestType框,确定用来进行检验的方法。Mann-Whitney U:默认值,相当于两样本秩和检验。Kolmogorov-Smimov Z:K-S检验的一种。Moses extreme reactions:如果施加的处理使得某些个体出现 正向效应,而另一些个体出现负向效应,就应当采用该检验方法。

王静龙《非参数统计分析》课后计算题参考标准答案

王静龙《非参数统计分析》课后习题计算题参考答案习题一 1. One Sample t-test for a Mea n Sample Statistics for x N Mea n Std. Dev. Std. Error 26 1.38 8.20 1.61 Hypothesis Test Null hypothesis: Mea n of x = 0 Alternative: Mea n of x A= 0 t Statistic Df Prob > t 0.861 25 0.3976 95 % Con fide nee In terval for the Mea n Lower Limit: -1.93 Upper Limit: 4.70 则接受原假设认为一样 习题二 1.描述性统计

习题二 1.1 S+=13 n 39 H o: me 6500 H〔:me 6500 PS 13 二BINOMDIST(13,39,0.5,1) =0.026625957 另外:在excel2010中有公式BINOM.INV(n,p,a)返回一个数值,它使得累计二项式分布的函数值大于或等于临界值a的最小整数 * 1 m n m inf m ■ 2 i 0 i BINO M」N V(39,0.5,0.05)=14 * n 1 * d n d=sup d : m 1 13 2 i 0 i S+13 d 13 以上两种都拒绝原假设,即中位数低于6500 1.2

n 1 inf n * * 1 m n m inf m :- 2 i o i BINOM.INV(40,0.5,1 -0.025)=26 d=n-c=40-26=14 x 14 5800 x 26 6400 me x 20 6200 2. S + =40 n 70 H 0: me 6500 H 1: me 6500 2P S 40 2*(1-BIN0MDIST(39,70,0.5,1)) =0.281978922 则接受原假设,即房价中位数是 6500 3.1 S + =1552 n 1552 527 2079 inf m inf m=BINOM.INV(2079,0.5,0.975)=1084 则拒绝原假设,即相信孩子会过得更好的人多 3.2 P 为认为生活更好的成年人的比例,则 H 。: p 出:p n 比较大,则用正态分布近似 P S 1552 1039.5-1552+0.5 、519.75 =5.33E-112 另外:S +=1552 n 1552 527 2079

第二讲-非参数统计检验

第二讲 非参数检验 1. 实验目的 1.了解非参数假设检验基本思想; 2.会用SAS 软件中的proc npar1way 过程进行非参数假设检验和proc freq 过程进行列联表的独立性检验。 2. 实验要求 1.会用SAS 软件建立数据集,并进行统计分析; 2.掌握proc npar1way 过程进行非参数假设检验的基本步骤; 3.掌握proc freq 过程进行列联表的独立性检验的基本步骤。 3. 实验基本原理 3.1 符号检验 0:H 两种方法的处理效果无显著性差异 令10 i i I i ?=??第个个体中新方法优于对照方法第个个体中新方法劣于对照方法1,2,,i N =L 统计量1N N i i S I ==∑ N S 表示新方法的处理效果优于对照方法的配对组总数。若新方法的处理效果显著的优于对照方法,则N S 的值应明显偏大。因此,若对给定的置信水平α,有 {}N P S c α≥<, 则拒绝0H 。 0H 为真时,(1)N S 服从二项分布1(,)2 b N (),()24N N N N E S Var S ==。拒绝域为:{}N N S S c > (2)由中心极限定理可知,当2 ,1N N S N - →∞的零分布趋于标准正态分布。

拒绝域为 :N S u α??????>???????? 3.2 Wilcoxon 秩和检验 (1)单边假设检验 0:H 两种方法的处理效果无显著性差异 as 1:H :新方法优于对照方法。 用于检验0H 的统计量为:1n s i i W I ==∑ 若对给定的置信水平α,有 {}s P W c α≥<,则拒绝0H 。且s W 的分布列为: 0#{;,}{}H s w n m P W w N n ==?? ??? 根据观测结果计算s W 的观测值0s W ,计算检验的p 值: 00{}{}s H s s H s k w p P W w P W k ≥=≥= =∑ 然后将p 值与显著水平α作比较,若p α<,则拒绝0H ,否则接受0H 。 (2)双边假设检验 给定的显著水平21,c c 和α应该满足: ε=≥+≤}{}{2100c W P c W P A H A H 仅由上式还不能唯一确定21c c 和,当我们对两种方法谁优谁劣不得而知时,通常取 2}{}{2100α =≥=≤c W P c W P A H A H 若利用p 值进行检验,设A A W ω的观测值为,计算概率值 }{}{00A A H A A H W P W P ωω≤≥或 由对称性可知,检验的p 值为上述两概率中小于1/2的那一个的2倍。例如

非参数统计教学大纲

遵义师范学院课程教学大纲 非参数统计教学大纲 (试行) 课程编号:280020 适用专业:统计学 学时数:64 学分数: 4 执笔人:黄建文审核人: 系别:数学教研室:统计学教研室 编印日期:二〇一五年七月

课程名称:非参数统计 课程编码: 学分:4 总学时:64 课堂教学学时:64 实践学时: 适用专业:统计学 先修课程:高等数学、线性代数、概率论、数理统计 一、课程的性质与目标: (一)该课程的性质 本课程属专业方向选修课程。非参数统计形成于二十世纪四十年代,是与参数统计相比较而存在的统计学一个年轻、活跃而前沿的分支,含有丰富的统计思想并在实践中有着广泛的应用。非参数统计方法不依赖于总体分布及其参数,适用于多种类型的数据,进行统计推断时仅需要一些非常一般性的假设,因而具有良好的稳健型,在总体分布未知的情况下往往比参数统计方法有效。 (二)该课程的教学目标 本课程的教学目的是使学生了解非参数统计在推断统计体系中日益重要的作用,理解非参数统计方法和参数统计方法的区别。要求学生掌握本课程的基本知识、基本概念、基本原理和基本方法,能应用非参数统计方法解决一些简单的实际问题;注重学生统计思维能力和实践能力的培养,进一步培养学生重视原始资料的完整性与准确性、对数据处理持严肃认真态度的专业素质。 二、教学进程安排 课外学习时数原则上按课堂教学时数1:1安排。

三、教学内容与要求 第一章引言 【教学目标】 通过本章学习,使学生清楚非参数统计的研究对象,了解非参数统计的历史,明白非参数统计方法和参数统计方法的区别,认识学习非参数统计方法的必要性,了解非参数统计的一些基本概念与基本工具;通过对初等推断统计的简单回顾,要求学生提炼并把握推断统计思想的实质,为后续章节学习非参数统计的分析技巧和主要思想打下基础。 【教学内容和要求】 主要教学内容:非参数统计研究内容;非参数统计小史;初等推断统计回顾;非参数统计基本概念。 教学重点与难点:教学重点是通过与参数统计异同的比较,介绍非参数统计的研究内容与研究方法;教学难点是对检验的相对效率、秩检验统计量、U统计量等非参数统计基本概念的理解。 【课外阅读资料】 吴喜之.非参数统计.北京:中国统计出版社.2009.11 【作业】 思考:非参数统计方法相对于与参数统计的优点和缺点。

非参数统计检验方法的应用

论文投稿领域:数理经济与计量经济学 非参数统计检验方法的应用 阮曙芬1 程娇翼 1 张振中2 (1.中国地质大学数理学院,武汉 430074;2.中南大学数学科学与计算学院,长沙 410075) 摘要:本文对非参数统计中常用的三种假设检验方法进行了简单的介绍。运用 Kruskal-Wallis 检验方法对2002年前三季度的上海股市综合指数收益率数据进行了周末效应的检验,结果表明2002年上海股市综合指数收益率不具有周末效应。 关键字:符号检验;Wilcoxon 秩和检验;Kruskal-Wallis 检验 1引言 非参数统计是统计分析的重要组成部分。非参数假设检验是在总体分布未知或者总体分布不满足参数统计对总体所做的假定的时候,分析样本特点,寻找相应的非参数检验统计量。本文就是以此为出发点,介绍了非参数统计中假设检验常用的几个检验方法:符号检验、Wilcoxon 秩和检验和Kruskal-Wallis 检验,然后结合具体的问题和数据,在统计软件SAS 中作相应的非参数检验。 2非参数假设检验介绍 2.1 配对样本的符号检验 符号检验是根据正、负符号进行假设检验的方法。这种检验方法用于配对设计数值变量资料的假设检验,常常是差值不服从正态分布或者总体分布未知的情况下不能用t 检验的时候使用。其原理是对差值进行编制并冠以符号,然后对正负秩和进行比较检验。 设随机变量12,,...,n X X X 相互独立同分布,分布为()F x ,()F x 在0x =连续。假设检验问题 2.2 两独立样本的Wilcoxon 秩和检验 Wilcoxon 秩和检验的理论背景如下:有两个总体,一个总体的样本为12,,...,n X X X ,相互独立同分布,分布为()F x ;另一个样本为12,,...,n Y Y Y ,相互独立同分布,分布为()G x ,()F x , ()G x 连续。问随机变量Y 是否随机大于随机变量X ,即检验

《非参数统计》教学大纲

《非参数统计》课程教学大纲 课程代码:090531007 课程英文名称:Non-parametric Statistics 课程总学时:40 讲课:32 实验:8 上机:0 适用专业:应用统计学 大纲编写(修订)时间:2017.6 一、大纲使用说明 (一)课程的地位及教学目标 《非参数统计》是应用统计学专业的一门专业基础课,是统计学的一个重要分支。课程主要研究非参数统计的基本概念、基本方法和基本理论。本课程在教学内容方面除基本知识、基本理论和基本方法的教学外,着重培养学生的统计思想、统计推断和决策能力。 通过本课程的学习,学生将达到以下要求: 1.掌握非参数统计方法原理、方法,具有统计分析问题的能力; 2.具有根据具体情况正确选用非参数统计方法,正确运用非参数统计方法处理实际数据资料的能力; 3.具有运用统计软件分析问题,对计算结果给出合理解释,从而作出科学的定论的能力; 4.了解非参数统计的新发展。 (二)知识、能力及技能方面的基本要求 1.基本知识:掌握符号检验、Wilcoxon符号秩检验、Cox-Stuart趋势检验、游程检验、Brown-Mood中位数检验、Wilcoxon秩和检验、Kruskal-Wallis检验、Jonckheere-Terpstra检验、Friedman检验、Page检验、Siegel-Tukey检验、Mood检验、Ansari-Bradley检验、Fligner-Killeen检验等非参数统计方法。 2.基本理论和方法:掌握单样本模型、两样本位置模型、多样本数据模型中的位置参数非参数统计检验方法,掌握检验尺度参数是否相等的各种非参数方法,掌握各种回归的方法,掌握分布检验的各种方法,要求能在真实案例中应用相应的方法。 3.基本技能:掌握非参数统计方法的计算机实现。 (三)实施说明 1. 本大纲主要依据应用统计学专业2017版教学计划、应用统计学专业建设和特色发展规划和沈阳理工大学编写本科教学大纲的有关规定并根据我校实际情况进行编写。 2.教学方法:课堂讲授中要重点对基本概念、基本方法和解题思路的讲解;采用启发式教学,培养学生思考问题、分析问题和解决问题的能力;引导和鼓励学生通过实践和自学获取知识,培养学生的自学能力;增加讨论课,调动学生学习的主观能动性;注意培养学生提高利用统计软件分析问题的能力。讲课要联系实际并注重培养学生的创新能力。 3.教学手段:在教学中采用多媒体教学系统等先进教学手段,以确保在有限的学时内,全面、高质量地完成课程教学任务。 (四)对先修课的要求 本课程的教学必须在完成先修课程之后进行,本课程的先修课程为概率论与数理统计。要求学生取得概率论与数理统计课程学分。 (五)对习题课、实践环节的要求 1. 对重点、难点章节应安排习题课,例题的选择以培养学生消化和巩固所学知识,用以解决实际问题为目的。

参数统计与非参数统计、

样本统计方法一般分为两个大的分支—参数统计和非参数统计。非参数统计方法主要有:一是卡方拟合度检验(大众媒介研究者经常比较某一现象所观察到的发生频次和其期望值或假设的发生频次,卡方(X的平方)是一个表示期望值和观察值之间关系的值)。其局限性在于变量必须是定类或者定序测量的。二是交叉表分析,可以同时检验两个或者更多的变量。参数统计常用于定距或定比数据。一是t检验,二是方差分析;三是相关性统计分析。 T分布在抽样分布和样本分布之间架起了一座桥梁,是借助于颐和总显著性检验来实现的,成为“t检验”。t检验又称“均值检验”,用以计算样本均值是否不同于总体均值、零或另一样本均值。可分为三种类型:一是检验样本均值是否不同于其总体均值。二是检验一个样本均值是否与另一个样本均值不同(独立样本t检验)。三是重复测量的t检验—当相比较的两组样本以某种相联系的方式重复(相同的被试在不同时间段的结果检验)。 方差分析(ANOV A)——当实验涉及机组的比较时适用的统计方法。它是均值检验的一种自然延伸,更强调样本组内与组间的变化而不是样本组均值。ANOV A将发生在因变量上的变化分为由自变量作用的方差(称为被假设方差)和不被解释的方差(称为误差或剩余方差)。“被解释”方差成为“主效应”。ANOV A应用F分布而非t分布。多因子方差分析——任何有两个或更多个自变量的ANOV A可以是多因子ANOV A,测量其“交互效应”。 相关检验——不同于t检验的均值检验,相关是一种“关联性”测量。相关测量一个变量值的改变与另一个变量值改变的关联程度。相关的显著性是指,系统性变化是否又非偶然因素引起的;换言之,相关系数是否显著大于零。最常见的相关检验是皮尔逊积矩相关系数。 例3:在某次的新闻节目收视情况调查中,总体为某市12岁以上的居民。有效样本男性为240人,平均每天收视时间31.5分钟,标准差12分钟;样本中女性180人,平均每天收视时间26.3分钟,标准差19分钟,请问总体中男女居民的新闻节目收视时间有无差异?原假设H0:总体中没有差异:H0:u1=u2;H1:u1>u2, u1

相关文档
相关文档 最新文档