大理大学实验报告
课程名称生物医学统计分析
实验名称非参数检验(卡方检验)专业班级
姓名
学号
实验日期
实验地点
2015—2016学年度第 2 学期
a. 不假定零假设。
b. 使用渐进标准误差假定零假设。
分析:表11为LPA和FA两种检测结果的的一致性检验。Kappa值是内部一致性系数,除数据P值判断一致性有无统计学意义外,根据经验,Kappa≥,表明两者一致性较好>Kappa≥,
表明一致性一般,Kappa<,则表明一致性较差。
本例Kappa值为,P=<,拒绝无效假设,即认为两种检测方法结果存在一致性,Kappa值
=,>Kappa≥,表明一致性一般。
例1
表12 周内日频数表
观察数期望数残差111
219
317
415
515
616.0
719
总数112
分析:表12结果显示一周内各日死亡的理论数(Expected)为,即一周内各日死亡均数;还算出实际死亡数与理论死亡数的差值(Residual)。
表13 检验统计量
周日
卡方 2.875a
df6
渐近显着性.824
a. 0 个单元 (.0%) 具有小于 5 的期望频率。单元最小期望频率为。
分析:Chi-Square过程,调用此过程可对样本数据的分布进行卡方检验。卡方检验适用于配合度检验,主要用于分析实际频数与某理论频数是否相符。卡方值X2=,自由度数(df)=6,P=>,差异不显着,即可认为一周内各日的死亡危险性是相同的。
例2
表14 二项式检验
类别N观察比例检验比例精确显着性(双侧)性别组 1012.30.50.017组 2128.70
总数40
分析:调用Binomial过程可对样本资料进行二项分布分析。表14的二项分布检验表明,女婴12名,男婴28名,观察概率为(即男婴占70%),检验概率为,二项分布检验的结果是双
侧概率为,可认为男女比例的差异有高度显着性,即与通常的性比例相比,该地男婴比女婴明显为多。
例3
表15 两组工人的血铅值及秩
group N秩均值秩和血铅值110
27
总数17
分析:Independent Samples过程:调用此过程可对两个独立样本的均数、中位数、离散趋势、偏度等进行差异比较检验。有四种检验方法:Mann-Whitney U:主要用于判别两个独立样本所属的总体是否有相同的分布;Kolmogorov-Smirnov Z:推测两个样本是否来自具有相同分布的总体;Moses extreme reactions:检验两个独立样本之观察值的散布范
围是否有差异存在,以检验两个样本是否来自具有同一分布的总体;Wald-Wolfowitz
runs:考察两个独立样本是否来自具有相同分布的总体。
表16 检验统计量b
血铅值
Mann-Whitney U
Wilcoxon W
Z
渐近显着性(双侧).003
精确显着性[2*(单侧显着性)].001a
a. 没有对结进行修正。
b. 分组变量: group
分析:本例选Mann-Whitney U检验方法,表15结果表明,第1组的平均秩次(Mean Rank)为,第2组的平均秩次为,U = ,W = ,精确双侧概率P = ,可认为铅作业组工人的血铅值
高于非铅作业组。
例4
表17 group* effect 交叉制表
计数
effect
无效有效
合计group对照组217596
实验组599104合计26174200
分析:表17是group* effect资料分析的列联表。
表18 卡方检验
X2值df渐进 Sig. (双侧)精确 Sig.(双侧)精确 Sig.(单侧) Pearson 卡方12.857a1.000
连续校正b1.001
似然比1.000
Fisher 的精确检验.001.000有效案例中的 N200
a. 0 单元格(.0%) 的期望计数少于 5。最小期望计数为。
b. 仅对 2x2 表计算
分析:表18卡方检验资料n=200>40 , 表格下方的注解表明理论次数小于5的格子数为0,最小的理论次数为。,可取Pearson卡方值和似然比(Likelihood ratio)值 ,二者值分别为和,P<,试验组和对照组的疗效差别有统计学意义,可认为异梨醇口服液降低颅内压的疗效优于氢氯噻嗪 + 地塞米松。
SPSS 中非参数检验之一:总体分布的卡方(Chi-square )检验 在得到一批样本数据后,人们往往希望从中得到样本所来自的总体的分布形态是否和某种特定分布相拟合。这可以通过绘制样本数据直方图的方法来进行粗略的判断。如果需要进行比较准确的判断,则需要使用非参数检验的方法。其中总体分布的卡方检验(也记为χ2检验)就是一种比较好的方法。 一、定义 总体分布的卡方检验适用于配合度检验,是根据样本数据的实际频数推断总 体分布与期望分布或理论分布是否有显著差异。它的零假设H0:样本来自的总体分布形态和期望分布或某一理论分布没有显著差异。 总体分布的卡方检验的原理是:如果从一个随机变量尤中随机抽取若干个观察样本,这些观察样本落在X 的k 个互不相交的子集中的观察频数服从一个多项分布,这个多项分布当k 趋于无穷时,就近似服从X 的总体分布。 因此,假设样本来自的总体服从某个期望分布或理论分布集的实际观察频数同时获得样本数据各子集的实际观察频数,并依据下面的公式计算统计量Q ()2 1 k i i i i O E Q E =-=∑ 其中,Oi 表示观察频数;Ei 表示期望频数或理论频数。可见Q 值越大,表示 观察频数和理论频数越不接近;Q 值越小,说明观察频数和理论频数越接近。SPSS 将自动计算Q 统计量,由于Q 统计量服从K-1个自由度的X 平方分布,因此SPSS 将根据X 平方分布表给出Q 统计量所对应的相伴概率值。 如果相伴概率小于或等于用户的显著性水平,则应拒绝零假设H0,认为样本来自的总体分布形态与期望分布或理论分布存在显著差异;如果相伴概率值大于显著性水平,则不能拒绝零假设HO ,认为样本来自的总体分布形态与期望分布或理论分布不存在显著差异。 因此,总体分布的卡方检验是一种吻合性检验,比较适用于一个因素的多项分类数据分析。总体分布的卡方检验的数据是实际收集到的样本数据,而非频数数据。 二、实例 某地一周内各日患忧郁症的人数分布如下表所示,请检验一周内各日人们忧
第一节 非参数检验的基本概念及特点 一、非参数检验 (一)什么是“非参数” 非参数模型:缺乏总体分布模式的信息。 (二)非参数检验的定义 非参数检验:不需要假设总体是否为正态分布或方差是否为齐性的假设检验称非参数检验。 (三)非参数检验的优点和缺点: 1、优点: 一般不涉及总体参数,其假设前提也比参数假设检验少得多,适用面较广。 计算简便。 2、缺点: 统计效能远不如参数检验方法。由于当数据满足假设条件时,参数统计检验方法能够从其中广泛地充分地提取有关信息。非参数统计检验方法对数据的限制较为宽松,只能从中提取一般的信息,相对参数统计检验方法会浪费一些信息。 (四)非参数检验的特点: 1、它不需要严格的前提假设; 2、特别适用于顺序数据; 3、适用于小样本,且方法简单; 4、最大的不足是不能充分利用资料的全部信息; 5、不能处理“交互作用”,即多因素情况。 第二节 两个独立样本的非参数检验方法 一、秩和检验法 秩和即秩次的和或等级之和。秩和检验法也叫Mann-Whitney-Wilcoxon 检验,它常被译为曼-惠特尼-维尔克松检验,简称M-W-W 检验,也称Mann-Whitney U 检验。秩和检验法与参数检验法中独立样本的t 检验法相对应。当“总体正态”这一前提不成立时,不能用t 检验,可以用秩和检验法。 (一)秩统计量 秩统计量指样本数据的排序等级。假设从总体中反复抽取样本,就能得到一个对应于样本容量1n 和2n 的秩和U 的分布。这是一个间断而对称的分布,当1n 和2n 都大于10时,秩和T 的分布近期近似正态分布,其平均数和标准差分别为 () 21211++= n n n T μ ()12121 21++=n n n n T σ 其检验值为
第二讲 非参数检验 1. 实验目的 1.了解非参数假设检验基本思想; 2.会用SAS 软件中的proc npar1way 过程进行非参数假设检验和proc freq 过程进行列联表的独立性检验。 2. 实验要求 1.会用SAS 软件建立数据集,并进行统计分析; 2.掌握proc npar1way 过程进行非参数假设检验的基本步骤; 3.掌握proc freq 过程进行列联表的独立性检验的基本步骤。 3. 实验基本原理 3.1 符号检验 0:H 两种方法的处理效果无显著性差异 令10 i i I i ?=??第个个体中新方法优于对照方法第个个体中新方法劣于对照方法1,2,,i N =L 统计量1N N i i S I ==∑ N S 表示新方法的处理效果优于对照方法的配对组总数。若新方法的处理效果显著的优于对照方法,则N S 的值应明显偏大。因此,若对给定的置信水平α,有 {}N P S c α≥<, 则拒绝0H 。 0H 为真时,(1)N S 服从二项分布1(,)2 b N (),()24N N N N E S Var S ==。拒绝域为:{}N N S S c > (2)由中心极限定理可知,当2 ,1N N S N - →∞的零分布趋于标准正态分布。
拒绝域为 :N S u α??????>???????? 3.2 Wilcoxon 秩和检验 (1)单边假设检验 0:H 两种方法的处理效果无显著性差异 as 1:H :新方法优于对照方法。 用于检验0H 的统计量为:1n s i i W I ==∑ 若对给定的置信水平α,有 {}s P W c α≥<,则拒绝0H 。且s W 的分布列为: 0#{;,}{}H s w n m P W w N n ==?? ??? 根据观测结果计算s W 的观测值0s W ,计算检验的p 值: 00{}{}s H s s H s k w p P W w P W k ≥=≥= =∑ 然后将p 值与显著水平α作比较,若p α<,则拒绝0H ,否则接受0H 。 (2)双边假设检验 给定的显著水平21,c c 和α应该满足: ε=≥+≤}{}{2100c W P c W P A H A H 仅由上式还不能唯一确定21c c 和,当我们对两种方法谁优谁劣不得而知时,通常取 2}{}{2100α =≥=≤c W P c W P A H A H 若利用p 值进行检验,设A A W ω的观测值为,计算概率值 }{}{00A A H A A H W P W P ωω≤≥或 由对称性可知,检验的p 值为上述两概率中小于1/2的那一个的2倍。例如
第十一章非参数检验 第一节符号检验 符号检验的方法·符号检验的特点和作用 第二节配对符号秩检验 配对符号秩检验的方法·配对符号秩检验的效力 第三节秩和检验 秩和检验的方法·秩和检验的近似 第四节游程检验 游程的概念·游程检验的方法·差符号游程检验 第五节累计频数检验 累计频数检验的方法·累计频数检验的应用 一、填空 1.非参数检验,泛指“对分布类型已知的总体进行参数检验”()的所有检验方法。 2.符号检验的零假设就是配对观察结果的差平均起来等于()。 3.理论研究表明,对于配对样本非正态分布的差值d,()是最佳检验。 4.秩和检验检验统计量U是U1和U2中较()的一个。 5.秩尺度之统计量的均值和标准差只取决于()。 6.()常被用作经验分布与理论分布的比较。 7.绝对值相等的值,应将它们的秩()。 8.符号检验,在分布自由检验中称为()。 9.符号检验和配对符号秩检验,都只适用于()样本。 10.数据序列ABBABAAABABBABBAAAAAB的总游程数是() 二、单项选择 1.下列检验中,不属于非参数统计的方法的是()。 A总体是否服从正态分布 B 总体的方差是否为某一个值 C 样本的取得是否具有随机性 D 两组随机变量之间是否相互独立 2.下列情况中,最适合非参数统计的方法是()。 A反映两个大学新生成绩的差别 B 反映两个大学新生家庭人均收入的差别 C 反映两个大学三年级学生对就业前景的看法差别 D反映两个大学在校生消费水平的差别 3.不属于非参数检验的是()。 A符号检验B游程检验C累计频数检验 D F检验 4.在累计频数检验中,卡方的自由度为()。 A n1 B 2 C n2 D n1+n2
假设检验(二)——非参数检验 假设检验的统计方法,从其统计假设的角度可分为两类:参数检验与非参数检验。上一节我们所介绍的Z 检验、t 检验,都是参数检验。它们的共同特点是总体分布正态,并满足某些总体参数的假定条件。参数检验就是要通过样本统计量去推断或估计总体参数。然而,在实践中我们常常会遇到一些问题的总体分布并不明确,或者总体参数的假设条件不成立,不能使用参数检验。这一类问题的检验应该采用统计学中的另一类方法,即非参数检验。非参数检验是通过检验总体分布情况来实现对总体参数的推断。 非参数检验法与参数检验法相比,特点可以归纳如下: (1)非参数检验一般不需要严格的前提假设; (2)非参数检验特别适用于顺序资料; (3)非参数检验很适用于小样本,并且计算简单; (4)非参数检验法最大的不足是没能充分利用数据资料的全部信息; (5)非参数检验法目前还不能用于处理因素间的交互作用。 非参数检验的方法很多,分别适用于各种特点的资料。本节将介绍几种常用的非参数检验方法。 一.2 χ检验 2χ检验主要用于对按属性分类的计数资料的分析,对于数据资料本身的分布形态不作任何 假设,所以从一定的意义上来讲,它是一种检验计数数据分布状态的最常用的非参数检验方法。 2χ检验的方法主要包括适合性检验和独立性检验。 (一)2 χ检验概述 2χ是实得数据与理论数据偏离程度的指标。其基本公式为: ∑-=e e f f f 2 02 )(χ (公式11—9) 式中,0f 为实际观察次数,e f 为理论次数。 分析公式可知,把实际观测次数和依据某种假设所期望的次数(或理论次数)的差数平方,除以理论次数,求出比值,再将n 个比值相加,其和就是2 χ。观察公式可发现,如果实际观察
第二讲非参数检验 1. 实验目的 1. 了解非参数假设检验基本思想; 2. 会用SAS 软件中的proc nparlway 过程进行非参数假设检验和 proc freq 过程 进行列联表的独立性检验。 2. 实验要求 1. 会用SAS 软件建立数据集,并进行统计分析; 2. 掌握proc nparlway 过程进行非参数假设检验的基本步骤; 3. 掌握proc freq 过程进行列联表的独立性检验的基本步骤。 3. 实验基本原理 3.1符号检验 H 0:两种方法的处理效果无显著性差异 令 li = * 1 第i 个个体中新方法优于对照方法 .0 第i 个个体中新方法劣于对照方法 i=1,2,|||,N 统计里S N N =瓦I i i T S N 表示新方法的处理效果优于对照方法的配对组总数。 若新方法的处理效果显著的优于对 照方法,则S N 的值应明显偏大。因此,若对给定的置信水平 [,有 P 「S N - 八 则拒绝H 0。 1 N N (1) S N 服从二项分布b(N ,-) E(S N ) ,Var (S N ) 。拒绝域为: 2 2 4 'S N S N c ; H 。为真时, (2)由中心极限定理可知,当 的零分布趋于标准正态分布