文档库 最新最全的文档下载
当前位置:文档库 › 04 常用概率分布

04 常用概率分布

第四章 常用概率分布
[教学要求]
了解:质量控制的意义、原理和方法
熟悉:三个常用概率分布的特征。
掌握:掌握三个常用概率分布的概念;二项分布及Poisson分布的概率函数与累计概率、正态分布的分布函数的计算方法;医学参考值的计算。
[重点难点]
第一节 二项分布
一、二项分布的概念与特征
基本概念:如果每个观察对象阳性结果的发生概率均为?,阴性结果的发生概率均为(1-?);而且各个观察对象的结果是相互独立的,那么,重复观察n个人,发生阳性结果的人数X的概率分布为二项分布,记作B(n,π)。
二项分布的概率函数:

二项分布的特征:
二项分布图的形态取决于?与n,高峰在?=n?处。当?接近0.5时,图形是对称的;?离0.5愈远,对称性愈差,但随着n的增大,分布趋于对称。
二项分布的总体均数为
方差为
标准差为
如果将出现阳性结果的频率记为
则 的总体均数为
标准差为

二、二项分布的应用
二项分布出现阳性的次数至多为k次的概率为


出现阳性的次数至少为k次的概率为

第二节 Poisson分布的概念与特征
一、Poisson分布的概念与特征
基本概念:Poisson分布可以看作是每个观察对象阳性结果的发生概率?很小,而观察例数n很大时的二项分布。除二项分布的三个基本条件以外,Poisson分布还要求? 接近于0。有些情况?和n都难以确定,只能以观察单位(时间、空间、面积等)内某种稀有事件的发生数X来近似。
Poisson分布的概率函数:

式中, 为Poisson分布的总体均数,X为观察单位内某稀有事件的发生次数,e为自然对数的底, 为常数,约等于2.71828。
Poisson分布的特征
Poisson分布当总体均数 值小于5时为偏峰, 愈小分布愈偏,随着 增大,分布趋向对称。
Poisson分布的总体均数与总体方差相等, 均为 ,且Poisson分布的观察结果具有可加性。
特点:凡个体有传染性、聚集性,均不能视为二项分布或Poisson分布。
三、Poisson分布的应用
如果某稀有事件发生次数的总体均数为λ,那么发生次数至多为k次的概率为


发生次数至少为k次的概率为
第三节 正态分布
一、正态分布的概念
基本概念:正态分布是自然界最常见的一种分布,正态分布的特点是中间频数最多,两边频数渐少且对称。
正态分布的密度函数:

其中, 为总体均数, 为总体标准差
正态分布密度曲线的特点:
(1) 关于x= 对称。
(2)在x=μ处取得该概率密度函数的最大值,在 处有拐点,表现为钟形曲线。
(3)曲线下面积为1。
(4) 决定曲线在横轴上的位置

, 增大,曲线沿横轴向右移;反之, 减小,曲线沿横轴向左移。
(5) 决定曲线的形状,当 恒定时, 越大,数据越分散,曲线越“矮胖”’; 越小, 数据越集中,曲线越‘瘦高’。
二、 正态曲线下面积的分布规律
标准正态分布:总体均数为0、总体标准差为1的正态分布称为标准正态分布,用 表示。
对任意一个服从正态分布 的随机变量X,经过如下的标准化变换

可以转变为标准正态分布。
正态曲线下面积的分布规律由标准正态分布曲线下面积分布表给出。标准正态分布的分布函数值等于标准正态曲线下Z值左侧的面积,记作 。
按正态分布规律,标准正态曲线下面积分布规律为:
单侧:P(Z ? ?Z?)=? 或P(Z ? Z?)=?
双侧:P(Z ? ?Z?/2)+P(Z ? Z?/2)=?

三、正态分布的应用
(一)确定医学参考值范围
基本概念:医学参考值范围是指特定的“正常”人群(排除了对所研究指标有影响的疾病和有关因素的特定人群)的解剖、生理、生化指标及组织代谢产物含量等数据中大多数个体取值所在的范围。人们习惯用该人群中95%的个体某项医学指标的取值范围作为该指标的医学参考值范围。
计算方法:确定医学参考值范围的方法有两种:
(1)百分位数法 双侧95%医学参考值范围是 ,单侧范围是P95以下(如血铅、发汞),或P5以上(如肺活量)。该法适用于任何分布类型的资料。
(2)正态分布法 若X服从正态分布,医学参考值范围还可以依正态分布规律计算。正态分布资料双侧医学参考值范围一般按下式作近似估计:

其中, 和 分别为样本的均数和标准差

(二)二项分布、泊松分布的正态分布近似
1.二项分布的正态近似 随着n的增大,二项分布趋于对称。理论上可以证明:当n相当大时,只要π不太靠近0或1, 特别是当nπ和n(1-π)都大于5时,二项分布近似于正态分布。
由于二项分布为离散型变量分布,为了借用连续型变量的分布函数计算概率,要对概率函数作校正。
二项分布累计概率的正态近似计算公式为:


2.Poisson分布的正态近似
随着总体均数 的增大,Poisson分布趋向对称。理论上可以证明, 随着 ,Poisson分布也渐近正态分布。一般,当 时Poisson分布资料可按正态分布处理。
和二项分布相同,Poisson分布也是离散型变量分布。为了借用连续型变量的分布函数计算概率,也要对概率函数作校正。校正后Poisson分布的正态近似计算方法为



[案例讨论参考答案]
案例4-1 该案例问题在于艾滋病是传染病,观察单位在是否感染方面互不

立,不管感染人数有多么少都不能按Poisson分布问题处理。


[电脑实验程序及结果解释]
实验4-1 概率及累积概率的计算
程序4-1 概率及累积概率的计算
01 DATA exam6; 建立sas数据集exam6;
02 n=150;prob=0.13; 指定二项分布的n和π;
03 p11=PROBBNML(prob,n,2); 计算至多感染2名的概率;
04 p12=1- PROBBNML (prob,n,1); 计算至少感染2名的概率;
05 p13=1- PROBBNML (prob,n,19); 计算至少感染20名的概率;
06 PROC PRINT; 输出数据集exam6的内容;
07 DATA exam7_8; 建立数据集exam7_8;
08 m=0.96; 指定Poisson分布的总体均数m;
09 p21=PDF('POISSON',4,m); 计算4人患病的概率;
10 p22=POISSON(m,4); 计算至多4人患病的概率;
11 p23=1-POISSON(m,4); 计算至少5人患病的概率;
12 PROC PRINT; 输出数据集exam7_8的内容;
13 DATA exam10; 建立数据集exam10;
14 mean=123.02; std=4.79; 指定正态分布的总体均数mean和标准差std;
15 p31=1-CDF('NORMAL',130,mean,std); 计算身高130cm以上者占总数的百分比;
16 p32=CDF('NORMAL',128,mean,std) 计算身高120cm~128cm者占总数的百分比;
17 -CDF('NORMAL',120,mean,std);
18 rangel=mean-PROBIT(0.9)*std; 计算80%参考值范围的下限;
19 range2=mean+PROBIT(0.9)*std; 计算80%参考值范围的上限;
20 PROC PRINT; RUN; 输出计算结果;运行程序;
说明:改变语句行02,08行,可任意设定二项分布的n、π和Poisson分布的总体均数,09、10、11行中的人数根据需要任意设定。
运行结果:
Output窗口:
Obs n prob p11 p12 p13
1 150 0.13 .000000231 1.00000 0.48798
Obs m p21 p22 p23
1 0.96 0.013550 0.99692 .003082683
Obs mean std p31 p32 rangel range2
1 123.02 4.79 0.072530 0.58656 116.881 129.159
实验4-2 正态近似法的计算
程序4-2 正态近似法的计算
01 DATA norm1; 建立sas数据集norm1;
02 mean=19.5 ; std=4.12; 指定总体均数mean和标准差std;
03 x1=20; 为随机变量x1赋值;
04 z1=(x1-0.5 -mean)/std; 对x1进行标准化正态变换;
05 p1=1-PROBNORM(z1); 求标准正态分布中取值大于z1的概率;
06 KEEP x1 p1 ; 指定数据集中只包含变量x1和p1;
07 PROC PRINT; 输出当前数据集的内容;
08 RUN; 运行上述程序;
09 DATA norm2; 建立数据集norm2;
10 mean=360 ; std=sqrt(mean); 指定Poisson分布近似的正态分布的总体均数和标准差;
11 x2=400 ; 指定随机变量x2的值;
12 z2=(x2-0.5-mean)/std; 对x2进行标准化正态变换;
13 p2=1-PROBNORM(z2); 求取值大于z2的概率;
14 KEEP x2 p2 ; 指定数据集中只包含变量x2和p2;
15 PROC PRINT; 输出当前数据集的内容;
16 RUN; 运行;
说明:改变语句行02、03、10和11行,可设定任意均数、标准差和随机变量值。
运行

结果:
Output窗口:
Obs x1 p1
1 20 0.5
Obs x2 p2
1 400 0.018679
实验4-3 正态分布的两个参数 与 的意义和作用
程序4-3 正态分布的两个参数 与 的意义和作用
01 DATA stdnorm1; 建立sas数据集stdnorm1;
02 m1=-1; m2=1; m3=2; 指定总体均数m1、m2和m3;
03 pi=3.1415926; c=1/SQRT(2*pi); 为π赋值;计算常量 ;04 DO u=-4 TO 5 BY 0.05; 设立循环,循环变量u从-4增加到5,每次加0.05;
05 f0=c*EXP(-u**2/2); 计算u对应的正态分布N(0,1)的密度函数值f0;
06 f1=c*EXP(-(u-m1)**2/2); 计算u对应的N(m1,1)的密度函数值f1;
07 f2=c*EXP(-(u-m2)**2/2); 计算u对应的N(m2,1)的密度函数值f2;
08 f3=c*EXP(-(u-m3)**2/2); 计算u对应的N(m3,1)的密度函数值f3;
09 OUTPUT; 将数据写入数据集;
10 END; 结束循环;
11 SYMBOL I=SPLINE; 设置系统作图方式,I=SPLINE定义绘制光滑曲线图;
12 PROC GPLOT; 调用GPLOT过程绘制曲线图;
13 PLOT (f0 f1 f2 f3)*u/OVERLAY; 定义绘图变量,OVERLAY指定将4条正态曲线绘制在一幅图内;
14 DATA stdnorm2; 建立sas数据集stdnorm2;
15 std1=0.5; std2=0.7;std3=0.9; 指定总体标准差std1、std2和std3;
16 pi =3.1415926; c=1/SQRT(2*pi);
17 DO u=-3 TO 3 BY 0.05; 设立循环,循环变量u从-3增加到3,每次加0.05;
18 f0=c*EXP(-u**2/2); 计算u对应的正态分布N(0,1)的密度函数值f0;
19 f1=c/std1*EXP(-u**2/2/std1**2); 计算u对应的正态分布N(0, std1)的密度函数值f1;
20 f2=c/std2*EXP(-u**2/2/std2**2); 计算u对应的正态分布N(0, std2)的密度函数值f2;
21 f3=c/std3*EXP(-u**2/2/std3**2); 计算u对应的正态分布N(0, std3)的密度函数值f3;
22 OUTPUT; 将数据写入数据集;
23 END; 结束循环;
24 PROC GPLOT; 调用GPLOT过程绘制曲线图;
25 PLOT (f0 f1 f2 f3) *u /OVERLAY ;
26 RUN; 运行程序;
说明:改变语句行02和15,可设定任意均数和标准差。
运行结果:
Graph窗口:

实验4-4 正态分布的分布特征
程序4-4 正态分布的分布特征
01 DATA ran1; 建立sas数据集ran1;
02 DO i=1 TO 500; 设立500次循环,i从1增加到500,每次加1;
03 x1=NORMAL(0); 产生服从正态分布 的随机数x1;04 x2=2+NORMAL(0); 产生服从正态分布 的随机数x2;05 y1=x1+x2; 产生x1与x2之和y1;
06 y2=x1-x2; 产生x1与x2之差y1;
07 OUTPUT; 写入数据集;
08 END; 结束循环;
09 SYMBOL; 恢复系统默认的绘图设置;
10 PROC GPLOT; 调用GPLOT过程绘制散点图;
11 PLOT (x1 x2 y1 y2)*i; 指定分别绘制x1、x2、y1、y2与i的散点图;
12 PROC GCHART; 调用GCHART过程绘制直方图;
13 VBAR x1 x2 y1 y2/MIDPOINTS=-8 指定绘制x1、x2、y1和y2的直方图,组中值
TO 8 BY 0.5 RAXIS=120 SPACE=0; 从-8到8,组距为0.5,规定纵轴高120,条间距0;
14 RUN; 运行程序;
运行结果


Graph窗口:

x1 x2

y1 y2

x1 x2

y1 y2
从输出结果可以看到,不管是两个正态分布随机变量的和还是差,都会使变异程度加大。
实验4-5 二项分布的分布特征与正态近似
程序4-5 二项分布的分布特征与正态近似
01 DATA bnml; 建立sas数据集bnm1;
02 n=20; prob=0.2; 指定二项分布的n和π;
03 DO m=0 TO 20; 设立循环,循环变量m从0增加到20,每次加1;
04 p=PDF('BINOMIAL',m,prob,n); 计算服从指定二项分布时发生m例阳性的概率;
05 OUTPUT; 写入数据集;
06 END; 结束循环;
07 SYMBOL I=NEEDLE; 设置绘图连线方式为点到水平轴的垂线;
08 PROC GPLOT; 调用GPLOT过程绘垂线图;
09 PLOT p*m; 指定p为纵坐标、m为横坐标;
10 RUN; 运行程序;
说明:改变02行的 和 值,观察不同参数下二项分布的分布规律,考察二项分布的分布特征及与正态分布的关系。
运行结果:
Graph窗口:

实验4-6 Poisson分布的分布特征与正态近似
程序4-6 Poisson分布的分布特征与正态近似
01 DATA poiss; 建立sas数据集poiss;
02 m1=2;m2=4; 指定Poisson分布的总体均数m1和m2;
03 DO n=0 TO 50; 设立循环,循环变量n从0增加到50,每次加1;
04 p1=PDF('POISSON',n,m1); 计算n对应的总体均数为m1的Poisson分布概率值;
05 p2=PDF('POISSON',n,m2); 计算n对应的总体均数为m2的Poisson分布概率值;
06 p12=PDF('POISSON',n,m1+m2); 计算n对应的总体均数为m1+m2的Poisson分布概率值;
07 OUTPUT; 写入数据集;
08 END; 结束循环;
09 SYMBOL I=NEEDLE; 设置绘图连线方式为点到水平轴的垂线;
10 PROC GPLOT; 调用GPLOT过程绘垂线图;
11 PLOT (p1 p2 p12)*n; 指定分别以p1、p2、p12为纵坐标,n为横坐标;
12 RUN; 运行程序;

说明:改变02行数值,可以看到Poisson分布总体均数取不同值时的情况,考察不同参数Poisson分布的分布形态变化及与正态分布的关系,以及Poisson分布的可加性。
运行结果:
Graph窗口:

总体均数为m1的Poisson分布 总体均数为m2的Poisson分布

总体均数为m1+m2的Poisson分布

[思考与练习的参考答案]
一、简答题
1.二项分布、Poisson分布是离散型概率分布,用概率函数描述其分布状况,而正态分布是连续型概率分布,用密度函数和分布函数描述其分布状况。Poisson分布可以视为是 很大而 很小的二项分布。当 很大而 和1- 都不是很小的时候二项分布渐近正态分布,当 的时候Poisson分布渐近正态分布。
2.控制图的基本原理是:如果某一波动仅仅由个体差异或随机测量误差所致,那么观察结果服从正态分布;

依据标准正态分布曲线下面积的分布规律性,确定出现概率非常小的若干情况作为异常标准,如果出现相应结果则判为异常。
3.因为医学参考值范围是指特定的人群(排除了对所研究指标有影响的疾病和有关因素的特定人群)的解剖、生理、生化指标及组织代谢产物含量等数据的取值范围。习惯用该人群95%的个体某项医学指标的取值范围作为医学参考值范围。对于过大、过小均属不正常的情形取双侧。观察值出现在均数±1.96倍标准差范围内的概率为95%,所以双侧正态分布资料的医学参考值范围定为均数±1.96倍标准差。
二、分析计算题
1.计算二项分布的概率函数,没有1名气虚型的概率为0.00002,有4名气虚型的概率为0.021。
2.计算二项分布的概率函数和累计概率,恰有1丸潮解的概率为0.37,不超过1丸潮解的概率为0.66,有1至3丸潮解的概率为0.68。
3.计算Poisson分布的概率函数和累计概率,取1毫升该溶液,内含大肠杆菌2个的概率为0.224, 低于2个的概率为 0.199。
4.某人群中12岁男孩身高的分布近似于正态分布,均数为144.00cm,标准差为5.77cm。
(1) 该人群中80%的12岁男孩身高集中在144±1.28×5.77,即(136.6,
151.4)。
(2) 该人群中12岁男孩身高的95%参考值范围为144±1.96×5.77即(132.7,
155.3),99%参考值范围为(129.1,158.9)。
(3) 该人群中12岁男孩身高低于140cm的概率为 。
(4) 该人群中12岁男孩身高超过160cm的概率为

5. 计算Poisson分布的概率函数和累计概率, ,没有发现白血病患者的概率为0.018,发现白血病患者不超过3人的概率0.433。
6. Poisson分布的正态近似计算


[补充练习题]
一、选择题
(一)A1型:每一道题下面有A、B、C、D、E五个备选答案,请从中选择一个最佳答案。

1. 随机变量X服从正态分布 ,Y服从正态分布 ,X与Y独
立,则X-Y服从 。
A. B. C. D. E. 以上均不对

2. 标准正态分布的均数与标准差是 。
A. 0 ,1 B. 1 ,0 C. 0 ,0 D. 1 ,1 E. 0.5 ,1

3. 正态分布的两个参数μ与σ, 对应的正态曲线愈趋扁平。
A.μ愈大 B.μ愈小 C.σ愈大 D.σ愈小 E.μ愈小且σ愈小

4. 正态分布的两个参数μ与σ, 对应的正态曲线平行右移。
A. 增大μ B. 减小μ C. 增大σ D. 减小σ E. 增大μ同时增大σ

5.二项分布的概率分布图在 条件下为对称图形。
A. B. C. D. E.

6. 的均数等于方差。
A. 正态分布 B. 二项分布 C. 对称分布 D. Poisson分布 E. 以上均不对

7.设X1,X2分别服从以 为均数的Poisson分布,且X1与X2独立,则X1+X2服从以 为方差的Poisson分布。
A

. B. C. D. E.

8.满足 时,二项分布 近似正态分布。
A. 和 均大于等于5 B. 或 大于等于5
C. 足够大 D. n>50 E. π足够大

9.满足 时,Poisson分布 近似正态分布。
A. 无限大 B. >20 C. =1 D. =0 E. =0.5

10.满足 时,二项分布 近似Poisson分布。
A. n很大且π接近0 B. n→∞ C. 或 大于等于5
D. n很大且π接近0.5 E. π接近0.5

(二)A2型:该题以一个小案例出现,其下面都有A、B、C、D、E五个备选答案,请从中选择一个最佳答案。

观察某地100名12岁男孩身高,均数为138.00cm,标准差为4.12cm, Z=(128.00-138.00)/4.12 。Φ(Z)是标准正态分布的分布函数,1-Φ(Z)=1-Φ(-2.43)=0.9925 ,结论是 。

A.理论上身高低于138.00cm的12岁男孩占99.25%。
B.理论上身高高于138.00cm的12岁男孩占99.25%。
C.理论上身高在128.00cm至138.00cm的12岁男孩占99.25%。
D.理论上身高低于128.00cm的12岁男孩占99.25%。
E.理论上身高高于128.00cm的12岁男孩占99.25%。

(三)A3/A4型:以下提供若干案例,每个案例下设若干道题目。请根据题目所提供的信息,在每一道题下面的A、B、C、D、E五个备选答案中选择一个最佳答案。

研究人员为了解某地居民发汞的基础水平,为汞污染的环境监测积累资料,调查了留住该市一年以上,无明显肝、肾疾病,无汞作业接触史的居民230人的发汞含量如下表所示:
发汞值
(μmo1/kg) 1.5- 3.5- 5.5- 7.5- 9.5- 11.5- 13.5- 15.5- 17.5- 19.5-
人 数 20 60 60 46 18 16 6 1 0 3

1.据此确定该地居民发汞值的95%医学参考值范围是 (P2.5,P97.5)。
对于以上结论,你的看法是 。
A. 错误,应该计算单侧医学参考值范围< P95
B. 错误,应该计算单侧医学参考值范围> P5
C. 错误,应该计算
D. 错误,应该计算小于
E. 正确

2. 该地居民发汞值的95%医学参考值范围为(0, 13.5)。对于以上结论,你的看法是 。
A. 错误,95%医学参考值范围应该是双侧的
B. 错误,95%医学参考值范围应该是 >13.5
C. 错误,应该计算
D. 错误,应该计算小于
E. 错误,应该是95.7%医学参考值范围

为了解某城市7岁男童身高的发育情况, 随机抽查该市区110名7岁男童,平均身高为119.95cm, 标准差为4.72cm。
3.用算式119.95±1.28′4.72计算得到的区间,可以解释为:理论上__________的7岁男童身高在此范围内。
A. 95%
B. 80%
C. 90%
D. 10%
E. 20%
4.理论上90%的7岁男童身高集中在 。
A.119.95±1.28′4.72
B.119.95±1.64′4.72
C.119.95±0.13′4.72
D.119.95±1.96′4.72
E.119.95±2.58′4.72
(四)

B1型:以下提供若干组题目,每组题目共用题目前列出的A、B、C、D、E五个备选答案。请从中选择一个与问题关系最密切的答案。某个备选答案可能被选择一次、多次或不被选择。
A. 不满足Poisson分布或二项分布条件
B. 不满足正态近似条件
C. 计算错误
D. 没作连续性校正
E. 分析正确

1. 2003年上半年,某地区10万人中出现非典型性肺炎患者23人。据此推断该地10万人口中出现非典型性肺炎发病人数不低于20人的概率为
对于以上分析,你的看法是 。

2.某地初中学生近视眼患病率为15%,观察该地200名初中学生,其中有20名以上近视眼患者的概率为

=1-Φ(-1.98)=1-0.0239=0.9761
对于以上分析,你的看法是 。

二、是非题
1. 对称分布与正态分布等价。( )
2. 随机掷一枚骰子,出现的点子数服从二项分布。 ( )
3. 当n→∞时,二项分布概率分布图是对称的。 ( )
4. 如果标准差大于均数,那么一定不符合正态分布。 ( )
5. 正态分布 的密度曲线下,横轴上,μ+σ右侧面积是0.1587。 ( )

[参考答案]
一、选择题
(一) 1.C 2.A 3.C 4.A 5.B 6.D 7.B 8.A
9.B 10.A
(二) E
(三) 1.A 2.E 3.B 4.B
(四) 1.A 2.D

二、是非题
1. × 2.× 3. √ 4. × 5.√







相关文档