文档库 最新最全的文档下载
当前位置:文档库 › 伯努利分布参数p的区间估计 _ 负二项分布 - F分布法

伯努利分布参数p的区间估计 _ 负二项分布 - F分布法

伯努利分布参数p的区间估计 _ 负二项分布 - F分布法
伯努利分布参数p的区间估计 _ 负二项分布 - F分布法

泊松分布的概念及表和查表方法

泊松分布的概念及表和查表方法 Poisson分布,是一种统计与概率学里常见到的离散概率分布,由法国数学家西莫恩·德 目录 1命名原因 2分布特点 3关系 4应用场景 5应用示例 6推导 7形式与性质

命名原因 泊松分布实例 泊松分布(Poisson distribution),台译卜瓦松分布(法语:loi de Poisson,英语:Poisson distribution,译名有泊松分布、普阿松分布、卜瓦松分布、布瓦松分布、布阿松分布、波以松分布、卜氏分配等),是一种统计与概率学里常见到的离散机率分布(discrete probability distribution)。泊松分布是以18~19 世纪的法国数学家西莫恩·德尼·泊松(Siméon-Denis Poisson)命名的,他在1838年时发表。这个分布在更早些时候由贝努里家族的一个人描述过。 分布特点 泊松分布的概率函数为: 泊松分布的参数λ是单位时间(或单位面积)内随机事件的平均发生次数。泊松分布适合于描述单位时间内随机事件发生的次数。 泊松分布的期望和方差均为特征函数为 关系 泊松分布与二项分布 泊松分布 当二项分布的n很大而p很小时,泊松分布可作为二项分布的近似,其中λ为np。通常当n≧20,p≦0.05时,就可以用泊松公式近似得计算。 事实上,泊松分布正是由二项分布推导而来的,具体推导过程参见本词条相关部分。应用场景

在实际事例中,当一个随机事件,例如某电话交换台收到的呼叫、来到某公共汽车站的乘客、某放射性物质发射出的粒子、显微镜下某区域中的白血球等等,以固定的平均瞬时速率λ(或称密度)随机且独立地出现时,那么这个事件在单位时间(面积或体积)内出现的次数或个数就近似地服从泊松分布P(λ)。因此,泊松分布在管理科学、运筹学以及自然科学的某些问题中都占有重要的地位(在早期学界认为人类行为是服从泊松分布,2005年在nature上发表的文章揭示了人类行为具有高度非均匀性)。 应用示例 泊松分布适合于描述单位时间(或空间)内随机事件发生的次数。如某一服务设施在一定时间内到达的人数,电话交换机接到呼叫的次数,汽车站台的候客人数,机器出现的故障数,自然灾害发生的次数,一块产品上的缺陷数,显微镜下单位分区内的细菌分布数等等。 观察事物平均发生m次的条件下,实际发生x次的概率P(x)可用下式表示: 例如采用0.05J/㎡紫外线照射大肠杆菌时,每个基因组(~4×106核苷酸对)平均产生3个嘧啶二体。实际上每个基因组二体的分布是服从泊松分布的,将取如下形式: …… 是未产生二体的菌的存在概率,实际上其值的5%与采用0.05J/㎡照射时的大肠杆菌uvrA-株,recA-株(除去既不能修复又不能重组修复的二重突变)的生存率是一致的。由于该菌株每个基因组有一个二体就是致死量,因此就意味着全部死亡的概率。 推导 泊松分布是最重要的离散分布之一,它多出现在当X表示在一定的时间或空间内出现的事件个数这种场合。在一定时间内某交通路口所发生的事故个数,是一个典型的例子。泊松分布的产生机制可以通过如下例子来解释。

负二项分布(研究生)

负二项分布(Negative Binomial Regression)福建医科大学流行病与统计教研室

负二项分布(Negative Binomial Regression)Introduction Scott Long notes that the Poisson regression model rarely fits in practice since in most applications the variance of the count data is greater than the mean

NB Distribution One, the variance of the NB distribution exceeds the variance of the Poisson distribution for a given mean Two, the increased variance of the NB regression model results in substantially larger probabilities for small counts Finally, in the NB distribution there are slightly larger probabilities for larger counts .

负二项分布的概念 常用于描述生物的群聚性,如钉螺在土壤的 分布、昆虫的空间分布等。医学上可用于描述传染性疾病的分布和致病生物的分布,在毒理学上 显性致死试验或致癌试验。 独立重复试验次数n 不固定,n=X+k ,k 为大于0的常数。 若要求X+K 次试验,出现“阳性”的次数恰为X 次的概率分布为负二项分布:k -? ?? ?? ???? ??-+ππ111

二项分布经典例题+测验题

二项分布 1.n 次独立重复实验 一般地,由n 次实验构成,且每次实验相互独立完成,每次实验的结果仅有两种对立的状态,即A 与A ,每次实验中()0P A p =>。我们将这样的实验称为n 次独立重复实验,也称为伯努利实验。 (1)独立重复实验满足的条件第一:每次实验是在同样条件下进行的;第二:各次实验中的事件是互相独立的;第三:每次实验都只有两种结果。 (2)n 次独立重复实验中事件A 恰好发生k 次的概率 ()P X k ==(1)k k n k n C p p --。 2.二项分布 若随机变量X 的分布列为()P X k == k k n k n C p q -,其中 0 1.1,0,1,2,,,p p q k n <<+==则称X 服从参数为,n p 的二项分布,记作(,)X B n p 。 1.一盒零件中有9个正品和3个次品,每次取一个零件,如果取出的次品不再放回,求在取得正品前已取出的次品数X 的概率分布。 3.甲乙两人各进行3次射击,甲每次击中目标的概率为2 1,乙每次击中目标的概率为3 2 . (1)记甲击中目标的此时为ξ,求ξ的分布列及数学期望; (2)求乙至多击中目标2次的概率; (3)求甲恰好比乙多击中目标2次的概率. 【巩固练习】 1.(2012年高考(浙江理))已知箱中装有4个白球和5个黑球,且

规定:取出一个白球的2分,取出一个黑球的1分.现从该箱中任取(无放回,且每球取到的机会均等)3个球,记随机变量X为取出3球所得分数之和. (Ⅰ)求X的分布列。 (Ⅱ)求X的数学期望E(X). 2.(2012年高考(重庆理))(本小题满分13分,(Ⅰ)小问5分,(Ⅱ)小问8分.) 甲、乙两人轮流投篮,每人每次投一球,.约定甲先投且先投中者获胜,一直到有人获胜或每人都已投球3次时投篮结束.设甲每次投 篮投中的概率为1 3,乙每次投篮投中的概率为1 2 ,且各次投篮互不 影响. (Ⅰ) 求甲获胜的概率。 (Ⅱ) 求投篮结束时甲的投篮次数 的分布列与期望 3.设篮球队A与B进行比赛,每场比赛均有一队胜,若有一队胜 4场则比赛宣告结束,假定,A B在每场比赛中获胜的概率都是1 2 , 试求需要比赛场数的期望. 3.(2012年高考(辽宁理))电视传媒公司为了了解某地区电视观众对某类体育节目的收视情况,随机抽取了100名观众进行调查. 下面是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图。

数学分布(泊松分布、二项分布、正态分布、均匀分布、指数分布) 生存分析 贝叶斯概率公式 全概率公式讲解

数学期望:随机变量最基本的数学特征之一。它反映随机变量平均取值的大小。又称期望或均值。它是简单算术平均的一种推广。例如某城市有10万个家庭,没有孩子的家庭有1000个,有一个孩子的家庭有9万个,有两个孩子的家庭有6000个,有3个孩子的家庭有3000个,则此城市中任一个家庭中孩子的数目是一个随机变量,记为X,它可取值0,1,2,3,其中取0的概率为0.01,取1的概率为0.9,取2的概率为0.06,取3的概率为0.03,它的数学期望为0×0.01+1×0.9+2×0.06+3×0.03等于1.11,即此城市一个家庭平均有小孩1.11个,用数学式子表示为:E(X)=1.11。 也就是说,我们用数学的方法分析了这个概率性的问题,对于每一个家庭,最有可能它家的孩子为1.11个。 可以简单的理解为求一个概率性事件的平均状况。 各种数学分布的方差是: 1、一个完全符合分布的样本 2、这个样本的方差 概率密度的概念是:某种事物发生的概率占总概率(1)的比例,越大就说明密度越大。比如某地某次考试的成绩近似服从均值为80的正态分布,即平均分是80分,由正态分布的图形知x=80时的函数值最大,即随机变量在80附近取值最密集,也即考试成绩在80分左右的人最多。 下图为概率密度函数图(F(x)应为f(x),表示概率密度):

离散型分布:二项分布、泊松分布 连续型分布:指数分布、正态分布、X 2分布、t 分布、F 分布 抽样分布只与自由度,即样本含量(抽样样本含量)有关 二项分布(binomial distribution ):例子抛硬币 1、 重复试验(n 个相同试验,每次试验两种结果,每种结果概率恒定————伯努利试验) 2、 抽样分布

随机变量及其分布考点总结

第二章 随机变量及其分布 复习 一、随机变量. 1. 随机试验的结构应该是不确定的.试验如果满足下述条件: ①试验可以在相同的情形下重复进行;②试验的所有可能结果是明确可知的,并且不止一个;③每次试验总是恰好出现这些结果中的一个,但在一次试验之前却不能肯定这次试验会出现哪一个结果. 它就被称为一个随机试验. 2. 离散型随机变量:如果对于随机变量可能取的值,可以按一定次序一一列出,这样的随机变量叫做离散型随机变量.若ξ是一个随机变量,a ,b 是常数.则b a +=ξη也是一个随机变量.一般地,若ξ是随机变量,)(x f 是连续函数或单调函数,则)(ξf 也是随机变量.也就是说,随机变量的某些函数也是随机变量. 3、分布列:设离散型随机变量ξ可能取的值为:ΛΛ,,,,21i x x x ξ取每一个值),2,1(Λ=i x 的概率p x P ==)(,则表称为随机变量ξ的概率分布,简称ξ的分布列. 121i 注意:若随机变量可以取某一区间内的一切值,这样的变量叫做连续型随机变量.例如:]5,0[∈ξ即ξ可以取0~5之间的一切数,包括整数、小数、无理数. 典型例题: 1、随机变量ξ的分布列为(),1,2,3(1) c P k k k k ξ== =+……,则P(13)____ξ≤≤= 2、袋中装有黑球和白球共7个,从中任取两个球都是白球的概率为1 7 ,现在甲乙两人从袋中轮流摸去一 球,甲先取,乙后取,然后甲再取……,取后不放回,直到两人中有一人取到白球时终止,用ξ表示取球的次数。(1)求ξ的分布列(2)求甲取到白球的的概率 3、5封不同的信,放入三个不同的信箱,且每封信投入每个信箱的机会均等,X 表示三哥信箱中放有信件树木的最大值,求X 的分布列。 4 已知在全部50人中随机抽取1人抽到喜爱打篮球的学生的概率为5 . (1)请将上面的列联表补充完整; (2)是否有99.5%的把握认为喜爱打篮球与性别有关?说明你的理由; (3)已知喜爱打篮球的10位女生中,12345,,A A A A A ,,还喜欢打羽毛球,123B B B ,,还喜欢打乒乓球,12C C ,还喜欢踢足球,现再从喜欢打羽毛球、喜欢打乒乓球、喜欢踢足球的女生中各选出1名进行其他方面的调查,求1B 和1C 不全被选中的概率. (参考公式:2 ()()()()() n ad bc K a b c d a c b d -=++++,其中n a b c d =+++)

伯努利分布参数p的区间估计_F分布法

伯努利分布参数p 的区间估计_F 分布法 本文基于Wolfram Mathematica 9,在证明伯努利分布与二项分布的关系、 二项分布与F 分布关系的基础上,给出了伯努得分布参数p 的经典等尾置信区间和区间长度,以及最短置信区间和区间长度的求法,并通过程序实现。 定理一:n 个独立同伯努利分布B p 的和服从二项分布B n,p : CharacteristicFunction BinomialDistribution n,p ,t CharacteristicFunction BernoulliDistribution p ,t n 1 p t p n 1 p t p n 0定理二:二项分布B n,p 与F 分布F n 1,m 的分布函数分别记为F B n,p k 和F F n 1,m x ,则有F B n,p k F F 2 n k ,2 k 1 。 In[101]:=Assuming n 0&&0 p 1&&k Integers &&0 k n,CDF BinomialDistribution n,p ,k Assuming n 0&&0 p 1&&k Integers &&0 k n, CDF FRatioDistribution 2 n k ,2 k 1 ,k 1n k 1 p p FullSimplify FullSimplify ,k Integers &&0 k n &&0 p 1 Out[101]=BetaRegularized 1 p,n Floor k ,1 Floor k 0 k n 1k n 0True Out[102]= BetaRegularized 1 p, k n,1 k 1 k k n 1 p p 00True Out[103]=0 推论:由F 分布的性质知F F Α,Β p 1 F Β,Α , 从而得F B n,p k F F 2 n k ,2 k 1 1 F F 2 k 1 ,2 n k 。伯努利分布B p 参数p 的经典置信区间: 设X 1,X 2, ,X n 为伯努利分布B p 总体的一个i.i.d.n 为样本容量, k i 1n X i 为成功数,根据定理一,知k B n,p 。 参数p 的置信水平为1 Α的经典等尾置信区间的下限和上限由F B n,p k 1 1 Α Β和F B n,p k Β决定,其中0 Β Α。根据定理二及其推论,得到 F B n,p k 1

广义负二项分布

两参数广义负二项分布的参数估计 摘 要:讨论了在两参数场合下广义负二项分布的矩估计和极大似然估计问题,构造了矩方程和极大似然方程,得出了矩估计和极大似然估计。 关键词:广义负二项分布;矩估计;极大似然估计; 1.引言 文献[1]求出了单参数广义负二项分布的最小方差无偏估计并对其做出了区间估计。本文在此文的基础上结合构造样本矩的方法对广义负二项分布做出了矩估计和极大似然估计。 2.基本知识 设离散型随机变量X 的分布函数为 0000(,)(1)m x x x x m x m P m x x ββθβθθβ+-+??=- ?+?? (1.1.1) 0,1,2,3,x = ,其中,θβ为参数且01,0θβ<<=或11βθ-≤≤,0m 为常数且00m >。当0β=时,概率模型(1.1.1)即为二项分布; 当1β=时,概率模型(1.1.1)即为负二项分布。 由概率的正则性公理可得: (,)1x x P θβ∞==∑ 即00000(1)1m x x x x m x m m x x ββθθβ∞+-=+??-= ?+??∑ 00(1)10000[(1)](1)(1)m x x m x xm EX m m x x ββθθθθθββ∞--=+??∴=--=- ?+? ?∑ (1.1.2) 同理可求得:222232 00003(1)m m m m EX θθθθβθβ-+-=- 2230()(1)(1)VarX EX EX m θθθβ-∴=-=-- (1.1.3) 3.构造矩方程 设随机变量X 服从(1.1.1)定义的广义负二项分布,12,,,n x x x 是取自于总体X 的一 个容量大小为n 的样本,1n i i x x =∴=∑为样本均值,样本方差为:2 211()1n i i S x x n ==--∑ 2,EX x VarX S == 10(1)m x θθβ-∴-= (1.1.4) 320(1)(1)m S θθθβ---= (1.1.5)

二项分布与正态分布的特点及联系

二项分布与正态分布的特点及他们的联系 2008-05-23 09:22:10| 分类:数学|举报|字号订阅 正态分布的特点如下: 1.正态分布的形式是对称的,它的对称轴是过平均数点的垂直线,即关于x=u对称。 2.曲线在Z=0处为最高点,向左右延伸时,在正负1个标准差之内,既向下又向内弯。从正负1个标准差开始,既向下又向外弯。拐点位于正负一个标准差处,曲线两端向靠近基线处无限延伸和接近,但不相交。 3.正态分布下的面积为1,过平均数的垂直线将面积分为左右各0.50的部分。正态曲线下的每一面积都可以被看成是概率,即对应着横坐标值的随机变量出现的概率。 4.正态分布是一族分布,它随着随机变量的平均数、标准差的大小与单位不同而有不同的分布形态。但是所有的正态分布都可以通过公式Z=(Xl—M)/S,转换成标准正态分布,即平均数为0,标准差为1的正态分布。 5.在正态分布曲线中,标准差与概率(面积)有一定的关系。 二项分布的特点如下: 1、二项分布的均值为np,方差为npq。 2、以事件A出现的次数为横坐标,以概率为纵坐标,画出二项分布的图象,可以看出: (1)、二项分布是一种离散性分布 (2)、当p=q=0.5时,图象对称;当p不等于q时,图形是偏斜的。p>q 时,呈负偏态; 3、n->∞时,趋近于正态分布N(np,npq)

一般1/2np>=5且nq>=5时,二项分布就非常接近正态分布。 二项分布函数在教育中主要用来判断试验结果的机遇性与真实性的界限,例如,求测验猜测行为的判断标准:在选择题测验中,通过二项分布计算得出被试凭猜测答对N道以上的概率。 阅读(744)|评论(0)

浅析二项分布与泊松分布之间的关系

学年论文 题目:浅析二项分布与泊松分布之间的关系 学生: 学号: 院(系):理学院 专业:信息与计算科学 指导教师:安晓钢 2013 年11月25日

浅析二项分布与泊松分布之间的关系 信息121班; 指导教师:安晓钢 (陕西科技大学理学院 陕西 西安 710021) 摘 要:泊松分布刻画了稀有事件在一段时间内发生次数这一随机变量的分布,如电话交换台单位时间内接到的呼唤次数等。二项分布是n 个独立的是/非试验中成功的次数的离散概率分布。它们有着密切的关系。泊松分布是二项分布的特例。某现象的发生率很小,而样本例数n 很大时,则二项分布接近于泊松分布,即:如果试验次数n 很大,二项分布的概率p 很小,且乘积np =λ比较适中,则事件出现的次数的概率可以用泊松分布来逼近。事实上,二项分布可以看作泊松分布在离散时间上的对应物,是二项分布的特例。通过分析二项分布和泊松分布之间的关系,使学生对概率分布理论的理解更为深刻,能够将学到的理论知识应用在实际生活中,从而提高自己的综合素质。 关 键 词:二项分布, 泊松分布, 近似 The Application of Asignment Poblem ABSTRACT: Poisson distribution is used to depict the distribution of rare events that a random variable frequency over a period of time, such as a telephone exchange in unit time received the call number. The two distribution is n independent / discrete probability distributions of number of successful non trials. They have a close relationship. Poisson distribution is two distribution case. The incidence of the phenomenon is very small, and the number of sample n is large, then the two distribution is close to the Poisson distribution, i.e.: if the test number n is large, the two probability distribution P is small, and the product of lambda = N P is moderate, the probability of the event can be used to force the Poisson distribution near. In fact, the two distribution can be seen as the counterpart of Poisson distribution in discrete time, are the two distribution case. Through the analysis of the relationship between two binomial distribution and Poisson distribution, enables the student to the theory of probability distribution for more profound understanding will be able to learn the application of theoretical knowledge in real life, so as to improve their comprehensive quality. KEY WORDS : Two distribution, Poisson distribution, Approximate

实验十三 二项分布的计算与中心极限定.

实验十三二项分布的计算与中心极限定 [实验目的] 1.研究用Poisson逼近与正态逼近进行二项分布近似计算的条件 2.检验中心极限定理 §1 引言 二项分布在概率论中占有很重要的地位。N次Bernoulli实验中正好出现K次成功的概 率有下式给出b k;n,p C n k p k1p n k ,k=0,1,2,……..n.二项分布的 值有现成的表可查,这种表对不同的n及p给出了b(k;n.p)的数值。在实际应用中。通常可用二项的Poisson逼近与正态逼近来进行二项分布的近似计算。在本实验中,,我们来具体地研究在什么条件下,可用Poisson逼近与正态逼近来进行二项分布的近似计算。 在概率论中,中心极限定理是一个很重要的内容,在本实验中,我们用随即模拟的方法来检验一个重要的中心极限定理——Liderberg-Levi中心极限定理。 §2 实验内容与练习 1.1二项分布的Poisson逼近 用Mathematica软件可以比较方便地求出二项分布的数值。例如n=20;p=0,1;Table[Binomial[n,k]*p^k*(1-p)(n-k),{k,0,20}]给出了b(k;20,0.1)(k=0,1,2,…..,20)的值。 联系 1 用Mathematica软件给出了b(k;20,0.1),b(k;20,0.3)与 b (k;20,0.5)(k=0,1,2,…..,20)的值。 我们可用Mathematica软件画出上述数据的散点图,下面的语句给出了b(k;20.0.1)的(连线)散点图(图13。1): LISTpOLT[table[Binomi al[20,k]*0.1^k*0.9^(20-k), {k,0,20}],PlotJoined->True] 图13.1 b(k;20,0.1) b k;n,p C n k p k1p n k (k=1,1,2,……,20)的散点图 练习2绘出b(l;20,0.3)与b(k;20,0.5)(k=0,1,2,…,20)的散点图 根据下面的定理,二项分布可用Poisson分布来进行近似计算。 定理13。1 在Bernoulli实验中,以P n 代表事件A在试验中出现的概率,它与试验总数有关. 如果np n→→λ,则当n→∞时,b k;n,p k k e 。 由定理13,1在n很大,p很小,而λ=np大小适中时,有 b k;n.p c k n p k1p n k k k e

二项分布与负二项分布

第四周常见随机变量 这一周我们介绍几种常见的随机变量。我们希望能够从各种随机变量产生的机理角度进行说明,从而使它们的性质展开更加自然,同时也能更深入地理解它们之所以常见的内在原因。本周学习的分布包括:二项分布,负二项分布,泊松分布,几何分布,指数分布,正态分布。 ************************************************************ 4.1二项分布与负二项分布 伯努利(Bernoulli)试验 一个随机试验只有“成功”和“失败”两种可能的结果,其中出现“成功”的概率为()01p p <<,则称此随机试验为一个参数为p 的伯努利试验。 由参数为p 的伯努利试验定义一个随机变量X , ,, 10X ?=??伯努利试验成功否则则称X 是参数为p 的伯努利随机变量,或称X 服从参数为p 的伯努利分布。************************************************************ 例4.1.1抛一颗均匀色子,如果出现偶数点称为试验“成功”,出现奇数点为试验“失败”,则随机变量 ,,,10X ?=??抛出的点数为偶数抛出的点数为奇数.是一个参数为12 p =的伯努利随机变量。************************************************************************二项分布 将参数为p 的伯努利试验独立地重复n 次,定义随机变量X 为试验成功的次数,则X 的

分布律为: ???? ??n k p p p p p n k 210210,其中()k p P X k ==k n C =()1n k k p p --,0,1,,k n = 。 此分布即称为二项分布,记为()~,X B n p ,也称X 服从参数为(),n p 的二项分布。 利用二项式定理可验证:() ()00111n n n n k k k k n k k p C p p p p -===-=+-=????∑∑, ************************************************************ 例4.1.2甲、乙两棋手约定进行10局比赛,每局棋甲获胜的概率是0.6,乙获胜的概率为0.4。如果各局比赛独立进行,试问甲获胜、战平和失败的概率? X 表示甲获胜的局数,则() 6.0,10~b X ()()101010650.60.40.6330k k k k P P X C -==>==∑甲胜, ()()41010050.60.40.1663k k k k P P X C -==<==∑乙胜, ()()5551050.60.40.2007P P X C ====战平。 ************************************************************ 例4.1.3一个通讯系统由n 个部件组成,每个部件独立工作且能正常运行的概率均为p ,如果构成系统的部件中至少有一半以上能正常运行,则称系统是“有效”的。试问当p 取何值时,由5个部件组成的系统要比由3个部件组成的系统更有效?解设n 个部件能正常运行的数目为随机变量n X ,则() ~,n X B n p 由5个部件组成的系统是“有效”的概率为:() 52P X >()()()()332445555555552345(1)(1)P X P X P X P X C p p C p p C p >==+=+==-+-+由3个部件组成的系统是“有效”的概率为:() 31P X >

负二项分布参数估计的MM算法

华中师范大学学报(自然科学版) Vol. 53 No. 3 JOURNAL OF CENTRAL CHINA NORMAL UNIVERSITY(Nat . Sci. ) Jun. 2019 第53卷第3期2019年6月 DOI : 10. 19603/j. cnki. 1000-1190. 2019. 03. 001 文章编号:1000-1190(2019)03-0319-05 负二项分布参数估计的MM 算法 刘寅* *收稿日期:2018-10-02. 基金项目:国家自然科学基金项目(11601524.61773401);中南财经政法大学青年教师资助项目(31721811206).* 通讯联系人.E-mail : yliu_1031@https://www.wendangku.net/doc/8f2292092.html, . (中南财经政法大学统计与数学学院,武汉430073) 摘 要:同时求解负二项分布的参数的极大似然估计并不是一件容易的事情,该文利用 Tian, Huang 和Xu 提出的组装分解技术来导出负二项分布中关于未知参数(r,p )的极大似然估 计的MM 算法迭代式.并给出该方法的收敛率的计算公式.随机模拟的结果表明的MM 迭代结果收敛到其极大似然估计.并且随着样本容量的增加,估计的准确性和精确性以及估计的 速度均有显著提高. 关键词:负二项分布;极大似然估计;组装分解技术;MM 算法;收敛率 中图分类号:C81 文献标识码:A 负二项分布又称为Pascal 分布,是概率统计 中的一种非常重要的离散分布.该分布与Poisson 具有相同的观测数据类型,但能够有效克服 Poisson 分布要求总体均值与总体方差相等这一局 限,因此可以更好的模拟实际计数数据中可能存在 的过离散现象. 令 X ?NBinomiaKr, />)(;-〉0,0< p < 1), 则其相应的概率质量函数为 iid 假设 X,?NBinomiaKr,p )异=1,…皿,{x. }?=i 为 其相应的观测值.令丫必、={工】,…,无”},则 (厂,P )的观测数据似然函数为 灯)=口 巩黑和(,'(1-以P n 口 r (x ;+r )/r (r ), 1 = 1 其中& = 2L x '/n -故相应的对数似然函数为 0(厂,p | Y 必)=c * + zzrlog (p ) + log (l — p ) + n 工 iog [『a + 厂)]—wiog [r (r )], (1) 其中,「为与o ,p )无关的标准化常数. 在对负二项分布的参数进行估计时,普遍做法 主要有以下几种: 1)将r 当做常数仅对进行估计⑴;2) 用矩方法估计r.即 r = jc 2/(52 — x ), 其中,孑为样本方差図,再基于;?估计p ; 3) 求解方程组 3Kr,p I Y,a , )/3r = 「0(心 + r ) np (r') + nlog ( 1 — />) = 0 , df (r,p I Y i A s ~)/ap = (工:=]Xi/p )— Ttr/{ \ — p ) =0, 其中,0(_r ) = r (x )/r (a:)称为 digamma 函数. 然而上述方法在实际应用中存在一定的局 限性: 1) 实际中往往并不知道确切的r 是多少,因此 将其当做常数并不合适; 2) 尽管一般对于单参数指数分布族来说.矩 估计和极大似然估计相等,但是对于双参数指数分 布族而言,极大似然估计往往要优于矩估计; 3) 理论上使得a 心p | Y “,)/"= 0的解广存 在,但是求解包含digamma 函数的方程往往并不 容易.虽然牛顿二分法是一个不错的逼近方法,但 找到一个符合二分法使用条件的求解区间可能存 在困难. Adamids 通过将负二项分布看成是对数级数 随机变量的Poisson 和,并借助于对数级数随机变 量与定义在(0,1)上的截断的指数分布随机变量 的符合来构造负二项分布参数估计的EM 算法⑶, 但是该算法较为复杂,对于初学者来说理解上较为

负二项分布的性质特征及在流行病学研究中的应用

负二项分布的性质特征及在流行病学研究中的应用 【摘要】给出了负二项分布的分解定理,进一步研究了负二项分布的有关性质及参数的无偏一致估计,以及在流行病学该分布的生物学意义。 【关键词】负二项分布;无偏一致估计;应用 负二项分布是概率论中常用的重要的离散型随机分布,它在医学中主要用于聚集性疾病及生物、微生物、寄生虫分布模型等的研究。具体地说,当个体间发病概率不相等可以拟合负二项分布,如单位人数内某传染病的发病人数,某地方病、遗传病的发病人数等,这些均可通过负二项分布进行处理。本文从概率论的角度阐述负二项分布的性质及参数的最小方差无偏估计,并且以该分布在流行病学中应用为例证讨论了其生物学意义。 1 负二项分布的概率模型 负二项分布又称帕斯卡分布(Pascal),它有两种基本模型[1]: 模型Ⅰ:假定每次试验可能的结果只有两个:可归结为成功或失败,每次试验之间是独立,每次成功的概率均为π,直到恰好出现r(指定的一个自然数)次成功所需试验次数X,则X的概率分布为: p(X=K)=πCr-1k-1πk-1(1-π)k-r=Cr-1k-1π-(1-π)k-r k=r,r+1 (1) 模型Ⅱ:假定每次试验可能的结果只有两个:可归结为成功或失败,每次试验之间是独立,每次成功的概率均为π,试验进行到r次成功为止,记X为试验共进行的次数,则X 的概率分布为[3]: p(X=k)=Cr-1k+r-1πk(1-π)k k=0,1,2, (2) 此分布的概率是πr(1-(1-π))-r 的幂级数展开式的项,负二项分布由此而得名记作 X~f(k,r,π) ,或 X~NB(r,π) 一个重要的特例是 r=1。这时(2)成为 p(X=k)=π(1-π)k k=0,1,2, (3) 称为几何分布。 2 性质特征 为研究负二项分布的性质,我们先给出一个重要的结论: 引理:设X~NB(r,π),则其特征函数为ψx(t)=πr(1-(1-π)eit)-r 证明:ψx(t)=E(eitx)=∑∞i=0Cr-1i+r-1πr(1-π)i eitr =∑∞i=0Cr-1i+r-1πr((1-π) e)rti =πr∑∞i=0Cr-1i+r-1((1-π) ert)i =πr(1-(1-π)eit)-r 定理1 设: X1,X2,…,Xr(3)的iid样本,如果 X=∑ri=1Xi, 则X=∑ri=1Xi~NB(r,π) 证明:因为X1,X2,…,Xr独立同分布,又有引理知X=∑ri=1Xi的特征函数为:φ(t)=πr(1-(1-π) eit)-r =πr∑∞k=0(-r)(-r01)…(-r-k+1)k! ((1-π) eit)k(-1)keitr =πr∑∞k=0(r+k-1)!(r-1)!k! (1-π)k eit(k+1) =∑∞k=0πr(1-π)k eit(k+r) Cr-1r+k-1 这正是 p(X=k)=Cr-1r+k-1(1-π)k 的概率分布 则X=∑ri=1Xi~NB(r,π)

几种常见的分布

一、常见数据类型 在正式的解释分布之前,我们先来看一看平时遇到的数据。数据可大致分为离散型数据和连续型数据。 离散型数据 离散型数据顾名思义就是只取几个特定的值。例如:当你掷骰子的时候,结果只有1,2,3,4,5,6,不会出现类似1.5,2.5。 连续型数据 在一个给定的范围内,连续型数据可以取任意值。这个范围可以是有限的或者是无穷的。例如:一个人的体重或者身高,可以取值54kg,54.4kg,54.33333kg等等都没有问题。 下面就开始介绍分布的类型。 二、分布类型 伯努利分布(Bernoulli Distribution) 首先从最简单的分布开始,伯努利分布实际上是一个听起来最容易理解的分布。伯努利分布一次实验有两个可能的结果,比如1代表success及0代表failure。随机变量X X一个取值为1并代表成功,成功概率为p p,一个取值为0表示失败,失败概率为q q或者说1?p1?p。 这里,概率分布函数为p x(1?p)1?x px(1?p)1?x,其中x∈(0,1)x∈(0,1),我们也可以写成如下形式: P(x)={1?p,p,x=0x=1P(x)={1?p,x=0p,x=1 成功和失败的概率没必要相同,也就是没必要都是0.5,但是这俩概率加和应该为1,比如可以是下面的图:

这个图就是p(success)=0.15,p(failure)=0.85p(success)=0.15,p(failure) =0.85。 下面说一下随机变量的期望,一个分布的期望就是这个分布的均值。服从伯努利分布的随机变量X X的期望值就是: E(X)=1?p+0?(1?p)=p E(X)=1?p+0?(1?p)=p 服从伯努利分布的随机变量的方差是: V(X)=E(X2)?[E(X)]2=p?p2=p(1?p)V(X)=E(X2)?[E(X)]2=p?p2=p(1?p) 还有许多伯努利分布的例子,比如说明天是否会下雨,今天会不会去健身,明天乒乓球比赛是不是会赢。 均匀分布(Uniform Distribution) 当你掷骰子的时候,结果出现1到6中的任何一个,而任何一个结果出现的概率都是相同的,这就是均匀分布最原始的雏形。你可能看出来了,与伯努利分布不同的是,这n n个出现的结果的概率都是相同的。 一个随机变量X X为均匀分布是指密度函数如下: f(x)=1b?a?∞

高中数学人教版 选修2-3(理科) 第二章 随机变量及其分布 2.2.3独立重复试验与二项分布D卷

高中数学人教版选修2-3(理科)第二章随机变量及其分布 2.2.3独立重复试验与 二项分布D卷 姓名:________ 班级:________ 成绩:________ 一、选择题 (共10题;共19分) 1. (2分) (2016高一下·兰州期中) 从一批羽毛球产品中任取一个,质量小于4.8g的概率是0.3,质量不小于4.85g的概率是0.32,那么质量在[4.8,4.85)g范围内的概率是() A . 0.62 B . 0.38 C . 0.7 D . 0.68 2. (2分)已知随机变量ξ服从二项分布ξ~B(n,p),且E(ξ)=7,D(ξ)=6,则p等于() A . B . C . D . 3. (2分) (2016高二下·邯郸期中) 设随机变量X~B(2,p),Y~B(4,p),若P(X≥1)= ,则P(Y≥1)为() A . B . C .

D . 1 4. (2分) (2017高二下·洛阳期末) 设随机变量X~B(2,p),随机变量Y~B(3,p),若P(X≥1)= ,则D( Y+1)=() A . 2 B . 3 C . 6 D . 7 5. (2分)设随机变量X~B(2,P),随机变量Y~B(3,P),若P(X≥1)=,则D(3Y+1)=() A . 2 B . 3 C . 6 D . 7 6. (2分)随机变量ξ服从二项分布ξ~B(n,p),且Eξ=300,Dξ=200,则p等于() A . B . 0 C . 1 D . 7. (2分)某人射击一次击中目标的概率为0.6,此人射击3次恰有两次击中目标的概率为() A . B .

C . D . 8. (2分) (2017高二下·南阳期末) 设随机变量ξ~B(2,p),随机变量η~B(3,p),若,则Eη=() A . B . C . 1 D . 9. (2分) (2018高二下·黄陵期末) 若随机变量X服从二项分布,且 ,则 =________ , =________. 10. (1分) (2018高二下·枣庄期末) 已知随机变量,且,则 ________. 二、填空题 (共2题;共6分) 11. (1分)已知随机变量X服从二项分布B(n,p),若E(X)=40,D(X)=30,则p=________ 12. (5分)(2019·天津) 设甲、乙两位同学上学期间,每天7:30之前到校的概率均为 .假定甲、乙两位同学到校情况互不影响,且任一同学每天到校情况相互独立. (Ⅰ)用表示甲同学上学期间的三天中7:30之前到校的天数,求随机变量的分布列和数学期望; (Ⅱ)设为事件“上学期间的三天中,甲同学在7:30之前到校的天数比乙同学在7:30之前到校的天数恰好多2”,求事件发生的概率. 三、解答题 (共2题;共20分) 13. (10分)(2019·大连模拟) 随着电子阅读的普及,传统纸质媒体遭受到了强烈的冲击.某杂志社近9

统计分布临界值表

附录 附表一:随机数表 _________________________________________________________________________ 2附表二:标准正态分布表 ___________________________________________________________________ 3附表三:t分布临界值表____________________________________________________________________ 4 附表四: 2 分布临界值表 __________________________________________________________________ 5 附表五:F分布临界值表(α=0.05)________________________________________________________ 7附表六:单样本K-S检验统计量表___________________________________________________________ 9附表七:符号检验界域表 __________________________________________________________________ 10附表八:游程检验临界值表 _________________________________________________________________ 11附表九:相关系数临界值表 ________________________________________________________________ 12附表十:Spearman等级相关系数临界值表 ___________________________________________________ 13附表十一:Kendall等级相关系数临界值表 ___________________________________________________ 14附表十二:控制图系数表 __________________________________________________________________ 15

相关文档