文档库 最新最全的文档下载
当前位置:文档库 › 数理统计学小史08

数理统计学小史08

数理统计学小史08
数理统计学小史08

数理统计学小史

陈希孺

(中国科技大学研究生院)

8.社会统计

“官厅统计”现在已经是一个很流行的名词,广义地说,它包含国家所建立的统计工作体系及其收集、整理、分析和发布有关国情的数据资料的工作,比较狭义的含义就是指官方(政府)所发布的统计资料,如某一时期经济增长率和失业率之类。在民间社会发达的国家,一些非官方机构,如工会、商会、教会和大学及专门学会、新闻机构之类,也在特定的领域内从事收集、整理和发布数据的工作。

虽然这种工作只是在近代随着种种条件的改进才变得日趋完善,其比较原始的形态一定有着非常悠久的历史。我国古籍中常见有关于人口、钱粮以及地震和水旱灾等的记录。在西方,据记载在共和罗马时期,4年一度对每个家庭的人口和财产进行普查登记,而奥古斯都将这种普查推广到整个罗马帝国。随着后者的衰亡,这种活动也告停止,直到18世纪才恢复。当然,这种活动与统计学作为一门学科的建立还不能划等号,但其促进作用是无可否认的,学者们指出,现今通行的“统计学(Statistics)一词源出于意大利文Stato,其词根兼有“国家”和“情况”的意义。(statistician)一词源出意文statista当时理解为“处理国务的人”(a m an w ho deals w ith affairs of the state),统计学同理解为对国务活动人员有兴趣的事实(a co llecti on of facts of in terest to a states m an)。按这个涵义极广的理解,统计学就是“国情学”,这流行于16世纪的意大利,后来传播到法、德、荷等欧陆国家。与此相应,在17、18世纪,这些国家大学中所教授的名为“统计学”的课程,实际上是“国情学”,包括有关人口、经济、地理乃至政治方面的内容。经过逐渐演变,到19世纪初,才基本归于现在我们对这学科的理解。卡尔?皮尔逊指出,最初在现代意义上使用“统计学”一词的,是英国学者辛克莱,在其所著《T he statistical A c2 coun t of Sco tland1791-1799》一书中。

大量的原始数据如果不经过整理、分类、排比、分析,并通过适当的形式表示出来,就好比一堆没有经过冶炼的矿物,没有什么用处,当然,收集数据总是有其目的。因此可以设想,对数据进行整理排比分析的工作,一定是从很早以来就有人做了。但是,系统地从事这一工作,有著作出版并对后世统计学发展有重大影响的,要推英国学者格朗特,他在1662年发表的《关于死亡公报的自然和政治观察》一书(以下简称《观察》),是关于描述统计的开山之作,有的学者甚至把此书的出版看作统计史的起点。

格朗特及其《观察》。

格朗特(John Graun t1620-1674)是伦敦一家服装店主的儿子,开始在店里帮工作一名助手,后来子承父业,作了店主,他受了良好的英语教育,并坚持不懈,在每天早上店铺开门营业前坚持自学法文和拉丁文,这使他成为一位有教养的绅士,在一些公共机构中担任职务,并在伦敦的文化和科学圈子里结交了不少朋友。他甚至担任过一段时期的大学音乐教授。但使他留名后世的,还是他的篇幅为85页的《观察》一书,这特别使他在统计学史上占据一个突出的地位,当时的学术界对他这一著作评价之高可以从下述事实反映出来:在此书于1662年出

版后,他立即被当年刚成立的英国皇家学会吸收为会员,当代统计学家休伯,在他于1997年的一篇论文中,画了一条向外扩展的螺旋线表示统计学发展的历程,他把格朗特标在这条螺线的起点处,他这本书出了很多版,第二版出现在初版的当年,第5版在他死后的1676年。

格朗特写这本著作依据的资料,是自1604年起伦敦教会每周一次发表的“死亡公报”(b ill of m o rtality)。在19世纪前,欧洲因饥饿、战争、疾病等原因,尤其是黑死病流行的影响,死亡率很高,这是促使发表这种公报的原因,该公报记录了一周内死亡和受洗者(大致可反映出生人数)的名单,死者按死因分类,如1632年公报中包含63种病因,按字母次序排列,自1629年起公报中男女分开统计,这一批庞大的数据,在格朗特之前没有被整理分析过,《观察》这一著作就是通过整理分析这些数据,对当时有关伦敦的人口问题作出一些论断。全书分12章,8个表和结论。书中叙述了死亡公报的起源和发展(与当时黑死病的流行有关),关于死因特别是黑死病致死人数的统计,男女的差异,不同教区的差异,伦敦城市人口数及增长状况等,8个表对庞大的数据作了整理,是他作出推断的依据,其中,表1对1629—1636年和1647—1660年期间伦敦逐年死亡人数,按81类死因作了分类统计。表3对1629—1664年期间伦敦逐年死亡和受洗人数按男女分类作了统计。表7对6个黑死病大流行的年头—1592、1603、1625、1630、1636和1665年,伦敦每周死亡总人数和黑死病死亡人数作了统计。

根据这批数据及其整理,格朗特作出了一系列的推论,例如对某种疾病,他统计出在1631—1635的5年期间有254例死亡,而这5年中死亡人口总数为47757。又在1656—1660的5年期间,这两个数字分别是250和68712。因为250 68712<254 47757(分别约为0.0037和0.0053),他推断这种病的死亡率有了下降。显然,按我们前几页的界定,格朗特的工作属于:他的推断是建立在现有数据的表面计算上,对推断中的不确定性缺乏概率的分析(当然这是由于当时的情况,不是对他的工作的批评)。如就上例而言,现在一位统计学家会提出这样的问题:说死亡率下降了有多大可靠性?能否对死亡率下降的幅度给出某种估计?这类问题在格朗特时代无法回答。现在,用正态分布逼近二项分布的近似,可算出这个死亡率的下降估计在0.0007和0.0023之间,作出这一估计可靠的程度为95%,即若有5%的可能性,死亡率的下降小于0.0007或大于0.0023。现今的读者可能觉得不易理解:为何这样一些如今看来像是一些例行而平凡的工作,在当时及在统计史上能获得如此高的评价。这主要是由于其开创性——做了前人没有想到没有做的事情。其应用上的重大意义对学术发展的影响,下面我们将对此作一个简略的分析,在科学史上不少见这样的例子:一个意义重大的发现,一经说破,往往给人一种“理所当然”、“不足为奇”及“为什么早先没有人想到”的印象,这正是伟大的科学心灵异于常人之处。在统计学史上有不少这样的例子。

下面我们来列举该著作若干主要的创新思想。

1.他提出了“数据简约”(data reducti on)的概念 即把数量庞大的杂乱无章的数据,依种种分类标准,整理成一些意义明晰的表格(数据图示法在当时尚未表明),使数据中包含的有用信息能凸现出来。这样一种思想,直到现今仍被统计学家视为基础性的工作。从书中看出,他也达到了统计分析这个基本概念,用他的话说,是把结论用很短的、简洁的文字表达出来。

2.他提出并举例处理了数据的可信性问题 数据的可信性指的是,是否有人出于某种目的而对数据作了篡改,或在获取数据的过程中出现了重大的失误,如仪器未调准或登录时书写有误。样本中这样的数值叫做异常值。鉴别数据中是否有及何者可能为异常值,直到现今仍是一个在应用上很重要,并在方法研究上受到重视的问题。

格朗特分析的具体例子是这样的:1603年和1625年都是黑死病大流行的年份,统计所得

1603年后9个月死亡总人数为37294,其中黑死病死亡人数为30561,约占82%。1625年这两个数字分别是51758和35417,比率为68%,显著降低了。另一方面,格朗特从这两年的受洗人数推知,该两年的死亡率基本相当且都达到最大。于是就有问题:1625年黑死病死亡率比1603年计算出的降低,是真的表示当时黑死病死亡率确实降低了,还是数据有问题,他注意到在1625年前后没有黑死病的年份,死亡总数在7000—8000之间,而1625年非黑死病人数则达到(1625年死亡总数为54265)

54265-35417=18848

比邻近年份多出约11000人。这显然不合理,表明1625年黑死病死亡统计过低,原因多是由于死者家属行贿,让执事者把本系因黑死病身亡的人,改为其他原因。这种情况按上述计算约有11000人,若把这数加入1625年统计的黑死病死亡人数35417,得46417,从而该年黑死病死亡率为46417 54265=83.7%,与1603年的82%相当。这证明了上述校正的合理性,考虑到直到如今“数据的可信性”仍是困扰统计工作者的一个首要问题,格朗特这一提法的创意和启发性是重大的,虽则他的具体处理方法不一定能平行移植于其他问题。

3.统计比率的稳定性概念 指某种特性出现的频率,随着观察次数(样本量)的增加而趋于稳定。格朗特在书中并未用明确的语言把这作为一个一般原则提出来,但他通过对数据的具体处理,显示了他的统计分析是基于这样一个原则。

他处理的一个具体问题是伦敦和罗蒙塞(Rom sey)两地男、女出生(洗礼)和死亡数的统计,以8年为一时期,看出两地男、女出生比率趋于稳定且略有差异,他由此推断,在伦敦男、女出生率之比为14∶13,而在罗姆塞为16∶15,这在历史上是首次通过具体资料证明男、女出生率略有差异他在自己的著作中也讨论了这个现象的解释问题。

这个原则在早期的统计学中曾起过重要的作用,主要是在有关人口的统计问题中,在今日我们会把它放在二项分布(伯努利模型)框架下去处理,伯努利的大数律出于想在数学上证明这一原则,但格朗特的工作是在伯努利著作出现前50年。

4.生命表 生命表是指现存人口的年令分布。这有多方面的用途。例如可计算出在某一年令间隔内的人数的百分比,可计算一个活到某一年令a的人中,至少再活b年的百分比,而这对于保险金、年金等的计算有直接的关系。格朗特在本书中首次提出了生命表的概念,并计算了现已知的第一个生命表。虽则他的推理粗糙甚至有一些想当然的成分,但仅是引进这个概念,就已对后世有了很大的影响。

因为死亡公报中未记录死者的年令,格朗特在作这件事时缺乏精确的资料可查。他统计了20年内因各种原因死亡的总人数为229250人,他认为有几种病,如惊风症、佝偻症、寄生虫病之类,患者基本上都是6岁以下的儿童,这样的死者有71124人,另有几种病,如天花、麻疹之类,患者中约有50%在6岁以下。这两项共计有71124+6105=77229人,又在总死亡数229250中,约有16000人死于黑死病,他认为这事属非常,不应计入死亡数内,经过这样的推测或想像,他算出一个人的寿命不超过6岁的机会是

77229 (229250-16000)=0.36

对寿命大的一头,他经过一些假设性的操作,估计有3%的人活到66,1%的人活到76,在6—66这个年龄段内,他采取了一种此处不细加解释的、奇特的内插方式,作出了一张表。该表对岁数在0—6、6—16、16—26、…、66—76及76—80各段列出其死亡率,从以上的描述看出,产生此表的根据甚为勉强,也确与以后根据更细的资料算出的表有较大的差距,但重要的是提出了生命表这个开创性的概念。事实上,他在这方面的工作很快受到惠更斯兄弟和尼科拉斯?伯

努利等概率学者的注意,他们用概率论的概念和方法对它进行了分析,较晚一些,狄莫弗对之作了更深入的研究,他于1725年发表的《生命与年金》的著作,对现时归入所谓“精算术”的那些内容,作了比较全面和系统的论述。

佩蒂和他的“政治算术”

格朗特的工作,在欧洲大陆也很有影响,如巴黎在1667年开始发布类似于伦敦死亡公报的材料。这方面的活动促成了在一些主要国家中建立政府统计部门,特别是,他的工作影响了佩蒂,导致他建立其“政治算术”,即将统计方法应用于广泛的社会、经济问题的分析,而不是只局限于人口统计问题。威廉?佩蒂(W illian Petty,1623-1687)是17世纪英国政治经济学家,有的著作称他是亚当?斯密之前英国影响最大的经济学家,他的一生经历复杂多样,他1623年生于英国汉普郡的一个小镇罗蒙塞,父亲是裁缝。早年学习过数学、希腊文和拉丁文,接着去法国学习数学、天文和航海,后在皇家海军中服役,又到巴黎和阿姆斯特丹学习医学,他的后半生大半是在爱尔兰度过的,在那里主持过土地丈量的工作,并与爱尔兰的一些政治和经济问题有过关联,他的关于政治算术的思想大概就是在这个时期建立起来的——顺便说一句,佩蒂还是英国皇家学会的发起人之一。

所谓政治算术,就是依据统计数字来分析政治、经济和社会问题,而不只是依靠思辨或理论的推演。看一件事(比如一项政策)办得如何,单靠口舌辨论不行,要看有关统计数字所显示的效果。佩蒂自称他的方法“很不寻常”:不依靠抽象的话语和看似灵巧的推理,一切让数字说话,看来他的思想受到英国伟大的科学—哲学家培根(F rancis B acon.1651-1626)很大的影响,培根的实证科学思想,即主张科学理论应以实际观察为依据并接受其检验,佩蒂的政治算

佩蒂关于政治算术的代表著作是写成于1676年,但到他去世后的1690年才出版的《政治算术》一书,上面提到他自称其方法“很不寻常”的那个意思,就写在此书的序言内。从他这个提法我们可以想见,在当时,统计方法为社会以至学术界所了解和理解的程度还很低。说到《政治算术》这部著作本身,其对具体的统计方法的贡献甚为有限。他的思想不像格朗特那么周密,经常从少量数据引出大胆的结论。他也不像格朗特那样用批判的眼光审视数据。总的说,他的贡献在于提出了这样一种思想,即有关经济以至社会、政治等方面的问题,应通过分析由调查所得的数据资料的基础上去解决。可以说,他开拓了统计方法的应用面,即不局限于与人口有关的问题。从统计方法的技术性层面上看,其贡献是比较有限的。

谈到早期统计学在社会方面的应用,人口问题是一个主要的角色,早年人们关心的一个重大问题是生男生女的比例问题,这个问题在概率上只涉及二项分布模型,到18世纪,对这个模型概率学者已有了比较深入的研究,因而其用于统计分析上,就带有若干现代统计推断的色彩。下文要介绍有关阿布兹诺特等学者有关的工作,可以看出,在这些工作中已包含了一些现代假设检验的因子,虽则有关理论的建立还是二百余年后的事情。顺便提到,格朗特的著作中也曾涉及检验问题,当时他用数据验证了“疾病频发的年份生育率较低”这个假设。

阿布兹诺特等的人口检验工作

阿布兹诺特(John A rbu thno tt,1667-1735),早年在伦敦任数学教师,曾在1692年将惠更斯的著作《机遇的理论》译成英文。他后来学习医学并在1696年取得学位。他的兴趣很广,兼有医生、科学家和作家的身份。1710年他写了一篇论证神的意旨存在的文章《从两性出生数观察的规律性所得关于神的意旨存在的一个论据》,发表于1712年,按现代统计的说法,他讨论的其实是一个二项分布概率p=1 2的假设检验问题(或说成是一个符号检验也可以)。假设

检验是根据观察或试验所得数据,去对某一理论或学说是否可以接受作出判断,它是现代数理统计学的主要分支之一,不少著作把阿布的上述论文看作此分支历史的起点。

阿布依据的数据是1629到1710这82年期间,伦敦市每年受洗男、女婴的数目,他假定此数与出生数成比例,例如:1629年为男5218,女4683,1710年为男7640,女7288等,他发现每年都是男多于女,从理论上说存在两种可能性:一是生男生女有同等机会(各有概率1 2),在这一假设(或称理论、假说)之下,“在任何指定一年内男婴出生数多于一半”的概率不超过1 2,另一种可能性是“神的意旨”使男婴出生的机会大于女婴。阿布这样推理:若按第一种假设,则连续82年都是“男多于女”的机会,将不超过

(0.5)82=10-24 4.836

这个数小得难以想像,而机会这么小的事件,居然被观察到了,这是不合情理的,以此否定了第一种可能性,于是只剩下第二种可能性,即在所讨论的这件事上,证明了神的意旨在起作用。现今我们把这件事解释为:观察结果以很强有力的根据证实了“男婴出生率高于女婴”,是一个自然规律,但为何会出现这个情况,这需要从生物学上寻求根据。有一些说法,如男性因寿命比女性短故出生率要高一些以保持平衡之类,也还不能令人满意。因为这种目的论的解释,仍是带有神的意旨的色彩。顺便提到,这项工作显示了统计方法的一个重要特点:它从表面的数量上肯定某种现象可能存在,但其科学的解释则是专门领域的任务。这也符合科学认识中“由表及里”的规律。阿布提出的问题后来又被一些学者讨论过,例如,荷兰学者格雷维塞得(W J .’sGravesande )1715年发表了一篇讨论这个问题的文章,他认为,由于每年出生婴孩总数不同,阿布的推理有过于粗糙的缺点。他用阿布使用的资料,算出在那82年中,平均每年出生婴孩数为11429。,把这82年中每年男、女生出生数加以调整。例如,1629年男、女出生数分别为5218和4683,格雷维塞得将其分别调整为

男:11429×52185218+4683=6023 女:11429×46835218+4683

=5406他发现,调整后82年中,男婴按年最小和最大出生数分别为5745和6128,格雷维塞得推理如下:若生男生女有同等机会(概率1 2),则按二项分布,在11429出生例中,男婴数落在5745和6128之间的概率应为

r =26128

i =574511429i 2-11429

他费了很大的工夫算出r ≈0.29,因连续82年都出现这个情况,其概率只有r 82≈10-43 7.56这个数非常之小,足以使人相信:“生男生女有同等机会”的假设,是不真实的,稍后,《推测术》作者的侄儿,尼科拉斯?伯努利,也用更复杂的方法讨论了这个问题。所得结论都是一样,即男婴出生率确是略大于女婴。

拿现代数理统计学的眼光来审视上述诸人的工作,可以说它包含了今日流行的假设检验理论的一些基本的观点。迟至本世纪初期,在卡尔?皮尔逊和费歇尔那里,他们处理这类问题

的做法,典型的如费歇尔的“女士品茶”的试验Ξ实质上并未超出上述诸人的范围,但还缺少了

若干重要之点。例如,阿布与格雷维塞得及其他人的检验法,看来都合理,但是否有一个优劣比较的问题:根据什么标准比较,如何比较,这问题到本世纪二三十年代才由奈曼和爱根?皮尔逊所解决,参看第9章。

Ξ把牛奶(M )和茶(T )混合成一种饮料,有两种作法:先加牛奶(M T ),先加茶(TM )。某女士声称她能鉴别这二者。要通过试验,即由她来品尝,检验她的说法是否实在。

概率论与数理统计及其应用第二版课后答案浙江大学

第1章 随机变量及其概率 1,写出下列试验的样本空间: (1) 连续投掷一颗骰子直至6个结果中有一个结果出现两次,记录 投掷的次数。 (2) 连续投掷一颗骰子直至6个结果中有一个结果接连出现两次, 记录投掷的次数。 (3) 连续投掷一枚硬币直至正面出现,观察正反面出现的情况。 (4) 抛一枚硬币,若出现H 则再抛一次;若出现T ,则再抛一颗骰 子,观察出现的各种结果。 解:(1)}7,6,5,4,3,2{=S ;(2)},4,3,2{ =S ;(3)},,,,{ TTTH TTH TH H S =; (4)}6,5,4,3,2,1,,{T T T T T T HT HH S =。 2,设B A ,是两个事件,已知,125.0)(,5.0)(,25.0)(===AB P B P A P ,求)])([(),(),(),(___ ___AB B A P AB P B A P B A P ??。 解:625.0)()()()(=-+=?AB P B P A P B A P , 375.0)()(])[()(=-=-=AB P B P B A S P B A P , 875.0)(1)(___ --=AB P AB P , 5.0)(625.0)])([()()])([()])([(___=-=?-?=-?=?AB P AB B A P B A P AB S B A P AB B A P 3,在100,101,…,999这900个3位数中,任取一个3位数,求不包含数字1个概率。

解:在100,101,…,999这900个3位数中不包含数字1的3位数的个数为648998=??,所以所求得概率为 72.0900 648= 4,在仅由数字0,1,2,3,4,5组成且每个数字之多出现一次的全体三位数中,任取一个三位数。(1)求该数是奇数的概率;(2)求该数大于330的概率。 解:仅由数字0,1,2,3,4,5组成且每个数字之多出现一次的全体三位数的个数有100455=??个。(1)该数是奇数的可能个数为48344=??个,所以出现奇数的概率为 48.0100 48= (2)该数大于330的可能个数为48454542=?+?+?,所以该数大于330的概率为 48.0100 48= 5,袋中有5只白球,4只红球,3只黑球,在其中任取4只,求下列事件的概率。 (1)4只中恰有2只白球,1只红球,1只黑球。 (2)4只中至少有2只红球。 (3)4只中没有白球。 解: (1)所求概率为338412 131425=C C C C ;

医药数理统计习题和答案

第一套试卷及参考答案 一、选择题(40分) 1、根据某医院对急性白血病患者构成调查所获得的资料应绘制( B ) A 条图 B 百分条图或圆图C线图D直方图 2、均数和标准差可全面描述 D 资料的特征 A 所有分布形式B负偏态分布C正偏态分布D正态分布和近似正态分布 3、要评价某市一名5岁男孩的身高是否偏高或偏矮,其统计方法是( A ) A 用该市五岁男孩的身高的95%或99%正常值范围来评价 B 用身高差别的假设检验来评价 C 用身高均数的95%或99%的可信区间来评价 D 不能作评价 4、比较身高与体重两组数据变异大小宜采用(A ) A 变异系数 B 方差 C 标准差 D 四分位间距 5、产生均数有抽样误差的根本原因是( A ) A.个体差异 B. 群体差异 C. 样本均数不同 D. 总体均数不同 6. 男性吸烟率是女性的10倍,该指标为(A ) (A)相对比(B)构成比(C)定基比(D)率 7、统计推断的内容为( D ) A.用样本指标估计相应的总体指标 B.检验统计上的“检验假设” C. A和B均不是 D. A和B均是 8、两样本均数比较用t检验,其目的是检验( C ) A两样本均数是否不同B两总体均数是否不同 C两个总体均数是否相同D两个样本均数是否相同 9、有两个独立随机的样本,样本含量分别为n1和n2,在进行成组设计资料的t检验时,自由度是(D ) (A)n1+ n2(B)n1+ n2–1 (C)n1+ n2 +1(D)n1+ n2 -2 10、标准误反映(A ) A 抽样误差的大小 B总体参数的波动大小 C 重复实验准确度的高低 D 数据的离散程度 11、最小二乘法是指各实测点到回归直线的 (C) A垂直距离的平方和最小B垂直距离最小 C纵向距离的平方和最小D纵向距离最小 12、对含有两个随机变量的同一批资料,既作直线回归分析,又作直线相关 分析。令对相关系数检验的t值为t r ,对回归系数检验的t值为t b , 二者之间具有什么关系?(C)

概率论与数理统计学1至7章课后标准答案

第五章作业题解 5.1 已知正常男性成人每毫升的血液中含白细胞平均数是7300, 标准差是700. 使用切比雪 夫不等式估计正常男性成人每毫升血液中含白细胞数在5200到9400之间的概率. 解:设每毫升血液中含白细胞数为,依题意得,7300)(==X E μ,700)(==X Var σ 由切比雪夫不等式,得 )2100|7300(|)94005200(<-=<

【_标_题】数理统计学:世纪末的回顾与展望

【分类名】统计学 【标题】数理统计学:世纪末的回顾与展望 【关键词】数量统计/回顾/展望 【正文】 一、20世纪数理统计学发展概述 20世纪,特别是其上半叶,是数理统计学发展史上一个辉煌的时代。从现代数理统计学框架的建立到发展为一个成熟的学科,是在这个时期完成的。20世纪初,数理统计学面临一个转折点,意思是它必须有新的突破才能获得进一步发展的契机。20世纪早期一批以费歇尔为首的统计学大师成功地应对了这个局面,创造了非凡的业绩。按照国际上一些知名统计学家的看法,20世纪末数理统计学发展的态势,与世纪初颇有相似的地方。人们在呼唤“21世纪的费歇尔”。当然,广义地说,这也是每一位数理统计工作者所肩负的任务。中国作为一个世界大国,年轻一代的数理统计学者应该也有条件在这方面作出自己的贡献。 为了更清楚阐述上文的意思,需要对数理统计学的历史作一个简短的回顾。按目前数理统计学界公认的看法,数理统计学是“收集和分析带随机性的数据的科学和艺术”。以笔者的看法,这个内涵规定了它是一个中立性的工具。“中立”的意思是指这门学科不带任何社会的、政治的或意识形态上的倾向性,因而也不存在它自成学派或从属于何学派的问题。有一种

看法认为社会经济统计学与数理统计学是“大统计学”中的两个对立的学派。笔者认为这种看法值得商榷。的确,在社会经济统计学中该不该使用数理统计方法,在哪些问题上或者在何种程度上应否使用数理统计方法,是可能存在不同意见的。如果说由于对这些问题的看法不同而有学派存在,那还算言之成理。但这些问题与数理统计学无关:数理统计学只是一种工具,谁如觉得这个工具对他有用,就可以使用它——当然在使用中必须遵守这门学科的规范,否则就可能产生误导公众及提供错误的决策依据的后果。历史上(部分地直到如今)数理统计方法曾遭到一些批评和怀疑,一定程度上与上述情况有关。 数理统计学起源于何时?这是一个无法也不必做出定论的问题。有的学者把英国学者格朗特的著作《关于死亡公报的自然和政治观察》发表的年份1662年定为这门学科的诞生之日,恐怕也只能算是一家之见。实际情况是,可以说直到20世纪初,并不存在一门统一的数理统计学科,而中是在各实用领域中的学者因工作上的需要而分头发展了一些分析数据的方法,即统计方法。最主要的有3 个方面:一是天文和测地学中因误差分析问题而导致最小二乘法和正态误差的发明。起初,人们认为“误差分析”与“统计分析”是根本不同的两回事:前者的数据是对一个对象多次测量所得;后者的数据则是对多个对象各测量一次所得。按现今的数理统计学框架,我们容易认识这是一回事,但在当时则不然。到19世纪中、后期,经过凯特勒、盖尔顿等在社会学和生物学方面的实际工作,以及埃其渥斯、卡尔·皮尔逊等的数学理论工作,终于把二者统一起来,并在20世纪得到发扬光大。直到如今,线性模型——最小二乘法——正态误差这个体系下

北京大学数学科学学院硕士研究生入学考试

考试科目编号: 01 数学分析02 高等代数 03 解析几何04 实变函数 05 复变函数06 泛函分析 07 常微分方程08 偏微分方程 09 微分几何10 抽象代数 11 拓扑学12 概率论 13 数理统计14 数值分析 15 数值代数16 信号处理 17 离散数学18 数据结构与算法 01 数学分析(150 分) 考试参考书: 1. 方企勤等,数学分析(一、二、三册)高教出版社。 2. 陈纪修、於崇华、金路,数学分析(上、下册),高教出版社。 02 高等代数(100 分) 考试参考书: 1. 丘维声,高等代数(第二版) 上册、下册,高等教育出版社,2002年, 2003年。 高等代数学习指导书(上册),清华大学出版社,2005年。 高等代数学习指导书(下册),清华大学出版社,2009年。 2. 蓝以中,高等代数简明教程(上、下册),北京大学出版社,2003年(第一版第二次印刷)。 03 解析几何(50 分) 考试参考书: 1. 丘维声,解析几何(第二版),北京大学出版社,(其中第七章不考)。 2. 吴光磊,田畴,解析几何简明教程,高等教育出版社,2003年。 04 实变函数(50 分) 考试参考书: 1. 周民强,实变函数论,北京大学出版社,2001年。 05 复变函数(50 分)

考试参考书: 1. 方企勤,复变函数教程,北京大学出版社。 06 泛函分析(50 分) 考试参考书: 1. 张恭庆、林源渠,泛函分析讲义(上册),北京大学出版社。 07 常微分方程(50 分) 考试参考书: 1. 丁同仁、李承治,常微分方程教程,高等教育出版社。 2. 王高雄、周之铭、朱思铭、王寿松,常微分方程(第二版),高等教育出版社。 3. 叶彦谦,常微分方程讲义(第二版)人民教育出版社。 08 偏微分方程(50 分) 考试参考书: 1. 姜礼尚、陈亚浙,数学物理方程讲义(第二版),高等教育出版。 2. 周蜀林,偏微分方程,北京大学出版社。 09 微分几何(50 分) 考试参考书: 1. 陈维桓,微分几何初步,北京大学出版社(考该书第1-6章)。 2. 王幼宁、刘继志,微分几何讲义,北京师范大学出版社。 10 抽象代数(50 分) 考试参考书: 1. 丘维声, 抽象代数基础,高等教育出版社,2003年。 2. 聂灵昭、丁石孙,代数学引论(第一、二、三、四、七章,第八章第1、2、3节),高等教育出版社,2000年第二版。 11 拓扑学(50 分) 考试参考书: 1. 尤承业,基础拓扑学讲义,北京大学出版社,1997年(考该书第1-3章)。 12 概率论(50 分) 考试参考书: 1. 何书元,概率论北京大学出版社, 2006年。 2. 汪仁官,概率论引论北京大学出版社, 1994年。

浅谈对数理统计的学习与应用

浅谈对数理统计的学习与应用 作者:*** 学号:********* 学院:工学院专业:农产品加工与贮藏工程 记得达尔文有句名言“在科学中,凡是用不上任何一种数学的地方,凡是和数学没有联系的地方,都是不可靠的。”但是食品科学作为一个以理化为基础的应用型学科,我始终没有发现它与数学的紧密联系,因此也一直没有能够领略数理统计的独特魅力。因此在这门课的学习过程中我也经历了一段起伏的心路历程——从最初的为了高分一定要学好,到遇到困难放弃了学习,再到发现了它的独特魅力后的高密度学习。这其中充满了复杂的心情,但是最后的感叹是我们对数学的应用重视程度远远不及“西方列强”,因此我们虽然在一些科技研发、技术生产、管理服务等领域有不乏佼佼者,但我们在诸多领域的期望远低于“西方列强”,而方差却大都远远高过他们。因此,加强知大学生对数学尤其是数理统计的理解和应用迫在眉睫,其重要性远远大于期末考试漂亮的成绩单。 当初制定培养计划的时候,不知为什么导师就给选定了概率论与数理统计,当时很不理解,我们高中学了这门课程、大学也学了这门课程,到了研究生本来以为入学考试的时候考的数学二,就不用学概率论与数理统计了,但是导师却给了我与数理统计第三次邂逅的机会。虽然数学一直不好,但是开始的时候还是决心一定要把研究生的课程学好,真的是“数学虐我千百遍,我待数学如初恋”。但是由于“没有课本”、“听不懂”、“看不清”、“没有用”等貌似很有道理的客观原因的干扰很快掉队了,从开始的写作业到了最后的抄作业,甚至到后来的有两次课逃课去图书馆看其他的书去。不过,幸运的是后来上课的时候老师布置了读书笔记的作业,于是就翻出了一本老师推荐的《机会的数学》,想通过几天的突击看完后,写篇读后感就万事大吉了。 当我翻开这本书时,就被其中关于人的成功与机遇的论述而吸引了。其中谈到人的认知有很多盲点,许多事情有“碰碰运气”的成分,因而不能不受机遇的支配,因此我们要减少盲目性,就得多增进自己的学识,多参加社会实践,“活到老,学到老”、办事细心考虑周到,多权衡得失利弊等。当然,陈希孺先生的论述并没有到此结束,而是进一步说明了机遇贯穿我们生活中的各个角落,并且很多时候机遇是可以量化的,而有效的量化后的机遇可以更好的指导我们实践。当然这只是一种通俗的讲法,不具有很强的严谨性和普遍性,但正是这些引导着我真正开始了探索数理统计奥秘的奇幻之旅。 以前,由于“小概率事件是不可能发生的”观念的影响,总是觉得很多买彩

(完整word版)医药数理统计大纲_试题及答案(1)

模拟训练题及参考答案 模拟训练题: 一、选择题: 1.下列事件中属于随机事件范畴的是( ) A. {人的的寿命可达500岁} B. {物体会热胀冷缩} C. {从一批针剂中抽取一支检验} D. {X2+1=0 有实数解} 2.依次对三个人体检算一次试验,令A={第一人体检合格},B={第二人体检合格},C={第三人体检合格},则{只有一人体检合格}可以表示为( ) A. A+B+C B. ABC C. C B A D. C B A C B A C B A ++ 3.一批针剂共100支,其中有10支次品,则这批针剂的次品率是( ) A. 0.1 B. 0.01 C. 0.2 D. 0.4 4.所谓概率是指随机事件发生的( )大小的数值表示。 A. 频率 B. 可能性 C. 次数 D. 波动性 5.若X~N (μ,σ2),则EX 的值为( ) A. μ B. μ2 C. σ2 D. σ 6.若X~B (K ;n ,p ),则DX 的值为( ) A. np B. μ C. σ2 D. np(1-p) 7.求一组数据(5,-3,2,0,8,6)的总体均数μ的无偏估计( ) A.2.4 B.3.1 C.3 D.4 8.作参数的区间估计时,给定的α越大,置信度1-α越小,置信区间处于( )变化。 A 变窄 B.变宽 C.没有 D.不确定 9.对于一组服从正态分布的试验数据,描述试验数据波动程度的特征统计量是( ). A. 样本算术平均数 B.中位数 C. 样本标准差 D.样本频数 10.伯努利概率模型具有的两个特点:( ) A.每次试验的结果具有对立性;重复试验时,每次试验具有独立性

数理统计课后答案

) 数理统计 一、填空题 1、设n X X X ,,21为母体X 的一个子样,如果),,(21n X X X g , 则称),,(21n X X X g 为统计量。不含任何未知参数 2、设母体σσμ),,(~2 N X 已知,则在求均值μ的区间估计时,使用的随机变量为 n X σ μ - 3、设母体X 服从修正方差为1的正态分布,根据来自母体的容量为100的子样,测得子样均值为5,则X 的数学期望的置信水平为95%的置信区间为 。 025.010 1 5u ?± ; 4、假设检验的统计思想是 。 小概率事件在一次试验中不会发生 5、某产品以往废品率不高于5%,今抽取一个子样检验这批产品废品率是否高于5%, 此问题的原假设为 。 0H :05.0≤p 6、某地区的年降雨量),(~2 σμN X ,现对其年降雨量连续进行5次观察,得数据为: (单位:mm) 587 672 701 640 650 ,则2 σ的矩估计值为 。 ~ 7、设两个相互独立的子样2121,,,X X X 与51,,Y Y 分别取自正态母体)2,1(2 N 与 )1,2(N , 2 *2 2*1,S S 分别是两个子样的方差,令2*2222*121)(,S b a aS +==χχ,已知)4(~),20(~22 2221χχχχ,则__________,==b a 。 用 )1(~)1(22 2 *--n S n χσ,1,5-==b a 8、假设随机变量)(~n t X ,则 21 X 服从分布 。)1,(n F

9、假设随机变量),10(~t X 已知05.0)(2 =≤λX P ,则____=λ 。 用),1(~2 n F X 得),1(95.0n F =λ 10、设子样1621,,,X X X 来自标准正态分布母体)1,0(N , X 为子样均值,而 01.0)(=>λX P , 则____=λ 01.04)1,0(~1z N n X =?λ 11、假设子样1621,,,X X X 来自正态母体),(2 σμN ,令∑∑==-=16 11 10 1 43i i i i X X Y ,则Y 的 分布 )170,10(2 σμN % 12、设子样1021,,,X X X 来自标准正态分布母体)1,0(N ,X 与2 S 分别是子样均值和子 样方差,令2*2 10S X Y =,若已知01.0)(=≥λY P ,则____=λ 。)9,1(01.0F =λ 13、如果,?1θ2?θ都是母体未知参数θ的估计量,称1?θ比2?θ有效,则满足 。 )?()?(2 1θθD D < 14、假设子样n X X X ,,,21 来自正态母体),(2σμN ,∑-=+-=1 1 2 12 )(?n i i i X X C σ 是2σ的一个无偏估计量,则_______=C 。 ) 1(21 -n 15、假设子样921,,,X X X 来自正态母体)81.0,(μN ,测得子样均值5=x ,则μ的置信度是95.0的置信区间为 。025.03 9 .05u ?± 16、假设子样10021,,,X X X 来自正态母体),(2 σμN ,μ与2 σ未知,测得子样均值 5=x ,子样方差12=s ,则μ的置信度是95.0的置信区间为 。 025.0025.0025.0)99(),99(10 1 5z t t ≈?± 17、假设子样n X X X ,,,21 来自正态母体),(2 σμN , μ与2σ未知,计算得

数理统计在实际问题中的应用方法

数理统计在实际问题中的 应用方法 Prepared on 22 November 2020

数理统计在实际问题中的应用方法 哈尔滨工业大学,材料科学与工程一班,哈尔滨 150001 摘要:数理统计在自然科学、工程技术、管理科学及人文社会科学中得到越来越广泛和深刻的应用,其研究的内容也随着科学技术和经济社会的不断发展而逐步扩大。随机现象无处不在,渗透于日常生活的各个方面和科学技术的各个领域。概率统计就是通过研究随机现象及其规律从而指导人们从事物表象看到其本质的一门科学。学好概率尤其是能够将学习的概率统计应用于实践中将受益匪浅。 关键词:概率统计;实际问题;应用方法 数理统计是伴随着概率论的发展而发展起来的一个数学分支,研究如何有效的收集、整理和分析受随机因素影响的数据,并对所考虑的问题作出推断或预测,为采取某种决策 和行动提供依据或建议。数理统计以概率论为基础,研究社会和自然界中大量随机现象数 量变化基本规律的一种方法。其主要内容有参数估计、假设检验、相关分析、试验设计、 非参数分析和过程统计等。数理统计学是统计学的数学基础,从数学的角度去研究统计 学,为各种应用统计学提供理论支持。它研究怎样有效地收集、整理和分析带有随机性的 数据,以对所考察的问题作出推断或预测,直至为采取一定的决策和行动提供依据和建议 的数学分支。 1 数理统计的发展 数理统计起源于人口统计、社会调查等各种描述性统计活动。公元前2250年,大禹治水,根据山川土质,人力和物力的多寡,分全国为九州;殷周时代 实行井田制,按人口分地,进行了土地与户口的统计;春秋时代常以兵车多寡 论诸侯实力,可见已进行了军事调查和比较;汉代全国户口与年龄的统计数字 有据可查;明初编制了黄册与鱼鳞册,黄册乃全国户口名册,鱼鳞册系全国土 地图籍,绘有地形,完全具有现代统计图表的性质。我国缺少系统研究,未形 成专门的着作。 在西方各国,统计工作开始于公元前3050年,埃及建造金字塔,为征收建筑费用,对全国人口进行普查和统计。到了亚里土多德时代,统计工作开始往 理性演变。这时,统计在卫生、保险、国内外贸易、军事和行政管理方面的应 用,都有详细的记载。统计一词,就是从意大利一词逐步演变而成。 2 数理分析用途 2-1提供表示事物特征的数据

医药数理统计习题及答案汇编

学习好资料 第一套试卷及参考答案 一、选择题 ( 40 分) 1、根据某医院对急性白血病患者构成调查所获得的资料应绘制 ( B ) A 条图B 百分 条图或圆图C 线图D 直方图 2、均数和标准差可全面描述D 资料的特征 A 所有分布形式E负偏态分布C正偏态分布D正态分布和近似正态分布 3、要评价某市一名5岁男孩的身高是否偏高或偏矮,其统计方法是( A ) A 用该市五岁男孩的身高的95%或99%正常值范围来评价 B 用身高差别的假设检 验来评价 C 用身高均数的95%或99%的可信区间来评价 D 不能作评价 4、比较身高与体重两组数据变异大小宜采用( A ) A 变异系数 B 方差 C 标准差 D 四分位间距 5、产生均数有抽样误差的根本原因是( A ) A. 个体差异 B. 群体差异 C. 样本均数不同 D. 总体均数不同 6、男性吸烟率是女性的10 倍,该指标为( A ) (A)相对比(B)构成比(C)定基比(D )率 7、统计推断的内容为( D ) A.用样本指标估计相应的总体指标 B.检验统计上的“检验假设” C. A和B均不是 D. A和B均是 8、两样本均数比较用t 检验,其目的是检验( C ) A两样本均数是否不同B两总体均数是否不同 C 两个总体均数是否相同 D 两个样本均数是否相同 9、有两个独立随机的样本,样本含量分别为n i和住,在进行成组设计资料的t 检 验时,自由度是( D ) (A) n i+ n2 (B) n i+ n2 - C) n1+ n2 +1 D) n1+ n2 -2 10、标准误反映( A ) A 抽样误差的大小 B 总体参数的波动大小 C 重复实验准确度的高低 D 数据的离散程度 11、最小二乘法是指各实测点到回归直线的(C) A垂直距离的平方和最小E垂直距离最小 C纵向距离的平方和最小D纵向距离最小 12、对含有两个随机变量的同一批资料, 既作直线回归分析, 又作直线相关分析。 令对相关系数检验的t值为t r,对回归系数检验的t值为t b, 二者之间具有什么关系?( C) A t r >t b B t r

数理统计学的起源和发展doc

统计学起源于收集数据的活动,小至个人的事情,大至治理一个国家,都有必要收集种种有关的数据,如在我国古代典籍中,就有不少关于户口、钱粮、兵役、地震、水灾和旱灾等等的记载。现今各国都设有统计局或相当的机构。当然,单是收集、记录数据这种活动本身并不能等同于统计学这门科学的建立,需要对收集来的数据进行排比、整理,用精炼和醒目的形式表达,在这个基础上对所研究的事物进行定量或定性估计、描述和解释,并预测其在未来可能的发展状况。例如根据人口普查或抽样调查的资料对我国人口状况进行描述,根据适当的抽样调查结果,对受教育年限与收入的关系,对某种生活习惯与嗜好(如吸烟)与健康的关系作定量的评估。根据以往一般时间某项或某些经济指标的变化情况,预测其在未来一般时间的走向等,做这些事情的理论与方法,才能构成一门学问——数理统计学的内容。 这样的统计学始于何时?恐怕难于找到一个明显的、大家公认的起点。一种受到某些著名学者支持的观点认为,英国学者葛朗特在1662年发表的著作《关于死亡公报的自然和政治观察》,标志着这门学科的诞生。中世纪欧洲流行黑死病,死亡的人不少。自1604年起,伦敦教会每周发表一次“死亡公报”,记录该周内死亡的人的姓名、年龄、性别、死因。以后还包括该周的出生情况——依据受洗的人的名单,这基本上可以反映出生的情况。几十年来,积累了很多资料,葛朗特是第一个对这一庞大的资料加以整理和利用的人,他原是一个小店主的儿子,后来子承父业,靠自学成才。他因这一部著作被选入当年成立的英国皇家学会,反映学术界对他这一著作的承认和重视。 这是一本篇幅很小的著作,主要内容为8个表,从今天的观点看,这只是一种例行的数据整理工作,但在当时则是有原创性的科研成果,其中所提出的一些概念,在某种程度上可以说沿用至今,如数据简约(大量的、杂乱无章的数据,须注过整理、约化,才能突出其中所包含的信息)、频率稳定性(一定的事件,如“生男”、“生女”,在较长时期中有一个基本稳定的比率,这是进行统计性推断的基础)、数据纠错、生命表(反映人群中寿命分布的情况,至今仍是保险与精算的基础概念)等。 葛朗特的方法被他同时代的政治经济学家佩蒂引进到社会经济问题的研究中,他提倡在这类问题的研究中不能尚空谈,要让实际数据说话,他的工作总结在他去世后于1690年出版的《政治算术》一书中。 当然,也应当指出,他们的工作还停留在描述性的阶段,不是现代意义下的数理统计学,那时,概率论尚处在萌芽的阶段,不足以给数理统计学的发展提供充分的理论支持,但不能由此否定他们工作的重大意义,作为现代数理统计学发展的几个源头之一,他们以及后续学者在人口、社会、经济等领域的工作,特别是比利时天文学家兼统计学家凯特勒19世纪的工作,对促成现代数理统计学的诞生起了很大的作用。 数理统计学的另一个重要源头来自天文和测地学中的误差分析问题。早期,测量工具的精度不高,人们希望通过多次量测获取更多的数据,以便得到对量测对象的精度更高的估计值。量测误差有随机性,适合于用概率论即统计的方法处理,远至伽利略就做过这方面的工作,他对测量误差的性态作了一般性的描述,法国大数学家拉普拉斯曾对这个问题进行了长时间的研究,现今概率论中著名的“拉普拉斯分布”,即是他在这研究中的一个产物,这方面最著名且影响深远的研究成果有二:一是法国数学家兼天文家勒让德19世纪初(1805)

数理统计在生活中的应用

统计在生活中的应用 统计是从数据中获得信息的科学。统计与实际生活息息相关,在生活实践中有着广泛的应用。从古代的结绳记事到现在的市场调查都是统计的应用。 我国设有国家统计局、地方统计局进行各种统计工作,从数据中获取信息指导我们国家的发展。统计局主要负责的工作有人民的生活、价格指数、就业人员和职工工资、人口、国内贸易、对外经济贸易、农业、工业等统计项目。我们所得到的城乡居民家庭人均收入及恩格尔系数、农产品生产价格指数、各地区居民消费指数及商品零售价格指数、各地区按行业分城镇私营企业和个体就业人数、人民币汇率(年平均价)等等,这些数据我们都可以从统计局的统计结果中获得。国家就是通过统计局人员对各类数据进行统计获取信息,根据信息制定下一年度的工作发展方向。 除了国家需要统计,我们的日常生活也需要统计。买股票,需要对历史的数据进行分析总结得出变化趋势;理财,需要对储蓄和消费进行合理的规划;天气预报,需要到对卫星收集来的数据进行分析得出未来变换趋势;农作物的收成,可以对历史年份产量统计求平均数获得一般收成量近似求出;选择旅游路线,需要对多种路线的路况、历程进行分析获得最优路线??????可以说统计在运用到我们生活的各个方面。 作为学生,我们身边也有很多易于发现的事运用了统计。我们的总成绩、平均成绩、学籍管理、经常参加的发放调查问卷、那个食堂的饭菜好吃、哪里买东西便宜等等都运用到了统计,统计可以说无处不在。 1.平均数与标准差的互补 我们知道:平均数反映的是现象的集中趋势,是现象的一致性结果。而标准差是现象的离中趋势,反映了现象差异性的变化。这两个指标从不同角度描述了现实中事物的对立和统一的情形。 例如:银行办理业务事项。 银行提高服务质量的重点是顾客的等待时间,在工作人员(或窗口)一定的条件下提高银行的服务质量,实际上就是如何缩短顾客的等待时间(平均数)和减少顾客等待时间的差异(标准差)。在缩短顾客的等待时间上,要求银行的工作人员有熟练的业务技巧,使处理的每一笔业务尽可能地在短时间内完成,从而提高整个银行的服务质量。 在这一点上,银行改变了原来由顾客填写单据而造成的不必要的时间上的浪费,也对减少顾客服务时间、减少顾客重复排队和减少顾客或因不了解业务而产主的尴尬,在减少顾客等待的时间差异上来说,就需要银行在管理手段上引入更好的机制。 现在银行已经采用了叫号的方法,每个顾客来到银行后,先在窗口上领一个号,然后,坐在有电视、茶水、报纸旁的座位上等待服务。这种将顾客分别站在每一个窗口等待办理业务改变为顾客都在同一等待线上等待办理业务的做法,从实现和心理两个方面,减少了顾客等待时间上的差异。 首先,以前顾客来到银行后,看到每个窗口都排了很长的队,不知道选择哪个队,可能会离开或者等下次再来。也许留下来的顾客很可能因不知道前面顾客的业务量大小而选择了需要等待时间较长的队,造成排在其他队比他后来的顾客先行办理完业务。这时,本来就因排队而厌烦的顾客又因“错”排了队,而使等待的时问相对较长,所形成的心理上的抱怨就会形成对银行服务质量不好。工作

医药数理统计第六章习题集(检验假设和t检验)

第四章抽样误差与假设检验 练习题 一、单项选择题 1. 样本均数的标准误越小说明 A. 观察个体的变异越小 B. 观察个体的变异越大 C. 抽样误差越大 D. 由样本均数估计总体均数的可靠性越小 E. 由样本均数估计总体均数的可靠性越大 2. 抽样误差产生的原因是 A. 样本不是随机抽取 B. 测量不准确 C. 资料不是正态分布 D. 个体差异 E. 统计指标选择不当 3. 对于正偏态分布的的总体, 当样本含量足够大时, 样本均数的分布近似为 A. 正偏态分布 B. 负偏态分布 C. 正态分布 D. t分布 E. 标准正态分布 4. 假设检验的目的是 A. 检验参数估计的准确度 B. 检验样本统计量是否不同 C. 检验样本统计量与总体参数是否不同 D. 检验总体参数是否不同 E. 检验样本的P值是否为小概率 5. 根据样本资料算得健康成人白细胞计数的95%可信区间为7.2×109/L~ 9.1×109/L,其含义是 A. 估计总体中有95%的观察值在此范围内 B. 总体均数在该区间的概率为95% C. 样本中有95%的观察值在此范围内 D. 该区间包含样本均数的可能性为95% E. 该区间包含总体均数的可能性为95%

答案:E D C D E 二、计算与分析 1.为了解某地区小学生血红蛋白含量的平均水平,现随机抽取该地小学生450人,算得其血红蛋白平均数为101.4g/L,标准差为1.5g/L,试计算该地小学生血红蛋白平均数的95%可信区间。 [参考答案] 样本含量为450,属于大样本,可采用正态近似的方法计算可信区间。 101.4 X=, 1.5 S=,450 n=,0.07 X S=== 95%可信区间为 下限: /2.101.4 1.960.07101.26 X X u S α=-?= -(g/L) 上限: /2.101.4 1.960.07101.54 X X u S α +=+?=(g/L) 即该地成年男子红细胞总体均数的95%可信区间为101.26g/L~101.54g/L。 2.研究高胆固醇是否有家庭聚集性,已知正常儿童的总胆固醇平均水平是175mg/dl,现测得100名曾患心脏病且胆固醇高的子代儿童的胆固醇平均水平为207.5mg/dl,标准差为30mg/dl。问题: ①如何衡量这100名儿童总胆固醇样本平均数的抽样误差? ②估计100名儿童的胆固醇平均水平的95%可信区间; ③根据可信区间判断高胆固醇是否有家庭聚集性,并说明理由。 [参考答案] ①均数的标准误可以用来衡量样本均数的抽样误差大小,即 30 S=mg/dl,100 n= 3.0 X S=== ②样本含量为100,属于大样本,可采用正态近似的方法计算可信区间。 207.5 X=,30 S=,100 n=,3 X S=,则95%可信区间为 下限: /2.207.5 1.963201.62 X X u S α=-?= -(mg/dl)

统计学经典书籍推荐

统计学经典书籍推荐 这是我碰巧在网上看到有人做了一些关于统计学经典书籍推荐和建议的总结,所以特意 转载与此,希望对大家有用。 一、统计学基础部分 1、《统计学》David Freedman等著,魏宗舒,施锡铨等译中国统计出版社 据说是统计思想讲得最好的一本书,读了部分章节,受益很多。整本书几乎没有公式,但是讲到了统计思想的精髓。 2、《Mind on statistics(英文版)》机械工业出版社 只需要高中的数学水平,统计的扫盲书。有一句话影响很深:Mathematics as to statistics is something like hammer, nails, wood as to a house, it's just the material and tools but not the house itself。 3、《Mathematical Statistics and Data Analysis(英文版.第二版)》机械工业出版社 看了就发现和国内的数理统计树有明显的不同。这本书理念很好,讲了很多新的东西,把很热门的Bootstrap方法和传统统计在一起讲了。Amazon上有书评。 4、《Business Statistics a decision making approach(影印版)》中国统计出版社 在实务中很实用的东西,虽然往往为数理统计的老师所不屑 5、《Understanding Statistics in the behavioral science(影印版)》中国统计出版社 和上面那本是一个系列的。老外的书都挺有意思的 6、《探索性数据分析》中国统计出版社和第一本是一个系列的。大家好好看看陈希儒老先生做的序,可以说是对中国数理统计的一种反思。 二、回归部分 1、《应用线性回归》中国统计出版社 还是著名的蓝皮书系列,有一定的深度,道理讲得挺透的。看看里面对于偏回归系数的说明,绝对是大开眼界啊!非常精彩的书 2、《Regression Analysis by example (3rd Ed影印版)》 这是偶第一本从头到底读完的原版统计书,太好看了。那张虚拟变量写得比小说都吸引人。没什么推导,甚至说“假定你有统计软件可以算出结果”,主要就是将分 析,怎么看图,怎么看结果。看完才觉得回归真得很好玩 3、《Logistics回归模型——方法与应用》王济川郭志刚高等教育出版社不多的国内的经典统计教材。两位都是社会学出身,不重推导重应用。每章都有详细的SAS和SPSS程序和输出的分析。两位估计洋墨水喝得比较多,中文写的书,但是明显老外写书的风格 三、多元 1、《应用多元分析(第二版)》王学民上海财经大学出版社 现在好像就是用的这本书,但是请注意,这本书的亮点不是推导,而是后面和SAS结合的部分,以及其中的一些想法(比如P99 n对假设检验的影响,绝对是统计的感觉,不是推推公式就能感觉到的)。这是一本国内很好的多元统计教材。 2、《Analyzing Multivariate Data(英文版)》Lattin等著机械工业出版社这本书有很多直观的感觉和解释,非常有意思。对数学要求不高,证明也不够好,但的确是“统计书”,不是数学书。

数理统计在医学中的应用

谈数理统计在医学中的应用 摘要:目前数理统计在医学方面的应用越来越广泛。本文首先论述了其研究内容和特点,再通过举例说明,表明数理统计这门学科在疾病的治疗、药物的研究等方面发挥着不可替代的作用,最后是对该学科的展望,数理统计这门学科有广阔的发展空间,并且越来越多地应用到实际生活中。 关键词:数理统计医学贝叶斯公式药物疾病 第一章概述 数理统计是研究现实世界中大量现象的客观规律性的科学。也即从实际资料出发,来研究大量现象的规律性。具体来说,数理统计是研究从被研究对象的总体中抽出的一部分的某些性质,从而推断分析所研究的总体的性质。 医用数理统计方法是研究医学随机现象变异规律性的一门科学方法,它运用数理统计的基本知识,研究如何科学地搜集原始数据资料,建立有效的数据处理方法,进行统计分析,通过被研究问题作出估计和检验,从而指出事物变异的统计规律性。 在实际生活中,医学随机现象的变异性是普遍存在的,如同一地区内性别、年龄在不同时间段的构成比不同;同一疾病用同一种方法治疗,不同人群会有不同的治疗效果等。医学随机事件直接表现为一;定数量,这些数量的取值不能事先确定,而是受偶然因素的影响而改变的。这种随着偶然因素而改变的变量,称为随机变量。例如治愈数、死亡数、测量身高、体重所产生的误差等。通过数理统计研究使我们对于随机变量的特征及其变化规律获得一个总的认识,即通常所说的统计规律性就是随机变量概率分布特征的规律性。 统计学原理中要求抽样调查必须遵循的原则是抽样随机化。随机变量一般分为连续型随机变量和离散型随机变量,连续型随机变量是指随机变量取值充满某一个区间,如人的身高和血压的测定值等,它符合正态分布; 离散型随机变量是指随机变量只能取有限个或可数个值,如同一疾病中的治愈人数等,它符合二项分布。在医疗实践中,数理统计就是对大量随机事件进行科学的搜集整理统计资料并根据概率理论,以样本资料对总体的某些性质作出估计和判断

数理统计学展望

一、20世纪数理统计学发展概述 20世纪,特别是其上半叶,是数理统计学发展史上一个辉煌的时代。从现代数理统计学框架的建立到发展为一个成熟的学科,是在这个时期完成的。20世纪初,数理统计学面临一个转折点,意思是它必须有新的突破才能获得进一步发展的契机。20世纪早期一批以费歇尔为首的统计学大师成功地应对了这个局面,创造了非凡的业绩。按照国际上一些知名统计学家的看法,20世纪末数理统计学发展的态势,与世纪初颇有相似的地方。人们在呼唤“21世纪的费歇尔”。当然,广义地说,这也是每一位数理统计工作者所肩负的任务。中国作为一个世界大国,年轻一代的数理统计学者应该也有条件在这方面作出自己的贡献。为了更清楚阐述上文的意思,需要对数理统计学的历史作一个简短的回顾。按目前数理统计学界公认的看法,数理统计学是“收集和分析带随机性的数据的科学和艺术”。以笔者的看法,这个内涵规定了它是一个中立性的工具。“中立”的意思是指这门学科不带任何社会的、政治的或意识形态上的倾向性,因而也不存在它自成学派或从属于何学派的问题。有一种看法认为社会经济统计学与数理统计学是“大统计学”中的两个对立的学派。笔者认为这种看法值得商榷。的确,在社会经济统计学中该不该使用数理统计方法,在哪些问题上或者在何种程度上应否使用数理统计方法,是可能存在不同意见的。如果说由于对这些问题的看法不同而有学派存在,那还算言之成理。但这些问题与数理统计学无关:数理统计学只是一种工具,谁如觉得

这个工具对他有用,就可以使用它——当然在使用中必须遵守这门学科的规范,否则就可能产生误导公众及提供错误的决策依据的后果。历史上(部分地直到如今)数理统计方法曾遭到一些批评和怀疑,一定程度上与上述情况有关。数理统计学起源于何时?这是一个无法也不必做出定论的问题。有的学者把英国学者格朗特的著作《关于死亡公报的自然和政治观察》发表的年份1662年定为这门学科的诞生之日,恐怕也只能算是一家之见。实际情况是,可以说直到20世纪初,并不存在一门统一的数理统计学科,而中是在各实用领域中的学者因工作上的需要而分头发展了一些分析数据的方法,即统计方法。最主要的有3个方面:一是天文和测地学中因误差分析问题而导致最小二乘法和正态误差的发明。起初,人们认为“误差分析”与“统计分析”是根本不同的两回事:前者的数据是对一个对象多次测量所得;后者的数据则是对多个对象各测量一次所得。按现今的数理统计学框架,我们容易认识这是一回事,但在当时则不然。到19世纪中、后期,经过凯特勒、盖尔顿等在社会学和生物学方面的实际工作,以及埃其渥斯、卡尔·皮尔逊等的数学理论工作,终于把二者统一起来,并在20世纪得到发扬光大。直到如今,线性模型——最小二乘法——正态误差这个体系下所发展的方法,在相当大的程度上仍占据了应用统计方法中的主导地位。所以有人说,天文学是数理统计学的母亲。 第二个方面是人口学。前文提到的格朗特的著作是一个重要例子。这个方向发展了离散数据统计,即以二项分布和波哇松分布为代表的统计方法。另一个重要之点是它在19世纪即开始孕育了抽样调查的思

概率论与数理统计及其应用(第二版)第一章习题参考答案

《概率论与数理统计及其应用》(第二版)第一章习题参考解答 1.解:(1){}67,5,4,3,2=S (2){} ,4,3,2=S (3){} ,,,TTH TH H S = (4){}6,5,4,3,2,1,,T T T T T T HT HH S = 2.解:8 1 )(,21)(,41)(=== AB P B P A P ∴ )()()()(AB P B P A P B A P -+= 8 5 812141=-+= )()()(AB P B P B A P -==838121=-= 8 7 811)(1)(=-=-=AB P AB P )])([(AB B A P )]()[(AB B A P -= )()(AB P B A P -= )(B A AB ? 2 18185=-= 3.解:用A 表示事件“取到的三位数不包含数字1” 25 18 900998900)(191918=??==C C C A P 4、解:用A 表示事件“取到的三位数是奇数”,用B 表示事件“取到的三位数大于330” (1) 4554 43)(2 5 15141413????==A C C C C A P =0.48 2) 4554 21452)(2 5 151 4122512????+??=+=A C C C A C B P =0.48 5、解:用A 表示事件“4只中恰有2只白球,1只红球,1只黑球”, 用B 表示事件“4只中至少有2只红球”,

用C 表示事件“4只中没有只白球” (1)4 12 1 31425)(C C C C A P ==495120=338 (2)41248381 41)(C C C C B P +-==16567495201= 或16567 )(4 124 418342824=++=C C C C C C B P (3)99 7 49535)(4124 7= ==C C C P 6.解:用A 表示事件“某一特定的销售点得到k 张提货单” n k n k n M M C A P --=)1()( 7、解:用A 表示事件“3只球至少有1只配对”,用B 表示事件“没有配对” (1)3212313)(=??+= A P 或32 1231121)(=????-=A P (2)3 1 123112)(=????=B P 8、解 1.0)(,3.0)(,5.0)(===AB P B P A P (1)31 3.01.0)()()(=== B P AB P B A P , 5 1 5.01.0)()()(=== A P A B P A B P 7.01.03.05.0)()()()(=-+=-+=AB P B P A P B A P )()()()()()]([)(B A P AB P B A P AB A P B A P B A A P B A A P === 75 7.05.0== 7 1 7.01.0)()()()])([()(==== B A P AB P B A P B A AB P B A AB P

相关文档
相关文档 最新文档