文档库 最新最全的文档下载
当前位置:文档库 › 生物统计学教案(5)

生物统计学教案(5)

生物统计学教案(5)
生物统计学教案(5)

生物统计学教案

第五章统计推断

教学时间:5学时

教学方法:课堂板书讲授

教学目的:重点掌握两个样本的差异显著性检验,掌握一个样本的差异显著性检验,了解二项分布的显著性检验。

讲授难点:一个、两个样本的差异显著性检验

统计假设检验:首先对总体参数提出一个假设,通过样本数据推断这个假设是否可以接受,如果可以接受,样本很可能抽自这个总体,否则拒绝该假设,样本抽自另外总体。

参数估计:通过样本统计量估计总体参数。

5.1 单个样本的统计假设检验

5.1.1 一般原理及两种类型的错误

例:已知动物体重服从正态分布N(μ,σ2),实验要求动物体重μ=10.00g。已知总体标准差σ=0.40g,总体平均数μ未知,为了得出对总体平均数μ的推断,以便决定是否接受这批动物,随机抽取含量为n的样本,通过样本平均数,推断μ。

1、假设:

H0: μ=μ0或H0: μ-μ0=0

H A: μ>μ0 μ<μ0 μ≠μ0三种情况中的一种。

本例的μ0=10.00g,因此

H0: μ=10.00

H A: μ>10.00或μ<10.00或μ≠10.00

2、小概率原理小概率的事件,在一次试验中几乎是不会发生的,若根据一定的假设条件计算出来该事件发生的概率很小,而在一次试验中,它竟然发生了,则可以认为假设的条件不正确,从而拒绝假设。

从动物群体中抽出含量为n的样本,计算样本平均数,假设该样本是从N(10.00,0.402)中抽取的,标准化的样本平均数

服从N (0,1)分布,可以从正态分布表中查出样本抽自平均数为μ的总体的概率,即P (U >u ), P (U <-u ), 以及P (|U |>u )的概率。如果得到的值很小,则

x 抽自平均数为μ

0的总体的事件是一个小概率事件,它在一次试验中几乎是不会发生的,但实际上它

发生了,说明假设的条件不正确,从而拒绝零假设,接受备择假设。

显著性检验:根据小概率原理建立起来的检验方法。

显著性水平:拒绝零假设时的概率值,记为α。通常采用α=0.05和α=0.01两个水平,当P < 0.05时称为差异显著,P < 0.01时称为差异极显著。

3、临界值

例 从上述动物群体中抽出含量n =10的样本,计算出x =10.23g ,并已知

该批动物的总体平均数μ绝不会小于10.00g ,规定的显著水平α=0.05。根据以上条

件进行统计推断。

H 0: μ=10.00 H A : μ>10.00 根据备择假设,为了得到x 落在上侧尾区的概率P (U > u ),将x 标准化,求出

u 值。

P (U >1.82)=0.03438,P < 0.05,拒绝H 0,接受 H A 。

在实际应用中,并不直接求出概率值,而是建立在α水平上H 0的拒绝域。从

正态分布上侧临界值表中查出P (U > u α)= α时的u α值,U > u α的区域称为在α水平上的H 0拒绝域,而U < u α的区域称为接受域。接受域的端点一般称为临界值。本例的u =1.82,从附表3可以查出u 0.05=1.645, u > u α,落在拒绝域内,拒绝H 0而接受H A 。

4、单侧检验和双侧检验

上尾单侧检验:上例中的H A :μ>μ0,相应的拒绝域为U > u α。对应于H A :μ>μ0时的检验称为上尾单侧检验。

下尾单侧检验:对应于H A :μ<μ0时的检验称为下尾单侧检验。 其拒绝域为U <-u α。

双侧检验:对应于H A :μ≠μ0时的检验称为双侧检验。双侧检验的拒绝域为

n

x n

x u 40

.000.100

-=

-=

σ

μ82

.110

40

.000

.1023.100

=-=

-=

n

x u σ

μ

|U | >u α/2 。

5、单侧检验和双侧检验的效率:在样本含量和显著水平相同的情况下,单侧检验的效率高于双侧检验。这是因为在做单侧检验

利用了已知有一侧是不可能这一条件,从而提高了它的辨别力。所以,在可能的条件下尽量做单侧检验。

例 上例已经计算出u =1.82,上尾单侧检验的临界值u 9,0.05=1.645,u > u α,结论是拒绝零假设。在做双侧检验时u 仍然等于1.82,双侧检验的临界值为u 9, 0.05/2 =1.96, |u |

6、两种类型的错误

(1)I 型错误,犯I 型错误的概率记为α

α=P (I 型错误)=P (拒绝H 0|H 0是正确的,μ=μ0) (2)II 型错误,犯II 型错误的概率记为β

βμ1=P (II 型错误)=P (接受H 0|H 0是错误的,μ=μ1) 例 继续上例,抽出n =10的样本,

x =10.20g ,检验假设

H 0:μ=10.00g H A :μ >10.00g

标准化的样本平均数

临界值u 0.05 =1.645,u < u 0.05, P > 0.05。结论是不能拒绝H 0。

以样本平均数表示的临界值,可由下式得出

在下图中0x 的位置已用竖线标出。犯I 型错误的概率α,由竖线右侧μ0=10.00曲线下面积给出。犯II 型错误的概率由竖线左侧μ1=10.30曲线下面积给出。

10.2010.00 1.58

0.40u -=

=0010.001.64510.208

0.40x x -=

=

犯II 型错误的概率β10.30=0.2327。

从上图中可以看出

(1)当μ1越接近μ0时,犯II 型错误的概率越大。

(2)降低犯I 型错误的概率,必然增加犯II 型错误的概率。 (3)为了同时降低犯两种错误的概率,必须增加样本含量。

7、关于两个概念的说明:

(1)当P <α时,所得结论的正确表述应为:由样本平均数推断出的总体平均数μ与μ0之间的差异有统计学意义。即它们属于两个不同总体。习惯上称为“差异是显著的”。

(2)接受H 0的更严密的说法应是:尚无足够理由拒绝H 0。但习惯上采用接受H 0和拒绝H 0这种表达方法。

5.1.2 单个样本显著性检验的程序 (略)

5.1.3 在σ已知的情况下,单个平均数的显著性检验-u 检验 检验程序如下:

1、假设从σ已知的正态或近似正态总体中抽出含量为n 的样本。

2、零假设 H 0: μ=μ0

备择假设 H A : ① μ > μ0 ② μ < μ0

()()2327.073.01040.030.10208.1030

.10=-<=?

???

?

? ??-<=<=U P U P u U P αβ

③ μ ≠ μ0

3、显著性水平 在α=0.05水平上拒绝H 0称为差异显著 在α=0.01水平上拒绝H 0称为差异极显著

4、检验统计量

5、相应于2中各备择假设之H 0的拒绝域 ① u > u α ② u <-u α ③ |u | > u α/2

6、得出结论并给予解释

例 已知豌豆籽粒重量服从正态分布N (377.2,3.32)在改善栽培条件后,随机

抽取9粒,其籽粒平均重为379.2,若标准差仍为3.3,问改善栽培条件是否显著提高了豌豆籽粒重量? 解 ① σ已知

② 假设: H 0: μ= 377.2 H A : μ > 377.2 ③ 显著性水平: α=0.05 ④ σ已知,使用u 检验

⑤ H 0的拒绝域:因H A :μ >μ0,故为上尾检验,当u >u 0.05时拒绝H 0 。u 0.05=1.645。 ⑥ 结论: u > u 0.05 , 即P < 0.05, 所以拒绝零假设。栽培条件的改善,显著地

提高了豌豆籽粒重量。

5.1.4 σ未知时平均数的显著性检验-t 检验

检验程序如下:

1、假设从σ未知的正态或近似正态总体中抽出含量为n 的样本。

2、零假设: H 0: μ=μ0 备择假设: H A : ① μ > μ0

② μ < μ0

n

x u σ

μ0

-=

82

.19

3.32.3772.3790

=-=-=

n

x u σ

μ

③ μ ≠ μ0

3、显著性水平: 在α=0.05水平上拒绝H 0称为差异显著 在α=0.01水平上拒绝H 0称为差异极显著

4、检验统计量: 当σ未知时以s 代替之,标准化的变量称为t ,服 从n -1自由度的t 分布。t 分布的临界值可从附表4中查出。

5、相应于2中各备择假设之H 0的拒绝域: ① t > t α ② t <-t α ③ |t | > t α/2

6、得出结论并给予解释。

例 已知玉米单交种群单105的平均穗重μ0=300g 。喷洒植物生长促进剂后,

随机抽取9个果穗,其穗重为:308、305、311、298、315、300、321、294、320g 。问喷药后与喷药前的果穗重差异是否显著? 解 ① σ未知

② 假设: H 0: μ=300 H A : μ ≠300

激素类药物需有适当的浓度,浓度适合时促进生长,浓度过高时反而抑制生

长,在这里喷药的效果是未知的,并非仅能促进生长,需采用双侧检验

③ 显著性水平: α=0.05 ④ σ未知应使用t 检验,已计算出

x =308,s =9.62

⑤ H 0的拒绝域:因H A :μ≠μ0,故为双侧检验,当|t |>t 0.025时拒绝H 0 。

t 0.025=2.306。

⑥ 结论:因|t |>t 0.025 , 即P < 0.05,所以拒绝零假设。喷药前后果穗重的差异

是显著的。

若规定α=0.01,t 0.01/2=3.355,t < t 0.005,因此喷药前后果穗重的差异尚未达到“极显著”。

5.1.5 变异性的显著性检验-χ2检验

n

s x t 0

μ-=

49.29

62.9300

3080=-=-=

n s x t μ

χ2检验的基本程序如下:

1、假设从正态总体中随机抽取含量为n 的样本,计算出样本s 2。

2、零假设: H 0: σ=σ0 备择假设: H A : ① σ > σ0

② σ < σ0 ③ σ ≠ σ0

3、显著性水平: 在α=0.05水平上拒绝H 0称为差异显著 在α=0.01水平上拒绝H 0称为差异极显著

4、检验统计量:

统计量χ2服从n – 1自由度的χ2分布。 5、相应于2中各备择假设之H 0的拒绝域: ① χ2 >χ2α ② χ2 <χ21-α

③ χ2 <χ21-α/2 和 χ2 >χ2α/2 6、得出结论并给予解释。

例 一个混杂的小麦品种,株高标准差σ0=14cm ,经提纯后随机抽出10株,它们的株高为:90、105、101、95、100、100、101、105、93、97cm ,考查提纯后的群体是否比原群体整齐?

① μ未知,对未知总体的方差做检验 ② 假设: H 0: σ=14cm 0 H A : σ < σ0

小麦经提纯后株高只能变得更整齐,因而使用下侧检验。 ③ 显著性水平: 在α=0.01水平上做检验 ④ 检验统计量:

⑤ 相应于备择假设H A :σ < σ0之H 0的拒绝域为χ2 <χ21-α,从附表 6中可以查出

()20

2

21σχs n -=

()()

11.114

1.21812

20

10

1

20

2

2

==-=

-=

∑=σσ

χ

i i

x x

s n

χ20.99=2.09

⑥ 结论:因χ2 < χ20.99,即P < 0.01,所以拒绝H 0。结论是植株经提纯后变得非常整齐。

5.2 两个样本的差异显著性检验 问题的提出(P78) 5.2.1 两个方差的检验-F 检验

F 检验的基本程序如下:

1、从两个正态或近似正态总体中,独立地抽取含量分别为n 1和n 2 的两个随机样本,分别计算出s 12和s 22。与总体平均数μi 无关。

2、零假设: H 0: σ1=σ2 备择假设: H A : ① σ1 > σ2

② σ1 < σ2 ③ σ1 ≠ σ2

3、显著性水平: 在α=0.05水平上拒绝H 0称为差异显著 在α=0.01水平上拒绝H 0称为差异极显著

4、检验统计量: 在抽样分布一章中已经给出F 的定义

在零假设σ1=σ2下,统计量F 变为 5、相应于2中各备择假设之H 0的拒绝域:

① 相应于H A :σ1 > σ2,应做上尾单侧检验,当F >F α时拒绝H 0。

② 相应于H A :σ1 < σ2,应做下尾单侧检验,当F

一种变通的办法是把s 2中较大者称为s 12,这时只会用上侧检验,处理起来更方

22

222121

,21σσs s F df df =

1,1,221122

21,2

1-=-==n df n df s

s F df df ()α

α,,1,,12211df df df df F F =

-

便些,对于结果无影响。

③ 相应于H A :σ1 ≠ σ2,应做双侧检验,当F >F α/2和F

例 测定了20位青年男子和20位老年男子的血压值,问老年人血压值个体间的波动是否显著高于青年人?(数据略)P80 解1

① 人类血压值是服从正态分布的随机变量。 ② 假设: H 0: σ1 = σ2 H A : σ1 < σ2

老年人的血压值在个体之间的波动,只会大于青年人,决不会小于青年人。 ③ 显著性水平:规定α=0.05

④ 检验统计量:先计算出 s 12 = 193.4, s 22 = 937.7

⑤ 建立H 0的拒绝域:根据备择假设,应为下侧检验,当F

⑥ 结论:F < F 0.95,即P < 0.05。结论是拒绝H 0,老年人血压值在个体之间的

波动大于年青人。

解2 若以s 2中较大者作为分子,备择假设则变为H A :σ2 >σ1,成为上尾检验,所用的检验统计量为:

在查临界值时应注意,现在df 2是分子,df 1是分母。F 0.05=2.18,F >F 0.05, P < 0.05, 结论仍然是拒绝H 0。

5.2.2 标准差(σi )已知时,两个平均数间差异显著性的检验

检验程序如下:

1、从σ1和σ2已知的正态或近似正态总体中抽出含量分别为n 1和n 2

12

21,22

193.40.206937.7

df df s F s ===459.018

.21105

.0,19,1995.0,19,19===

F F 84

.44.1937.93721

22,1

2===s s F df df

的样本。

2、零假设 H 0: μ1=μ2 备择假设 H A : ① μ1 > μ2

② μ1 < μ2 ③ μ1 ≠ μ2

3、显著性水平 在α=0.05水平上拒绝H 0称为差异显著 在α=0.01水平上拒绝H 0称为差异极显著

4、检验统计量

在σi 已知时两平均数差的标准化变量

在H 0:μ1=μ2下,检验统计量为:

上式的分母称为平均数差的标准误差,记为

5、相应于2中各备择假设之H 0的拒绝域 ① u > u α ② u <-u α ③ |u | > u α/2

6、得出结论并给予解释

例 调查两个不同渔场的马面鲀体长,每一渔场调查20条。平均体长分别为:1x =19.8cm ,

2

x =18.5cm 。σ1=σ2=7.2cm 。问在α=0.05水平上,第一号渔场

的马面鲀是否显著高于第二号渔场的马面鲀体长? 解

()()

2

22

1

21

2121n n x x u σσμμ+

---=

()

2

1

x x

-σ2

22

1

21

2

1n n x x u σσ+

-=

① 马面鲀体长是服从正态分布的随机变量,σ1和σ2已知。 ② 假设: H 0: μ1=μ2 H A : μ1 > μ2 ③ 显著性水平: 已规定为α=0.05 ④ 统计量的值:

⑤ 建立H 0的拒绝域:上尾单侧检验,当u > u 0.05时拒绝H 0。从表中查出u 0.05 = 1.645.

⑥ 结论:u < u 0.05,即P > 0.05,尚不能拒绝H 0,第一号渔场马面鲀体长并不比第二号的长。

5.2.3 标准差(σi )未知但相等时两平均数间差异显著性检验-成组数据t 检验 I. 方 差 齐 性 检 验: 使用双侧F 检验。

1、从两个正态或近似正态总体中,独立地抽取含量分别为n 1和n 2

的两个随机样本,分别计算出s 1

2和

s 22。

2、零假设: H 0: σ1=σ2 备择假设: H A : σ1 ≠ σ2

3、显著性水平: α=0.05

4、检验统计量:

5、建立H 0的拒绝域:

对于方差齐性应做双侧检验,当F >F α/2和F

II. 平 均 数 差 异 显 著 性 检 验

1、从σ1和σ2未知的正态或近似正态总体中抽出含量分别为n 1和n 2

的样本。

2、零假设: H 0: μ1=μ2 备择假设: H A : ① μ1 > μ2

57

.020

22

.75.188.1922

12

22

1

21

2

1=-=

-=

+

-=

n

x x n n x x u σ

σσ1,1,221122

21

,2

1-=-==n df n df s s F df df

② μ1 < μ2 ③ μ1 ≠ μ2

3、显著性水平: 在α=0.05水平上拒绝H 0称为差异显著 在α=0.01水平上拒绝H 0称为差异极显著

4、检验统计量:在标准差未知时,平均数差的标准化变量在抽样分布一章中已经给出。

在H 0:μ1=μ2下,检验统计量为:

服从n 1-1+n 2-1自由度的t 分布。在n 1 = n 2 = n 时,上式可简化为:

在n 1和n 2都很大时,n 1-1≈n 1 , n 2-1≈n 2 , 上式又可简化为:

5、相应于2中各备择假设之H 0的拒绝域: ① t > t α ② t <-t α

()()

()()()()???

?

??+-+--+----=

+2

1

212

2221121211

1111121n n n n s n s n x x t df df μμ()()()()???

? ??+-+--+--=

+21212

222112

111111121n n n n s n s n x x t df df ()n

s s x x t n 22

212

112+-=

-1

2

2

2212

121n s n s x x t n n +-=

+

③ |t | > t α/2 6、得出结论并给予解释。

例 两个小麦品种从播种到抽穗所需天数如下表,问两者所需的天数差异是否显著?

品种1 品种2 X 1 X 1′=X 1-100

X 1′2

X 2 X 2′=X 2-100 X 2′

2

101 1 1 100 0 0 100 0 0 98 -2 4 99 -1 1 100 0 0 99 -1 1 99 -1 1 98 -2 4 98 -2 4 100 0 0 99 -1 1 98 -2 4 98 -2 4 99 -1 1 98 -2 4 99 -1 1 99 -1 1 99 -1 1 100 0 0 和 -8 14 -11 19 平均数 99.2 98.9 解

I. 方 差 齐 性 检 验: 使用双侧F 检验。

① 小麦生长天数是服从正态分布的随机变量。 ② 假设: H 0: σ1=σ2 H A : σ1 ≠ σ2 ③显著性水平: α=0.05 ④ 检验统计量:

⑤ 建立H 0的拒绝域:

F 9, 9, 0.025=4.026, F 9, 9, 0.975=0.248

⑥ 结论:F 0.975 < F < F 0.025 , 即P > 0.05。方差具齐性。

II. 平 均 数 差 异 显 著 性 检 验

1

.177

.084.02221===s s F

① 小麦生长天数是服从正态分布的随机变量。 ② 假设: H 0: μ1=μ2 H A : μ1 ≠ μ2 ③ 显著性水平: α=0.05 ④ 检验统计量:

⑤ 建立H 0的拒绝域: 本例为双侧检验,当 |t | > t α/2时拒绝H 0,从附表4中查出t 18, 0.025=2.10。

⑥ 结论:t < t 0.025,即P > 0.05,接受H 0。两个小麦品种从播种到抽穗所需天数差异不显著。

例 两种激素类药物对肾组织切片氧消耗的影响,结果为:(1)n 1 = 9, x 1 = 27.92, s 12 = 8.673;(2)n 2 = 6, x 2 = 25.11, s 22 = 1.843。问两种药物对肾组织切片养消耗的影响差异是否显著?

解 I. 方差齐性检验

H 0:σ1=σ2 H A :σ1≠σ2 α=0.05

F < F 0.025,即P > 0.05。可以接受σ1=σ2的假设。

II. 平均数间差异显著性检验

H 0:μ1=μ2 H A : μ1≠μ2 α=0.05

t 0.025 = 2.160, t > t 0.025, 即P < 0.05。结论是:在α=0.05水平上,两种药物对肾组织切片氧消耗的影响刚刚达到显著。

5.2.4 标准差(σi )未知且可能不等时,两平均数间差异显著性检验(略) 5.2.5 配对数据的显著性检验-配对数据t 检验 例 下表为不同组合的杂种F 1籽粒蛋白质含量

父 本 西地迈罗A(a ) 矬巴子1A(b ) d =(a )-(b ) d 2 玛纳斯红 8.478 7.994 0.484 0.234

()()

()()()()75

.0102189.66.79.982.9911111121212

22211212121=?

?

?

????? ??+-=

???

? ??+-+--+----=

+n n n n s n s n x x t df df μμ757

.6,

71.4843

.1673

.8025.0,5,85,8===

F F 168

.2619113215.9384.6911.2592.27=?

?

?

??++-=

t

红菲特瑞他 7.512 7.141 0.371 0.138 忻 粱 7 7.222 8.267 –1.045 1.092 平罗娃娃头 8.053 8.280 –0.227 0.052 平 顶 冠 7.689 6.740 0.949 0.901 洋 大 粒 8.528 7.632 0.896 0.803 忻 粱 52 6.972 5.913 1.059 1.121 东海红公鸡 7.731 8.169 –0.798 0.637 板 农 1 5.760 7.570 –1.810 3.276 歪 脖 黄 7.930 7.569 0.361 0.131 千 斤 红 7.255 6.322 0.933 0.870 忻 粱 71 6.795 6.417 0.378 0.143 总 计 1.511 9.397 1、高粱蛋白质含量是服从正态分布的随机变量;配对数据。

2、零假设: H 0:

=d μ

备择假设: H A : ① 0>d μ ② 0

3、显著性水平: 在α=0.05水平上拒绝H 0称为差异显著 在α=0.01水平上拒绝H 0称为差异极显著

4、检验统计量: 标准化变量t

在零假设μd =0下,上式变为

t 服从n -1自由度的t 分布,其中的n 为数据的对子数。

5、相应于2中各备择假设之H 0的拒绝域: ① t > t α ② t <-t α ③ |t | > t α/2

n

s x t 0

μ-=

d d s d

n

s d t ==

6、得出结论并给予解释。

上例的推断如下:

H 0:μd = 0 H A :μd ≠ 0 α=0.05

t 11, 0.025 = 2.201, |t | < t 0.025, 即P > 0.05,接受H 0,用不同的母本所配成的高粱杂交种籽粒蛋白质含量差异不显著。 5.2.6 -5.2.9 (略)

489

.0264

.0129.0===d s d t

生物统计学教案

《生物统计学》教案 第一章统计数据的收集和整理 教学时间:2学时 教学方法:课堂板书讲授 教学目的:重点掌握样本特征数平均数、样本方差、标准差的概念和计算方法,掌握数据类型及频数(率)分布,了解众数、中位数、变异系数。 讲授难点:样本方差、标准差的概念和计算方法 1.1 总体与样本 1.1.1 统计数据的不齐性 1、变异性是自然界存在的客观规律。 2、自然界如果没有变异,也就不需要统计学了。 3、生物学研究的对象都是很大的群体,不可能研究全部对象,只能通过研究其中的一部分,来推断全部对象,于是引出以下概念。 1.1.2 总体与样本 总体:研究的全部对象。 个体:总体中的每个成员。 样本:总体的一部分。 样本含量:样本所包含的个体数目。 1.1.3 抽样 抽样:从总体中获得样本的过程。 随机抽样:总体中的每一个个体被抽中的机会都相同的一种抽样方法。 放回式抽样:从总体中抽出一个个体,记下其特征后,放回原总体中,再做第二次抽样。 非放回式抽样:从总体中抽出个体后,不再放回,即做第二次抽样。 抽样的目的:从总体中获得一个有代表性的样本,以便通过样本推断总体。 应注意的问题:①样本必须有代表性。②样本含量与可实施性之间的平衡。 1.2 数据类型及频数(率)分布

1.2.1 连续型数据和离散型数据 连续型数据:与某种标准比较所得到的数据。又称为度量数据。 离散型数据:由记录不同类别个体的数目所得到的数据。又称为计数数据。 1.2.2 频数(率)分布表和频数(率)分布图的编绘 例1.1 调查每天出生的10名新生儿中体重超过3公斤的人数, 共调查120天,结果如下: 表 1-1 每10名新生儿中体重超过3Kg的人数的 频数(率)分布表 频数(率)分布:把频数(率)按组值的顺序排列起来,便得到离散型数据的频数(率)分布。 频数(率)分布还可以用图形表示,见图1-1。 图1-1 每10名新生儿中体重超过3Kg的人数的频数分布图 下面介绍连续型数据的频数(率)分布表和分布图的编绘方法。

生物统计学教案(4)

生物统计学教案 第四章 抽样分布 教学时间:2学时 教学方法:课堂板书讲授 教学目的:重点掌握样本平均数的t 分布、F 分布和样本方差的X 2分布,掌握两个样 本标准差比的分布。 讲授难点:t 分布、F 分布和X 2分布 4.1 从一个正态总体中抽取的样本统计量的分布 4.1.1 样本平均数的分布 标准差已知时的平均数的分布 从平均数为μ,标准差为σ的正态总体中,独立随机地抽取含量为n 的样本,其样本平均数为一服从正态分布的随机变量。它的平均数和方差分别为: σ/n 称为标准误差。标准化的平均数 服从N (0,1)分布。 标准差未知时的平均数的分布-t 分布 若上述总体的标准差未知,可以用样本标准差代替总体标准差,标准化的平均数称为t 统计量t 不再服从N (0,1)分布,而服从n - 1自由度的t 分布。 S/n 称为样本标准误差。 n x x σ σμμ= =n x u σ μ -= n s x t μ-=

t 分布也是一种对称分布,在密度函数中只有自由度一个参数,随着自由度的增加,t 分布越来越接近于标准正态分布。 不同自由度下的t 分布 与标准正态分布类似,t 分布的上侧、下侧和双侧临界值,由以下各式给出: 对于给定的α从附表4中可以查出相应的上侧、下侧和双侧临界值。 4.1.2 样本方差的分布 从方差为σ2的正态总体中,随机抽取含量为n 的样本,计算出样本方差s 2, 标准化的s 2称为χ2。 ()()αα α α αα =??? ? ? ?≥=-≤ =≥2t t P t t P t t P ()2 2 2 2 2 1σσ χs n s df df -= =

生物统计学教案

生物统计学教案 第九章 两因素及多因素方差分析 教学时间:5学时 教学方法:课堂板书讲授 教学目的:重点掌握固定模型、随机模型两因素方差分析的方法步骤,掌握混合模型 的方差分析,了解多因素的方差分析方法。。 讲授难点:固定模型、随机模型两因素方差分析的方法步骤 9.1 两因素方差分析中的一些基本概念 9.1.1 模型类型 交叉分组设计:A 因素的a 个水平和B 因素的b 个水平交叉配合,共构成ab 个组合,每一组合重复n 次,全部实验共有abn 次。 固定模型:A 、B 两因素均为固定因素。 随机模型:A 、B 两因素均为随机因素。 混合模型:A 、B 两因素中,一个是固定因素,一个是随机因素。 9.1.2 主效应和交互作用 主效应:由于因素水平的改变所造成的因素效应的改变。 A 1 A 2 A 1 A 2 B 1 18 24 B 1 18 28 B 2 38 44 B 2 30 22 先看左边的表。A 因素的主效应应为A 2水平的平均效应减A 1水平的平均效应,B 的主效应类似。 当A 1B 1+A 2B 2=A 1B 2+A 2B 1时,A 、B 间不存在交互作用。这里A 1B 1+A 2B 2=62,A 1B 2+A 2B 1=62,因此A 、B 间不存在交互作用。 交互作用:若一个因素在另一因素的不同水平上所产生的效应不同,则它们之间存在交互作用。 20 2 241824438226 2361824424221211222121112212=+-+=+-+==+-+=+-+=B A B A B A B A B B A B A B A B A A

现在看右边的表。 A(在B1水平上)=A2B1-A1B1=28-18=10 A(在B2水平上)=A2B2-A1B2=22-30=-8 显然A的效应依B的水平不同而不同,故A、B间存在交互作用。交互作用的大小为AB=(A1B1+A2B2)-(A1B2+A2B1) 9.1.3 两因素交叉分组实验设计的一般格式 假设A因素有a水平,B因素有b水平,则每一次重复包含ab次实验,实验重复n次,总的实验次数为abn次。以x ilk表示A因素第i水平,B因素第j水平和第k次重复的观测值。一般格式见下表。 因素 B j=1,2,…,b B1B2…B b总计 A1x111x121x1b1 x112x122x1b2 x11n x12n x1b n x1. . 因 素A2x211x221x2b1 A x212x222x2b2 x21n x22n x2bn x2. . A a x a11x a21x ab1 x a12x a22x ab2 x a1n x a2n x abn x a. . 总计x.1. x.2.x.b.x. . .

生物统计学教案(5)

生物统计学教案 第五章统计推断 教学时间:5学时 教学方法:课堂板书讲授 教学目的:重点掌握两个样本的差异显著性检验,掌握一个样本的差异显著性检验,了解二项分布的显著性检验。 讲授难点:一个、两个样本的差异显著性检验 统计假设检验:首先对总体参数提出一个假设,通过样本数据推断这个假设是否可以接受,如果可以接受,样本很可能抽自这个总体,否则拒绝该假设,样本抽自另外总体。 参数估计:通过样本统计量估计总体参数。 5.1 单个样本的统计假设检验 5.1.1 一般原理及两种类型的错误 例:已知动物体重服从正态分布N(μ,σ2),实验要求动物体重μ=10.00g。已知总体标准差σ=0.40g,总体平均数μ未知,为了得出对总体平均数μ的推断,以便决定是否接受这批动物,随机抽取含量为n的样本,通过样本平均数,推断μ。 1、假设: H 0: μ=μ 或H0: μ-μ0=0 H A : μ>μ μ<μ μ≠μ 三种情况中的一种。 本例的μ =10.00g,因此 H : μ=10.00 H A : μ>10.00或μ<10.00或μ≠10.00 2、小概率原理小概率的事件,在一次试验中几乎是不会发生的,若根据一定的假设条件计算出来该事件发生的概率很小,而在一次试验中,它竟然发生了,则可以认为假设的条件不正确,从而拒绝假设。 从动物群体中抽出含量为n的样本,计算样本平均数,假设该样本是从N(10.00,0.402)中抽取的,标准化的样本平均数

服从N (0,1)分布,可以从正态分布表中查出样本抽自平均数为μ的总体的概率,即 P (U >u ), P (U <-u ), 以及P (|U |>u )的概率。如果得到的值很小,则 x 抽自平均数 为μ0的总体的事件是一个小概率事件,它在一次试验中几乎是不会发生的,但实际上它发生了,说明假设的条件不正确,从而拒绝零假设,接受备择假设。 显著性检验:根据小概率原理建立起来的检验方法。 显著性水平:拒绝零假设时的概率值,记为α。通常采用α=0.05和α=0.01两个水平,当P < 0.05时称为差异显著,P < 0.01时称为差异极显著。 3、临界值 例 从上述动物群体中抽出含量n =10的样本,计算出 x =10.23g ,并已知 该批动物的总体平均数μ绝不会小于10.00g ,规定的显著水平α=0.05。根据以上条件进行统计推断。 H 0: μ=10.00 H A : μ>10.00 根据备择假设,为了得到x 落在上侧尾区的概率P (U > u ),将x 标准化,求 出u 值。 P (U >1.82)=0.03438,P < 0.05,拒绝H 0,接受 H A 。 在实际应用中,并不直接求出概率值,而是建立在α水平上H 0的拒绝域。从 正态分布上侧临界值表中查出P (U > u α)= α时的u α值,U > u α的区域称为在α水平上的H 0拒绝域,而U < u α的区域称为接受域。接受域的端点一般称为临界值。本例的u =1.82,从附表3可以查出u 0.05=1.645, u > u α,落在拒绝域内,拒绝H 0而接受H A 。 4、单侧检验和双侧检验 上尾单侧检验:上例中的H A :μ>μ0,相应的拒绝域为U > u α。对应于H A :μ>μ0时的检验称为上尾单侧检验。 下尾单侧检验:对应于H A :μ<μ0时的检验称为下尾单侧检验。 n x n x u 40 .000.100 -= -= σ μ82 .110 40 .000 .1023.100 =-= -= n x u σ μ

生物统计学教案(7)

生物统计学教案 第七章拟合优度检验 教学时间:2学时 教学方法:课堂板书讲授 教学目的:重点掌握二项分布的检验、正态性的检验,掌握独立性检验,了解X2的可加性。 讲授难点:正态性的检验、二项分布的检验 7.1 拟合优度检验的一般原理 7.1.1 什么是拟合优度检验 用来检验实际观测数与依照某种假设或模型计算出来的理论数之间的一致性的方法。可分为两种类型: (1)拟合优度检验:检验观测数与理论数之间的一致性。 (2)独立性检验:通过检验实际观测数与理论数之间的一致性来判断事件之间的独立性。 7.1.2 拟合优度检验的统计量 例黄圆豌豆与绿皱豌豆杂交,第二代分离数目如下: 黄圆黄皱绿圆绿皱总计 实测数(O i) 315(O1) 101(O2)108(O3) 32(O4) 556 理论数(T i) 312.75(T1) 104.25(T2) 104.25(T3) 34.75(T4) 556 拟合优度的一般做法是: (1)将观测值分为k种不同类别,如四种类型豌豆。 (2)共获得n个独立观测值,第i类观测值的数目为O i。如O1-O4,他们的和等于n。 (3)第i类的概率为p i,如上述四类豌豆的概率分别为9/16、3/16、3/16、1/16,概率之和等于1。 (4)第i类的理论数T i = np i, k个理论数之和等于n。如上例中的T1-T4,它们的和等于n。 (5)O i与T i不符合程度的计算: ①求k个O i-T i之和,显然它们恒等于0。 ②求k个(O i-T i)2之和,得不出相对的不符合程度。O i=9、T i=6,O i-T i=3;O i=49、T i=46,O i-T i=3。前者的不符合程度远大于后者。 ③求k个[(O i-T i)/T i]2之和,但仍有问题。如:O i=8、T i=5以及O i=80、T i=50时O i -T i/T i都等于0.6。

生物统计学教案(11)

生物统计学教案 第十一章 多元回归及复相关分析 教学时间:1学时 教学方法:课堂板书讲授 教学目的:重点掌握多元回归及复相关分析 讲授难点: 多元回归及复相关分析 11.1 多元线性回归方程 11.1.1 多元线性回归模型 一个典型的多元回归数据可列成下表 观测次数 Y X 1 X 2 ┅ X j ┅ X k 1 y 1 x 11 x 21 x j 1 x k 1 2 y 2 x 12 x 22 x j 2 x k 2 ┇ ┇ ┇ ┇ ┇ ┇ p y p x 1p x 2p x jj x kj ┇ ┇ ┇ ┇ ┇ ┇ n y n x 1n x 2n x jn x kn 第p 次观测值为 y p =α+β1x 1p +β2x 2p +…+βk x kp +εp , p =1,2,…,n 上式称为多元线性回归模型,其中εp 是服从正态分布N (0,σ2)的随机变量。 11.1.2 正规方程 可以用最小二乘法求出α和βj 的估计值a 和b j ,从而得出多元回归方程。用最小二乘法求b j ,首先会得到一组联立方程,称为正规方程: 解该方程组可以得到b j ,a 由下式得到: ????? ??=+???++=+???++=+???++kY k kk k k Y k k Y k k S b S b S b S S b S b S b S S b S b S b S 22112222212111212111

回归方程为: 式子中的a 称为常数项,b j 称为偏回归系数。 11.1.3 多元回归方程的计算 (略) 11.1.6 回归方程中各自变量对因变量贡献大小的比较 多元回归方程中的偏回归系数的含义是,在其它变量都固定的情况下,某一变量对因变量的贡献。由于各自变量的单位不同,因此通过比较偏回归系数的大小,来决定各自变量对因变量贡献的大小是不行的。为了达到这一目的,就需对回归方程进行标准化,得到标准回归方程。标准回归方程的总平方和S YY =1,各偏回归系数为无单位的量,通过比较标准偏回归系数,可以确定它们对因变量贡献的大小。剔除贡献小的自变量,从而构建成最优回归方程。 所谓最优回归方程是指,回归方程中包括全部对Y 显著的变量,而不包含对Y 不显著的变量。 但是,用这种方法筛选最优回归方程有一定的局限性。如果各自变量之间存在显著相关,某些自变量对因变量的贡献是通过另一自变量体现出,当从方程中剔除该变量后,使得留在方程中的变量变成不显著的变量。而剔除的变量恰恰是一个有重要贡献的变量。这一问题,需要通过其它方法解决。 11.2 复相关分析 11.2.1 复相关系数 复相关系数是因变量与所有自变量之间相关程度的度量。相当于实际观测值与回归估计值之间的简单相关系数。 11.2.2 偏相关系数 在多个自变量与因变量及自变量之间都存在显著相关时,只用其中一个自变量与因变量计算简单相关系数,不能真正反应两变量之间的真实关系。为了能真正反应某一自变量与因变量之间的真实关系,就要保证在其它自变量都保持不变的情况下,计算它们之间的相关系数,这时的相关系数称为偏相关系数。 11.3 逐步回归分析 11.3.1 最优回归方程的选择 1、从变量可能的全部可能的组合中选出最优者 把自变量各种可能的组合都计算出来,对每一方程的各(偏)回归系数做显著性检验,计算剩余方差,从中选出包含的全部变量 k k X b X b X b a Y +???+++=2211?

生物统计学教案

生物统计学教案 第十章一元回归及简单相关分析 教学时间:5学时 教学方法:课堂板书讲授 教学目的:重点掌握一元线性回归方程,掌握一元线性回归方程的检验和相关,了解一元非线性回归和多元回归与相关。 讲授难点:一元线性回归方程的检验和相关 10.1 回归与相关的基本概念 函数关系:F=ma 相关关系:单位面积的施肥量、播种量和产量;血压和年龄;胸径和高度;玉米的穗长和穗重;身高和体重。 相关:设有两个随机变量X和Y,对于任一随机变量的每一个可能的值,另一个随机变量都有一个分布与之相对应,称X和Y存在相关。 回归:对于变量X的每一个可能的值x i,都有随机变量Y的一个分布相对应,则称随机变量Y对变量X存在回归。X称为自变量,Y称为因变量。 条件平均数:当X=x i时Y的平均数μY.X=xi,称为条件平均数。 10.2 一元线性回归方程 10.2.1 散点图 例不同NaCl含量对单位叶面积干物质的影响 NaCl 含量X(g/kg土壤) 0 0.8 1.6 2.4 3.2 4.0 4.8 干重Y(mg/dm2) 80 90 95 115 130 115 135

从上图虽可以看出Y对X的线性关系,但点子并不在一条直线上。 例每一 NaCl含量下干物质10次重复值 干重(mg/dm2)重 复值 NaCl含量(g/kg土壤) 0 0.8 1.6 2.4 3.2 4.0 4.8 1 80 90 95 115 130 115 135 2 100 85 89 94 106 125 137 3 75 107 115 103 103 128 128 4 89 93 92 110 110 143 127 5 91 103 115 113 128 132 155 6 79 92 120 108 131 121 132 7 101 78 95 121 117 129 148 8 85 105 95 110 121 112 117 9 83 93 105 108 114 120 134 10 79 85 98 111 116 130 132 平均值 86.2 93.1 101.9 109.3 117.6 125.5 134.5 如果增加每一NaCl浓度下的重复次数,用其平均值画成散点图,则点子直线化的程度要好得多。上表给出10次重复的平均值,从下图中可见,点子更接近在一条直线上。当以Y的条件平均数所做的散点图,则完全在一条上。

生物统计学教案

第一章绪论 一、细胞生物学的定义 生命体是多层次、非线性、多侧面的复杂结构体系,而细胞是生命体的结构与生命活动的基本单位,有了细胞才有完整的生命活动。 细胞生物学是研究细胞基本生命活动规律的科学,它是在不同层次(显微、亚显微与分子水平)上以研究细胞结构与功能、细胞增殖、分化、衰老与凋亡、细胞信号传递、真核细胞基因表达与调控、细胞起源与进化等为主要内容。核心问题是将遗传与发育在细胞水平上结合起来。 二、细胞生物学的主要研究内容 1、细胞增殖、分化及其调控 2、细胞核、染色体以及基因表达的研究 3、生物膜与细胞器的研究 4、细胞骨架体系的研究 5、细胞的衰老与凋亡 6、干细胞及其应用 7、细胞信号转导 8、细胞工程 三、细胞生物学发展简史 1.细胞的发现 英国学者胡克于1665年制造了第一台有科研价值的显微镜,第一次描述了植物细胞的构造,细胞的发现是在1665年。1677—1683年,荷兰人列文胡克用自己设计好的显微镜第一次观察到活细胞。 2.细胞学说的基本内容 1)1838年,德国植物学家施莱登(J.Schleiden)关于植物细胞的工作,发表了《植物发生论》一文(Beitrage zur Phytogenesis). 2)1839年,德国动物学家施旺(T.Shwann)关于动物细胞的工作,发表了《关于动植物的结构和生长一致性的显微研究》一文,论证了所有动物体也是由细胞组成的,并作为一种系统地科学理论提出了细胞学说。 3)细胞是生物体的基本结构单位(单细胞生物,一个细胞就是一个个体); 细胞是生物体最基本的代谢功能单位; 细胞只能通过细胞分裂而来。 认为细胞是有机体,一切动植物都是由细胞发育而来,并由细胞和细胞产物所构成;每个细胞作为一个相对独立的单位,既有它自己的生命,又对与其它细胞共同组成的整体的生命有所助益;新的细胞可以通过老的细胞繁殖产生。 3.细胞学的经典时期

生物统计学教案(2)

生物统计学教案 第二章概率和概率分布 教学时间:2学时 教学方法:课堂板书讲授 教学目的:重点掌握离散型概率分布和连续型概率分布,掌握概率、总体特征数的定义和一般运算,了解概率分布与频率分布的关系 讲授难点:离散型概率分布和连续型概率分布 2.1 概率的基本概念(45分钟) 2.1.1 问题的提出 从同一总体中抽取样本,各次所得到的样本不会完全相同。用不同样本去推断同一总体将得出不同的结论。这些结论不可能都是正确的。用某个样本去推断总体时,错误的可能性有多大?置信度有多高?这是对总体推断时所必须回答的问题。为回答这个问题,就要对总体分布有所了解。总体分布是建立在概率这一概念基础之上的。 自然现象,一般可分为确定性现象和非确定性现象。非确定性现象或称为随机

现象。随机现象不存在简单的因果关系。支配这些现象出现的因素很多,各因素所 起的作用不一样,作用的程度也不一样,很难遇到两个不同个体接受相同的配合方 式,因此从每一个个体所观察到的结果都不一样。 研究偶然现象本身规律性的科学称为概率论。基于实际观测结果,利用概率论 得出的规律,揭示偶然性中所寄寓的必然性的科学就是统计学。 2.1.2 事件及事件间的关系(自已复习) 2.1.3 概率的统计定义(重点) 设某随机试验共进行k次,成功了(事件A)l次,则称l/k是k次随机试验 中成功的频率。我们会发现,随着k的增大,频率l/k将围绕某一确定的常数p做 平均幅度越来越小的变动,最终稳定于p,p即为事件A的概率。 表2-1 不同样本含量的抽样试验 k=20 k=200 k=2000 抽样号l l/k l l/k l l/k 1 1 0.050 3 2 0.160 40 3 0.202 2 4 0.200 31 0.155 414 0.207 3 1 0.050 38 0.190 409 0.205 4 4 0.200 49 0.245

生物统计学教案(3)

生物统计学教案 第三章几种常见的概率分布律 教学时间:3学时 教学方法:课堂板书讲授 教学目的:重点掌握正态分布,掌握二项分布,了解泊松分布,中心极限定律。 讲授难点:正态分布、二项分布 3.1 二项分布(重点) 3.1.1 二项分布的概率函数 满足二项分布的条件: 1、在一随机试验中,每次试验都有两种不同的结果。 2、两种结果是互不相容的。 3、每一种结果在每次试验中都有恒定的概率。 4、试验间应是独立的。 独立地将此试验重复n次,求在n此试验中,一种结果出现x次的概率是多少? 例:从雌雄各半的100只动物中抽样,抽样共进行10次,问 其中包括3只雄性动物的概率是多少?包括3只及3只以下的概率是多少?即求P (X=3)和P(X≤3) 该例符合二项分布的条件。规定以下一组符号: n=试验次数 x =在n次试验中事件A出现的次数 φ=事件A发生的概率(每次试验都是恒定的) 1-φ=事件A发生的概率 p(x) = x的概率函数=P(X=x)

(累积分布函数) F (x ) = P ( X ≤x ) 上例中:n =10 x =3 φ=0.5 求p (3) 和F (3)。在一次抽样中抽到的结果为:mmmfffffff ,它的概率为 P (mmmfffffff )=φ3(1-φ) 7 抽到3雄7雌的数目相当于从10个元素中抽出3个元素的组合数 对于任意n 和x 有以下通式: ()() 1,0,1,2,,n x x x n p x C x n ??-=-=??? 上式称为二项分布的概率函数。该式正是二项展开式的第x +1项,因而产生“二项分布”这一名称。因为φ+(1-φ)=1,所以 将x =0,1,2,3,代入二项分布概率函数,可以得出出现0,1,2,3只雄性动物 的概率。 P (0)= 0.0009766 P (1)= 0.0097656 P (2)= 0.0439453 P (3)= 0.1171876 抽到3只和3只以下雄性动物的概率为: F (3)=P (0)+P (1)+P (2)+P (3) =0.1718751 3.1.2 服从二项分布的随机变量的特征数 平均数: μ=n φ 或 μ=φ 方差: σ2=n φ(1-φ) 或 3.1.3 二项分布应用实例 例1 以杂合基因型Wvwv 的小鼠为父本,隐性纯合子小鼠wvwv 为母本杂交(wv 波浪毛,Wv 直毛),后代两种基因型的数目应各占一半。实验只选每窝8只的,多于 ()()7 33 1013??-=C p ()()[] 1 10 =-+=∑ =n n x x p ??() n ??σ -= 12

最新生物统计学教案(6)

生物统计学教案 第六章 参数估计 教学时间:1学时 教学方法:课堂板书讲授 教学目的:重点掌握平均数、标准差和平均数差的区间估计,掌握配对数据、方差 比的区间估计,了解点估计、二项分布总体的区间估计。 讲授难点:标准差和平均数差的区间估计 6.1 点估计 6.1.1 无偏估计量 定义:如果统计量的数学期望等于总体参数,则该统计量称为无偏估计量。 因此样本平均数和样本方差都是无偏估计量。在这里只有用n -1为除数所得到的方差才是σ2的无偏估计量,用n 除得的结果并不是σ2的无偏估计量。这是我们在求方差时用 n -1作为除数,而不用n 作为除数的主要原因。 6.1.2 有效估计量 定义:如果统计量的方差小于另一个统计量的方差,则前一个统计量称为更有效统计量。 从一个正态总体中抽取含量为n 的样本,样本平均数的方差为: 当n 充分大时,中位数m 的方差为: 中位数的方差比平均数的方差大π/2倍,因此样本平均数是μ的有效估计量。 ()() 2 2σ μ==s E x E n x 2 2σσ= n m 22 2πσ σ=

6.1.3 相容估计量 若统计量的取值任意接近于参数值的概率,随样本含量n 的无限增加而趋于1,则该统计量称为参数的相容估计量。 如样本平均数的方差σ2/n ,当n →∞时,平均数的方差趋于0,这时样本平均数的唯一可能值即为μ。所以样本平均数是总体平均数的相容估计量,样本方差也是总体方差的相容估计量。 6.2 区间估计 6.2.1 区间估计的一般原理 在第五章的例子中,H 0:μ=10.00g ,所得u =1.82,在做双侧检验时是接受 H 0的。如果H 0不是μ=10.00,而是μ=10.20(u =0.24)或μ=10.40(u =-1.34)等值时,全都落在接受域内。由此可见,当用样本平均数估计总体平均数时所得到的结果不是单一值而是一个区间。 只要标准化的样本平均数落在-u α/2和u α/2区间内,所有H 0都将被接受,于是得到一个包括总体平均数的区间,用这种方法对总体参数所做的估计称为区间估计。 6.2.2 μ的置信区间 μ的置信区间依σ已知和未知而不同。 6.2.2.1 σ已知时:在σ已知时,μ的1-α置信区间可由下式导出。 μ的1-α置信区间可由下式得到: 由此得到μ的1-α置信区间为: 6.2.2.2 σ未知时 ασσασμ α α ααααα-=??? ? ??+<<--=? ??? ? ? ??<-<--=???? ? ?<<-111222222n u x u n u x P u n x u P u u u P n u x σ α 2 ±

生物统计学教案(9)

生物统计学教案(9)

生物统计学教案 第九章 两因素及多因素方差分析 教学时间:5学时 教学方法:课堂板书讲授 教学目的:重点掌握固定模型、随机模型两因素方差分析的方法步骤,掌握混合模型 的方差分析,了解多因素的方差分析方法。。 讲授难点:固定模型、随机模型两因素方差分析的方法步骤 9.1 两因素方差分析中的一些基本概念 9.1.1 模型类型 交叉分组设计:A 因素的a 个水平和B 因素的b 个水平交叉配合,共构成ab 个组合,每一组合重复n 次,全部实验共有abn 次。 固定模型:A 、B 两因素均为固定因素。 随机模型:A 、B 两因素均为随机因素。 混合模型:A 、B 两因素中,一个是固定因素,一个是随机因素。 9.1.2 主效应和交互作用 主效应:由于因素水平的改变所造成的因素效应的改变。 A 1 A 2 A 1 A 2 B 1 18 24 B 1 18 28 B 2 38 44 B 2 30 22 先看左边的表。A 因素的主效应应为A 2水平的平均效应减A 1水平的平均效应,B 的主效应类似。 当A 1B 1+A 2B 2=A 1B 2+A 2B 1时,A 、B 间不存在交互作用。这里A 1B 1+A 2B 2=62,A 1B 2+A 2B 1=62,因此A 、B 间不存在交互作用。 交互作用:若一个因素在另一因素的不同水平上所产生的效应不同,则它们之间存在交互作用。 20 2 241824438226 2361824424221211222121112212=+-+=+-+==+-+=+-+=B A B A B A B A B B A B A B A B A A

生物统计学教案(8)

生物统计学教案 第八章单因素方差分析 教学时间:5学时 教学方法:课堂板书讲授 教学目的:重点掌握方差分析的方法步骤,掌握单因素和两因素的方差分析,了解多重比较的一些常用方法 讲授难点:掌握单因素和两因素的方差分析 8.1 方差分析的基本原理 8.1.1 方差分析的一般概念 第五章讲过两个平均数差异性的比较可用t检验,在多组数据之间作比较便需要通过方差分析来完成。在多组数据之间作比较可以在两两平均数之间比较,但会提高犯I型错误的概率。最简单的方差分析是单因素方差分析。下面举例说明。 例1 调查5个不同小麦品系株高,结果见下表: 品系 I II III IV V 1 64.6 64.5 67.8 71.8 69.2 2 65. 3 65.3 66.3 72.1 68.2 3 64.8 64.6 67.1 70.0 69.8 4 66.0 63.7 66.8 69.1 68.3 5 65.8 63.9 68.5 71.0 67.5 和 326.5 322.0 336.5 354.0 343.0 平均数 65.3 64.4 67.3 70.8 68.6 例2 从每窝均有4只幼仔的初生动物中,随机选择4窝,称量每只动物的出生重,结果如下: 窝别 I II III IV 1 34.7 33. 2 27.1 32.9 2 33. 3 26.0 23.3 31.4 3 26.2 28.6 27.8 25.7 4 31.6 32.3 26.7 28.0 和 125.8 120.1 104.9 118.0

平均数 31.450 30.025 26.225 29.500 这两个例子都只有一个因素,例1是“品系”,例2是“窝别”。在每个因素下,又有a 个水平(或称为处理),例1有5个品系,例2 有4个窝别。a 个水平可以认为是a 个总体,表中的数据是从a 个总体中抽出的a 个样本。方差分析的目的就是由这a 个样本推断a 个总体。因为上述实验都只有一个因素,对这样的数据所进行的方差分析称为“单因素方差分析”。单因素方差分析的典型数据见下表。 X 1 X 2X 3…X i …X a 1 x 11x 21x 31x i1x a1 2 x 12x 22x 32x i2x a2 3 x 13x 23x 33x i3x a3 ┇ j x 1j x 2j x 3j x ij x aj ┇ nx 1n x 2n x 3n x in x an 平均数 x 1.x 2.x 3.x i.x a. 表中的x ij 表示第i 次处理下的第j 次观测值,下标中的“.”表示求和,具体说明如下: 8.1.2 不同处理效应与不同模型 线性统计模型: 模型中的x ij 是在i 水平下的第j 次观测值。μ是对所有观测值的一个参数,称为总平均数。αi 是仅对第i 次处理的一个参数,称为第i 次处理效应。εij 是随机误差成分,要求误差是服从N (0,σ2)的独立随机变量。 ? ???==????=?==???===∑∑∑x an x x x a i x n x x x a i n j ij i i n j ij i 1, ,,2,1, 1 , 11 1?? ????=???=++=n j a i x ij i ij ,,2,1,,2,1εαμ

相关文档