文档库 最新最全的文档下载
当前位置:文档库 › 高中数学选择性必修三 8 3 分类变量与列联表 导学案

高中数学选择性必修三 8 3 分类变量与列联表 导学案

8.3 分类变量与列联表

1.通过对典型案例的探究,了解独立性检验(只要求2×2列联表)的基本思想、方法

及初步应用.

2.通过对数据的收集、整理和分析,增强学生的社会实践能力,培养学生分析问题、

解决问题的能力.

重点:了解独立性检验(只要求2×2列联表)的应用.

难点:独立性检验(只要求2×2列联表)的基本思想、方法

1. 分类变量

为了表述方便,我们经常会使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为分类变量.分类变量的取值可以用实数表示,例如,学生所在的班级可以用1,2,3等表示,男性、女性可以用1,0表示,等等.

2. 2×2列联表

表是关于分类变量X和Y的抽样数据的2×2列联表:最后一行的前两个数分别是事件{Y=0}和

{Y=1}的频数;最后一列的前两个数分别是事件{X=0}和{X=1}的频数;中间的四个数a,b,c,d是事件{X=x,Y=y}(x, y=0,1)的频数;右下角格中的数n是样本容量。

3.两个分类变量之间关联关系的定性分析的方法:

(1)频率分析法:通过对样本的每个分类变量的不同类别事件发生的频率大小进行比较来分析分类变

量之间是否有关联关系.如可以通过列联表中a

a+b 与c

c+d

值的大小粗略地判断分类变量x和Y之间有

无关系.一般其值相差越大,分类变量有关系的可能性越大.

(2)图形分析法:与表格相比,图形更能直观地反映出两个分类变 量间是否互相影响,常用等高堆积条形图展示列联表数据的频率特征.将列联表中的数据用高度相同的两个条形图表示出来,其中两列的数据分别对应不同的颜色,这就是等高堆积条形图.

等高堆积条形图可以展示列联表数据的频率特征,能够直观地反映出两个分类变量间是否相互影响.

4.独立性检验公式及定义:

提出零假设(原假设)H 0

:分类变量X 和Y 独立,假定我们通过简单随机抽样得到了X 和Y 的

抽样数据列联表,在列联表中,如果零假设H 0

成立,则应满足

a

a+b

c c+d

,即ad -bc ≈0.因此|ad −bc |

越小,说明两个分类变量之间关系越弱;|ad −bc |越大,说明两个分类变量之间关系越强. 为了使不同样本容量的数据有统一的评判标准,基于上述分析,我们构造一个随机变量χ2

=

n(ad−bc)2

(a+b)(c+d)(a+c)(b+d)

.

5.临界值的定义:

对于任何小概率值α,可以找到相应的正实数x α

,使得P (χ2

≥x α

)=α成立,我们称x α

为α的临界值,

这个临界值可作为判断χ2

大小的标准,概率值α越小,临界值x α

越大.

基于小概率值α的检验规则:

当χ2

≥x α

时,我们就推断H 0

不成立,即认为X 和Y 不独立,该推断犯错误的概率不超过α;

当χ2

时,我们没有充分证据推断H 0

不成立,可以认为X 和Y 独立.

用χ2

取值的大小作为判断零假设H 0

是否成立的依据,当它比较大时推断H 0

不成立,否则认为H

成立。这种利用χ2

的取值推断分类变量X 和Y 是否独立的方法称为χ2

独立性检验,读作“卡方独立性检验”,简称独立性检验.

χ2

独立性检验中几个常用的小概率值和相应的临界值

一、 问题探究

前面两节所讨论的变量,如人的身高、树的胸径、树的高度、短跑100m 世界纪录和创纪录的时间等,都是数值变量,数值变量的取值为实数.其大小和运算都有实际含义.

在现实生活中,人们经常需要回答一定范围内的两种现象或性质之间是否存在关联性或相互影响的问题.例如,就读不同学校是否对学生的成绩有影响,不同班级学生用于体育锻炼的时间是否有差别,吸烟是否会增加患肺癌的风险,等等,本节将要学习的独立性检验方法为我们提供了解决这类问题的方案。

在讨论上述问题时,为了表述方便,我们经常会使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为分类变量.分类变量的取值可以用实数表示,例如,学生所在的班级可以用1,2,3等表示,男性、女性可以用1,0表示,等等.在很多时候,这些数值只作为编号使用,并没有通常的大小和运算意义,本节我们主要讨论取值于{0,1}的分类变量的关联性问题.

问题1. 为了有针对性地提高学生体育锻炼的积极性,某中学需要了解性别因素是否对本校学生体育锻炼的经常性有影响,为此对学生是否经常锻炼的情况进行了普查,全校学生的普查数据如下:523名女生中有331名经常锻炼;601名男生中有473名经常锻炼。你能利用这些数据,说明该校女生和男生在体育锻炼的经常性方面是否存在差异吗?

二、典例解析

例1.为比较甲、乙两所学校学生的数学水平,采用简单随机抽样的方法抽取88名学生.通过测验得到了如下数据:甲校43名学生中有10名数学成绩优秀;乙校45名学生中有7名数学成绩优秀,试分析两校学生中数学成绩优秀率之间是否存在差异.

问题2.你认为“两校学生的数学成绩优秀率存在差异”这一结论是否有可能是错误的?

问题3:如何基于②中的四个等式及列联表中的数据,构造适当的统计量,对成对分类变量X 和Y 是否相互独立作出推断?

问题4:那么,究竟χ2大到什么程度,可以推断H 0

不成立呢?或者说,怎样确定判断χ2

大小的标准呢?

例2:依据小概率值α=0.1的χ2独立性检验,分析例1中的抽样数据,能否据此推断两校学生的数学成绩优秀率有差异?

问题5.例1和例2都是基于同一组数据的分析,但却得出了不同的结论,你能说明其中的原因吗?

例3.某儿童医院用甲、乙两种疗法治疗小儿消化不良.采用有放回简单随机抽样的方法对治疗情况进行检查,得到了如下数据:抽到接受甲种疗法的患儿67名,其中未治愈15名,治愈52名;抽

到接受乙种疗法的患儿69名,其中未治愈6名,治愈63名.试根据小概率值α=0.005的独立性检验,分析乙种疗法的效果是否比甲种疗法好.

问题6.若对调两种疗法的位置或对调两种疗效的位置,这样做会影响χ2取值的计算结果吗?

例4.为了调查吸烟是否对肺癌有影响,某肿瘤研究所采取有放回简单随机抽样,调查了9965人,得到如下结果(单位:人)依据小概率值α=0.001的独立性检验,分析吸烟是否会增加患肺癌的风险。

应用独立性检验解决实际问题大致应包括以下几个主要环节:

(1)提出零假设H

:X和Y相互独立,并给出在问题中的解释.

(2)根据抽样数据整理出2×2列联表,计算χ2的值,并与临界值xα比较.

(3)根据检验规则得出推断结论.

(4)在X和Y不独立的情况下,根据需要,通过比较相应的频率,分析X和Y间的影响规律.

注意:上述几个环节的内容可以根据不同情况进行调整,

例如,在有些时候,分类变量的抽样数据列联表是问题中给定的.

跟踪训练1.某校对学生的课外活动进行调查,结果整理成下表:

试用你所学过的知识分析:能否在犯错误的概率不超过0.005的前提下,认为“喜欢体育还是文娱与性别有关系”?

1.给出下列实际问题:

①一种药物对某种病的治愈率;②两种药物治疗同一种病是否有区别;

③吸烟者得肺病的概率;④吸烟是否与性别有关系;

⑤网吧与青少年的犯罪是否有关系.其中用独立性检验可以解决的问题有()

A.①②③

B.②④⑤

C.②③④⑤

D.①②③④⑤

2.某班主任对全班50名学生进行了作业量多少的调查,数据如下表:

下列叙述中,正确的是()

A.有99%的把握认为“喜欢玩电脑游戏与认为作业量的多少有关系”

B.有95%的把握认为“喜欢玩电脑游戏与认为作业量的多少无关系”

C.有99%的把握认为“喜欢玩电脑游戏与认为作业量的多少无关系”

D.有95%的把握认为“喜欢玩电脑游戏与认为作业量的多少有关系”

3.某高校《统计》课程的教师随机调查了选该课的一些学生情况,具体数据如下表:

为了判断主修统计专业是否与性别有关系,根据表中的数据,得到

因为4.844>3.841,所以有的把握判定主修统计专业与性别有关系.

4.在500人身上试验某种血清预防感冒作用,把他们一年中的感冒记录与另外500名未用血清的人的感冒记录作比较,结果如表所示。问:该种血清能否起到预防感冒的作用?

5.随着工业化以及城市车辆的增加,城市的空气污染越来越严重,空气质量指数API一直居高不下,对人体的呼吸系统造成了严重的影响.现调查了某市500名居民的工作场所和呼吸系统健康情况,得到2×2列联表如下:

(1)补全2×2列联表;

(2)能否在犯错误的概率不超过0.05的前提下认为感染呼吸系统疾病与工作场所有关?

(3)现采用分层抽样从室内工作的居民中抽取一个容量为6的样本,将该样本看成一个总体,从中随机地抽取两人,求两人都有呼吸系统疾病的概率.

参考答案:

知识梳理 学习过程 一、 问题探究

问题1. 这是一个简单的统计问题,最直接的解答方法是,比较经常锻炼的学生在女生和男生中的比率,为了方便,我们设f 0=

经常锻炼的女生数

女生总数

, f 1=

经常锻炼的男生数

男生总数

那么,只要求出f 0

和f 1

的值,通过比较这两个值的大小,就可以知道女生和男生在锻炼的经常性

方面是否有差异,由所给的数据,经计算得到f 0=331523≈0.633, f 1=473

601≈0.787. 由f 1-f 0

≈ 0.787-0.633=0.154可知,男生经常锻炼的比率比女生高出15.4个百分点.

所以该校的女生和男生在体育锻等的经常性方面有差异,而且男生更经常锻炼.

用n 表示该校全体学生构成的集合,这是我们所关心的对象的总体,考虑以n 为样本空间的古典概型,并定义一对分类变量X 和Y 如下:对于Ω中的每一名学生,

分别令X ={

0,该生为女生1,该生为男生),y ={0,该生不经常锻炼

1,该生经常锻炼

),

“性别对体育锻炼的经常性没有影响”可以描述为P(Y=1|X=0)=P(Y=1|X=1); “性别对体育锻炼的经常性有影响”可以描述为P(Y=1|X=0)≠P(Y=1|X=1).

我们希望通过比较条件概率P(Y =1|X =0)和P(Y =1|X =1)回答上面的问题.按照条件本概率的直观解释,

如果从该校女生和男生中各随机选取一名学生,那么该女生属于经常锻炼群体的概率是P(Y=1|X=0), 而该男生属于经常锻炼群体的概率是P(Y=1|X=1).

为了清楚起见,我们用表格整理数据

我们用{X=0,Y=1}表示事件{X=0}和{Y=1}的积事件,用{X=1,Y=1}表示事件{X=1}和{Y=1}的积事件,根据古典概型和条件概率的计算公式,我们有 P(Y =1|X =0)=n(X=0,Y=1)n(X=0)

=

331523

≈0.633

P(Y =1|X =1)=

n(X=1,Y=1)n(X=1)

=473601≈0.787

由P(Y=1|X=1)>P(Y=1|X=0)

可以作出判断,在该校的学生中,性别对体育锻炼的经常性有影响,即该校的女生和男生在体育锻炼的经常性方面存在差异,而且男生更经常锻炼。

在实践中,由于保存原始数据的成本较高,人们经常按研究问题的需要,将数据分类统计,并做成表格加以保存,我们将下表这种形式的数据统计表称为2×2列联表(contingency table).

2×2列联表给出了成对分类变量数据的交叉分类频数,以右表为例,它包含了X 和Y 的如下信息: 最后一行的前两个数分别是事件{Y=0}和{Y=1}中样本点的个数; 最后一列的前两个数分别是事件{X=0}和{X=1}中样本点的个数;

中间的四个格中的数是表格的核心部分,给出了事件{X=x,Y=y}(x,y=0,1)中样本点的个数; 右下角格中的数是样本空间中样本点的总数。

二、典例解析

例1.解:用Ω表示两所学校的全体学生构成的集合.考虑以Ω为样本空间的古典概型.对于Ω中每一名学生,定义分类变量X 和Y 如下:X ={

0,该生来自甲校

1,该生来自乙校),y ={0,该生数学成绩不优秀

1,该生数学成绩优秀 ),

我们将所给数据整理成表(单位:人)

表是关于分类变量X 和Y 的抽样数据的2×2列联表:最后一行的前两个数分别是事件(Y=0)和(Y=1)的频数;最后一列的前两个数分别是事件(X=0)和(X=1)的频数;中间的四个格中的数是事件(X=x,Y=y)(x,y=0,1)的频数;

甲校学生中数学成绩不优秀和数学成绩优秀的频率分别为33

43 ≈0.7674和10

43

≈ 0.2326;

乙校学生中数学成绩不优秀和数学成绩优秀的频率分别为38 45

≈ 0.8444和7

45

≈ 0.1556

我们可以用等高堆积条形图直观地展示上述计算结果,如图所示

左边的蓝色和红色条的高度分别是甲校学生中数学成绩不优秀和数学成绩优秀的频率;右边的蓝色和红色条的高度分别是乙校学生中数学成绩不优秀和数学成绩优秀的频率,通过比较发现,两个学校学生抽样数据中数学成绩优秀的频率存在差异,甲校的频率明显高于乙校的频率,依据频率稳定于概率的原理,我们可以推断P(Y=1|X=0)>P(Y=1|X=1).

也就是说,如果从甲校和乙校各随机选取一名学生,那么甲校学生数学成绩优秀的概率大于乙校学生数学成绩优秀的概率,因此,可以认为两校学生的数学成绩优秀率存在差异,甲校学生的数学成绩优秀率比乙校学生的高。

问题2.有可能; “两校学生的数学成绩优秀率存在差异”这个结论是根据两个频率间存在差异推断出来的.有可能出现这种情况:在随机抽取的这个样本中,两个频率间确实存在差异,但两校学生的数学成绩优秀率实际上是没有差别的.对于随机样本而言,因为频率具有随机性,频率与概率之间存在误差,所以我们的推断可能犯错误,而且在样本容量较小时,犯错误的可能性会较大.因此,需要找到一种更为合理的推断方法,同时也希望能对出现错误推断的概率有一定的控制或估算.

考虑以Ω为样本空间的古典概型,设X 和Y 为定义在Ω上,取值于{0,1}的成对分类变量,我们希望判断事件{X=1}和{Y=1}之间是否有关联。注意到{X=0}和{X=1}, {Y=0}和{Y=1}都是互对立事件,与前面的讨论类似,我们需要判断下面的假定关系H 0

:P (Y =1|X =0)=P (Y =1|X =1)是否成立,通常称H

为零假设或原假设(null hypothesis).

P(Y=1|X=0)表示从{X=0}中随机选取一个样本点,该样本点属于{X=0,Y=1}的概率; P(Y=1|X=1)表示从{X=1}中随机选取一个样本点,该样本点属于{X=1,Y=1}的概率。 由条件概率的定义可知,零假设H 0

等价于

P(X=0,Y=1)P(X=0)

=

P(X=1,Y=1)P(X=1)

或P(X=0,Y=1)P(X=1)=P(X=1,Y=1)P(X=0). ①

考虑以Ω为样本空间的古典概型,设X 和Y 为定义在Ω上,取值于{0,1}的成对分类变量,我们希望判断事件{X=1}和{Y=1}之间是否有关联。注意到{X=0}和{X=1}, {Y=0}和{Y=1}都是互对立事件,与前面的讨论类似,我们需要判断下面的假定关系H 0

:P (Y =1|X =0)=P (Y =1|X =1)是否成立,通常称H 0

为零

假设或原假设(null hypothesis).

P(Y=1|X=0)表示从{X=0}中随机选取一个样本点,该样本点属于{X=0,Y=1}的概率; P(Y=1|X=1)表示从{X=1}中随机选取一个样本点,该样本点属于{X=1,Y=1}的概率。 由条件概率的定义可知,零假设H 0

等价于

P(X=0,Y=1)P(X=0)

=

P(X=1,Y=1)P(X=1)

或P(X=0,Y=1)P(X=1)=P(X=1,Y=1)P(X=0). ①

注意到(X=0)和(X=1)为对立事件,于是P(X=0)=1-P(X=1). 再由概率的性质,我们有P(X=0,Y=1)=P(Y=1)-P(X=1,Y=1). 由此推得①式等价于P(X=1)P(Y=1)=P(X=1,Y=1). 因此,零假设H 0

等价于{X=1}与{Y=1}独立。

根据已经学过的概率知识,下面的四条性质彼此等价:

{ X=0}与{Y=0}独立;{X=0}与{Y=1}独立;{X=1}与{Y=0}独立;{X=1}与{Y=1}独立。 以上性质成立,我们就称分类变量X 和Y 独立,这相当于下面四个等式成立; P(X=0,Y=0)=P(X=0)P(Y=0); P(X=0,Y=1)=P(X=0)P(Y=1); P(X=1,Y=0)=P(X=1)P(Y=0); P(X=1,Y=1)=P(X=1)P(Y=1). ② 我们可以用概率语言,将零假设改述为H 0

:分类变量X 和Y 独立.

假定我们通过简单随机抽样得到了X 和Y 的抽样数据列联表,如下表所示。

表是关于分类变量X 和Y 的抽样数据的2×2列联表:最后一行的前两个数分别是事件{Y=0}和{Y=1}的频数;最后一列的前两个数分别是事件{X=0}和{X=1}的频数;中间的四个数a,b,c,d 是事件{X=x,Y=y}(x, y=0,1)的频数;右下角格中的数n 是样本容量。

问题3:在零假设H 0

成立的条件下,根据频率稳定于概率的原理,由②中的第一个等式,我们可以用概

率P(X =0)和P(Y =0)对应的频率的乘积

(a+b)(a+c)

n

2估计概率P(X =0,Y =0),而把

(a+b)(a+c)

n

2视为事件{X =0.Y =0}发生的频数的期望值(或预期值). 这样,该频数的观测值a 和期望值

(a+b)(a+c)

n

应该比较接近.

综合②中的四个式子,如果零假设H 0

成立,下面四个量的取值都不应该太大:

|a −

(a+b)(a+c)

n

|, |b −

(a+b)(b+d)

n

|, |c −

(c+d)(a+c)

n

|, |d −

(c+d)(b+d)

n

| ③

反之,当这些量的取值较大时,就可以推断H 0

不成立。

分别考虑③中的四个差的绝对值很困难,我们需要找到一个既合理又能够计算分布的统计量,来推断H 0

是否成立.

一般来说,若频数的期望值较大,则③中相应的差的绝对值也会较大; 而若频数的期望值较小,则③中相应的差的绝对值也会较小.

为了合理地平衡这种影响,我们将四个差的绝对值取平方后分别除以相应的期望值再求和,得到如下的统计量:

χ2=

(a −

(a+b)(a+c)

n

)

2(a+b)(a+c)

n

+

(b −

(a+b)(b+d)

n

)

2(a+b)(b+d)

n

+

(c −

(c+d)(a+c)

n

)

2(c+d)(a+c)

n

+

(d −

(c+d)(b+d)

n

)

2(c+d)(b+d)

n

该表达式可化简为:χ2

=

n(ad−bc)2

(a+b)(c+d)(a+c)(b+d)

.

统计学家建议,用随机变量χ2

取值的大小作为判断零假设H 0

是否成立的依据,当它比较大时推

断H 0

不成立,否则认为H 0

成立.

问题4:那么,究竟χ2大到什么程度,可以推断H 0

不成立呢?或者说,怎样确定判断χ2

大小的标准呢?

根据小概率事件在一次试验中不大可能发生的规律, 可以通过确定一个与H 0

相矛盾的小概

率事件来实现,在假定H 0

的条件下,对于有放回简单随机抽样,当样本容量n 充分大时,统计学家得到

了χ2的近似分布,忽略χ2

的实际分布与该近似分布的误差后,对于任何小概率值α,可以找到相应的正实数x α

,

使得下面关系成立:P(χ2

≥x α

)=α ④

我们称x α

为α的临界值,这个临界值就可作为判断χ2

大小的标准,概率值α越小,临界值x α

越大,当总

体很大时,抽样有、无放回对χ2

的分布影响较小.因此,在应用中往往不严格要求抽样必须是有放回的. 由④式可知,只要把概率值α取得充分小,在假设H 0

成立的情况下,事件χ2

不大可能发生的.根

据这个规律,如果该事件发生,我们就可以推断H 0

不成立.不过这个推断有可能犯错误,但犯错误的概

率不会超过α.

例2: 解:零假设为H 0

:分类变量X 与Y 相互独立,即两校学生的数学成绩优秀率无差异.

因为

所以χ2=

88(33×7−10×38)271×17×43×45

≈0.837<2.706=x 0.1

根据小概率值α=0.1的χ2独立性检验,没有充分证据推断H

0不成立,因此可以认为H

成立,即认

为两校的数学成绩优秀率没有差异。

问题5.例1只是根据一个样本的两个频率间存在差异得出两校学生数学成绩优秀率有差异的结论,并没有考虑由样本随机性可能导致的错误,所以那里的推断依据不太充分,在本例中,我们用χ2独立性

检验对零假设H

进行了检验,通过计算,发现χ2≈0.837小于α=0.1所对应的临界值2.706,因此认为没

有充分证据推断H

0不成立,所以接受H

,推断出两校学生的数学优秀率没有显著差异的结论,

这个检验结果意味着,抽样数据中两个频率的差异很有可能是由样本随机性导致的,因此,只根据频率的差异得出两校学生的数学成绩优秀率有差异的结论是不可靠的。

由此可见,相对于简单比较两个频率的推断,用χ2独立性检验得到的结果更理性、更全面,理论依据也更充分。

当我们接受零假设H

时,也可能犯错误。我们不知道犯这类错误的概率p的大小,但是知道,若α越大,则p越小

例3.解:零假设为H

:疗法与疗效独立,即两种疗法效果没有差异.

将所给数据进行整理,得到两种疗法治疗数据的列联表,

根据列联表中的数据,经计算得到χ2=136×(15×63−52×6)2

67×69×21×115≈4.881<7.879=x0

.005.

根据小概率值α=0.005的χ2独立性检验,没有充分证据推断H

0不成立,因此可以认为H

成立,

即认为两种疗法效果没有差异.

问题6.若对调两种疗法的位置或对调两种疗效的位置,这样做会影响χ2取值的计算结果吗?

χ2=136×(15×63−52×6)2

67×69×21×115

≈4.881

χ2=136×(52×6−15×63)2

69×67×21×115

≈4.881

χ2=136×(52×6−15×63)2

67×69×21×115

≈4.881

不影响

例4. 解:零假设为H 0

:吸烟和患肺癌之间没有关系根据列联表中的数据,经计算的

吸烟

肺癌

合计

非肺癌患者

肺癌患者

非吸烟者

7775 42 7817

吸烟者 2099 49 2148

合计 9874 91 9965

根据小概率值α=0.001的独立性检验,推断H 0

不成立,即认为吸 烟与患肺癌有关联,此推断犯错

误的概率不大于0.001,即我们有99.9%的把握认为“吸烟与患肺癌有关系”.

χ2=9965×(7775×49−42×2099)2

7817×2148×9874×91

≈56.632>10.858

根据表中的数据计算不吸烟者中不患肺癌和患肺癌的频率分别为 吸烟者中不患肺癌和患肺癌的评率分别为

4278177817≈≈77750.9946,0.0054,49

21482148≈≈20990.9772,0.0228 由 4.20.0054

≈0.0228 可见,在被调查者中,吸烟者患肺癌的频率是不吸烟者患肺癌频率的4倍以上。于是,根据频率稳定于概率的原理,我们可以认为吸烟者患肺癌的概率明显大于不吸烟者患肺癌概率,即吸烟更容易引发肺癌。

跟踪训练1. 解:∵a =21,b =23,c =6,d =29,n =79, ∴χ2

=n(ad−bc)

2

(a+b)(c+d)(a+c)(b+d).=

79×21×29-23×6

2

44×35×27×52

≈8.106,

且P (χ2≥7.879)≈0.005,

即我们得到的χ2的观测值χ≈8.106超过7.879这就意味着:“喜欢体育还是文娱与性别没有关系”这一结论成立的可能性小于0.005,即在犯错误的概率不超过0.005的前提下认为“喜欢体育还是喜欢文娱与性别有关.” P(χ≥x 0

)

0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001

达标检测

1.解析:独立性检验是判断两个分类变量是否有关系的方法,而①③都是概率问题,不能用独立性检验解决.

答案:B

2.计算得χ2=50×(18×15-8×9)2

27×23×26×24

≈5.059>3.841.答案:D

3.χ2=50×(13×20-10×7)2

23×27×20×30

≈4.844.

答案:95%

4. 解:设H

:感冒与是否使用该血清没有关系。

χ2=1000(258×284−242×216)2

474×526×500×500

≈7.075

因当H

0成立时,χ

2

≥6.635的概率约为0.01,故有99%的把握认为该血清能起到预防感冒的作用。

5.解:(1)列联表如下:

所以能在犯错误的概率不超过0.05的前提下认为感染呼吸系统疾病与工作场所有关.

(2)χ2=500×(150×100-200×50)2

350×150×200×300

≈3.968>3.841.

(3)采用分层抽样从室内工作的居民中抽取6名,其中有呼吸系统疾病的抽4人,无呼吸系统疾病的抽2人,设A为“从中随机地抽取两人,两人都有呼吸系统疾病”,则

P(A)=C42

C62=2

5

.

高中数学选择性必修三 8 3 分类变量与列联表 导学案

8.3 分类变量与列联表 1.通过对典型案例的探究,了解独立性检验(只要求2×2列联表)的基本思想、方法 及初步应用. 2.通过对数据的收集、整理和分析,增强学生的社会实践能力,培养学生分析问题、 解决问题的能力. 重点:了解独立性检验(只要求2×2列联表)的应用. 难点:独立性检验(只要求2×2列联表)的基本思想、方法 1. 分类变量 为了表述方便,我们经常会使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为分类变量.分类变量的取值可以用实数表示,例如,学生所在的班级可以用1,2,3等表示,男性、女性可以用1,0表示,等等. 2. 2×2列联表 表是关于分类变量X和Y的抽样数据的2×2列联表:最后一行的前两个数分别是事件{Y=0}和 {Y=1}的频数;最后一列的前两个数分别是事件{X=0}和{X=1}的频数;中间的四个数a,b,c,d是事件{X=x,Y=y}(x, y=0,1)的频数;右下角格中的数n是样本容量。 3.两个分类变量之间关联关系的定性分析的方法: (1)频率分析法:通过对样本的每个分类变量的不同类别事件发生的频率大小进行比较来分析分类变 量之间是否有关联关系.如可以通过列联表中a a+b 与c c+d 值的大小粗略地判断分类变量x和Y之间有 无关系.一般其值相差越大,分类变量有关系的可能性越大.

(2)图形分析法:与表格相比,图形更能直观地反映出两个分类变 量间是否互相影响,常用等高堆积条形图展示列联表数据的频率特征.将列联表中的数据用高度相同的两个条形图表示出来,其中两列的数据分别对应不同的颜色,这就是等高堆积条形图. 等高堆积条形图可以展示列联表数据的频率特征,能够直观地反映出两个分类变量间是否相互影响. 4.独立性检验公式及定义: 提出零假设(原假设)H 0 :分类变量X 和Y 独立,假定我们通过简单随机抽样得到了X 和Y 的 抽样数据列联表,在列联表中,如果零假设H 0 成立,则应满足 a a+b ≈ c c+d ,即ad -bc ≈0.因此|ad −bc | 越小,说明两个分类变量之间关系越弱;|ad −bc |越大,说明两个分类变量之间关系越强. 为了使不同样本容量的数据有统一的评判标准,基于上述分析,我们构造一个随机变量χ2 = n(ad−bc)2 (a+b)(c+d)(a+c)(b+d) . 5.临界值的定义: 对于任何小概率值α,可以找到相应的正实数x α ,使得P (χ2 ≥x α )=α成立,我们称x α 为α的临界值, 这个临界值可作为判断χ2 大小的标准,概率值α越小,临界值x α 越大. 基于小概率值α的检验规则: 当χ2 ≥x α 时,我们就推断H 0 不成立,即认为X 和Y 不独立,该推断犯错误的概率不超过α; 当χ2

新教材高中数学人教A版(2019)选择性必修第三册:第八章知识点

新教材高中数学人教A版(2019)选择性必修第三册 第八章成对数据的统计分析知识点 8.1成对数据的统计相关性 8.1.1变量的相关关系 1.相关关系 两个变量间的关系有函数关系,相关关系和不相关关系 两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系. 2.正相关、负相关 从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,我们就称这两个变量正相关;如果一个变量值增加时,另一个变量的相应值呈现减少的趋势,则称这个两个变量负相关. 3.线性相关 一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条线附近,我们就称这两个变量线性相关. 一般地,如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关或曲线相关. 8.1.2样本相关系数 1.相关系数r的计算 注意:相关系数是研究变量之间线性相关程度的量 变量x和变量y的样本相关系数r的计算公式如下: r=1 n(x1′y1′+x2′y2′+…+x n′y n′)= ∑ n i=1 (x i-x-)(y i-y-) ∑ n i=1 (x i-x-)2∑ n i=1 (y i-y-)2 . 2.相关系数r的性质 (1)当r>0时,称成对样本数据正相关;当r<0时,成对样本数据负相关;当r=0时,成对样本数据间没有线性相关关系.

(2)样本相关系数r 的取值范围为[-1,1]. 当|r |越接近1时,成对样本数据的线性相关程度越强; 当|r |越接近0时,成对样本数据的线性相关程度越弱. 3.样本相关系数与标准化数据向量夹角的关系 r =1n x ′·y ′=1 n |x ′||y ′|cos θ=cos θ(其中x ′=(x 1′,x 2′,…,x n ′),y ′=(y 1′,y 2′,…,y n ′),|x ′|=|y ′|=n ,θ为向量x ′和向量y ′的夹角). 8.2 一元线性回归模型及其应用 8.2.1 一元线性回归模型 1.一元线性回归模型 我们称⎩⎨⎧Y =bx +a +e , E (e )=0,D (e )=σ 2 为Y 关于x 的一元线性回归模型,其中Y 称为因变量或响应变量,x 称为自变量或解释变量;a 和b 为模型的未知参数,a 称为截距参数,b 称为斜率参数;e 是Y 与bx +a 之间的随机误差. 2.线性回归方程与最小二乘法 回归直线方程过样本点的中心(x - ,y - ),是回归直线方程最常用的一个特征 我们将y ^=b ^x +a ^称为Y 关于x 的线性回归方程,也称经验回归函数或经验回归公式,其图形 称为经验回归直线.这种求经验回归方程的方法叫做最小二乘法,求得的b ^,a ^叫做b ,a 的最小二乘估计(least squares estimate ), 其中

(新教材人教A版)高二数学选择性必修第三册同步练习 分类变量与列联表 基础练(解析版)

8.3 分类变量与列联表---A基础练 一、选择题 1.(2021·全国高二课时练习)如表是一个2×2列联表:则表中a,b的值分别为() A.94,72B.52,50C.52,74D.74,52 【答案】C 【详解】a=73-21=52,b=a+22=52+22=74.故选:C. 2.(2021·江苏高二)为了调查中学生近视情况,某校150名男生中有80名近视,140名女生中有70名近视,在检验这些中学生眼睛近视是否与性别有关时,用什么方法最有说服力() A.平均数B.方差C.回归分析D.独立性检验 【答案】D 【详解】分析已知条件,得如下表格. 的值,再与临界值比较,检验这些中学生眼睛近视是否与性别有关, 根据列联表利用公式可得2 故利用独立性检验的方法最有说服力.故选:D. 3.(2021·全国高二课时练)对于分类变量X与Y的随机变量x2的值,下列说法正确的是()A.x2越大,“X与Y有关系”的可信程度越小 B.x2越小,“X与Y有关系”的可信程度越小 C.x2越接近于0,“X与Y没有关系”的可信程度越小 D.x2越大,“X与Y没有关系”的可信程度越大 【答案】B 【详解】根据独立性检验的基本思想可知,分类变量X与Y的随机变量x2的观测值越大,“X与Y没有

关系”的可信程度越小,则“X与Y有关系”的可信程度越大;x2越小,“X与Y有关系”的可信程度越小,“X 与Y没有关系”的可信程度越大,故ACD错误,B正确.故选:B. 4.(2021·江苏星海实验中学高二)某班班主任对全班50名学生学习积极性和对待班级工作的态度进行了调查,统计数据如表所示: 临界值表: 根据表中数据分析,以下说法正确的是() A.有99.9%的把握认为学生的学习积极性与对待班级工作的态度有关系 B.有99.5%的把握认为学生的学习积极性与对待班级工作的态度有关系 C.有99%的把握认为学生的学习积极性与对待班级工作的态度有关系 D.没有充分的证据显示学生的学习积极性对待班级工作的态度有关系 【答案】A 【详解】 2 2 50(181976) 11.5410.828 25252426 χ ⨯⨯-⨯ =≈> ⨯⨯⨯ , 所以有99.9%的把握认为学生的学习积极 性与对待班级工作的态度有关系.故选:A. 5.(多选题)(2021·全国高二课时练习)因防疫的需要,多数大学开学后启用封闭式管理.某大学开学后也启用封闭式管理,该校有在校学生9000人,其中男生4000人,女生5000人,为了解学生在封闭式管理期间对学校的管理和服务的满意度,随机调查了40名男生和50名女生,每位被调查的学生都对学校的管理和服务给出了满意或不满意的评价,经统计得到如下列联表:

(新教材人教A版)高二数学选择性必修第三册同步练习 分类变量与列联表 提高练(解析版)

8.3 分类变量与列联表 ---B 提高练 一、选择题 1.(2021·全国高二课时练)在一次独立性检验中,得出列联表如下: 且最后发现,两个分类变量A 和B 没有任何关系,则a 的可能值是( ) A .200 B .720 C .100 D .180 【答案】B 【详解】由题意知 a a b +与 c c d +基本相等,由列联表知2001000与180 180a +基本相等, 200180 1000180a = +,解得720a =.故选:B 2.(2021·江苏高二专题练习)为了研究高中学生对乡村音乐的态度(喜欢和不喜欢两种态度)与性别的关系,运用2×2列联表进行独立性检验,经计算得x 2=7.01,则认为“喜欢乡村音乐与性别有关系”的把握约为( ) A .0.1% B .1% C .99% D .99.9% 【答案】C 【详解】易知x 2=7.01>6.635,对照临界值表知,有99%的把握认为喜欢乡村音乐与性别有关系. 故选:C 3.(2021·江苏盐城市高二月考)某词汇研究机构为对某城市人们使用流行语的情况进行调查,随机抽取了200人进行调查统计得下方的22⨯列联表.则根据列联表可知( )

参考公式:独立性检验统计量 2 2 () ()()()() n ad bc X a b c d a c b d - = ++++ ,其中n a b c d =+++. 下面的临界值表供参考: A.有95%的把握认为“经常用流行用语”与“年轻人”有关系B.没有95%的把握认为“经常用流行用语”与“年轻人”有关系C.有97.5%的把握认为“经常用流行用语”与“年轻人”有关系D.有97.5%的把握认为“经常用流行用语”与“年轻人”没有关系【答案】A 【详解】 2 2 200(25152535) 4.167 3.841 1604050150 X ⨯⨯-⨯ ==> ⨯⨯⨯ , 根据临界值知有95%的把握认为经常用流行语与年轻人有关系,故选:A 4.(2021·河南信阳市高二月考)某医疗研究所为了检验新开发的流感疫苗对流感的预防作用,根据1000名注射了疫苗的人与另外1000名未注射疫苗的人半年的感冒记录作出如下的22 ⨯的列联表,并提出假设:o H“这种疫苗不能起到预防流感的作用”’则下列说法正确是() 附: 2 2 () ()()()() n ad bc X a b c d a c b d - = ++++ .

8.3.1分类变量与列联表(新版高中数学课件教案学案习题人教A版选择性必修第三册).docx

8.3列联表与独立性检验 8. 3.1分类变量与列联表 ■课前预习. ............... . ..... 知识探究聊 新知探究 A 情境引入 饮用水的质量是人类普遍关心的问题,根据统计,饮用优质水的518人中,身体状况优秀的有466人,饮用一般水的312人中,身体状况优秀的有218人. 问题人的身体健康状况与饮用水的质量之间有关系吗? 提示我们可以根据2X2列联表找到人的身体健康与饮用水之间的关系,也就是本节课所要学习的内容. A知识梳理 1.分类变量 这里所说的变量和值不一定是具体的数值,例如:性别变量,其取值为男和女两种 我们经常会使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为分类变量,分类变量的取值可以用实数表示. 2. 2X2列联表在实践中,由于保存原始数据的成本较高,人们经常按研究问题的需要,将数据分类统计,并做成表格加以保存,我们将这类数据统计表称为2X2列联表,2X2

列联表给出了成对分类变量数据的交叉分类频数. 一般地,假设有两个分类变量X和匕它们的取值分别为{xi, X2}和31, *},其2X2列联表为 3.等高堆积条形图 等高条形图和表格相比,更能直观地反映出两个分类变量间是否相互影响,常用等高条形图展示列联表数据的频室特征,依据频率稳定于概率的原理,我们可以推断结果. 拓展深化 [微判断] 1.分类变量中的变量与函数中的变量是同一概念.(X) 提示分类变量中的变量是指一定范围内的两种现象或性质,与函数中的变量不是同一概念. 2.列联表中的数据是两个分类变量的频数.(”) 3.列联表、频率分析法、等高条形图都可初步分析两分类变量是否有关系.(”) [微训练] 1.下列不是分类变量的是() A.近视 B.成绩 C.血压 D.饮酒 解析近视变量有近视与不近视两种类别,血压变量有异常、正常两种类别,饮酒变量有饮酒与不饮酒两种类别.故选B. 答案B 2.某校为了检验高中数学新课程改革的成果,在两个班进行教学方式的对比试验, 两个月后进行了一次检测,试验班与对照班成绩统计如2X2列联表所示(单位:

【高中数学】新人教A版高二8.3.1 分类变量与列联表(练习题)

新人教A版高二8.3.1 分类变量与列联表(2465) 1.下列变量中不属于分类变量的是() A.性别 B.吸烟 C.宗教信仰 D.国籍 2×2 则表中a,b的值分别为() A.52,50 B.52,54 C.54,52 D.94,96 跟得病之间的关系得到下表数据: 根据以上数据,下列说法正确的是() A.种子是否经过处理跟是否得病有关 B.种子是否经过处理跟是否得病无关 C.种子是否经过处理决定是否得病 D.以上都是错误的 4.在等高堆积条形图中,两个因式的比值相差越大,要推断的论述成立的可能性就越大的是() A.a a+b 与d c+b B.c a+b 与a c+b C.a a+b 与c c+d D.a a+b 与c b+c 5.观察图中的各图,其中两个分类变量X,Y之间关系最强的是() A. B. C. D.

形图中正确的是() A. B. C. D. 7.为了解某高校学生使用手机支付和现金支付的情况,抽取了部分学生作为样本,统计其喜欢的支付方式,并制作出如图所示的等高堆积条形图,下列说法正确的是() A.样本中的男生人数多于女生人数 B.样本中喜欢手机支付的人数多于喜欢现金支付的人数 C.样本中多数男生喜欢手机支付 D.样本中多数女生喜欢现金支付 8.(多选题)甲、乙两个班级进行数学考试,按照成绩大于或等于85分为优秀,小于85分为非优秀统计成绩,得到如下表所示的列联表(单位:人):

已知在全部105人中随机抽取1人,成绩优秀的概率为2 ,则下列说法正确的是 7 () A.列联表中c的值为30 B.列联表中c的值为20 C.列联表中b的值为35 D.列联表中b的值为45 9.有四位同学在研究分类变量A与B的关系时,各自搜集的数据如下:

8.3.1分类变量与列联表(解析版)

8.3.1分类变量与列联表 导学案 【学习目标】 1.了解独立性检验的基本思想、方法及其简单应用 2.能利用2×2列联表进行独立性检验,提升利用图表进行数据分析的能力 【自主学习】 知识点一分类变量和列联表 (1)分类变量:变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量. (2)列联表 ①定义:列出的两个分类变量的频数表称为列联表. ②2×2列联表 一般地,假设两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(也称为2×2列联表)为下表. 知识点二等高条形图 (1)等高条形图与表格相比,更能直观地反映出两个分类变量间是否相互影响,常用等高条形图展示列联表 数据的频率特征.

a a+b和c c+d相差很大,就判断两个分类变量之间有关系. (2)观察等高条形图发现

【合作探究】 探究一等高条形图 【例1】在等高条形图中,下列哪两个比值相差越大,要推断的论述成立的可能性就越大() A.a a+b与 d c+d B. c a+b与 a c+d C.a a+b与 c c+d D. a a+b与 c b+c 【答案】C 解析由等高条形图可知a a+b与 c c+d的值相差越大,|ad-bc|就越大,相关性就越强. 归纳总结: 【练习1】观察下列各图,其中两个分类变量x,y之间关系最强的是() 【答案】D 解析观察等高条形图发现x1 x1+y1与x2 x2+y2相差很大,就判断两个分类变量之量关系最强. 探究二2 2 列联表 【例2】在海南省第二十四届科技创新大赛活动中,某同学为研究“网络游戏对当代青少年的影响”作了一次调查,共调查了50名同学,其中男生26人,有8人不喜欢玩电脑游戏,而调查的女生中有9人喜欢玩电脑游戏.

统编人教A版高中选修第三册《8.3分类变量与列联表》同步课时训练题

第八章成对数据的统计性分析 8.3. 1分类变量与列联表 1.下面的等高条形图可以说明的问题是() A.“心脏搭桥”手术和“血管清障”手术对“诱发心脏病”■的影响是绝对不同的 B.. “心脏搭桥”手术和“血管清障”手术对“诱发心脏病”的影响没有什么不同 C.此等高条形图看不出两种手术有什么不同的地方 D. “心脏搭桥”手术和“血管清障”手术对“诱发心脏病”的影响在某种程度上是不同的,但是没有100%的把握 【答案】D 【解析】由等高条形图可r知选项D正确. 2•假设有两个分类变量X和匕它们的值域分别为{不,X2}和{“,”},其2X2列联表为 对同一样本,以下数据能说明X与丫有关的可能性最大的一组为() A.4=5, 〃=4, c=3, d=2 B.n=5, b=3, c=4, 4=2 C.4=2, b=3, c=4, cl =5 D. a = 3, />=2, c=4,d=5 【答案】D 【解析】对于同一样本,1,〃/一从1越小,说明x与y相关性越弱,而l〃d一机1越大,说明%与y相关性越强,通过计算知,对于A, B, C都.有点一床1=110 —121=2:对于选项D,有。/ -M=I15-8I=7,显然7>2. 3.对于分类变量x与丫的随机变量昭的观测值k,下列说法正确的是() A. *越大,"x与y有关系”的可信程度越小 b.A城小,.“X与丫有关系”的可信程度越小 c.h越接近于o, “x与y没有关系”的可信程度越小

d.k越大,“x与y没有关系”的可信程度越大 【答案】B 【解析】k越大,“x与y没有关系”的可信程度越小,则“x与y有关系”的可信程度越大.即“越小,“x与丫有关系”的可信程度越小. 4.两个分类变量x和V,值域分别为{M,应}和{w,”},其样本频数分别是“=10, b= 21, c+"= 35.若X与y有关系的可信程度不小于97.5%,则c等于() A. 3 B. 4 C. 5 D. 6 附: 【答案】A 【解析】列2义2列联表如下: —。) — 故K2的观测值k= ----- 5------------- - 25.024. 31x35x(10 + c)(56-c) 把选项A, B, C, D代入脸证可知选A. 5.根据如图所示的等高条形陶可知吸烟与患肺病关系(填“有”或“没有”). 【答案】有 【解析】从等高条形图上可以明显地看出吸烟患肺病的频率远远大于不吸烟患肺病的频率. 6.观察下列各图,其中两个分类变量刀,y之间关系最强的是()

8.3.1 分类变量与列联表

8 • 3列联表与独立性检验8. 3.1分类变量 与列联表 ■矢口识对点练■ZHI SHI DUI DIAN LIAN 知识点一2X2列联表及其应用 1.如表是关于新生婴儿的性别与出生时间段调查的列联表,那么A = 5 B =5 C =, D =. 单位:人 答案45 35 88 98 解析A = 92-47 = 45, D= 180-82 = 98, 5 = 82-47 = 35, C= 180-92 = 88. 2•通过随机询问120名性别不同的大学生是否爱好某项运动,得到如下的列联表: 单位:人 则爱好该项运动的概率估计为,爱好该项运动且是女生的概率估计为. 上网期末考试及格的频率,因此可以认为经常上网与学习成绩有关联.

75 答案12 24707 解析由2X2列联表可知,爱好该项运动的概率估计为顽=作,爱好该项255 运动且是女生的概率估计为司=24* 3-在对人们饮食习惯的一次调查中,共调查了124人,其中六十岁以上的70人,六十岁以下的54人.六十岁以上的人中有43人的饮食以蔬菜为主,另外27人则以肉类为主;六十岁以下的人中有21人饮食以蔬菜为主,另外33人则以肉类为主.请根据以上数据作出饮食习惯与年龄的列联表,并判断二者是否有关联. 解2X2列联表如下: 单位:人 43 由 表中数据,可得饮食以蔬菜为主的人中年龄在六十岁以上的比率为商=27 0.671875,饮食以肉类为主的人中年龄在六十岁以上的比率为而=。.45.显然二者数据具有较为明显的差距,据此可以在某种程度上认为饮食习惯与年龄有关联. 知识点二等高堆积条形图及其应用 4.观察下列各图,其中两个分类变量尤,y之间关联程度最强的是()

高中数学选择性必修三 专题37 分类变量与列联表(含答案)

专题37 分类变量与列联表 一、单选题 1.(2020·陕西省商丹高新学校月考(文))下面是一个2×2列联表,则表中a ,b 的值分别为( ) A .94,96 B .52,50 C .52,54 D .54,52 【答案】C 【解析】 由2173a +=,得52a =,由46100b +=,得54b =.故选C . 2.(2020·四川乐山·期末(理))为大力提倡“厉行节约,反对浪费”,某市通过随机询问100名性别不同的居民是否能做到“光盘”行动,得到如下的列联表:( ) 附:

k 2.706 3.841 5.024 2 2() ()()()() n ad bc K a b c d a c b d -= ++++ 参照附表,得到的正确结论是 A .在犯错误的概率不超过l %的前提下,认为“该市居民能否做到‘光盘’与性别有关” B .在犯错误的概率不超过l %的前提下,认为“该市居民能否做到‘光盘’与性别无关” C .有90%以上的把握认为“该市居民能否做到‘光盘’与性别有关” D .有90%以上的把握认为“该市居民能否做到‘光盘’与性别无关” 【答案】C 【解析】 由表计算得:2 2 100(45153010)==3.0355457525 K ⨯-⨯⨯⨯⨯,所以有90%以上的把握认为“该市居民能否做到‘光盘’ 与性别有关”,选C . 3.(2019·黄梅国际育才高级中学月考(文))若由一个22⨯列联表中的数据计算得2 4.013K =,那么有( )把握认为两个变量有关系. A .95% B .97.5% C .99% D .99.9% 【答案】A 【解析】 ∵一个2*2列联表中的数据计算得2 4.013K =,且4.013>3.841, ∴有95%的把握说这两个变量有关系. 故选:A 4.(2020·陕西临渭·期末(理))在对吸烟与患肺病这两个分类变量的计算中,下列说法正确的是( ) A .若2 6.635χ>,我们有99%的把握说明吸烟与患肺病有关,则某人吸烟,那么他99%可能患肺病.

高中数学选择性必修三 8 3 分类变量与列联表(精练)(含答案)

8.3 分类变量与列联表(精练) 【题组一列联表】 1.(2020·全国)为考察高中生的性别与是否喜欢数学课程之间的关系,利用2×2列联表进行检验,经计算K2的观测值k=7.069,参考下表,则认为“性别与是否喜欢数学课程有关”犯错误的概率不超过() A.0.001 B.0.01 C.0.99 D.0.999 【答案】B 【解析】k=7.069>6.635,对照表格,则认为“性别与是否喜欢数学课程有关”犯错误的概率不超过0.01,故选:B. 2.(2020·全国高二单元测试)在一次对性别与是否说谎有关的调查中,得到如下数据,说法正确的是() A.在此次调查中有95%的把握认为是否说谎与性别有关 B.在此次调查中有95%的把握认为是否说谎与性别无关 C.在此次调查中有99%的把握认为是否说谎与性别有关 D.在此次调查中没有充分证据显示说谎与性别有关 【答案】D

【解析】由表中数据得 2 2 30(6987) 14161317 K ⨯⨯-⨯ = ⨯⨯⨯ ≈0.002 42<3.841. 因此没有充分证据认为说谎与性别有关, 故选:D. 3.(2020·全国)通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表: 由K2= 2 () ()()()() n ad bc a b c d a c c d - ++++ ,算得K2= 2 110(40302020) 60506050 ⨯⨯-⨯ ⨯⨯⨯ ≈7.822. 附表: 参照附表,得到的正确结论是() A.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关” B.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关” C.有99%以上的把握认为“爱好该项运动与性别有关” D.有99%以上的把握认为“爱好该项运动与性别无关” 【答案】C 【解析】根据独立性检验的定义,由27.822 6.635 K≈>,可知我们在犯错误的概率不超过0.01的前提下,有99%以上的把握认为“爱好该项运动与性别有关”.故选:C. 4.(2020·全国高二课时练习)某中学共有5000人,其中男生有3500人,女生有1500人,为了了解该校学生每周平均体育锻炼时间的情况以及该校学生每周平均体育锻炼时间是否与性别有关,现在用分层抽样的方法从中收集300位学生每周平均体育锻炼时间的样本数据(单位:小时),其频率分布直方图如下:

高中数学新教材选择性必修第三册第八章 成对数据的统计分析 8.3 分类变量与列联表(南开题库含详解)

第八章成对数据的统计分析 8.3 分类变量与列联表 一、选择题(共40小题;共200分) 1. 某市政府在调查市民收入增减与旅游愿望的关系时,采用独立性检验法抽查了3000人,计算发 现K2的观测值k=6.023,根据这一数据查阅下表,市政府断言市民收入增减与旅游愿望有关系这一断言犯错误的概率不超过( ) P(K2≥k0)0.500.400.250.150.100.50.0250.0100.0050.001 k00.4550.708 1.323 2.072 2.706 3.841 5.024 6.6357.87910.828 A. 0.1 B. 0.05 C. 0.025 D. 0.005 2. 某医疗研究所为了检验新开发的流感疫苗对甲型H7N9流感的预防作用,把1000名注射了疫苗 的人与另外1000名未注射疫苗的人半年的感冒记录作比较,提出假设H o:“这种疫苗不能起到预防甲型H7N9流感的作用”,并计算出P(χ2≥6.635≈0.01),则下列说法正确的是( ) A. 这种疫苗能起到预防甲型H7N9流感的有效率为1%; B. 若某人未使用该疫苗,则他在半年中有99%的可能性得甲型H7N9; C. 有1%的把握认为“这种疫苗能启动预防甲型H7N9流感的作用”; D. 有99%的把握认为“这种疫苗能启动预防甲型H7N9流感的作用”. 3. 通过随机询问110名大学生是否爱好某项运动,得到如下的列联表 男女总计 爱好402060 不爱好203050 总计6050110 由上表算得k≈7.8,因此得到的正确结论是( ) A. 在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关” B. 在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关” C. 有99%以上的把握认为“爱好该项运动与性别有关” D. 有99%以上的把握认为“爱好该项运动与性别无关” 4. 通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表: 男女合计 爱好402060 不爱好203050 合计6050110 由K方公式算得:K2≈7.8, 附表: P(K2≥k)0.0500.0100.001 k 3.841 6.63510.828 参照附表:得到的正确的结论是( ) A. 在犯错的概率不超过0.1%的前提下,认为“爱好该运动与性别无关” B. 在犯错的概率不超过0.1%的前提下,认为“爱好该运动与性别有关”

相关文档
相关文档 最新文档