第十二章 统计表与统计图
一、教学大纲要求
(一)掌握内容
1.统计表(1) 统计表的结构。
(2) 统计表的种类。 (3) 编制统计表的注意事项。
2.统计图(1) 统计图的结构。
(2) 统计图的种类。 (3) 统计图的编制要求。
(二)熟悉内容 常用统计图的绘制方法和注意事项。
(三)了解内容 半对数线图、箱式图、误差线图等的绘制方法和注意事项。
二、教学内容精要
(一)统计表与统计图的概念
将统计资料及其指标以表格形式列出,称为统计表(statistical table )。狭义的统计表只表示统计指标。
统计图(statistical graph)是将统计指标以点的位置、线段的升降、直条的长短或面积的大小等几何图形直观的表示事物间的数量关系。
(二)统计表中应注意的几个问题
1.列表的原则(1)重点突出,简单明了。
(2)主次分明,层次清楚,符合逻辑。
2.统计表的结构与编制要求
统计表由标题、标目、线条和数字所构成。如下表所示:
横标目
合 计
数 字
(1) 标题:位于表的上方,概括表的主要内容,一般需注明时间与地点。
(2)标目:有横、纵标目之分,分别说明横行和纵行数字的含义,应做到文字简明,层次清楚。
(3)线条:多采用三条半线,即顶线、底线、纵标目下的横隔线及合计上的半线。忌斜线和竖线。
(4)数字:表内数据一律采用阿拉伯数字。同一指标小数点位数要一致,位次要对齐。表内不应有空项,无数字用“—”表示,数字为零则填“0”,暂缺项或未记录用“…”表示。
(5)备注:不为表的必备内容,如有必要,可在表内用“*”号标记,然后在表的下方加以说明。
3.统计表的种类
统计表可分为简单表(simple table)和复合表(combinative table)两种类型。
简单表:只按单一特征或标志分组。
复合表:按两个或两个以上主要标志分组,如年龄和性别结合起来分组。
(三)统计图中应注意的几个问题
1.统计图的结构
统计图通常由标题、标目、刻度和图例四部分组成。如下所示:
2.常用统计图的分类
医学统计学中常用的统计图有:条图(bar graph)、线图(line graph)、圆图(pie graph)、直方图(histogram)、散点图(scatter diagram)和统计地图(statistical map)等。
3.制图的基本要求
(1)根据资料的性质和分析目的,选择合适的图形。
(2)标题扼要说明图的主要内容,位于图的下方,必要时注明时间和地点。
(3)建立在直角坐标系上的统计图,其纵轴尺度自下而上,横轴尺度从左到右,数字一律由小到大,某些图还要求纵轴尺度从0开始(如直条图、直方图)。纵横两轴一般应有标目,注明单位。
(4)图的长宽比例(圆图除外)一般以7:5或5:7为宜。
(5)可用不同的线条或颜色表示不同的事物,但需用图例说明,一般放在图的右上角或图的下方。
4.常用统计图的定义和制图要求,见表12-1。
表12-1 常用统计图的定义和制图要求
名称定义制图要求
条图用等宽直条的长短来表示相互独
立的各统计指标的数值大小起点为0的等宽直条,条间距相等,按高低顺序排列。
普通线图适用于连续性资料。用线段的升纵横两轴均为算术尺度,相邻两点应以折
的趋势。
半对数线图用线段的升降来表示一事物随另
一事物变化的速度。横轴为算术尺度,纵轴为对数尺度。余同普通线图。
圆图以圆面积表示事物的全部,用扇
形面积表示各部分的比重以圆面积为100%,将各构成比分别乘以3.6度得圆心角度数后再绘扇形面积。通常以12点为始边依次绘图。
直方图用矩形的面积来表示某个连续型
变量的频数分布常以横轴表示连续型变量的组段(要求等距),纵轴表示频数或频率,其尺度从“0”开始,各直条间不留空隙。
散点图以点的密集程度和趋势表示两种
事物间的相关关系
绘制方法同线图,只是点与点之间不连接。
三、典型试题分析
1.指出表12-2的缺陷并作改进。
表12-2 119例宫颈糜烂冷冻治疗结果(原表)
[评析]本题考点:对列表的原则和统计表的结构与编制要求的掌握。
表12-2的主要目的在于考察冷冻治疗宫颈糜烂的近期疗效。存在的问题是:标题未突出“近期疗效”这一主要内容;主谓语安排不当且标目重复,如例数和%多处出现;总计意义不明确;线条过多,以致数据隔离,不便比较。改正后见表12-3。
表12-3 冷冻治疗宫颈糜烂患者的近期疗效(修改表)
糜烂程度例数
疗效疗效构成比(%)
治愈好转无效治愈好转无效
轻度 49 39 2 8 79.6 4.1 16.3 中度 37 11 19 7 29.7 51.4 18.9
重度合计 33 2 14 17 6.1 42.4 51.5 119 52 35 32 43.7 29.4 26.9
修改表12-3很容易看清楚冷冻治疗宫颈糜烂中治愈、好转、无效在各级糜烂程度中的例数和所占的百分比,同时也可以看出疗效因宫颈糜烂程度不同而异,轻度糜烂者疗效较好,
中、重度次之。
2. 将下表资料绘成合适的图形。
表12-4 亚洲国家成人HIV感染情况
国家成人感染率(%)
柬埔寨 2.40
泰国 2.23
缅甸 1.79
印度0.82
中国0.06
[评析]本题考点:对各种统计图适用情况的掌握。
分析表12-4的资料,得出此资料适合做单式条图,见图12-1。
3.根据表12-5的资料,作图并作简要分析。
表12-5 某市某年男女学生不同年龄的身高均数(cm) 年龄组(岁)男女
17~ 115.41 115.51
18~ 118.33 117.53
19~ 122.16 121.66
10~ 129.48 125.94
11~ 129.64 131.76
12~ 135.50 138.26
13~ 138.36 141.17
14~ 145.14 147.21
15~ 150.84 150.03
16~ 154.70 153.06
17~18 161.90 156.63
[评析]本题考点:对统计图的做法与分析知识点的掌握。
绘线图,见图12-2。
由表12-5和图12-2可见,随着年龄的增加,男女生身高均数均逐渐增高。在7~10岁间,男生身高均数略高于女生;而10~15岁间,男生身高均数略低于女生;15岁以上,男生身高均数又超过女生,表现出不同性别儿童生长发育曲线的两交叉现象。
4. 根据表12-6的资料,做合适的图形并作简述作图步骤。
表12-6 我国1998年性病传播途径分布情况
传播途径 病例数 构成比(%)
非婚姻性接触 413 303 72.1 配偶传播 103 064 18.0 其他传播
57 174
9.9
[评析] 本题考点:圆图的应用。
圆图是用圆的总面积表示事物的全部,用各个扇形的面积表示各个部分的比重,根据资料的性质,此题适用于作圆图。
(1) 先计算各部分的角度 根据公式圆心角(度)=各部分百分比×360o
。
(2) 绘制图形 先画出圆形,再借助量角器画出各圆心角。以第一个圆心角从时钟
9点或12点处开始,顺时针方向排列。如下图12-3。
18%
其他传播10%
图12-3 我国1998年性病传播途径构成比
5. 将表12-7资料中两种疾病发病率的历年变动情况绘制成普通线图及半对数线图,并说明两种图形的不同意义。
表12-7 某地结核病和白喉的死亡率(‰)
年 份 结核病死亡率
白喉死亡率 1949 150.2 20.1 1950 148.0 16.6 1951 141.0 14.0 1952 130.0 11.8 1953 110.4 10.7 1954 98.2 6.5 1955 72.6 3.9 1956 68.0 2.4 1957
54.8
1.3
[评析] 本题考点:半对数线图的应用。
半对数线图是线图的一种特殊形式,在事物数量间相差较大的情况下,通常普通线图难于表达或相互比较两种或两种以上事物的变化速度,此时可采用半对数图来表示。 (1) 普通线图:
图12-4 某市1949-1957年15岁以下儿童结核、白喉死亡率
由纵横两轴均为算术尺度的普通线图12-4可见,结核病和白喉死亡率1949-1957年均呈下降趋势,给人们的直观感觉是结核病死亡率下降较快,白喉死亡率下降较平缓。
(2)半对数线图
图12-5 某市1949-1957年15岁以下儿童结核、白喉死亡率
0.0
0.51.01.52.02.5
194919501951195219531954195519561957
年份
死亡率之对数值
由半对数线图可见,结核病的死亡率下降速度始终比较平缓,而白喉死亡率下降速度开始几年和结核病持平,1954年后下降速度明显加快。
四、习题
(一)名词解释
1.统计表 2. 统计图
(二)简答题
1.统计表和统计图在表达资料中各有何特殊意义?
2.统计表有哪些要素构成?制表的注意事项有哪些?
3.统计图有哪些要素构成?绘制统计图的注意事项有哪些?
4.为什么半对数线图可以描述发展速度的变化?
(三)列表、制图与分析题
1.某医院对麦芽根糖浆治疗急慢性肝炎161例的疗效列表,试作改进。
表12-8 麦芽根糖浆治疗急慢性肝炎疗效观察
2.某地1952年和1972年三种死因别死亡率下表,试将该资料绘制成统计图并作分析。
表12-9 某地1952年和1972年三种死因别死亡率(1/10万)
死因1952年1972年
肺结核165.2 27.4
心脏病72.5 83.6
恶性肿瘤57.2 178.2
3.据下例统计资料试作统计图。
表12-10 某地居民两次粪便蠕虫卵检查结果
第一次阳性率(%)第二次阳性率(%)
蛔虫钩虫91.43
61.22
86.39
31.36
鞭虫17.14 16.51
表12-11 某部队1997年各月传染病发病人数
月份 1 2 3 4 5 6 7 8 9 10 11 12 合计传染病人数 3 4 7 14 9 14 17 104 58 12 5 2 249
表12-12 224例胸膜炎病人的年龄分布
年龄(岁)各组人数占全部病人的百分比
11~ 4.1
16~ 13.5
21~ 44.6 31~ 27.1 41~ 8.9
51~合计 1.8 100.0
4. 某县防疫站1972年开始在城关镇建立“预防接种卡”,使计划免疫得到加强。为说明效果,1975年5月观察了482人的锡克试验反应,其中:幼儿园儿童101人,阳性21人;小学生145人,阳性22人;中学生236人,阳性15人。相比起来,1947年为:幼儿园儿童144人,阳性37人;小学生1417人,阳性323人;中学生359人,阳性41人。试用适当的统计表和统计图描述上述结果,并作简要分析。
(四)是非题
1.一个绘制合理的统计图可直观的反映事物间的正确数量关系。
2.在一个统计表中,如果某处数字为“0”,就填“0”,如果数字暂缺则填“…”,如果该处没有数字,则不填。
3.备注不是统计表的必要组成部分,不必设专栏,必要时,可在表的下方加以说明。
4.散点图是描写原始观察值在各个对比组分布情况的图形,常用于例数不是很多的间断性分组资料的比较。
5.百分条图表示事物各组成部分在总体中所占比重,以长条的全长为100%,按资料的原始顺序依次进行绘制,其他置于最后。
五、习题答题要点
(一)名词解释
1.统计表:将统计资料及其指标以表格形式列出,称为统计表(statistical table)。狭义的统计表只表示统计指标。
2.统计图:统计图(statistical graph)是将统计指标用几何图形表达,即以点的位置、线段的升降、直条的长短或面积的大小等形式直观的表示事物间的数量关系。
(二)简答题
1. 统计表可以代替冗长的文字叙述,便于指标的计算、分析和对比,其制作合理与否,对统计分析质量有着重要的影响。
统计图可用点的位置、线段的升降、直条的长短和面积的大小直观地反映分析事物间的数量关系。因统计如对数量表达较粗略,故最好附上相应的统计表。
2. 一般说来,统计表由标题、标目、线条、数字四部分构成(有时附有备注)。
编制统计表的注意事项:
(1) 标题概括表的内容,写于表的上方,通常需注明时间与地点。
(2) 标目以横、纵标目分别说明主语与谓语,文字简明,层次清楚。
(3) 线条不宜过多,通常采用三条半线表示,即顶线、底线、纵标目下的横隔线及合计上的半条线。
(4) 表内一律采用阿拉伯数字。同一指标小数点位数一致,数次要对齐。表内不留空格。
(5) 备注不要列于表内,如有必要,可在表内用“ * ”号标记,并在表外加以说明。
3. 统计图通常由标题、标目、刻度和图例四部分组成。 绘制统计图的注意事项:
(1) 根据资料的性质和分析目的,选择合适的图形。
(2) 标题应扼要的说明图的内容、地点、时间,位于图的下方,一般需注明时间、地点。 (3) 统计图有纵轴和横轴,两轴应有标目,标目应注明单位。纵轴尺度自下而上,横轴尺度从左到右。数字一律由小到大,某些图要求纵轴尺度从0开始
(4) 图的长宽比例(除圆图外)一般以7:5或5:7左右较美观。
(5) 比较不同事物时,可用不同的线条或颜色表示,但需用图例说明,一般放在图的右上角或图下方的适当位置。
半对数线图是以横轴为算术尺度,纵轴为对数尺度绘制而成。它表明数量间比例的动态变化趋势,如速率比A/B ,设X=A/B,利用对数运算法则,lgX= lgA – lgB,即将纵轴上尺度的倍比关系用对数值之差表示,所以它反映的是A , B 两事物现象间相互对比发展速度的变化。
(三) 列表、制图与分析题
1. 对表12-8进行改进后,见表12-13。
表12-13 某医院麦芽根糖浆治疗急慢性肝炎疗效分析
2. 根据资料性质,将资料绘成复式条图,见图12-6。
图12-6 某地两年三种死因别死亡率(1/10万)比较
306090120150
180肺结核
心脏病
恶性肿瘤
死亡率(1/10万)
由图可见,1972年与1952年相比肺结核死亡率明显下降;心脏病死亡率两年相比轻微增高;恶性肿瘤死亡率急剧上升,提示不同时期死因别死亡率的变化情况,反映出不同时期疾病防治的重点。
3. 表12-10绘成直条图,见图12-7。表12-11绘成线图,见图12-8。表12-12将组段改为等距后(见表12-14),绘成直方图,见图12-9。
疗 效 例数 疗效构成比(%) 无 效 53 32.92 好 转 38 23.60 近期痊愈 合 计
70 43.48 161
100.00
(2)根据资料特点,计算每年龄组的患者人数及每5岁患者人数(见表12-8),再绘制直方图。
表12-14 224例胸膜炎患者的年龄分布
年龄(岁)患者人数每5岁患者人数
11~ 9 9
16~ 30 30
21~100 50
31~ 61 30.5
41~ 20 10
51~61 合计 4 2 224 224
图12-9 224例胸膜炎患者年龄分布
4. 根据题意,可列统计表12-15和统计图12-10。
表12-15 某县两年不同人群锡克试验反应结果分析
1947年
1975年
调查人数
阳性人数 阳性率(%) 调查人数 阳性人数 阳性率(%)
幼儿园 144 37 25.69 101 21 20.79 小学生 1417 323 22.79 145 22 15.17 中学生
359
41
11.42
236
15
6.36
不同人群锡克试验反应阳性率均以1974年较高。 (四)判断正误并简述理由: 1. 正确。
2. 错。在一个统计表中,如果某处数据为“0”,就填“0”,如果数据暂缺则填“…”,若该处无数据,则填“—”。
3. 正确。
4. 正确。
5. 错。 百分条图表示事物各组成部分在总体中所占的比重,以长条的全长为100%,然后按各构成比由大到小或由小到大排列绘图。(颜艳 杨鹏)
图12-10 某县两年不同人群锡克试验阳性率(%)
510152025
30幼儿园
小学生
中学生
阳性率(%)
一、把下面的球用不同颜色的色块表示出来。 二、下面是二(1)班同学最喜欢吃的水果情况统计表,完成下面各题。 正正正正丅正正 1.把上面的数据用不同的颜色色块表示出来。 2.喜欢吃()的人最多,喜欢吃()的人最少,相差()个。 3.喜欢吃梨的比喜欢吃香蕉的少()人。 4.喜欢吃香蕉的比喜欢吃桃子的多()人。
一、下面是红红用画“正”字的方法对二年级(2)班同学最喜欢的 课外活动统计的结果。 跳绳:踢球:下棋: 打乒乓球:丅 1.把上面的统计结果填入下表。 2.最喜欢()的人最多,最喜欢()的人最少。 3.喜欢踢球的学生比喜欢打乒乓球的多()人。 4.喜欢打乒乓球的人数比喜欢跳绳的学生多()人。 5.喜欢跳绳的人数比喜欢下棋的人数少()人。 二、数一数,填一填。 △○△□○☆ □△☆△○△ △□□○△△ 1.完成统计表。 2.数量最多的图形是(),数量最少的图形是()。 3.△比○多()个。 4.☆比□少()个。
明星小学第六单元统计图和统计表专项练习(3)一、下面是某地区六月份天气情况。 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 1.根据你的统计,给下面的方格涂上不同的颜色。 2.这个月比多()天; 3.这个月比少()天。
明星小学第六单元统计图和统计表专项练习(4)一、下面是二(3)班同学们的美术成绩表。 1.用画“正”字的方法统计各种成绩的人数。 2.把统计的数据填在统计表中。 3.得“优”的学生有()人。 4.得“良”的比得“合格”的多()人。 5.得“良”的比得“优”的少()人。
1、什么是统计学? 统计学是一门收集、分析、表述、解释数据的科学和艺术。 2、描述统计:研究的是数据收集、汇总、处理、图表描述、概括与分析等统计方法。 推断统计:研究的是如何利用样本数据来推断总体特征。 3、统计学据可以分成哪几种类型,个有什么特点? 按照计量尺度不同,分为:分类数据、顺序数据、数值型数据。 分类数据:只能归于某一类别的,非数字型数据。 顺序数据:只能归于某一有序类别的,非数字型数据。 数值型数据:按数字尺度测量的观察值,结果表现为数值。 按收集方法不同。分为:观测数据、和实验数据 观测数据:通过调查或观测而收集到的数据;不控制条件; 社会经济领域 实验数据:在试验中收集到的数据;控制条件;自然科学领域。 按时间不同,分为:截面数据、时间序列数据 截面数据:在相同或近似相同的时间点上收集的数据。 时间序列数据:在不同时间收集的数据。 4、举例说明总体、样本、参数、统计量、变量这几个概念。 总体:是包含全部研究个体的集合,包括有限总体和无限总体(范围、数目判定)样本:从总体中抽取的一部分元素的集合。 参数:用来描述总体特征的概括性数字度量。(平均数、标准差、比例等) 统计量:用来描述样本特征的概括性数字度量。(平均数、标准差、比例等) 变量:是说明样本某种特征的概念,其特点:从一次观察到下一次观察结果会呈现出差别或变化。(商品销售额、受教育程度、产品质量等级等) (对一千灯泡进行寿命测试,那么这千个灯泡就是总体,从中抽取一百个进行检测,这一百个灯泡的集合就是样本,这一千个灯泡的寿命的平均值和标准差还有合格率等描述特征的数值就是参数,这一百个灯泡的寿命的平均值和标准差还有合格率等描述特征的数值就是统计量,变量就是说明现象某种特征的概念,比如说灯泡的寿命。) 5、变量可以分为哪几类? 分类变量:说明事物类别;取值是分类数据。 顺序变量:说明事物有序类别;取值是顺序数据 数值型变量:说明事物数字特征;取值是数值型数据。 变量也可以分为:随机变量和非随机变量;经验变量和理论变量 6、举例说明离散型变量和连续型变量。 离散型变量:只能取有限个、可数值的变量。(企业个数、产品数量) 连续型变量:可以在一个或多个区间中取任何值的变量。(年龄、温度、零件尺寸误差)7、请举出统计应用的几个例子。 市场调查、人口普查等。 8、请举出应用统计学的几个领域。 社会科学中的经济分析、政府政策制定等;自然科学中的物理、生物领域等。
第一章绪论 一、单项选择题 答案 1. D 2. E 3. D 4. B 5. A 6. D 7. A 8. C 9. E 10. D 二、简答题 1答由样本数据获得的结果,需要对其进行统计描述和统计推断,统计描述可以使数据更容易理解,统计推断则可以使用概率的方式给出结论,两者的重要作用在于能够透过偶然现象来探测具有变异性的医学规律,使研究结论具有科学性。 2答医学统计学的基本内容包括统计设计、数据整理、统计描述和统计推断。统计设计能够提高研究效率,并使结果更加准确和可靠,数据整理主要是对数据进行归类,检查数据质量,以及是否符合特定的统计分析方法要求等。统计描述用来描述及总结数据的重要特征,统计推断指由样本数据的特征推断总体特征的方法,包括参数估计和假设检验。 3答统计描述结果的表达方式主要是通过统计指标、统计表和统计图,统计推断主要是计算参数估计的可信区间、假设检验的P 值得出相互比较是否有差别的结论。 4答统计量是描述样本特征的指标,由样本数据计算得到,参数是描述总体分布特征的指标可由“全体”数据算出。 5答系统误差、随机测量误差、抽样误差。系统误差由一些固定因素产生,随机测量误差是生物体的自然变异和各种不可预知因素产生的误差,抽样误差是由于抽样而引起的样本统计量与总体参数间的差异。 6答三个总体一是“心肌梗死患者”所属的总体二是接受尿激酶原治疗患者所属的总体三是接受瑞替普酶治疗患者所在的总体。 第二章定量数据的统计描述 一、单项选择题 答案 1. A 2. B 3. E 4. B 5. A 6. E 7. E 8. D 9. B 10. E 二、计算与分析 2
思考题: 1什么是统计学?怎样理解统计学与统计数据的关系? 答:⑴统计学是一门收集、整理、显示和分析统计数据的科学,其目的是探索数据的内在的数量规律性;⑵统计学是由收集、整理、显示和分析统计数据的方法组成的,这些方法来源 于对统计数据的研究,目的也在于对统计数据的研究; ⑶离开了统计数据,统计方法乃至统计学就失去其存在的意义。 2、简要说明统计数据的来源。 答:(1)统计数据来源于直接获取的数据和间接获取的数据;(2)直接获取的数据来自于直接 组织的调查、观察和科学试验;(3)间接获取的数据来源于报纸、杂志、统计年鉴、网络或 从调查公司或数据库公司等处购买。 3、简要说明抽样误差和非抽样误差。 答:(1)非抽样误差是由于调查过程中各有关环节工作失误造成的。它包括调查方案中有关规定或解释不明确所导致的填报错误、抄录错误、汇总错误,不完整的抽样框导致的误差,调查中由于被调查者不回答产生的误差等。从理论上看,这类误差是可以避免的;(2)抽样误差是利用样本推断总体时产生的误差。抽样误差对任何一个随机样本来讲都是不可避免的,可以计量,可以控制。 4、怎样理解均值在统计学中的地位? 答:(1 )反映了一组数据的中心点或代表值,是数据误差互相抵消后的客观事物必然性数量 特征的一种反映;(2)是统计分布的均衡点;(3)任何统计推断和分析都离不开均值。 5、解释洛伦茨曲线及其用途。 答:(1)洛伦茨曲线是累积次数分配曲线,由(美)洛伦茨()提出,依据(意)帕累托() 的“二八原理”和收入分配公式绘制;(2)用于描述收入和财富分配性质。 6、简述基尼系数的使用。 答:基尼系数用于反应收入分配的变化情况,取值在0?1之间 ①基尼系数小于,表明分配平均;②在?之间,分配比较适当;③是收入分配不公平的警 戒线,超过,收入分配不公平。 7、一组数据的分布特征可以从哪几个方面进行测度? 答:可以从三个方面测度:⑴分布的集中趋势反映的是数据一般水平的代表值或者数据分 布的中心值;⑵分布的离散程度反映的是分布离散和差异程度;⑶分布的偏态与峰 度反映数据的分布形态是否对称、偏斜的程度以及分布的扁平程度。 8、简述频率与概率的关系。 答:①频率反映的是某一事物出现的频繁程度;②概率是指事件在一次试验中发生的可能性; ③当观察次数n很大时,频率与概率非常接近。 9、概率的三种定义各有什么应用场合。 答:⑴古典概率实验的基本事件总数有限,每个基本事件出现的可能性相同;⑵统计概率 实验的基本事件总数有限,每个基本事件出现的可能性不完全相同;⑶主观概率随机事件发生的可能性既不能通过等可能事件个数来计算,也不能根据大量重复试验的频率来估计。 10、概率密度函数和分布函数的联系与区别表现在哪些方面? 答:(1)联系:概率密度函数的积分是分布函数,分布函数的导数是概率密度函数;别:概率密 (2)区 度函数的函数值是某点的概率密度,分布函数的函数值表示某个区间的概率。
选择合适的统计学方法 1连续性资料 1.1 两组独立样本比较 1.1.1 资料符合正态分布,且两组方差齐性,直接采用t检验。 1.1.2 资料不符合正态分布,(1)可进行数据转换,如对数转换等,使之服从正态分布,然后对转换后的数据采用t检验;(2)采用非参数检验,如Wilcoxon检验。 1.1.3 资料方差不齐,(1)采用Satterthwate 的t’检验;(2)采用非参数检验,如Wilcoxon检验。 1.2 两组配对样本的比较 1.2.1 两组差值服从正态分布,采用配对t检验。 1.2.2 两组差值不服从正态分布,采用wilcoxon的符号配对秩和检验。 1.3 多组完全随机样本比较 1.3.1资料符合正态分布,且各组方差齐性,直接采用完全随机的方差分析。如果检验结果为有统计学意义,则进一步作两两比较,两两比较的方法有LSD检验,Bonferroni法,tukey 法,Scheffe法,SNK法等。 1.3.2资料不符合正态分布,或各组方差不齐,则采用非参数检验的Kruscal-Wallis法。如果检验结果为有统计学意义,则进一步作两两比较,一般采用Bonferroni法校正P值,然后用成组的Wilcoxon检验。 1.4 多组随机区组样本比较 1.4.1资料符合正态分布,且各组方差齐性,直接采用随机区组的方差分析。如果检验结果为有统计学意义,则进一步作两两比较,两两比较的方法有LSD检验,Bonferroni法,tukey 法,Scheffe法,SNK法等。 1.4.2资料不符合正态分布,或各组方差不齐,则采用非参数检验的Fridman检验法。如果检验结果为有统计学意义,则进一步作两两比较,一般采用Bonferroni法校正P值,然后用符号配对的Wilcoxon检验。 ****需要注意的问题: (1)一般来说,如果是大样本,比如各组例数大于50,可以不作正态性检验,直接采用t 检验或方差分析。因为统计学上有中心极限定理,假定大样本是服从正态分布的。 (2)当进行多组比较时,最容易犯的错误是仅比较其中的两组,而不顾其他组,这样作容易增大犯假阳性错误的概率。正确的做法应该是,先作总的各组间的比较,如果总的来说差别有统计学意义,然后才能作其中任意两组的比较,这些两两比较有特定的统计方法,如上面提到的LSD检验,Bonferroni法,tukey法,Scheffe法,SNK法等。**绝不能对其中的两
第四单元统计表和条形统计图(一) 教学目标: 1.使学生经历收集、整理、描述和分析数据的过程,认识简单的统计表和条形统计图,了解它们的结构和特点;会分段整理数据,能用统计表和条形统计图描述数据;能结合统计表、条形统计图对简单数据进行分析和解释。 2.使学生经历从现实情境出发,探索并发现数学知识的过程,初步理解平均数的意义,会求简单数据的平均数(结果是整数),能应用平均数解释一些简单生活现象,解决一些简单实际问题。 3.使学生在参与统计活动的过程中,初步感受运用统计方法解决问题的过程,体会统计在日常生活中的广泛应用,学会有条理地思考和表达,提高分析问题和解决问题的能力,发展数据分析观念。 4.使学生在运用统计知识和方法解决问题的过程中,感受统计活动的实际价值,体验用统计知识解决实际问题的乐趣,获得学习成功的体验,树立学好数学的自信心。 课时安排: 6课时。
条形统计图 教学容: 教材第40~41页例1、练一练、练习七第1题。 教学目的: 1.让学生经历数据的收集、整理、分析的过程,会填写统计表,了解条形统计图的结构,能依据所给的数据,独立绘制条形统计图的直条。了解统计表、统计图的作用,并能对统计图表进行简单的分析。 2.让学生经历数据的收集、整理、分析的过程,能对统计图表进行简单的分析。 3.使学生感受到统计的思想,体会数学与生活的密切联系,提哦眼学习数学的乐趣,学会与他人合作交流,获得积极的数学学习情感。教学重点: 了解条形统计图的结构,能绘制条形统计图的直条,对条形统计图进行分析。 教学难点: 理解条形统计图中一格表示几。 教具准备: 1.多媒体课件。 2.空白统计图表。 教学过程: 一、创设情境,导入新课 1.提问:同学们,你们喜欢看电视节目吗?你们喜欢看一些什么电视节目呢? 学生口答:科普类、综艺类、动画类、体育类。 2.谈话:同学们,喜欢的电视节目类别真不少,如果限定每人喜欢其中的一种,你喜欢哪一种呢? 学生口头说一说。 二、收集数据,整理数据 1.收集数据。 提问:同学们这4类电视节目,每种节目到底有多少人喜欢?你有办法知道吗? 学生回答。 谈话:如果老师想统计我们班同学喜欢电视节目的人数,我让大家一个一个地报出自己喜欢的电视节目的名字,你准备怎么统计?
课题:简单的统计表和条形统计图 学习内容40-41 页例1、练一练、练习七第1 题 学习目标: 1. 引导学生通过看看、填填、画画,逐步认识统计表和条形统计图,学会用简单的统计图表呈现数据。 2.能在格子纸上制作简单的条形统计图。 3.培养学生观察比较、分析的能力,产生对统计的兴趣。 学习重、难点:条形统计图的制作。 学习准备:课件 前置性小研究:课前调查:同学们喜欢看什么电视节目?(准备好一张练一练的记录表,让学生完成记录。) 学习过程: 一、导入新课。同学们喜欢看什么电视节目?(准备好一张练一练的记录表,让学生完成记录。)老师这儿也有一张调查记录,你能看明白吗?让学生说说你从这张记录表中读出了哪些数据?(指名回答)你能完成下面的统计表吗? 1.学习统计表。 (1)说一说统计表里已经有了哪些数据?是从哪里来的?还有哪几个空格要填写,这些数据到哪里寻找? (2)说一说“合计”的意思以及求合计人数的方法。 (3)学生独立填写空格里的人数。 (4)填写完整后让学生观看统计表,读其标题,明白统计表的内容,写出年月,表明统计的时间,说说人数,表述统计表里的数据。 (5)和用“正”方法记录数据,统计表在表示数据方面有什么优点? 2.学习条形统计图。老师这儿还有一幅根据统计表制作的统计图,想不想看看? (1)观察横轴,看看上有什么?(明白横轴上表示四类电视节目。) (2)观察纵轴,看看上有什么?(明白纵轴上表示喜欢各类电视节目的人数,1 格表示2 人。) (3)让学生独立画图,检查他们画的直条长度是否正确,提醒他们在直条的上面写出相应的人数。 二、讨论小结:复备:从统计表里能知道些什么?从统计图里能知道些什么?统计表和统计图各有什么特点?一张完整的统计表由哪几部分组成?一幅完整的统计图由哪几部分组成? 三、巩固练习。 1.教材41 页练一练。 (1)出示导入时完成的记录表,让学生完成统计表和制作统计图。 (2)通过统计,你知道了什么? 2.练习七第1 题。 (1)出示统计图,让学生进行观察。 (2)从这张统计图中你看明白了些什么? 四、全课小结。这节课你学会了什么? 板书设计:简单的统计表和条形统计图备注:(可写反思、学情记录、作业批改情况等)
思考题(仅供参考) 部分题目超出范围。同学们仅作上课讲授过的题目即可 二、判断题 1、对于定性变量不能确定平均数.( ) 2、根据组距式数列计算的平均数、标准差等都是近似值.( ) 3、任何平均数都受变量数列中的极端值的影响.( ) 4、中位数把变量数列分成了两半,一半数值比它大,一半数值比它小.( ) 5、任何变量数列都存在众数.( ) 6、如果x
小学二年级数学统计表与统计图知识点 文档编制序号:[KKIDT-LLE0828-LLETD298-POI08]
小学二年级数学统计表与统计图知识点整理 查字典数学网为您整理了:二年级数学统计表与统计图知识点欢迎大家阅读愉快 二年级数学统计表与统计图知识点 统计表 (一)意义 把统计数据填写在一定格式的表格内,用来反映情况、说明问题,这样的表格就叫做统计表。 (二)组成部分 * 一般分为表格外和表格内两部分。表格外部分包括标的名称,单位说明和制表日期;表格内部包括表头、横标目、纵标目和数据四个方面。 (三)种类 * 单式统计表:只含有一个项目的统计表。 * 复式统计表:含有两个或两个以上统计项目的统计表。 * 百分数统计表:不仅表明各统计项目的具体数量,而且表明比较量相当于标准量的百分比的统计表。 (四)制作步骤 1、搜集数据 2、整理数据:要根据制表的目的和统计的内容,对数据进行分类 3、设计草表:
- 要根据统计的目的和内容设计分栏格内容、分栏格画法,规定横栏、竖栏各需几格,每格长度。 4 、正式制表: - 把核对过的数据填入表中,并根据制表要求,用简单、明确的语言写上统计表的名称和制表日期。 统计图 (一)意义 * 用点线面积等来表示相关的量之间的数量关系的图形叫做统计图。 (二)分类 1 、条形统计图 - 用一个单位长度表示一定的数量,根据数量的多少画成长短不同的直条,然后把这些直线按照一定的顺序排列起来。 - 优点:很容易看出各种数量的多少。 - 注意:画条形统计图时,直条的宽窄必须相同。 - 取一个单位长度表示数量的多少要根据具体情况而确定; - 复式条形统计图中表示不同项目的直条,要用不同的线条或颜色区别开,并在制图日期下面注明图例。 制作条形统计图的一般步骤: (1)根据图纸的大小,画出两条互相垂直的射线。 (2)在水平射线上,适当分配条形的位置,确定直线的宽度和间隔。
思考题与练习题 参考答案 【友情提示】请各位同学完成思考题和练习题后再对照参考答案。回答正确,值得肯定;回答错误,请找出原因更正,这样使用参考答案,能力会越来越高,智慧会越来越多。学而不思则罔,如果直接抄答案,对学习无益,危害甚大。想抄答案者,请三思而后行! 第一章绪论 思考题参考答案 1.不能,英军所有战机=英军被击毁的战机+英军返航的战机+英军没有弹孔的战机,因为英军被击毁的战机有的掉入海里、敌军占领区,或因堕毁而无形等,不能找回;没有弹孔的战机也不可能自己拿来射击后进行弹孔位置的调查。即便被击毁的战机找回或没有弹孔的战机自己拿来射击进行实验,也不能从多个弹孔中确认那个弹孔是危险的。 2.问题:飞机上什么区域应该加强钢板?瓦尔德解决问题的思想:在他的飞机模型上逐个不重不漏地标示返航军机受敌军创伤的弹孔位置,找出几乎布满弹孔的区域;发现:没有弹孔区域是军机的危险区域。 3.能,拯救和发展自己的参考路径为:①找出自己的优点,②明确自己大学阶段的最佳目标,③拟出一个发扬自己优点,实现自己大学阶段最佳目标的可行计划。 练习题参考答案 一、填空题 1.调查。
2.探索、调查、发现。 3. 目的。 二、简答题 1.瓦尔德;把剩下少数几个没有弹孔的区域加强钢板。 2.统计学解决实际问题的基本思路,即基本步骤是:①提出与统计有关的实际问题; ②建立有效的指标体系;③收集数据;④选用或创造有效的统计方法整理、显示所收集数据的特征;⑤根据所收集数据的特征、结合定性、定量的知识作出合理推断;⑥根据合理推断给出更好决策的建议。不解决问题时,重复第②-⑥步。 3.在结合实质性学科的过程中,统计学是能发现客观世界规律,更好决策,改变世界和培养相应领域领袖的一门学科。 三、案例分析题 1.总体:我班所有学生;单位:我班每个学生;样本:我班部分学生;品质标志:;数量标志:每个学生课程的成绩;指标:全班学生课程的平均成绩;指标体系:上学期全班同学学习的科目;统计量:我班部分同学课程的平均成绩;定性数据:;定量数据:课程成绩;离散型变量:学习课程数;连续性变量:学生的学习时间;确定性变量:全班学生课程的平均成绩;随机变量:我班部分同学课程的平均成绩,每个同学进入教室的时间;横截面数据:我班学生月门课程的出勤率;时间序列数据:我班学生课程分别在第一个月、第二个月、第三个月、第四个月的出勤率;面板数据:我班学生课程分别在第一个月、第二个月、第三个月、第四个月的出勤率;选用描述统计。 2.(1)总体:市大学生;单位:市的每个大学生。(2)如果调查中了解的是价格高低,为定序尺度;如果调查中了解的是商品丰富、价格合适、节约时间,为定类尺度。(3)市大学生在网上购物的平均花费。(4)是用统计量作为参数的估计。(5)推断统计。 3.(1)10。(2)6。(3)定类尺度:汽车名称,燃油类型;定序尺度:车型大小;定距尺度:引擎的汽缸数;定比尺度:市区驾车的油耗,公路驾车的油耗。(4)定性变量:汽车名称,车型大小,燃油类型;定量变量:引擎的汽缸数,市区驾车的油耗,公路驾车的油耗。(5)4 0%;(6)30%。 第二章收集数据
《统计表和条形统计图》教学设计 塔山中心小学韩召秀 一、教学目标: 1、使学生认识简单的统计表和单第式条形统计图,了解相应的 结构、特点和表达数据的方法;能根据收集的数据填写统计表和完 成条形统计图,根据统计数据进行简单分析。 2、使学生经历完成统计表和统计图、简单分析数据等统计活动,了解数据处理、分析的大体过程,掌握简单的数据处理技能,体会 数据蕴含信息,发展初步的数据分析观念。 3、使学生感受统计表和条形统计图在实际应用中的意义和价值,增强学习统计的兴趣。 二、教学重、难点:认识并用统计表和条形统计图表示数据。 三、教学过程: (一)、创设情境,导入新课 1:同学们都喜欢看电视吧,想一想,你喜欢看什么类型的电视节目呢? 谈话:同学们,为了清楚地弄清本班同学最喜欢的电视节目数据,就 需要对记录单上的数据分段整理。(板书:数据的分段整理) 2:谈话:我们以前学过的可以用什么方法来分段整理数据呢?请发 表意见。(学生的意见可能有数数、用不同的符号记录、画“正”字 记录等。)
3:下面我们来看一看张丽华同学用画“正”字记录的记录表:谈话:除了可以用画“正”字的记录表进行记录?你觉得还能用什么方法表示出这里的数据,就能让大家更清楚地看出最喜欢每类电视节目的人数各是多少?(板书:制作统计表) 引入:要清楚地表示收集的数据和结果,就需要认识统计表和统计图,用统计表或统计图来表示收集的数据。这节课,我们就来认识统计表和条形统计图,学会用统计表和条形统计图表示数据。(板书课题)。 (二)、学习新知: 1、例1中收集完成的数据记录表、 (1)引导:这里第一幅是简单的统计表,表里的“6”和“15”表示的是什么? 观察统计表,你知道一张完整的统计表要有哪些要求? 说明:完整的统计表需要有:(1)反映统计内容的标题和日期,表示统计的什么、注明什么时候统计的,这里标题是“某班同学最喜欢的电视节目统计表”: (2)要有和收集数据相对应的统计项目,这里的统计项目有“科普类、综艺类、动画类、体育类”几项,还有“合计”栏;(3)表示的数据,这里表示的是“人数”。 提问:表中的合计起什么作用?(既能反应总人数,又能检验分段整理的数据有无错误。) 请你们把整理好的数据填入统计表。(完成导学单)
思考题: 1、什么是统计学?怎样理解统计学与统计数据的关系? 答:⑴统计学是一门收集、整理、显示和分析统计数据的科学,其目的是探索数据的内在的数量规律性;⑵统计学是由收集、整理、显示和分析统计数据的方法组成的,这些方法来源于对统计数据的研究,目的也在于对统计数据的研究; ⑶离开了统计数据,统计方法乃至统计学就失去其存在的意义。 2、简要说明统计数据的来源。 答:(1)统计数据来源于直接获取的数据和间接获取的数据;(2)直接获取的数据来自于直接组织的调查、观察和科学试验;(3)间接获取的数据来源于报纸、杂志、统计年鉴、网络或从调查公司或数据库公司等处购买。 3、简要说明抽样误差和非抽样误差。 答:(1)非抽样误差是由于调查过程中各有关环节工作失误造成的。它包括调查方案中有关规定或解释不明确所导致的填报错误、抄录错误、汇总错误,不完整的抽样框导致的误差,调查中由于被调查者不回答产生的误差等。从理论上看,这类误差是可以避免的;(2)抽样误差是利用样本推断总体时产生的误差。抽样误差对任何一个随机样本来讲都是不可避免的,可以计量,可以控制。 4、怎样理解均值在统计学中的地位? 答:(1)反映了一组数据的中心点或代表值,是数据误差互相抵消后的客观事物必然性数量特征的一种反映;(2)是统计分布的均衡点;(3)任何统计推断和分析都离不开均值。 5、解释洛伦茨曲线及其用途。 答:(1)洛伦茨曲线是累积次数分配曲线,由(美)洛伦茨(,依据(意)帕累托(V.Pareto)的“二八原理”和收入分配公式绘制;(2)用于描述收入和财富分配性质。 6、简述基尼系数的使用。 答:基尼系数用于反应收入分配的变化情况,取值在0~1之间 ①基尼系数小于0.2,表明分配平均;②在0.2~0.4之间,分配比较适当;③0.4 是收入分配不公平的警戒线,超过0.4,收入分配不公平。 7、一组数据的分布特征可以从哪几个方面进行测度? 答:可以从三个方面测度:⑴分布的集中趋势反映的是数据一般水平的代表值或者数据分布的中心值;⑵分布的离散程度反映的是分布离散和差异程度;⑶分布的偏态与峰度反映数据的分布形态是否对称、偏斜的程度以及分布的扁平程度。 8、简述频率与概率的关系。 答:①频率反映的是某一事物出现的频繁程度;②概率是指事件在一次试验中发生的可能性; ③当观察次数n很大时,频率与概率非常接近。 9、概率的三种定义各有什么应用场合。 答:⑴古典概率实验的基本事件总数有限,每个基本事件出现的可能性相同;⑵统计概率实验的基本事件总数有限,每个基本事件出现的可能性不完全相同;⑶主观概率随机事件发生的可能性既不能通过等可能事件个数来计算,也不能根据大量重复试验的频率来估计。 10、概率密度函数和分布函数的联系与区别表现在哪些方面? 答:(1)联系:概率密度函数的积分是分布函数,分布函数的导数是概率密度函数;(2)区别:概率密度函数的函数值是某点的概率密度,分布函数的函数值表示某个区间的概率。11、离散型随机变量和连续型随机变量的概率分布的描述有些什么不同? 答:⑴离散型随机变量的概率分布可以用表格、函数或图形等形式来表现。最常见的离散型随机变量的概率分布是二项分布,此外还有伯松分布、超几何分布; ⑵连续型随机变量的概率分布可以用概率密度和分布函数以及对应的曲线图来表示。最常见
第一套试卷及参考答案 一、选择题(40分) 1、根据某医院对急性白血病患者构成调查所获得的资料应绘制(B ) A 条图 B 百分条图或圆图 C 线图 D 直方图 2、均数和标准差可全面描述D 资料的特征 A 所有分布形式B负偏态分布C正偏态分布D正态分布和近似正态分布 3、要评价某市一名5 岁男孩的身高是否偏高或偏矮,其统计方法是(A ) A 用该市五岁男孩的身高的95% 或99% 正常值范围来评价 B 用身高差别的假设检验来评价 C 用身高均数的95%或99% 的可信区间来评价 D 不能作评价 4、比较身高与体重两组数据变异大小宜采用(A ) A 变异系数 B 方差 C 标准差 D 四分位间距 5、产生均数有抽样误差的根本原因是(A ) A.个体差异 B. 群体差异 C. 样本均数不同 D. 总体均数不同 6.男性吸烟率是女性的10倍,该指标为(A ) (A)相对比(B)构成比(C)定基比(D)率 7、统计推断的内容为(D ) A.用样本指标估计相应的总体指标 B.检验统计上的“检验假设” C. A 和B 均不是 D. A 和B 均是 8、两样本均数比较用t 检验,其目的是检验(C ) A 两样本均数是否不同 B 两总体均数是否不同 C 两个总体均数是否相同 D 两个样本均数是否相同 9、有两个独立随机的样本,样本含量分别为n1和n2,在进行成组设计资料的t检验时,自由度是(D ) (A)n1+ n2 (B)n1+ n2 –1 (C)n1+ n2 +1 (D)n1+ n2 -2 10、标准误反映(A ) A 抽样误差的大小 B 总体参数的波动大小 C 重复实验准确度的高低 D 数据的离散程度 11、最小二乘法是指各实测点到回归直线的(C) A垂直距离的平方和最小B垂直距离最小C纵向距离的平方和最小D纵向距离最小 12、对含有两个随机变量的同一批资料,既作直线回归分析,又作直线相关分析。令对相关系数检验的t值为t r,对回归系数检验的t 值为t b,二者之间具有什么关系?(C) A t r>t b B t r
第一章导论 1、统计数据可分为哪几种类型?不同类型的数据各有什么特点? 按照所采用的计量尺度的不同,可以将统计数据分为分类数据、顺序数据和数值型数据。按照统计数据 的收集方法,可以将其分为观测数据和实验数据。按照被描述的现象与时间的关系,可以将统计数据分为截面数据和时间序列数据。 分类数据是只能归于某一类别的非数字型数据,它是对事物进行分类的结果,数据表现为类别,是用文字来表述的。顺序数据是只能归于某一有序类别的非数字型数据。顺序数据虽然也是类别,但这些类别是有序的,是用文字来表述的。数值型数据是按数字尺度测量的观察值,其结果表现为具体的数值。现实中处理的大多数都是数值型数据。 2、解释分类数据、顺序数据和数值数据的意义。 对分类数据,我们通常计算出各组的频数或频率,计算其众数和异众比率,进行列联表分析和x2检验等;对顺序数据,可以计算其中位数和四分位差,计算等级相关系数等;对数值型数据,可以用更多的统计方法进行分析,如计算各种统计量,进行参数估计和检验等 3、举例说明总体、样本、参数、统计量、变量这几个概念。 总体:是包含所研究的全部个体的集合,它通常由所研究的一些个体组成。如多个企业构成的集合,多个居民户构成的集合,多个人构成的集合 样本:是从总体中抽出的一部分元素的集合。如从一批灯泡中随机抽取100个,这100个灯泡就构成了一个样本。 参数:是用来描述总体特征的概括性数字度量,它是研究者想要了解的总体的某种特征值。在统计中,总体参数通常用希腊字母表示,如,总体平均数用u(miu)表示,总体标准差用(sigma)表示,总体比例用(pai)表示,等。 统计量:是用来描述样本特征的概括性数字度量,它是根据样本数据计算出来的一个量,由于抽样是随机的,因此统计量是样本的函数。样本统计量通常用英文字母来表示。如,样本平均数用(x-bar)表示,样本标准车用s表示,样本比例用p表示,等。 变量:是说明现象某种特征的概念。如,商品销售额,受教育程度,产品的质量等级等。 4、变量可分为哪几类? 变量可以分为分类变量、顺序变量、数值型变量,数值型变量根据其取值的不同,又可分为离散型变量和连续型变量。分类变量是说明事物类别的一个名称,顺序变量是说明事物有序类别的一个名称,数值型变量是说明事物数字特征的一个名称。 5、举例说明离散型变量和连续性变量。 离散型变量是只能取可数值的变量,只能取有限个值,而且其取值都以整位数断开,可以一一列举,如,企业量,产品数量;连续型变量是可以在一个或多个区间中取任何值的变量。它的取值是连续不断的,不 能一一列举,如,年龄,温度,零件尺寸的误差等。 第二章数据的搜集 1、比较概率抽样和非概率抽样的特点。举例说明什么情况下适合采用概率抽样,什么情况下适合采用非概率抽样。 概率抽样也称随机抽样,是指遵守随机原则进行的抽样,总体中每个单位都有一定的机会被选入样本。它具有以下几个特点:首先,抽样时是按一定的概率以随机抽样原则抽取样本;其次,每个单位被抽中的概率是已知的,或是可以计算出来的;最后,当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中的概率。 非概率抽样是相对于概率抽样而言的,指抽取样本时不是依据随机原则,而是根据研究目的对数据的要求,采用某种方式从总体中抽出部分单位对其实施调查。 如果调查的目的在于掌握研究对象总体的数量特征,根据调查的结果对总体参数进行评估,得到总体参数的置信区间,就应当采用概率抽样的方法。非概率抽样适合探索性的研究,调查的结果用于发现问题,为更深入的数量分析做好准备。非抽样调查也适合市场调查中概念测试,如产品包装测试、广告测试等。第三章数据的图表表示 1、分类数据和顺序数据的整理和图示方法各有那些? 分类数据的整理方法有频数和频数分布,图示方法有条形图、帕累托图、饼图、环形图;顺序数据的整理方法有累积频数和累积频率,图示方法有累积频数分布和频率图。 2、数值型数据的分组方法有哪些?简述组距分组的步骤。 数据分组的方法有单变量值分组和组距分组。 组距分组的步骤:(1)确定组数,一般数据所分组数不应少于5组且不多于15组;(2)确定各组的组距,组距=(最大值-最小值)/组数,组距宜取5或10的倍数;(3)确定上下限,第一组的下限应低于最小变量值,最后一组的上限应高于最大变量值。 3、直方图与条形图有何区别? 直方图与条形图不同。首先,条形图是用条形的长度表示各类别频数的多少,其宽度则是固定的;直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或频率,宽度则表示各组的组距,因此其高度与宽度均有意义。其次,由于分组数据具有连续性,直方图的各矩形通常是连续排列,而条形图则是 分开排列。最后,条形图主要用于展示分类数据,而直方图则主要用于展示数值型数据。 第四章数据的概括性变量 1、一组数据的分布特征可以从那几个方面进行测度? 一组数据的分布特征可以从三个方面进行测度和描述:一是分布的集中趋势,反映各数据向其中心值靠拢或聚集的程度;二是分布的离散程度,反映各数据远离其中心值的趋势;三是分布的形状,反映数据分布的偏态和峰态。 2、对于比率数据的平均为什么采用几何平均? 3、简述众数、中位数、和平均数的特点和应用场合。 众数是一组数据分布的峰值,不受极端值的影响。其缺点是具有不唯一性,一组数据可能有一个众数,也可能有两个或多个众数,也可能没有众数。众数只有在数据量较多时才有意义,当数据量较少时,不宜采用众数。众数主要适合作为分类数据的集中趋势测度值。 中位数是一组数据中间位置上的代表值,不受数据极端值的影响。当一组数据的分布偏斜程度较大时,使用中位数也许是一个好的选择。中位数主要适合作为顺序数据的集中趋势测度值。 平均数是针对数值型数据计算的,而且利用了全部数据信息,它是实际中应用最广泛的集中趋势测度值。当数据呈对称分布或接近对称分布时,3个代表值相等或接近相等时,这时则应选择平均数作为集中趋势的测度值。但平均数的主要缺点是易受数据极端值的影响,对于偏态分布的数据,平均数的代表性较差。因此,当数据为偏态分布,特别是偏斜程度较大时,可以考虑选择中位数或众数,这时它们的代表性要比平均数好。 4、为什么要计算离散系数? 方差和标准差是反映数据离散程度的绝对值,其数值的大小一方面受原变量值自身水平高低的影响,也就是与变量的平均数大小有关,变量值绝对水平高的,离散程度的测度值自然也就大,绝对水平低的离散程度的测度值自然也就小;另一方面,它们与原变量值的计量单位相同,采用不同计量单位计量的变量值,其离散程度的测度值也就不同。因此,对于平均水平不同或计量单位不同的不同组别的变量值,是不能用标准差直接比较其离散程度的,为消除变量值水平高低和计量单位不同对离散程度测度值的影响,需要计算离散系数。 离散系数也成为变异系数,它是一组数据的标准差与其相应的平均数之比,其计算公式为:v s=s/(x-bar),离散系数是测度数据离散程度的相对统计量,主要是用于比较不同样本数据的离散程度。离散系数大,说 明数据的离散程度也大;离散系数小,说明数据的离散程度也小。 第五章参数估计 1、怎样理解置信区间? 在区间估计中,由样本统计量所构造的总体参数的估计区间称为置信区间,其中区间的最小值称为置信下限,最大值称为置信上限,由于统计学家在某种程度上确信这个区间会包含真正的总体参数,所以给它取名为置信区间。 2、解释95%的置信区间 如果抽取了许多不同的样本,比如说抽取了100个样本,根据每一个样本构造一个置信区间,这样,由100个样本构造的总体参数的100个置信区间中,有95%的区间包含了总体参数的真值,而5%则没包含,则95%这个值称为置信水平。一般地,如果将构造置信区间的步骤重复多次,置信区间中包含总体参数真值的次数所占的比例成为置信水平,也称为置信度或置信系数。 第六章假设检验 1、什么是假设检验中的显著性水平?统计显著是什么意思? 通常把(a-er-fa)称为显著性水平,显著性水平是一个统计专有名词,在假设检验中,它的含义是当原假设正确时却被拒绝的概率或风险,其实这就是前面所说假设检验中犯弃真错误的概率,它是由人们根据检验的要求确定的,通常取0.05或0.01. 2、什么是假设检验中的两类错误? 对于原假设提出的命题,我们需要做出判断,这种判断可以用“原假设正确”或“原假设错误”来表述。当然,这是依据样本提供的信息进行判断的,也就是由部分来推断,总体。因而判断有可能正确,也有可能错误,也就是说,我们面临着犯错误的可能。所犯的错误有两种类型,第一类错误是原假设H0为真却被我们拒绝了,犯这种错误的概率用(a-er-fa)表示所以成为其真错误;第二类错误是原假设为伪我们却没有拒绝,犯这类错误的概率用(bei-ta)表示,所以成为取伪错误。 3、解释假设检验中的P值。 P值就是当原假设为真时所得到的样本观察结果或更极端结果出现的概率。如果P值很小,说明这种情况发生的概率很小,而如果出现了,根据小概率原理,我们就有理由拒绝原假设,P值越小,我们拒绝原假设的理由就越充分。 第七章方差分析 1、什么是方差分析?它研究的是什么? 方差分析就是通过检验各总体的均值是否相等来判断分类型自变量对数值型隐变量是否有显著影响。 方差分析是检验多个总体均值是否相等的统计方法,但本质上它所研究的是分类型自变量对数值型因变量的影响。 2、简述方差分析的基本思想。 为了研究分类型自变量对对数值型因变量的影响,需要从对数据误差来源的分析入手,误差主要分为组内误差和组间误差,组内误差只包含随机误差,而组间误差除了包含随机误差,还会包含系统误差。3、解释组内误差和组间误差的含义。 组内误差(SSE):反映组内误差大小的平方和,也称为残差平方和,是由于抽样的随机性所造成的随机误差。它反映了每个样本内各观测值之间的离散状况。 组间误差(SSA):反映组间误差大小的平方和,也称为因素平方和,是随机误差和系统误差的总和。它反映了样本均值之间的差异程度。 4、解释则内方差和组间方差的含义。 组间误差和组内误差经过平均后的数值称为均方或方差。 组间方差(MSA)=组间平方和/自由度(SSA/k-1) 组内误差(MSE)=组内平方和/自由度(SSE/n-k) 5、简述方差分析的基本步骤。 1、提出假设; 2、构造检验的统计量;(1)计算各样本的均值(2)计算全部观测值的总均值(3)计算各误差平方和(4)计算统计量 3、统计决策; 4、方差分析表; 5、用Excel进行方差分析。 第八章一元线性回归 1、解释相关关系的含义,说明相关系的特点。 相关关系1)变量间关系不能用函数关系精确表达;2)一个变量的取值不能由另一个变量唯一确定;3)当变量x 取某个值时,变量y 的取值可能有几个。 2、相关分析主要解决那些问题? 相关分析就是对两个变量之间线性关系的描述和度量,它要解决的问题包括:(1)变量之间是否存在关系;(2)如果存在关系,它们之间是什么样的关系;(3)变量之间的关系强度如何;(4)样本之间的变量关系是否能代表总体变量之间的关系? 3、解释回归模型、回归方程、估计的回归方程的含义。 回归模型:描述因变量y如何依赖于自变量x和误差项ε的方程。 回归方程:描述因变量y的期望值如何依赖于自变量x的方程。 估计的回归方程:根据样本数据求出的回归方程的估计。 4、解释总平方和、回归平方和、残差平方和的含义,并说明它们之间的联系。 总平方和(SST):是全部观测值Xij与总均值x-两bar的误差平方和。 残差平方和(SSE):反映组内误差大小的平方和。 回归平方和(SSR):反映了y的总变差中由于x与y之间的线性关系引起的y的变化部分。 SST=SSR+SSE 5、解释判定系数(R2)的含义和作用。 含义:判定系数是对估计的回归方程拟合优度的度量。判定系数等于相关系数的平方,即r2=(r)2 作用:反映回归直线的拟合程度;R2越接近1,说明回归方程拟合的越好;R2越接近0,说明回归方程拟合的越差。 6、在回归分析中,F检验和t检验各有什么作用? F检验是检验自变量和因变量之间的线性关系是否显著,或者说,它们之间能否用一个线性模型y= 来表示。 t检验的显著性检验是要检验自变量对因变量的影响是否显著。在一元线性回归模型y= 中,如果白塔1=0,则回归线是一条水平线,表面因变量y的取值不依赖与自变量x,即两个变量之间没有线性关系。 7、简述线性关系检验和回归系数检验的具体步骤。 线性关系检验:1、提出假设,H0:回归系数等于0,两个变量之间的线性关系不显著;2、计算检验统计量F=(SSR/1)/(SSE/(n-2));3、做出决策,根据显著性水平,分子自由度和分母自由度查F分布表,找到相应的临界值,比较与F的大小,判断是否拒绝原假设 回归系数检验:1、提出检验;2、计算检验统计量t;3、做出决策