文档库 最新最全的文档下载
当前位置:文档库 › 第四章 数据分布特征的测度

第四章 数据分布特征的测度

第四章     数据分布特征的测度
第四章     数据分布特征的测度

第四章数据分布特征的测度

教学目的与要求:统计平均指标是表明总体数量特征的一个重要指标,它是将总体各单位标志值的差异抽象化,反映总体各单位标志值的一般水平,揭示总体分布的集中趋势。变异指标是反映总体各单位标志值的差异程度,揭示总体分布离中趋势的又一重要数量特征指标。通过本章的学习,要求理解统计平均指标的意义和作用;掌握各种统计平均指标的特点、应用条件、应用范围和计算方法;理解变异指标的意义和作用;掌握各种变异指标的性质和计算方法;能运用变异指标衡量平均数代表性的大小。

教学重点与难点:重点为各种平均指标和变异指标的概念、特点、应用条件、应用范围和计算方法。难点是不同条件下平均指标和变异指标的计算。

统计数据经过整理和显示后,对数据分布的形状和特征就可以有一个大致的了解。为进一步掌握数据分布的特征和规律,进行更深入的分析,还需要找到反映数据分布特征的各个代表值。对一组数据分布的特征,可以从三个方面进行测度和描述:一是分布的集中趋势,反映各数据向其中心值靠拢和聚集的程度;二是分布的离散程度,反映各数据远离中心值的趋势;三是分布偏态和峰态,反映数据分布的形状。这三个方面分别反映了数据分布特征的不同侧面。

第一节集中趋势的测度

集中趋势是指一组数据向某一中心值靠拢的倾向,它反映了一组数据中心点的位置所在。测度集中趋势也就是寻找数据一般水平的代表值或中心值。低层次数据的集中趋势测度值适用于高层次的测量数据,反过来,高层次数据的集中趋势测度值并不适用于低层次的测量数据。因此,选用哪一个测度值来反映数据的集中趋势,要根据所掌握的数据的类型和特点来确定。

一、分类数据:众数(M o)

众数是指一组数据中出现次数最多的变量值。

?出现次数最多的变量值

?不受极端值的影响

?一组数据可能没有众数或有几个众数

?主要用于分类数据,也可用于顺序数据和数值型数据

从分布的角度看,众数是具有明显集中趋势点的数值,一组数据分布的最高峰点所对应的数值即为众数。当然,如果数据的分布没有明显的集中趋势或最高峰点,众数也可能不存在;如果有两个最高峰点,也可以有两个众数,见P78图4-1。

二、顺序数据:中位数(M e )和分位数

(一)中位数

中位数是一组数据排序后,处于中间位置上的变量值。中位数是一个位置代表值,它主要用于测度顺序数据的集中趋势,当然也适用于作为数值型数据的集中趋势,但不适用于分类数据。

根据未分组数据计算中位数时,要先对数据进行排序,然后确定中位数的位置,其公式为:

中位数位置=

2

1

n 对于分类型数据,中位数的位置为:中位数位置=

2

n 若项数为奇数,则居于中间位置的那个标志值即为中位数。 若项数为偶数,则居于中间位置的两项数值的平均数即为中位数。 对于数值型数据,也可以计算中位数:

无众数

原始数据: 10 5 9 12 6 8

一个众数

原始数据: 6 5 9 8 5 5 多于一个众数

原始数据: 25 28 28 36 42 42

(二)分位数

四分位数、十分位数和百分位数分别是用3个点、9个点和99个点将数据4等分、10等分和100等分后各分位点上的值。

四分位数,“四分位点”,是通过三个点将全部数据等分为四部分,其中每部分包含25%的数据,处在分位点上的数值就是四分位数。

下四分位数 中位数 上四分位数

???

???

?

+=+=4)1(34

1n Q n Q U L 位置位置 对于分类数据,各四分位数的位置分别为:

???

???

?=

=434

n Q n Q U L 位置位置 当四分位数的位置不在某一个数值上时,可根据四分位数的位置,按比例分摊四分位数位置两侧数值的差值。

中位数 = 1080

5

2

1921=+=+=n 位置521921=+=+=n 位置【例】:10个家庭的人均月收入数据

排 序: 660 750 780 850 960 1080 1250 1500 1630 2000 位 置: 1 2 3 4 5 6 7 8 9 10

5.52

11021=+=+=n 位置5.5211021=+=+=n 位置10202

1080960=+=

中位数1020

21080960=+=中位数Q L

Q M

Q U

25%

25%

25%

25%

【例】:9个家庭的人均月收入数据

原始数据: 1500 750 780 1080 850 960 2000 1250 1630 排 序: 750 780 850 960 1080 1250 1500 1630 2000 位 置: 1 2 3 4 5 6 7 8 9

三、数值型数据:均值

均值也称为算术平均数,是全部数据的算术平均。均值在统计学中具有重要的地位,是集中趋势的最主要测度值,它主要适用于数值型数据,而不适用于分类和顺序数据。根据所掌握数据的不同,均值有不同的计算形式和计算公式。

(一)算术平均数的基本形式

算术平均数=

总体单位总量

总体标志总量

(二)简单算术平均数

当掌握的资料是未分组的总体各单位的标志值时,则将各单位的标志值简单相加得出标志总量,然后各单位的标志值简单相加得出标志总量,然后在除以总体单位数之和,这种计算平均数的方法称为简单算术平均数。其公式为:

∑∑----=

++++=

加总符号

项数

变量值

算术平均数

式中n x x n

x

n x x x x x n : (321)

【例】:9个家庭的人均月收入数据

原始数据: 1500 750 780 1080 850 960 2000 1250 1630 排 序: 750 780 850 960 1080 1250 1500 1630 2000 位 置: 1 2 3 4 5 6 7 8 9

5.74

)19(35.2419=+==+=位置位置U

L

Q Q 5.74)19(35.2419=+==+=位置位置U L Q Q 15652

163015008152850780=+==+=U

L Q Q 1565

2163015008152850780=+==+=

U L Q Q 【例】:10个家庭的人均月收入数据

排 序: 660 750 780 850 960 1080 1250 1500 1630 2000 位 置: 1 2 3 4 5 6 7 8 9 10

25.84

)110(375.24110=+==+=位置位置U L Q Q 25.84)110(375.24110=+==+=位置位置U L Q Q 5

.1532)15001630(25.015005.772)750780(75.0750=-?+==-?+=U L Q Q 5.1532)15001630(25.015005.772)750780(75.0750=-?+==-?+=

U L Q Q

(三)加权算术平均数

当掌握的资料已经分组,且各组出现的次数不同时,则采用加权算术平均数。 各组的组中值为:M 1 ,M 2 ,… ,M k

n

f

M

f f f f M f M f M x k

i i

i k

k k ∑==

++++++=1

212211

例:某企业某车间工人每天生产产品资料如表4-1: 表4-1

根据上表资料,计算平均每人生产产品件数:

(件)

===

车间工人总数

车间生产产品总件数

平均每人生产产品件数21.20100

2021

15

2438131015

222421382013191018 ++++?+?+?+?+? 简单算术平均数的数值大小只与变量值的大小有关。加权算术平均数的数值大小不仅受

各组组中值大小的影响,而且受各组变量值出现的频数及权数大小的影响。如果某一组的权数较大,说明该组的数据较多,那么该组数据的大小对均值的影响就越大,反之则越小。 加权算术平均数应注意几个问题:

1、加权算术平均数的权数可以是绝对数,亦可以是比重; 上例的权数为绝对数。现举例说明比重权数,例如下表资料:

表4-2

∑∑=?

)(21.20件f

f

x

2、根据组距数列计算加权算术平均数

例某企业某车间工人生产产品资料如表4-3: 表4-3

)(41200

8200

公斤平均每人生产产品数量==

=

∑∑f

xf

用组中值计算出来的平均数,只能是平均数的近似值,而不是平均数的真值。 3、若各组单位数相等,即f 1=f 2=……=f n ,则加权算术平均数计算公式与简单算术平均数存在下面关系:

n x

nf

x f f

xf

x ∑∑∑∑=

=

=

可见,简单算术平均数是加权算术平均数的一个特例。

平均每人生产产品件数

=

(四)算术平均数的数学性质

均值在统计学中具有重要的地位,它是进行统计分析和统计推断的基础。首先,从统计思想上看,均值是一组数据的重心所在,是数据误差相互抵消后的必然性结果。比如对同一事物进行多次测量,若所得结果不一致,可能是由于测量误差所致,也可能是其他因素的偶然影响,利用均值作为其代表值,则可以使误差相互抵消,反映出事物必然性的数量特征。其次,均值具有下面一些重要的数学性质,这些数学性质在实际中有着广泛的应用,体现了均值的统计思想。

算术平均数最重要的两个数学性质是: 1. 各变量值与平均数的离差之和等于零,即: 简单算术平均数:∑=-0

)(x x

加权算术平均数:∑

=-0

)(f x x

2. 各变量值与平均数的离差的平方和为最小值,即:

简单算术平均数:∑

=-最小值

2

)

(x x

加权算术平均数:∑=-最小值f x x 2)( 证明见P84。

(五)均值的另一种表现形式:调和平均数

调和平均数是算术平均数的另一种表现形式,用m H 表示。在实际工作中,由于所获得的数据的不同,有时不能直接采用均值的计算公式来计算平均数,这就需要使用调和平均数的形式进行计算,二者实质上是相同的,而仅有形式上的区别。其计算公式为:

∑∑∑∑??

=

i

i

i i

i

i i i m

f

f M M

f M f M H

需要注意的是,当数据中出现“0”时不宜计算调和平均数。 例如,某企业工人月奖金额如表4-4:

表4-4

)(157800

1256001

元工人月平均奖金额===

∑∑m x m

(六)一种特殊的均值:几何平均数

统计几何平均数指标,是指社会经济现象的同质总体在时间上变动速度的平均数。是具有经济意义同质总体的n 个环比发展速度连乘积的n 次方根。统计几何平均数属于动态平均数。

n

n

i i

n

n m x

x x x G ∏==???=1

21

几何平均数是适用于特殊数据的一种平均数,它主要用于计算比率的平均。当所掌握的变量值本身是比率的形式,这时就应采用几何平均法计算平均比率。在实际应用中,几何平均数主要用于计算社会经济现象的年平均增长率。

设开始的数值为0y ,逐年增长率为n G G G ,,,21 ,则第n 年的数值为:

()()()()∏=+=+++=n

i i n n G y G G G y y 1

02101111

从0y 到n y 用n 年,每年的增长率都相同,则增长率G 就是平均增长率G ,有

()()∏=+=+n i i

n

G G 111 ()111

-+=∏=n

n

i i

G G

【例】某水泥生产企业1999年的水泥产量为100万吨,2000年与1999年相比增长率为9%,2001

年与2000年相比增长率为16%,2002年与2001年相比增长率为20%。求各年的年平均增长率。

%

91.114%120%116%109321=??=???=n n

m x x x G 年平均增长率=114.91%-1=14.91%

几何平均数的对数是各变量值对数的算术平均。需要注意的是,当数据中出现零值和负值是不宜计算几何平均数。

四、众数、中位数和均值的比较

众数、中位数和均值是集中趋势的三个主要测度值,它们具有不同的特点和应用场合。 (一)众数、中位数和均值的关系

从分布的角度看,众数始终是一组数据分布的最高峰值,中位数是处于一组数据中间位置上的值,而均值则是全部数据的算术平均。因此,对于具有单峰分布的大多数数据而言,众数、中位数和均值之间有以下关系:

(1)当总体内部次数分配呈正态状时,三者合而为一,即三者相等:M X Me == (2)当总体内部次数分配呈非正态状且右偏时,则0M M X e >> (3)当总体内部次数分配呈非正态状且左偏时,则0M M X e << (二)众数、中位数和均值的特点和应用场合

1. 众数

?不受极端值影响 ?具有不唯一性

?数据分布偏斜程度较大时应用 2. 中位数

?不受极端值影响

?数据分布偏斜程度较大时应用 3. 均值

?易受极端值影响 ?数学性质优良

? 数据对称分布或接近对称分布时应用

第二节 离散程度的测度

集中趋势只是数据分布的一个特征,它所反映的是各变量值向其中心值聚集的程度。数据的分散程度是数据分布的另一个重要特征,它所反映的是各变量值远离其中心值的程度。集中趋势的各测度值是对数据一般水平的一个概括性度量,它对一组数据的代表程度取决于该组数据的离散水平。数据的离散程度越大,集中趋势的测度值对该组数据的代表性越差,离散程度越小,其代表性就越好。

一、分类数据:异众比率

异众比率,“离异比率或变差比”,是指非众数组的频数占总频数的比率,计算公式为:

∑∑∑-

=-=

i

m

i

m

i

r f f f

f

f v 1 式中,r v 为异众比率;∑i f 为变量值的总频数;m f 为众数组的频数。

异众比率的作用是衡量众数对一组数据的代表程度。异众比率越大,说明非众数组的频数占总频数的比重越大,众数的代表性就越差;异众比率越小,说明非众数组的频数占总频数的比重越小,众数的代表性越好。主要用于测度分类数据的离散程度,当然,顺序数据以及数值型数据也可以计算异众比率。

例题见P90例4.11。

二、顺序数据:四分位差

“内距或四分间距”,计算公式为:Q D = Q U – Q L

四分位差反映了中间50%数据的离散程度,其数值越小,说明中间的数据越集中;数值越大,说明中间的数据越分散。四分位差不受极值的影响,此外,由于中位数处于数据的中间位置,因此四分位差的大小在一定程度上也说明了中位数对一组数据的代表程度。四分位差主要用于测度顺序数据的离散程度,当然对于数值型数据也可以计算四分位差,但不适合于分类数据。

例题见P90例4.12。

三、数值型数据:方差及标准差

测度数值型数据离散程度的方法主要有极差、平均差、方差和标准差,其中最常用的方法是方差和标准差。

(一)极差

“全距”,它是总体中各单位标志的最大标志值与最小标志值之差。 全距(R )=最大标志值—最小标志值

极差是描述数据离散程度的最简单测度值,计算简单,易于理解,但它容易受极端值的影响。由于极差只是利用了一组数据两端的信息,不能反映出中间数据的分散状况,因而不能准确描述出数据的分散程度。

(二)平均差

“平均离差”,是各个标志值对算术平均数的离差的平均数。

1.对于未分组数据:n

x

x

M n

i i

d ∑=-=

1

2.对于分组数据:n

f x M

M k

i i

i

d ∑=-=1

例题见P91例4.13。

平均差以均值为中心,反映了每个数据与均值的平均差异程度,它能全面准确地反映一组数据的离散状况。平均差越大说明数据的离散程度越大,反之则说明数据的离散程度越小。为了避免离差之和等于零而无法计算平均差这一问题,平均差在计算时对离差取绝对值,以离差的绝对值来表示总离差,这就给计算带来不便。同时平均差在数学性质上也不是最优的,因此实际中应用较少。

(三)方差和标准差

方差是各变量值与其均值离差平方的平均数,是测度数值型数据离散程度的最主要方法。 1. 样本方差

未分组资料:1)

(1

2

2--=

∑=n x x s n

i i

分组数据:1

)(1

22--=

∑=n f x M

s k

i i

i

2. 标准差:方差的平方根即为标准差。

未分组数据:1

)

(1

2

--=

∑=n x x s n

i i

组距分组数据:1

)(1

2--=

∑=n f x M

s k

i i

i

与方差不同的是,标准差是具有量纲的,它与变量值的计量单位相同,其实际意义要比方差清楚。因此在对实际问题进行分析时,更多使用标准差。

例题见P 93例4.14。

方差或标准差也是根据全部数据计算的,它反映了每个数据与其均值相比平均相差的数值,因此它能准确反映出数据的离散程度。与平均差相比,方差在数学处理上是通过平方消去离差的正负号,更便于数学上的处理。因此,方差和标准差是实际中应用最广泛的离散程度测度值。

四、相对位置的测量:标准分数

有了均值和标准差之后,可以计算一组数据中各个数值的标准分数,并可以用它来判断一组数据中某个数据的相对位置。

(一)标准分数

“标准化值或z 分数”,它是变量值与其平均数的离差除以标准差后的值,是对每个数据在该组数据中相对位置的测量。

s

x

x z i i -=

是常用的统计标准化公式,在对多个具有不同量纲的变量进行处理时,需要对各变量数值进行标准化处理。

见P94例4.15。

标准分数具有均值为0、标准差为1的特性:

001)(1=?=-?=

=

∑∑s

n s x x n n

z

z i i

1)(1)0()(2222

2

2

2

2

==-?==

-=

-=

∑∑∑∑s

s s x x n n

z n

z

n z z s

i i

i

z

标准分数只是对原始数据进行了线性变化,它没有改变一个数据在该组数据中的位置,也没有改变该组数据分布的形状,而只是将该组数据变为均值为0,标准差为1。

(二)经验法则

经验法则表明:当一组数据对称分布时

? 约有68%的数据在平均数加减1个标准差的范围之内 ? 约有95%的数据在平均数加减2个标准差的范围之内 ?

约有99%的数据在平均数加减3个标准差的范围之内

利用标准分数可以判断一组数据中是否存在离群点或离群数据。如果一组数据中某个观

察值与其余观察值相比大得反常或小得反常,这个观察值就成为离群点或离群数据。离群点的产生可能是由于下述原因:

● 该观测值被错误测量、记录或输入计算机 ● 该观测值可能来自另一个总体

● 该观测值是正确的,不过它代表一个偶然事件。 (三)切比雪夫不等式

如果一组数据不是对称分布,经验法则就不再使用,这时可使用切比雪夫不等式,它对任何分布形状的数据都适用,提供的是“下界”,也就是“所占比例至少是多少”,对于任意分布形态的数据,根据切比雪夫不等式,至少有2

1

1k -的数据落在k 个标准差之内。其中k 是大于1的任意值,但不一定是整数。

对于k =2,3,4,该不等式的含义是

1. 至少有75%的数据落在平均数加减2个标准差的范围之内

2. 至少有89%的数据落在平均数加减3个标准差的范围之内

3. 至少有94%的数据落在平均数加减4个标准差的范围之内

五、相对离散程度:离散系数

上面介绍的极差、平均差、方差和标准差等都是反映数据分散程度的绝对值,其数值的大小一方面取决于原变量值本身水平高低的影响,即与变量的均值大小有关,变量值绝对水平高的,离散程度的测度值自然也就大,绝对水平小的离散程度的测度值自然也就小;另一方面,他们与原变量值的计量单位相同,采用不同计量单位计量的变量值,其离散程度的测度值也就不同。因此,对于平均水平不同或计量单位不同的不同组别的变量值,为消除变量值水平高低和计量单位不同对离散程度测度值的影响,需要计算离散系数。

离散系数,“变异系数”,是一组数据的标准差与其相应的均值之比,是测度数据离散程度的相对指标。离散系数通常是就标准差来计算的,因此也成为标准差系数,的计算公式:

x

s

v s =

离散系数的作用主要是用于比较不同总体或样本数据的离散程度。离散系数大的说明数据的离散程度也有就大,离散系数小的说明数据的离散程度也就小。

例题见P97例4.16。

数据的类型与所适用的离散程度测度值见P98表4-9。

第三节 偏态与峰度的测度

集中趋势和离中趋势是数据分布的两个重要特征,但要全面了解数据分布的特点,还需要知道数据分布的形状是否对称、偏斜的程度以及分布的扁平程度等。偏态和峰度是对分布形状的测度。

一、偏态及其测度

1. 统计学家Pearson 于1895年首次提出,是对数据分布对称性的测度

2. 数据分布偏斜程度的测度

3. 偏态系数=0为对称分布

4. 偏态系数>0为右偏分布

5. 偏态系数<0为左偏分布

计算公式为:根据原始数据计算 ()

3

3)2)(1(s

n n x x n SK i ---=

根据分组数据计算 3

1

3)(ns

f x M

SK k

i i

i

∑=-=

例题见P99例4.17。

二、峰度及其测度

1. 统计学家Pearson 于1905年首次提出

尖峰分布

左偏分布 右偏分布

2. 数据分布扁平程度的测度

3. 峰态系数=0扁平峰度适中

4. 峰态系数<0为扁平分布

5. 峰态系数>0为尖峰分布

计算公式:根据原始数据计算 []

4

2

24)3)(2)(1()

1()(3)()1(s n n n n x x x x n n K i i -------+=

∑∑

根据分组数据计算 3)(4

1

4--=∑=ns

f x M

K k

i i

i

例题见P 101例4.18。

数据特征的测度

数据特征的测度 统计数据经过整理和显示后,我们对数据分布的类型和特点就有了一个大致的了解,但这种了解只是表面上的,还缺少代表性的数量特征值准确地描述出统计数据的分布。为进一步掌握数据分布的特征和规律,进行更深入的分析,还需要找到反映数据分布特征的各个代表值。对统计数据分布的特征,我们可以从三个方面进行测度和描述:一是分布的集中趋势,反映各数据向其中心值靠拢或聚集的程度;二是分布的离散程度,反映各数据远离其中心值的趋势;三是分布的偏态和峰度,反映数据分布的形状。这三个方面分别反映了数据分布特征的不同侧面,这里我们主要讨论集中趋势和离散程度的测度方法。 (一)集中趋势的测度 集中趋势是指一组数据向某一中心值靠拢的倾向,测度集中趋势也就是寻找数据一般水平的代表值或中心值。集中趋势的测度值主要有众数、中位数、均值、几何平均数等几种。 1.众数 众数是一组数据中出现次数最多的变量值,用0M 表示。例如,下面是抽样调查的10个家庭住房面积(单位:平方米)的数据: 55 75 75 90 90 90 90 105 120 150 这10个家庭住房面积的众数为90。即0M =90(平方米) 众数是一个位置代表值,它的特点是不受数据中极端值的影响。 2.中位数 中位数是一组数据按一定顺序排序后,处于中间位置上的数值,用e M 表示。显然,中位数将全部数据等分成两部分,每部分包含50%的数据,一部分数据比中位数大,另一部分则比中位数小。 根据未分组数据计算中位数时,要先对数据进行排序,然后确定中位数的位置,其公式为: 2 1 +n 中位数位置= 式中的n 为数据的个数,最后确定中位数的具体数值。 设一组数据为1x ,2x ,…,n x ,按从小到大排序后为)1(x ,)2(x ,…,)(n x ,则中位数可表示为: ??? ? ??????? ??+=++为偶数时 当为奇数时当n x x n x M n n n e 122)21 (21 例如,在某城市中随机抽取9个家庭,调查得到每个家庭的人均月收入数据如下(单位: 元): 750 780 850 960 1080 1250 1500 1650 2000

数据分布特征的测度

习题 一、填空题 1、统计数据分布的特征,可以从三个方面进行测度和描述:一是分布的__________,反映所有数据向其中心值靠拢或聚集的程度;二是分布的__________,反映各数据远离其中心值的趋势;三是分布的__________,反映数据分布的形状。 2、算术平均数有两个重要数学性质:各变量值与其算术平均数的__________等于零;各变量值与其算术平均数的__________等于最小值。 3、简单算术平均是加权算术平均数的__________,事实上简单算术平均数也有权数存在,只不过各变量值出现的权数均_________。 4、几何平均数主要用于计算__________的平均。它只适合于__________数据。 5、在一组数据分布中,当算术平均数大于中位数大于众数时属于________分布;当算术平均数小于中位数小于众数时属于________分布。 6、__________是各变量值与其均值离差平方的平均数,是测度数值型数据__________最主要的方法。 7、为了比较人数不等的两个班级学生的学习成绩的优劣,需要计算__________;而为了说明哪个班级学生的学习成绩比较整齐,则需要计算________。 8、偏态是对分布__________和__________的测度;而峰度则是指分布集中趋势__________的形状。 二、判断题 1、根据组距式数列计算得到的算术平均数只能是一个近似值。() 2、众数的大小只取决于众数组相邻组次数的多少。() 3、若已知甲数列的标准差小于乙数列,则可断言:甲数列算术平均数的代表性好于乙数列。() 4、如果数据的分布没有明显的集中趋势或最高峰点,众数也可能不存在。() 5、若A、B、C三个公司的利润计划完成程度分别为95%、100%和105%,则这三个公司平均的利润计划完成程度应为100%。() 6、当所掌握的变量值本身是比率的形式,而且各比率的乘积等于总的比率时,应采用倒数平均数来计算平均比率。() 7、投资者连续三年股票投资收益率为4%、2%和5%,则该投资者三年内平均收益率为3.66%。() 8、离散系数最适合于不同性质或不同水平数列算术平均数代表性的比较。() 9、当偏态系数α=0时,表明数据分布属于对称分布。() 10、当峰度系数β=0时,表明数据分布属于正态分布。() 三、单项选择题 1、由组距式数列确定众数时,如果众数组相邻两组的次数相等,则()。 A.众数为零B.众数组的组中值就是众数 C.众数不能确定D.众数组的组限就是众数 2、受极端数值影响最小的集中趋势值是()。 A.算术平均数B.众数和中位数C.几何平均数D.调和平均数 3、加权算术平均数中的权数为()。 A.变量值B.次数的总和C.变量值的总和D.次数比重 4、标准差系数抽象了()。 A.总体单位数多少的影响B.算术平均数高低的影响 C.总体指标数值大小的影响D.标志变异程度的影响 5、某车间三个班生产同种产品,6月份劳动生产率分别为2、3、4(件/工日),产量分别为400、500、600件,则该车间平均劳动生产率计算式应为()。

第4章 数据分布特征的测度

第四章 数据分布特征的测度 §1概述 §2 集中趋势的测度 一、集中趋势的含义 (一)集中趋势的概念 集中趋势(Central tendency )是指一组数据向某一中心值靠拢的倾向,测度集中趋势也就是寻找数据一般水平的代表值或中心值。 (二)集中趋势的内容 1.均值(Mean ) 算术平均数 调和平均数 几何平均数 切尾均值 2.位置平均数 中位数 四分位数 十分位数 百分位数 3.众数 二、众数 1.概念 众数(Mode )是一组数据中出现次数最多的变量值,用0M 表示。主要用于测度定类型数据的集中趋势。 2.单项分组数列 )max(0i f x M 例:为研究广告市场的状况,一家广告公司在某城市随机抽取200人就广告问题作了邮寄问卷调查,其中的一个问题是:“您比较关心下列哪一类广告?”

①商品广告;②服务广告;③金融广告;④房地产广告;⑤招生招聘广告;⑥其他广告。 表4-1 某城市居民关注广告类型的频数分布 =0M 商品广告 3.组距分组数列 ①确定众数组——频数最多的组 ②计算众数值 图4-1 众数值计算示意图 可见,众数实际上是频数最大组的下限加上按一定几何比例分配组距所得到的那段组距,即

X L M +=0 因为 2 11?+?+=?y x x d y x x 2 11 211)(?+??=+?+??= 所以 d L M 2 11 0?+??+ =(下限公式) 同理,可得上限公式: d U M 2 12 0?+??- = 例:某地区3000家农户的年收入情况资料如下: 解:57048010501=-=?; 45060010502=-=? 所以 75591000450 570570 70000=?++ =M (元) 三、位置平均数 1.中位数 中位数(Median )是一组数据按从小到大排序后,处于中间位置上的变量值,用e M 表示。中位数是一个位置代表值,它主要用于测度定序数据的集中趋势。 2.根据未分组资料确定中位数 ①按标志值大小进行排列得),,,(21n x x x Λ;

中级经济基础知识-数据特征的测度(精选试题)

中级经济基础知识-数据特征的测度 1、下列离散程度的测度值中,能够消除变量值水平和计量单位对测度值影响的是()。 A.标准差 B.离散系数 C.方差 D.极差 2、中位数() A.不是平均数 B.是一种趋势值 C.是一种位置平均数 D.是一种位置 3、什么反映数据远离其中心值的趋势 A.集中趋势 B.离散程度 C.标准差系数 D.偏态和峰度 4、下面一组数据为9个家庭的人均月收入数据(单位:元):700、780、

850、960、1080、1300、1500、1650、1800,中位数为()。 A.700 B.960 C.1080 D.1800 5、数据的离散程度越小,集中趋势的测度值对该组数据的代表性()。 A.越好 B.越差 C.不变 D.不确定 6、某学校学生的平均年龄为15岁,标准差为2岁;该学校老师的平均年龄为30岁,标准差为3岁。比较该学校年龄的离散程度,则()。 A.教师年龄的离散程度大一些 B.学生年龄的离散程度大一些 C.学生年龄和教师年龄的离散程度相同 D.教师年龄的离散程度是学生年龄离散程度的1.5倍 7、下面是抽样调查的9个家庭住房面积(单位:平方米):657585909098105120210,这9个家庭住房面积的众数为()。

A.75 B.85 C.90 D.150 8、一组数据向某一中心值靠拢的程度称为()。 A.峰度 B.偏态 C.离散程度 D.集中趋势 9、以下属于位置平均数的是()。 A.众数 B.极差 C.几何平均数 D.算术平均数 10、下列数据特征的测度值中,受极端值影响的是()。 A.众数 B.中位数 C.位置平均数 D.加权算术平均数

统计学第四版课后答案

统计课后思考题答案 第一章思考题 1.1什么是统计学 统计学是关于数据的一门学科,它收集,处理,分析,解释来自各个领域的数据并从中得出结论。 1.2解释描述统计和推断统计 描述统计;它研究的是数据收集,处理,汇总,图表描述,概括与分析等统计方法。 推断统计;它是研究如何利用样本数据来推断总体特征的统计方法。 1.3统计学的类型和不同类型的特点 统计数据;按所采用的计量尺度不同分; (定性数据)分类数据:只能归于某一类别的非数字型数据,它是对事物进行分类的结果,数据表现为类别,用文字来表述; (定性数据)顺序数据:只能归于某一有序类别的非数字型数据。它也是有类别的,但这些类别是有序的。 (定量数据)数值型数据:按数字尺度测量的观察值,其结果表现为具体的数值。 统计数据;按统计数据都收集方法分; 观测数据:是通过调查或观测而收集到的数据,这类数据是在没有对事物人为控制的条件下得到的。 实验数据:在实验中控制实验对象而收集到的数据。 统计数据;按被描述的现象与实践的关系分; 截面数据:在相同或相似的时间点收集到的数据,也叫静态数据。 时间序列数据:按时间顺序收集到的,用于描述现象随时间变化的情况,也叫动态数据。 1.4解释分类数据,顺序数据和数值型数据 答案同1.3 1.5举例说明总体,样本,参数,统计量,变量这几个概念 对一千灯泡进行寿命测试,那么这千个灯泡就是总体,从中抽取一百个进行检测,这一百个灯泡的集合就是样本,这一千个灯泡的寿命的平均值和标准差还有合格率等描述特征的数值就是参数,这一百个灯泡的寿命的平均值和标准差还有合格率等描述特征的数值就是统计量,变量就是说明现象某种特征的概念,比如说灯泡的寿命。 1.6变量的分类 变量可以分为分类变量,顺序变量,数值型变量。 变量也可以分为随机变量和非随机变量。经验变量和理论变量。 1.7举例说明离散型变量和连续性变量 离散型变量,只能取有限个值,取值以整数位断开,比如“企业数” 连续型变量,取之连续不断,不能一一列举,比如“温度”。 1.8统计应用实例 人口普查,商场的名意调查等。 1.9统计应用的领域 经济分析和政府分析还有物理,生物等等各个领域。 第二章思考题 2.1什么是二手资料?使用二手资料应注意什么问题 与研究内容有关,由别人调查和试验而来已经存在,并会被我们利用的资料为“二手资料”。

第四章 数据分布特征的测度

第四章数据分布特征的测度 教学目的与要求:统计平均指标是表明总体数量特征的一个重要指标,它是将总体各单位标志值的差异抽象化,反映总体各单位标志值的一般水平,揭示总体分布的集中趋势。变异指标是反映总体各单位标志值的差异程度,揭示总体分布离中趋势的又一重要数量特征指标。通过本章的学习,要求理解统计平均指标的意义和作用;掌握各种统计平均指标的特点、应用条件、应用范围和计算方法;理解变异指标的意义和作用;掌握各种变异指标的性质和计算方法;能运用变异指标衡量平均数代表性的大小。 教学重点与难点:重点为各种平均指标和变异指标的概念、特点、应用条件、应用范围和计算方法。难点是不同条件下平均指标和变异指标的计算。 统计数据经过整理和显示后,对数据分布的形状和特征就可以有一个大致的了解。为进一步掌握数据分布的特征和规律,进行更深入的分析,还需要找到反映数据分布特征的各个代表值。对一组数据分布的特征,可以从三个方面进行测度和描述:一是分布的集中趋势,反映各数据向其中心值靠拢和聚集的程度;二是分布的离散程度,反映各数据远离中心值的趋势;三是分布偏态和峰态,反映数据分布的形状。这三个方面分别反映了数据分布特征的不同侧面。 第一节集中趋势的测度 集中趋势是指一组数据向某一中心值靠拢的倾向,它反映了一组数据中心点的位置所在。测度集中趋势也就是寻找数据一般水平的代表值或中心值。低层次数据的集中趋势测度值适用于高层次的测量数据,反过来,高层次数据的集中趋势测度值并不适用于低层次的测量数据。因此,选用哪一个测度值来反映数据的集中趋势,要根据所掌握的数据的类型和特点来确定。 一、分类数据:众数(M o) 众数是指一组数据中出现次数最多的变量值。 ?出现次数最多的变量值 ?不受极端值的影响 ?一组数据可能没有众数或有几个众数 ?主要用于分类数据,也可用于顺序数据和数值型数据

数据分布特征的描述习题答案

第四章 数据分布特征的描述习题 一、填空题 1、数据分布集中趋势的测度值(指标)主要有 众数 、 中位数 和 均值 。其中 众数 和 中位数 用于测度品质数据集中趋势的分布特征, 均值 用于测度数值型数据集中趋势的分布特征。 2、标准差是反映 数据离散程度 的最主要指标(测度值)。 3、几何平均数是计算 平均比率 和 平均速度 的比较适用的一种方法。 4、当两组数据的平均数不等时,要比较其数据的差异程度大小,需要计算 标准系数 。 5、在测定数据分布特征时,如果M M e X 0==,则认为数据呈 对称 分布。 6、当一组工人的月平均工资悬殊较大时,用他们工资的 众数(中位数) 比其算术平均数更能代表全部工人工资的总体水平。 二、选择题 单选题: 1、 反映的时间状况不同,总量指标可分为( (2) ) (1)总量指标和时点总量指标 (2)时点总量指标和时期总量指标 (3)时期总量指标和时间指标 (4)实物量指标和价值量指标 2、某厂1999年完成产值200万元,2000年计划增长10%,实际完成了231万元,超额完成( (2) ) (1)% (2)5% (3)% (4) % 3、在同一变量数列中,当标志值(变量值)比较大的次数较多时,计算出来的平均数( (2) ) (1) 接近标志值小的一方 (2)接近标志值大的一方 (3)接近次数少的一方 (4)接近哪一方无法判断 4、在计算平均数时,权数的意义和作用是不变的,而权数的具体表现( (1) ) (1)可变的 (2)总是各组单位数 (2) 总是各组标志总量 (4)总是各组标志值 5、1998年某厂甲车间工人的月平均工资为520元,乙车间工人的月平均工资为540元,1999年各车间的工资水平不变,但甲车间的工人占全部工人的比重由原来的40%提高到了60%,则1999年两车间工人的总平均工资比1998年( (3) ) (1)提高 (2)不变 (3)降低 (4)不能做结论 6、在变异指标(离散程度测度值)中,其数值越小,则( (2) ) (1)说明变量值越分散,平均数代表性越低 (2)说明变量值越集中,平均数代表性越高 (3)说明变量值越分散,平均数代表性越高 (4)说明变量值越集中,平均数代表性越低 7、有甲、乙两数列,已知甲数列:07.7,70==甲甲 σX ;乙数列: 41.3,7==乙乙σX 根据以上资料可直接判断( (4) )

统计学教(学)案(第5章数据分布特征的测度)

统计学

第一节总体分布集中趋势的测度 总体分布集中趋势是指总体中各单位的次数分布从两边向中间集中(靠拢)的趋势。 在分布数列中,越靠近中心值,标志值出现的次数越多,而远离中心值的次数较少。 由于对大多数统计总体来说,其总体单位的数值分布是以平均数为中心的,因此平均数反映了总体分布的集中趋势。所以,对集中趋势进行测度,就是寻找总体一般水平的中心值或代表值,就是计算总体的平均数(平均指标)。 一、平均指标的概念和作用 ㈠概念:平均指标是指在同质总体将各单位的数量差异抽象化,反映总体一般水平的代表值。 ㈡特点 ⒈将数量差异抽象化; ⒉必须具有同质性; ⒊反映总体变量值的集中趋势。 ㈢作用: ⒈可用于同类现象在不同空间的比; ⒉可用于同类现象在不同时间的比。

式中,m 代表各组标志总量,其余符号与前相同。 例: 某食堂购进某种蔬菜,相关资料如下,求这种蔬菜的平均价格。 4-13 某种蔬菜价格资料及其计算表 早午晚 价格(元/千克) 购买金额(元) 购买量(千克) x m m x 1.00 1.20 1.10 10.0 15.0 20.0 10.0 12.5 18.2 合计 - 45.0 40.7 根据上表计算食堂购进这种蔬菜的平均价格为: 10.015.020.045.0 1.106 /40.740.7m H m x ++= ===∑∑(元千克) 通过上例计算,可以看出,加权平均数实质上是加权算术平均数的一种变形式。其变换形式如下: m xf xf H m xf f x x = ==∑∑∑∑∑∑ 3.几何平均数 (1)概念 几何平均数是n 个比率乘积的n 次方根。 (2)几何平均数的计算 社会经济统计中,几何平均法适用于计算平均比率和平均速度。 简单几何平均数的计算公式为: n 21x x x G ???=Λ G表示几何平均数;x 表示变量值;n 表示变量值个数。 加权几何平均数的计算公式为

第24章 数据特征的测度

第二十四章数据特征的测度 一、单选题: 1、位置平均数和数值平均数是对(B190)的测度。 A、离散程度C、离散系数D、偏态 2A190) A、集中趋势 B、离散程度 C、偏态 D、峰度 3、以下属于位置平均数的是(C190+中位数AB→数值平均数) A、几何平均数 B、算术平均数 C、众数 D、极差 4、一组数据中出现频数最多的那个数值称为( C190 )。 A、中位数 B、极值 C、众数 D、平均数 5( D190 )。 A、众数 B、算术平均数 C、几何平均数 D、中位数 6、平均数指标反映了总体的( A190 )。 A、集中趋势 B、离散程度 C、变动趋势 D、分布特征 7、下列集中趋势测度值中,适用于品质数据的是(A190 BCD→适用于数值型数据) A、众数 B、简单算术平均数 C、标准差 D、加权算术平均数 8、下列数据特征的测度值中,不受极端值影响的是(C190+众数)。 A、简单算术平均数 B、极差 C、中位数 D、加权算术平均数 9、算术平均数与众数、中位数具有共同特点是(D190 )。 A、都属于分类数据 B、都适用于顺序数据 C、都不受极端值的影响 D、都适用于数值型数据 解析:众数、中位数不受极端值的影响;算术平均数易受极端值的影响。 众数→适用于品质(分类+顺序)、数值型数据中位数→适用于顺序、数值型数据 算术平均数→适用于数值型数据 10、某中学高中一年级840人、42人、42人、42人、44人、44人、45人、46人,其众数、中位数分别为(A190 )人。 A、42、43 B、43、43 C、43、42 D、46、43 解析:出现频数最多的数是42 中位数位置=(8+1)÷2=4.5→第四人与第五人之间 中位数=(42+44)÷2=43 11、某小学六年级8个班的学生人数由少到多依次为34人、34人、35人、35人、36人、36人、37人、37人,其中位数为(C190 )人。 A、34 B、35 C、36 D、37 解析:中位数位置=(8+1)÷2=4.5→第四人与第五人之间中位数=(35+36)÷2=35.5 ≈ 36人→人数要取整数 12、9个超市中食品的日销售额分别为(单位:元):500、300、400、350、350、500、450、700、600,其中位数为(C190 )人。 A、350 B、500 C、450 D、600 解析:先从小到大排序:300、350、350、400、450、500、500、600、700,中位数位置=(9+1)÷2=5 13、某连锁超市6个分店的职工人数由小到大排序后为57人、58人、58人、60人、63人、70人,其算术平均数、众数分别为(B191 )人。 A、59、58 B、61、58 C、61、59 D、61、70

第二章 数据分布特征的测度讲解

第二章数据分布特征的测度 对数据分布特征主要从三个方面进行测度和描述:一是分布的集中趋势,反映数据向其中心值靠拢或聚集的程度;二是分布的离散程度,反映各数据远离其中心值的趋势;三是分布的形状,反映数据分布的偏斜程度和峰度。本章主要介绍如何使用函数以及“数据分析”工具对数据分布特征进行测度和描述。 第一节函数的介绍 本节主要介绍在统计分析中需要用到的一些函数,其中包括我们本章(描述统计)中以及在概率分布、参数估计与假设检验、方差分析、相关与回归等分析中涉及到的函数,读者在后面章节的学习中可以参阅本节的内容。 一、统计计算中经常用到的函数(函数列表)★ Excel为用户提供了数学、三角函数、统计函数、数据库函数、财务函数、工程函数、逻辑函数、文本函数、时间和日期函数、信息函数、查找和引用函数等10类300多种,可以满足多方面的需要。其中,统计函数最多达78种;此外还有14种数据库函数,以及在统计中经常使用的数学函数20种,合计112种。下面将这些函数名称及功能列表显示。 ★本小节摘自: 安维默主编,《统计电算化》第34~37页,中国统计出版社,2000

表2-1 可用于统计分析的函数(续2)

1、函数的语法 工作表函数包括两个部分:函数名和紧跟的一个或多个参数。函数名,例如SUM和A VERAGE,表明函数要执行的操作;参数则指定函数所使用的值或单元格。例如,在公式“=SUM(C3:C5)”中,SUM为函数名,C3:C5为参数。此函数计算单元格C3、C4和C5中值的总和。函数的参数可以为数值类型。例如,公式“=SUM(327,209,176)”中的SUM 函数将数字327、209和176求和。不过通常的做法是,先在工作表的单元格中输入使用的数字,然后将这些单元格作为函数的参数使用。请注意函数参数两端的括号:开括号表示参数的开始,必须紧跟在函数名后。如果在函数名和括号之间输入了空格或其他字符,那么Excel会显示错误信息“Microsoft Excel 在公式中发现了错误。建议更正如下:是否接受建议的修改?”如果单击【是】按钮,则Excel会自动更新公式;如果单击【否】按钮,则单元格中将显示错误值﹟NAME?。 如果在函数中使用多个参数,则要用逗号将参数隔开。例如,公式“=PRODUCT (C1,C2,C5)”告诉Excel将单元格C1,C2,和C5的数值相乘。函数中可使用的参数多达30个,但公式的长度不能超过1024个字符。参数可以是工作表中包括任意数目单元格的区域。例如,函数“=SUM(A1:A5,C2:C10,D3:D7)”只有3个参数,但对29个单元格的数据进行求和运算(第一个参数A1:A5,指从A1到A5的所有单元格,依此类推)。反过来,引用的单元格中也可以包括公式,这些公式引用更多的单元格或单元格区域。使用这些参数,就可以轻松地创建复杂的公式来执行功能强大的各种操作。 2、函数的输入 对一些单变量和比较简单的函数,可用键盘直接输入。其方法与在单元格中输入公式相

第四章 数据分布特征的测度讲解

第四章数据分布特征的测度 学习目的和要求: 通过本章的学习,掌握数据分布特征的各种描述方法;掌握不同测度方法的特点、应用条件及应用场合;能利用所学的方法对统计数据作各种统计描述。 难点释疑: (一)算术平均数通常用来反映总体分布的集中趋势,调和平均数往往只作为算术平均数的变形来使用,即在已知标志总量而未知总体单位总量的情况下计算调和平均数;而几何平均数较适用于计算平均比率和平均速度。 (二)调和平均数虽然是根据标志值的倒数计算的,但其结果不等于算术平均数的倒数。在计算和应用平均指标时,除了考虑数理方面的要求外,更重要的是要考虑其现实的经济意义。 (三)平均数的性质是简捷计算法的基础,也是计算标志变异指标的基础。掌握中位数和众数与算术平均数的关系的目的是能够根据其中的两个平均数大体计算出第三个平均数,并判断总体的分布状态。 (四)全距、四分位差、平均差、标准差在反映标志变异程度方面各有优缺点。全距是描述数据离散程度的最简单测度值,它计算简单,易于理解,但不能全面反映总体各单位标志值的差异程度。标准差与平均差的意义基本相同,但在数学性质上比平均差要优越,所以,在反映标志变动度大小时,一般都采用标准差。标准差是实际中应用最广泛的离散程度测度值。 (五)标准差系数的应用。为了对比和分析不同平均水平总体的标志差异程度,就需要使用标准差系数。它是标志变异的相对指标。它既消除了变量数列变量值差异程度的影响,也消除了变量数列水平高低的影响。 练习题: (一)单项选择题(在下列备选答案中,只有一个是正确的,请将其顺序号填入括号内) 1.平均指标反映了()。 ①总体变量值分布的集中趋势②总体分布的离散特征 ③总体单位的集中趋势④总体变动趋势

统计学导论 曾五一 第三章 数据分布特征的描述

第三章数据分布特征的描述 第一节统计变量集中趋势的测定 一测定集中趋势的指标及其作用 集中趋势(Central tendency) 较大和较小的观测值出现的频率比较低,大多数观测值密集分布在中心附近,使得全部数据 呈现出向中心聚集或靠拢的态势。 测度集中趋势的指标有两大类: 数值平均数——是根据全部数据计算得到的代表值,主要有算术平均数、调和平均数及几何平均数; 位置代表值——根据数据所处位置直接观察或根据与特定位置有关的部分数据来确定的代表值,主要有众数和中位数。 1.反映变量分布的集中趋势和一般水平。 如用平均工资了解职工工资分布的中心,反映职工工资的一般水平。 2.可用来比较同一现象在不同空间或不同阶段的发展水平。 不受总体规模大小的影响; 在一定程度上使偶然因素的影响相互抵消。 3.可用来分析现象之间的依存关系。 如研究劳动者的文化程度与收入的关系。 4.平均指标也是统计推断中的一个重要统计量,是进行统计推断的基础。 二数值平均数 (一)算术平均数(均值) 一组数据的总和除以这组数据的项数所得的结果; 最常用的数值平均数。 1.简单算术平均数 把每项数据直接加总后除以它们的项数。 通常用于对未分组的数据计算算术平均数。 计算公式: 2.加权算术平均数 加权算术平均数的计算公式: 加权—为了体现各变量值轻重不同的影响作用,对各个变量值赋予不尽相同的权数(fi )。权数(fi ,也称权重) 权数——指在计算总体平均数或综合水平的过程中对各个数据起着权衡轻重作用的变量。可以是绝对数形式,也可以是比重形式(如频率)来表示。

事实上比重权数更能够直接表明权数的权衡轻重作用的实质。 当权数完全相等(f1 =f2 =…= fn)时,加权算术平均数就成了简单算术平均数。 3.由组距数列计算算术平均数 各组变量值用组中值来代表。 假定条件是各组内数据呈均匀分布或对称分布。 计算结果是近似值。 4.对相对数求算术平均数 由于各个相对数的对比基础不同,采用简单算术平均通常不合理,需要加权。 权数的选择必须符合该相对数本身的计算公式。 权数通常为该相对数的分母指标。 5.算术平均数的主要数学性质 (1)算术平均数与变量值个数的乘积等于各个变量值的总和。 (2)各变量值与算术平均数的离差之总和等于零。 (3)各变量值与算术平均数的离差平方之总和为最小。 (二)调和平均数(Harmonic mean) 调和平均数也称为倒数平均数。 各变量值的倒数(1/xi)的算术平均数的倒数。 其计算公式为: 社会经济统计中所应用的调和平均数通常是加权算术平均数的变形。 已知各组变量值xi 和(xi fi)而缺乏fi 时,加权算术平均数通常可变形为调和平均数形式来计算。 (三)几何平均数(Geometric mean) 几何平均数—n个变量值连乘积的n次方根。 简单几何平均数

相关文档
相关文档 最新文档