文档库 最新最全的文档下载
当前位置:文档库 › 离中趋势测量法

离中趋势测量法

第五章离中趋势测量法

平均指标对总体的共性和一般水平作了概括,以此来说明总体标志值分布的集中趋势。但是总体作为统计对象,还有其变异性的一面。变异指标用以反映总体各单位标志值的变动范围或参差程度,与平均指标相对应,从另一个侧面反映了总体的特征。变异指标不仅可以综合地显示变量值的离中趋势,还可以用来判别平均数的代表性。

所谓离中趋势,是指数列中各变量值之间的差距和离散程度。离势小,平均数的代表性高;离势大,平均数代表性低。例如有A、B、C、D四组学生各5人的成绩如下:

A组:60,60,60,60,60 B组:58,59,60,61,62

C组:40,50,60,70,80 D组:80,80,80,80,80

A组、B组、C组的平均成绩均为60分,D组的平均成绩为80分。就平均数而言,A、B、C三组相同,D组的平均数高于前三组。就离势而言,A,D两组一样,都为0;C组的离势最大,B组次之。所以,平均数不同,离势可能相同;平均数相同.离势可能不同;平均数不同,当然离势也可能不同。可见,要掌握总体资料中各标志值的离散、参差或分布情况,测定离中趋势也是必不可少的。

变异指标的种类较多,如按计算的基准来分有以下两类:

(1)以两数之差来表达的有全距和四分位差等。

(2)以对平均数偏差来表达的有平均差、标准差等。

变异指标如按数量关系来分有以下两类;

(1)凡用绝对数来表达的变异指标,统称绝对离势,主要有极差、平均差、四分位差、标准差等。

(2)凡用相对数来表达的变异指标,统称相对离势,主要有异众比率、标准差系数、平均差系数和一些常用的偏态系数。

第一节全距与四分位差

关于变异指标,前面其实我们已有所接触,第三章讨论统计分组时谈到的全距便是。全距是测定离中趋势最简单的一种指标。它和四分位差一样,是以两数之差来表达的。

1.全距

全矩是最大变量值与最小变量值之差,用R来表示。对未分组资料,计算全距用原始式。由于全距是一组数据中两个极端值之差,所以它又称极差。

R=X N—X1 (5.1)

其中:X N是全部数据中最大的标志值,X1是最小的标志值。

[例5.1.1] 求74,84,69,91,87,74,69这些数字的全距。 [解] 把数字按顺序重新排列:69,69,74,74,84,87,91,显然有

R =X N —X 1=91—69=22

对于分组资料,在第三章我们已经知道,由于不能确知变量实际的最大值和最小值,因而求全距有以下三种方法:

(1)用组值最大组的组中值减去组值最小组的组中值,此法求出的全距一般比实际上的全距要小些。 (2)用组值最大组的上限减去组值最小组的下限,此法求出的全距一般比实际上的全距要大些。 (3)用组值最大组的组中值减去组值最小组下限;或用组值最大组上限减去组值最小组的组中值。此法求出的全距多接近于实际上的全距。

全距的最大优点是:计算简单,便于直观。缺点是;①受极端值影响大,遇含开口组的资料时将无法计算;②由于没有量度中间各个单位间的差异性,所以数据利用率很低,信息丧失严重;③受抽样变动影响很大。一般说来,大样本全距要比小样本全距大些,因为大样本有较多的机会包含最极端的变量值。

2.四分位差

在第四章,我们已经了解了四分位数的计算。它的一个用途就是,用第三四分位数和第一四分位数的半距作为测定离中趋势的一种变异指标,以避免全距测量离中趋势受极端值影响大这个缺点。四分位差就是第三四分位数和第一四分位数的半距,用Q ·D 表示

Q ·D =

2

1

3Q Q - (5.2) 四分位差优点是避免了极端值变动的影响,但由于它仅以两数之差为基准,全距的另两个缺点依然无法避免。

第二节 平均差

要测定变量值的离中趋势,尤其是要测定各变量值相对于平均数的差异情况,一个很自然的想法就是计算各变量值与算术平均数的离差。但由于算术平均数的性质,各变量值与其算术平均数离差的代数和恒为零,所以用这个性质无法构造出能够测定离中趋势的变异指标。为此,我们采取处理离差绝对值的办法,如此构造出来的变异指标,称为平均差,用A ·D 表示。

1.对于未分组资料

平均差被定义为各变量值对其算术平均数(或中位数)离差绝对值的算术平均数。对于未分组资料,求平均差用原始式,即

A ·D =

N

X X ∑- (5.3)

[例5.2.1] 试分别以算术平均数为基准,求85,69,69.74,87,91,74这些数字的平均差。 [解] 先用求平均指标的公式求出这些数字的算术平均数,得

X = 78.4

再利用表5.1,以算术平均数为基准求出

A ·D =

N

X X ∑- =

7

4

.55 = 7.91 表5.1

2.对于分组资料

对于分组资料,计算平均差需用加权式

A ·D =

∑-f

X

X f (5.4)

[例5.2.2] 试以算术平均数为基准,求表3.10所示数据的平均差。 [解] 先算出算术平均数 X =

∑∑f fX =3211

9829=3.06(人) =

再利用表5.2算出

A ·D =

∑-f

X

X f =

3227

38

.2418 = 0.75(人)

由此可见,2002年天津市家庭以户均人口3.06人为基准,家庭人口的平均差是0.75人。

表5.2

3.平均差的性质

平均差以及接下来要讨论的标准差,虽都是变异指标,但就其计算的数学方法来看,仍属于算术平均数。所以平均差在受抽样变动影响、受极端值影响和处理不确定组距这三方面,它的性质均同于算术平均数。与此同时,平均差由于计算时采用了取绝对值来消除正负号的影响的方法,它不便于代数运算,而且平均差的意义在理论上也不容易作出阐述,所以平均差作为变异指标,其运用比下面的标准差要少得多。

另外,根据中位数的性质可知,各变量值对中位数之差的绝对值总和为最小。因而,有时以中位数为基准来计算平均差反倒比以算术平均数为基准来计算平均差更合理。

第三节标准差

为了克服平均差带有绝对值计算的缺点,同时保留平均差的优点(即它已将总体中各个单位标志值的差异全部包括在内),故将各离差平方后求算术平均,再求平方根,来构造变异指标,这样就得到一个常用的而且也是最重要的变异指标——标准差,用S表示。

1.对于未分组资科

标准差被定义为各变量值对其算术平均数的离差平方的算术平均数的平方根,又称均方差。对于末分组资料,求标准差用原始式,即

S =

()

N

X

X

∑-2

(5.5)①

[例5.3.1] 求72、8l、86、69、57这些数的标准差。

①计算样本资料的标准差,应以(N―1)作为分母更合适,因为在通常的情况下,分母应为自由度数,在这里取N是近似,在N大的情况下没有多少差别。这将在“参数估计”一章得到说明。

[解] 先求出算本平均数 X = N

X ∑ = 5

365 = 73.0

再利用表5.3求出标准差

S = ()

N

X X ∑-2

=

5

506

= 10.06 表5.3

在大多数情况下,由于作为基准的X 不是简单的数值,所以求标难差用原始式(5.5)运算起来数字很繁,容易发生错误。为此,我们可以利用标准差便于代数运算的特点,把(5.5)式变形为

S =

2

2

???

?

?

?-∑∑N X N

X (5.6)① [例5.3.2] 应用(5.6)式求上例的标准差。 [解]仍利用表5.3,各项数字已列于表中

S =

2

2

???

? ?

?-∑∑N X N

X = 2

5365527151??

?

??-= 10.06 2. 对于分组资料

证明:

()

N

X X ∑-2

=

N

X

X X X

∑∑∑+-2

2

2 =

2

22

2X

X N

X

+-∑

=

2

2

???

? ?

?-∑∑N X

N

X

对分组资料,计算标准差要用加权式,即

S =

(

)

N

X X f ∑-2

(5.7)①

[例5.3.4] 求表3.12的标准差〔参见表5.4〕 [解] 先求出算术平均数 X =

N

fX

∑=

100

17028

= 170.28(厘米) 再利用(5.7)式求出标准差,各项数字已列于表5.4中

S =

(

)

N

X X f ∑-2

=

100

16

.5672= 7.53 (厘米)

由此可见,100个男性青年的身高,以平均身高170.28厘米为基准,标准差是7.53厘米。

表5.4

对于标准差的加权式,我们也可以通过代数运算,将(5.7)式变形为

(5.7)式可以写成 S =

()

∑-2

X

X P

S =

2

2

???

? ??-∑∑N fX N fX (5.8)② [例5.3.5] 利用(5.8)式求上例的标准差〔参见表5.4〕。

[解] S =

2

2???

?

??-∑∑

N fX N

fX =2

100170281002905200??

? ??-

= 7.53 (厘米) 3. 标准差的性质

标准差是测定总体各单位标志值的离散状况和差异程度的最佳指标,这是因为它在数学上便于代数运

算,并且具有许多特有的性质:

(1)以算术平均数为基准计算的标准差,较之以任何其他数值为基准计算的标准差要小。这是因为算术平均数的“最小平方”性质:各变量值对算术平均数的离差的平方和,必定小于它们对任何其他数(X ’)偏差的平方和,即

()

N

X X ∑-2

()

N

X X ∑-2

' (未加权式) (5.9a )

(

)

N

X X f ∑-2

()N

X X f ∑

-2

' (加权式) (5.9b )

(2) 标准差同平均差一样,虽都是变异指标,但就其计算的数学方法来看,仍属于算术平均数。因为它已将总体中各单位标志值的差异全部包括在内了,所以它受抽样变动的影响小。但是,标准差在受极端值影响和处理不确定组距这两方面,缺点均与算术平均数相同。

值得注意的是,在推论统计中我们将发现,方差是比标准差更有理论价值的概念。所谓方差,即标准差的平方,它直接写成S 2 。 从第十章开始,我们将逐渐频繁地使用方差,但目前我们仍然集中讨论标准差。这两个概念是很容易互换的,可以直接从一个转换到另一个。

4.标准分

运用标准差.还可将原来不能直接比较的离差标准化,使之可以相加、相减、平均或者相互比较。为此我们引入一个新的变量,用符号Z 表示,它被定义为变量X 的标准分

Z =S

X

X - (5.10)

(5.8)式可以写成 S =

∑∑-2

2

)(PX PX

由公式可以看到,Z分数是以离差与标准差的比值来测定变量X与X的相对位置的,它有三个特性:

(1)对于给定资料,由于算术平均数和标准差都是确定值,所以Z是和X一一对应的变量;

(2) Z分数没有单位,是一个不受原资料单位影响的相对数,因而也适用于不同单位资料的比较;

(3) Z分数实际表达了变量值距算术平均数X有几个标准差。比如Z=2,表示该变量值离X有2个S 的距离;Z=1.3,表示变量值离X有1.3个S的距离。因为Z分数和正态分布有密切关系,所以在第七章求Z分数的过程,也称为变量标准化的过程。以后我们将看到,均值不同和方差不同的正态分布经Z 分数标准化后,成为标准正态分布,所以Z也有标准正态变量之称。按Z值大小编制出的正态分布表,其用途十分广泛。

Z分数是由总体均值和标准差这两个因素构成,它的性质也决定于这两个因素:

①Z分数之和等于0,因为

∑Z=

()

∑-

S

X

X

=()

∑-X

X

S

1

= 0 (5.11)

②Z分数的算术平均数等于0,因为

Z=

N Z

= 0 (5.12) ③Z分数的标准差等于1,Z分数的方差也等于1,因为

Z分数的标准差=

()

N

Z

Z

∑-2

=

N

Z

∑2

=∑??

?

?

?

?-2

1

S

X

X

N

=

()

∑∑-

N

X

X

S

2

2

1

=1

Z分数的方差= 1

第四节相对离势

上述各种反映离中趋势的变异指标,都具有和原资料相同的计算单位,称绝对离势。但欲比较具有不同单位的资料的参差程度,或比较单位虽相同而均值不相同的资料的参差程度.离势的绝对指标则很可能导致某些错误结论。所以,我们在这一章还得了解和学习相对离势。

1.变异系数

用离势的绝对指标除以其平均指标来求离势的相对指标,就可以在计量单位不同或平均水平不一的对象之间进行直接比较。这种由绝对离势转化而来的相对离势称为变异系数,用符号V表示。变异系数指绝对离势统计量与其算术平均数(或其他适当数值)的比值,变异系数是最具有代表性的相对离势。

(1)全距系数

全距系数,是众数据的全距与其算术平均数之比,其计算公式是

V R =

X

R (5.13)

[例5. 4.2] 设为测体重,得到成人组和婴儿组各I00人的两个抽样总体。经计算,成人组平均体重为65千克,全距为6千克;婴儿组平均体重为4千克,全距为1.5千克,分别求两组体重的全距系数。

[解] 成年组的全距系数=

11X R =65

6

= 0.092 婴儿组的全距系数=

2

2X R =45.1= 0.375

若从全距的绝对值来看,成人组是6千克,是婴儿组1.5千克的四倍。但如果比较其全距系数,显

然,婴儿组体重的离势要比成人组体重的离势要大得多。

(2) 平均差系数

平均差系数,是众数据的平均差与其算术平均数之比,其计算公式是 V A ·D =

X

D

A ? (5.14) [例5.4.3] 设有10个人的身高资料和体重资料如表5.5所示,试分别求身高的平均差系数和体重的平均差系数。

表5.5

[解] 先利用表5.5,分别求身高和体重的算术平均数与平均差

平均身高 =N

X ∑=10

1720= 172.0(厘米)

平均体重 =

N

Y ∑=10

700= 70.0(千克)

身高的平均差 =

N

X X ∑-=

10

40

= 4.0(厘米) 体重的平均差 =

N

Y Y ∑-=

10

34

= 3.4(千克) 再利用(5.14)式分别求身高的平均差系数和体重的平均差系数 身高的平均差系数 =

平均身高身高的平均差 = 172

4

= 2.33 %

体重的平均差系数 =

平均体重体重的平均差 =70

4

.3 = 4.86 %

用平均差这个绝对离势,身高的离散程度与体重的离散程度是无法比较的。但用平均差系数比较,可

知人体重的离散程度要比身高的离散程度来得大。

(3)标准差系数

标准差系数,是众数据的标准差与其算术平均数之比,其计算公式是 V S =

X

S

(5.15) [例5.4.4] 试求上例的标准差系数。

[解] 先利用表5.5,分别求出身高和体重的算术平均数与标准差,已知

平均身高=172(厘米),平均体重=70(千克)

身高的标准差 =

()

N

X X ∑-2

=

10

248

= 4.98(厘米) 体重的标准差 =

()

N

Y Y ∑-2

=

10

228

= 4.77(千克) 再利用(5.15)式分别求身高的标准差系数和体重的标准差系数 身高的标准差系数 =

平均身高身高的标准差=172

98

.4= 2.90 %

体重的标准差系数 =

平均体重体重的标准差=70

77

.4= 6.81 %

用标准差这个绝对离势,身高的离散程度和体重的离散程度同样无法比较。但用标准差系数来比较,

可知人体重的离散程度要比身高的离散程度来得大。

通过上面几例,我们可以清楚地认识到变异系数的意义。用绝对数表示离中趋势,对于描述数列的频数分布状况来说,其意义明显而易于理解。但是,绝对离势只有在研究性质相同的总体且其平均水平也大体一致的情况下,才能用来在不同总体间进行比较。我们知道,实际上,不同总体不但在水平上往往相差很大,而且它们的性质也往往互不相同。在这种情况下,我们便要用离势的相对指标作为比较的依据了。

2.异众比率

所谓异众比率,是指非众数的频数与总体单位效的比值,用V · R 来表示

V · R =

N

f N M 0

- (5.16)

其中;0M f 为众数的频数;N 是总体单位数。 [例5.4.5] 求表3.10所示资料的异众比率。 [解] 由表3.10知N =3227,0M f =1510,所以 V · R =

N

f N M 0

- =

3227

1510

3227-= 0.53

由上例可知,异众比率的意义在于能够表明众数不能代表的那一部分变量值在总体中的比重。异众比率越大,各变量值相对于众数越离散;异众比率越小,各变量值相对于众数越集中。

异众比率计算简单,只要知道众数的频数和总体单位数就可以了。因而,这种相对离势的测定不但适用于定距资料,也适用于定比、定类资料。

相关文档
相关文档 最新文档