文档库 最新最全的文档下载
当前位置:文档库 › 实用统计方法homework

实用统计方法homework

实用统计方法homework
实用统计方法homework

第一章 多元回归分析

1.4某种化工产品的得率Y 与反应温度1X ,反应时间2X 及某反应温度3X 有关。设对于给

定的1X ,2X ,3X ,得率Y 服从正态分布且方差为常数。近得实验结果如下,其中1X ,2X ,3X 均为两水平变量且编码形式表达。

(1)对Y ,拟合以1X ,2X ,3X 为自变量的线性回归模型,求出回归参数估计值及残差。 (2)给定显著水平05.0=α,检验回归系数的显著性。 (3)对05.0=α,检验各自变量对Y 的影响的显著性。

1.7为了研究人们对某种品牌食品的喜爱程度Y 和该食品的水分含量1X ,甜度2X 的关系,,

进行了一个完全随机化设计的小规模试验,得到下列数据:

(1) 拟合回归模型

i i i i X X Y εβββ+++=22110,

写出回归方程,问其中的

1β如何解释。

(2) 求出残差向量,分别作出残差关于拟合值∧

Y , 1X , 2X 及1X 2X 的残差图及残差

的正态概率图。分析这些残差图并给出你的评述。

(3) 设误差项()16,2,1 =i i ε独立同分布于()2

,0σ

N ,在01.0=α

的水平上检验回归

关系的显著性。写出假设、检验准则及结论并求检验的p-值。

(4) 在(3)中关于i ε的假定下,对自变量一组新的观察值 ()4,5=T

new X ,给出Y 的

预报值的99%置信区间。

(5) 拟合Y 关于1X 的一元线性回归模型,写出回归方程。将1X 的回归系数与(1)中

所求得的1X 的回归系数作比较,你有什么结论。

(6) ()1X SSR 和()21X X SSR 是否相等?二者的意义有何不同?

1.8 某科学基金会的管理人员希望估价从事数学研究工作的中等或较高水平的数学家的

年工资额Y 与他们的研究成果(论文、著作等)的质量指标1X ,从事研究工作的时间2X 以及能成功获得资助的指标3X 之间的关系。为此按一定的试验设计方法调查了24位此类型的数学家,得到下列数据:

(1)对Y 关于1X ,2X ,3X ,拟合线性回归模型,写出回归方程。

(2)求出残差向量,分别作出残差关于∧

Y , 1X ,2X ,3X 及两自变量交叉项的残差图及残差的正态概率图。分析这些残差图,评述你的看法。 (3)设误差项i ε独立同分布于()2

,0σN ,对05.0=α

,检验回归关系的显著性,计算复

相关系数2

R 值并解释其意义。

(4)在(3)中对误差项分布的假定下,分别给出回归参数321,,βββ的置信度为95%的置信区间。

(5)在(3)中对误差项分布的假定下,对01.0=α,检验假设31ββ=。 (6)对各自变量的观测数据作如下变换(成为相关变换):

??

??

? ?

?--=

-

Y

i i s Y

Y n Y 11'

, 3,2,1,11'

=???

?

? ?

?--=-

k s X X n X k k

ik ik 其中 ∑==

n

i i

Y n

Y 1

_

1

, .3,2,1,1

1

_

==

∑=k X n

X n

i ik k

2

1

_2

1

1∑

=??? ??--=

n

i i Y

Y Y n s ,2

1_

2

11∑=??

? ??--=n

i k ik k X X n s 然后,对数据(i Y ',1i X ',2i X ',3i X ')()24,2,1 =i 拟合线性回归模型。此时回归系数估计如何解释?并推导在变换数据下得到的回归参数估计和(1)中得到的相应估计的关系。

1.9 某医院管理工作者希望了解病人对医院工作的满意程度Y 和病人的年龄1X ,病情的严

重程度2X 和忧虑程度3X 之间的关系。她随机地选取了23位病人,得到下列数据:

(1)通过穷举法分别利用准则()2

p R i ,()p MSE ii ,()p C iii 和()p

PRESS

iv 选择最优回归方

程,并作出相应的图以支持你的判断。四个准则下的最优回归方程是否一致?

(2)给定0.3=E F 及 9.2=D F ,试用逐步回归法选择最优回归方程,其结果和(1)中的结果是否相同?

(3)对所选取的回归方程作进一步的精细分析。

第二章 主成分分析及典型相关分析

2.4下表是美国最大的10家工业公司在某时期内的销售额1x 和利润2x 的数据(单位:兆美

元):

??

??

??=292762309x ,

5

1030.1476.25576

.25520.10005??

?????=S , (1) 求1x ,2x 的样本主成分1y 和2y 及主成分的样本方差,计算各样本主成分的贡

献率。

(2) 求第一样本主成分1y 的观测值并予以排序,它是否基本上反映了原数据的特

性?

2.5 变换第4题中的样本协方差矩阵S 为样本相关矩阵R ,

(1)求标准化样本的主成分及其样本方差,各主成分的贡献率。和第4题(1)中的结果相比有何变化?

(2)求标准化样本的第一主成分的观测值并排序,它和第4题(2)中的结果相比有何变化?

(3)就所给的数据,你认为从样本协方差矩阵出发求主成分合理呢,还是从样本阵出发求主成分合理?解释你的观点。

2.7 下表是某城市在42天中的中午十二点的空气污染数据:

你的任务是利用尽可能少的变量提取原数据集的信息。分别样本协方差矩阵和样本相关矩阵作主成分分析,二者的结果有何差异?原始数据的变化可否由三个或更少的主成分反映,你能否给所选取的主成分作出解释?

(1)求其样本相关矩阵R 及它的特征值和相应正交单位化特征向量。 (2)求前两个标准化样本主成分及其累计贡献率。

(3)解释(2)中的两个主成分的意义(事实上,第一主成分近似是各变量的等权重之和,他反应了各国家和地区的运动员的优秀程度,第二主成分可用以度量各国家和地区在各径赛项目上的相对实力)。

(4)基于第一样本主成分的观测值对各国家和地区排序,这与你从原始数据中得到的直观看法是否基本吻合?

2.12从某校初一学生中随机选取了40=n 名,考察下列两组指标:

1X :阅读速度, 2X 阅读理解力; :1Y 计算速度, 2Y :计算正确程度.

根据观测数据求得()T

Y Y X X 2121,,,的相关矩阵为

??

???

?

?

???

??--=?

???

??=00.142.007.006.042.000

.106.024.007

.006.000.163.006.024.063.000.122

12

2111R R R R R ,

(1) 求各对样本典型变量和样本典型相关系数。 (2) 给定05.0=α,检验各对典型变量间的相关性是否显著。利用显著相关的典型变量对解

释描述阅读能力的变量()T X

X 21,和描述计算能力的变量()T

Y Y 2

1,之间的关系。 2.13 随机抽取70=n 个家庭考察两个“消费”变量, 和三个“人口统计学”变量321,,Y Y Y

之间的关系,其中

1X : 一个家庭每年进餐馆就餐的次数; 2X :一个家庭每年去电影院看电影的次数; 1Y : 家长的年龄 2Y : 家庭年收入

3Y :家长受教育的程度。

由调查数据求得 ()T

Y Y Y X X 32121,,,,的样本相关矩阵为

????

???

?

???

????

?=????

??=00.135

.021

.034

.034.035.000.137.059.067.021.037.000.133.026.034

.059.033.000.180.034.067.026.080.000.122

12

2111R R R R R

1 求各典型变量对的典型相关系数,并检验其相关的显著性(05.0=α)。

2 求显著相关的典型变量对。

3 利用(2)中典型变量的系数解释“消费”变量与“人口统计学变量”的关系。

第三章 判别分析

3.7下表给出了两类公司的有关金融数据,一类是破产公司,表中数据是这些公司在破产前

两年的四个金融指标。一类是未破产公司在和破产公司大约相同时期的四个相同的金融指标。这四个指标是 。纯销售额

当前资产,当前债务

当前资产,总资产

纯收入,总债务

流通资金=

=

=

=

4321X X X X

各公司的数据如下表(表中最后一列“0”表示破产公司,“1”表示非破产):

(1)对211=n 个破产公司和252=n 个非破产公司就二位变量()21,x x x =求两类公司样本均值)2()1(,x x 和样本协方差矩阵21,S S .

(2)假定()T

X X X 21,=对两总体均服从二维正态分布且协方差矩阵不相同,在等先验分

布和等误判损失下,建立Bayes 判别准则。

(3)在(2)中判别准则的貌似误判率和刀切法误判比例,评价此判别准则。

(4)在()()下,1221,95.0,05.021c c q q ===重复(2),(3)分析。你认为这里对总体出现的先验概率分布的假定是否正确,解释之。

(5)假定()T

X X X 21,=对两总体均服从协方差矩阵相等的正态分布,重复(2),(3)的分

析并比较两种分类准则的优良性,哪一个较优?

(6)对变量组()()T

X X T X X 4131,,,重复(1)~(4)的分析,你发现哪个变量组的分类效

果较好?

(7)利用所有四个变量,重复(1)~(4)的分析,结果如何?是否用较多的变量建立的判别准则的分类效果一定优于用其中一部分变量所建立的判别准则的分类效果。

2.8 nderson .A E 在1939年收集了 尾属植物中的三个品种的花的形状尺寸。从这三个品

种(记为321,,G G G )中各选择了50株植物,测量了下述四个变量:

花瓣的宽度

花瓣的长度,

花的萼片宽度

花的萼片长度,====432

1X X X

X

数据如下表

(1)只考虑变量()T

X X 42,,假设三个总体对这两个均服从二维正态分布,在协方差

矩阵不等的假定下,构造二次判别函数(3.3.23),并评估相应的判别准则(3.3.24)分类效果。

(2) 假定有新样品()()T

T

x x x 75.1,5.3,420==,利用(1)中的判别准则对0x 分类。

(3) 假定三个总体的协方差矩阵相等,求线性判别函数(3.3.25),并评估相应的判

别准则(3.3.26)分类效果和(1)中的结果作比较。

(4) 利用(3)中的判别准则判别新样品()()T

T

x x x 75.1,5.3,420==的归类,它和

(2)中的结果是否相同?

(5)利用全部四个变量重复(1)和(3)的分析,并和(1),(3)中的结果作比较,评述你的发现。

第四章 聚类分析

4.1考虑下列4个样品的距离矩阵

1

2

3

4

10210

3112045340D ?????

?=??????

(1) 用最短距离法、最长距离法和类平均法对这4个样品聚类,画出聚类谱系图。 (2) 将D 转化为模糊矩阵,利用模糊聚类法作聚类分析,画出谱系图。 (3) 比较各方法的聚类结果,指出它们之间的异同

4.2设有5个变量4321,,,X X X X 和5X ,它们之间的相关系数矩阵为

1

23

4

5

1234510.643

10.082

0.08610.0450.2110.16410.013

0.328

0.486

0.185

1X X X X X X X R X X X ??

?

??

???=--?

?-????---??

以R 作为各变量间的相似性度量,利用最短距离法、最长距离法及类平均法对这5个变量作聚类分析,画出谱系图并比较这些结果。若利用模糊聚类法,情况又如何?

4.3根据第二章习题8中关于55个国家和地区1984年前在7个竞赛项目上的女子纪录数据

作聚类分析:

(1)利用欧式距离计算各国家和地区间在这7个项目上的距离矩阵。

(2)利用最短距离法、最长距离法和类平均法对这55个国家和地区进行聚类,画出谱系图并比较各个方法的聚类结果的异同。

4.4根据第三章习题8中关于 植物花的形状尺寸距离,将第一类1G 和第二类2G 看成变量()T

X X X X X 4321,,,=的100个观测值(即100个样品)

,定义各样品间的距离为欧氏距离,利用某种谱系聚类法(最小距离法,最大距离法或类平均法)作如下聚类分析, (1)以1X X =为指标变量。 (2)以()T

X X X 21,=为指标变量。

(3)以()T

X X X X 321,,=为指标变量。

(4)以()T

X X X X X 4321,,,=为指标变量。

(5)若将这100个样品分为两类,以上4种聚类结果和实际分类相比,效果如何?是否所

用指标变量越多,聚类效果就越好?

第五章 非参数秩方法

5.2为了解一种新的术后护理方法和原护理方法相比是否可以显著缩短病人手术后的回复时间,随机地将作完某种手术的18位病人分为两组,每组9人,按不同方法护理,观测到他们的恢复时间(单位:天)如下:

原方法:20,21,24,30,32,36,40,48,54; 新方法:19,22,25,26,28,29,34,37,38.

在05.0=α下检验新方法是否显著地缩短了病人手术后的恢复时间。如果对新护理方法是否是缩短还是延长了恢复时间事先并不清楚,情况又如何?

5.5为检验维生素1B 对刺激蘑菇生长的作用是否显著,从24朵大小相近的小蘑菇中随机的选出13朵施以维生素1B ,另外11朵不施维生素1B ,其他条件保持相同。一段时间后测得两组蘑菇的重量如下:

使用维生素1B :27,34,20.5,29.5,20,28,19.5,26.5,22,24.5,34,35.5,19, 未用维生素1B :18,14.5,13.5,12.5,23,24,21,17,18.5,9.5,14.

利用正态逼近求Wilcoxon 秩和检验的p 值,在05.0=α下,维生素1B 对刺激蘑菇生长的效果是否显著。

5.6为了比较两种不同的心理咨询方法的效果,将80位接受心理咨询的人随机的划分为两组,每组40人,其中一组接受一般的心理咨询,另一组接受特殊的心理咨询,试验结束后,将每个人的心理调整效果作仔细评估 ,并分为好,较好,较差和差四档,数据如下:

利用Wilcoxon秩和检验法检验特殊心理咨询方法的效果是否显著优于一般方法α)。

(10

.0

=

5.8利用Smirnov检验法求第二题中的检验p值。

5.9从同一工厂的三条不同的白糖包装线上分别抽取5袋、5袋和4袋白糖,测得其净重量如下(单位:克),

第一条包装线:487,492,510,507,488;

第二条包装线:500,498,503,501,512;

第三条包装线:495,494,506,499.

α,利用Kruskal-Wallis方法检验这三条包装线包装白糖的重量有无显著差异。给定10

=

.0

5.14为考察两种不同催化剂对某一化工产品得率的影响,作试验9次,测得数据如下:

影响是否显著。用正态逼近情况如何?()

α。

=

05

.0

5.15有两种不同的水稻品种,分别种植在一分为二的10块田地上,得到它们的产量(单位:公斤)如下:

利用Wilcoxon符号秩检验法检验这两种水稻品种的产量是否有显著差异()

α。

05

=

.0

5.16为了研究四种不同药品对治疗咳嗽的效果是否相同,有7位患者参加试验。每位患者在指定的不连续的4天内随机地服用这四种药品,记录这位患者在这4天内咳嗽的次数如下:

利用Friedman检验和改进的Friedman检验法检验这四种药品对咳嗽的疗效是否相同

()05.0=α。

第六章 列联表的独立性分析

6.2 为研究患肺癌是否与吸烟量有关,共计调查肺癌患者及其它疾病的患者各1357人,按每天平均吸烟量(单位:支)分类得如下表:

Pearson 2χ统计量被用以检验患肺癌是否与吸烟量有关,求检验的p 值。

第七章 试验设计

7.5交沙霉素片剂处方探索试验。

交沙霉素片在1991年事一种新型抗菌素,对多种疾病有确切疗效且毒副作用小,但其原料很难溶于水,用常规辅料制成片很难崩解,以致药物不能正常释放,长期以来,国内没有片剂制剂。某药厂决定在片剂中很少用的表面活性剂吐温-80和另外三个因素,采用如下表:

三水平进行正交试验,由于没交互作用,用()4

93

L 安排试验,A,B,C,D 分别安排在第1,2,

3,4列上,9次试验的崩解时间(min )分别为19,9,7,11,4.5,6,13,9.5,5.

(1) 用直观分析法确定因素的主次和最佳配方。

(2) 用因素离差平方和最小者作为误差离差平方和的处理方法,在05.0=α下用方差分

析法检验各因素对崩解时间有无显著影响?

(3) 经(1)的正交试验分析后知,除淀粉对崩解时间没什么影响外,从因素—指标关系

图可见A,B,D 的最佳点都在边界上,所以还有改进的余地,再进行第二批试验,因素和水平数如下表所示,用()3

42

L 安排正交试验,4次试验的崩解时间分别为5.5,

7.7中医古今名方改革试验。

中医古今名方之多,浩如烟海,《内经》始载13方,《伤寒杂病》发展为314方,时至明初,朱棣等人编写的《普济方》收方6万余首,后经不断的丰富和发展,实难记其数。因此,有必要对中药古今名方进行改革,以期精益求精。使现代科学技术的手段和方法为振兴中医药事业做出贡献。下面研究“五苓散方”的改革方案。 五苓散方功效:利水渗湿,内停水湿。 主治:(1)外有表症,内停水湿。

(2) 水湿内停的水肿,泄泻,小便不利,以及霍乱吐泻等症。

(3) 痰饮,脐不动悸,吐涎沫而头眩,或短气而咳者。

下面研究五苓散方的利尿作用,取五因素2水平如下表所示,用()782L 确定五苓散方方案,A,B,C,D,E 分别放在第1,2,4,6,7列,不计交互作用。8次试验的尿量增加量分别为7.3,6.3,4.0,4.6,2.6,4.9,3.8,5.8(ml/30min ),求五苓散方的最佳改革方案.

7.8杀灭病毒性肝炎病毒消毒剂的配方试验。

过氧乙酸是广泛应用的一种杀灭病毒性肝炎病毒的主要消毒剂,但其有效成分极不稳

定,以致影响消毒效果,现欲通过试验找出有关因素对其稳定性的影响,并找出使过氧乙酸稳定性饿最优条件。试验的因素及水平列表如下: 选用()7

92

L ,表头设计:A,B,A D D A C B ,,,??分别放在第1,2,3,4,6,7列,每

次试验重复两次,将两次重复试验结果相加进行分析,8次试验结果(两次重复试验相

加)放置24h 过氧乙酸残存量(mg/3ml )分别为11.11,9.55,1.90,2.86,4.05,5.50,0.65,1.20.

常用的数据统计方法

常用的数据统计方法 一、集中趋势分析 集中趋势反映一组资料中各数据所具有的共同特征,如资料中各数据聚集的位置或者一组数据的中心点等,可以是算术平均数、中位数、众数等。 ?算术平均数 算术平均数也可以称作均值,是数据集中趋势的最主要测度量。 (1)简单算术平均数。简单算术平均数的计算公式如下:(P2) ∑ = 求和符号 X = 每一变量 N = 样本量 例 1:已知某组织五类主要职工的月收入分别是 4000 、 5000 、 6000 、 10000 和15000 元,求这五类职工的平均月收入。 解: (元) 以上大小不等五个数值的月收入水平相互抵消的结果反映的该组织职工公众的平均月收入水平。从数据分布来看各个数据围绕 8000 元上下分布,算术平均数就是该组数据的中心值,反映了该组数据的集中趋势。 (2)加权算术平均数 如果是根据分组资料计算算术平均数,由于分组资料中每个数值出现的次数不同,所以要用次数做权数计算加权算术平均数。计算公式如下:

F = 权数(每一变量的次数或频率) ∑ F = N = 样本量 例 2:某组织有月收入 3000 元的公众 50 人, 5000 的 30 人, 7000 的 10 人,10000 的 8 人, 15000 的 2 人,求该组公众的平均月收入。 解: =480000/100=4800 (元) 可见该组公众的平均月收入不简单地等于(3000+5000+7000+10000+15000) /5 。从加权算术平均数的计算公式以及上例的计算过程及结果来看,算术平均数大小不仅受到各组变量数值大小的影响,而且还受各组变量权数大小的影响。 例 3:某组织公众周工资水平整理成分组资料如下表,试计算该组织公众周收入的平均值。 按工资分组工人数组中值 F M 100~200 10 150 200~300 30 250 300~400 40 350 400~500 20 450 合计 100 — 解:

科研常用的实验数据分析与处理方法

科研常用的实验数据分析与处理方法 对于每个科研工作者而言,对实验数据进行处理是在开始论文写作之前十分常见的工作之一。但是,常见的数据分析方法有哪些呢?常用的数据分析方法有:聚类分析、因子分析、相关分析、对应分析、回归分析、方差分析。 1、聚类分析(Cluster Analysis) 聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。聚类是将数据分类到不同的类或者簇这样的一个过程,所以同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性。聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。聚类分析所使用方法的不同,常常会得到不同的结论。不同研究者对于同一组数据进行聚类分析,所得到的聚类数未必一致。 2、因子分析(Factor Analysis) 因子分析是指研究从变量群中提取共性因子的统计技术。因子分析就是从大量的数据中寻找内在的联系,减少决策的困难。因子分析的方法约有10多种,如重心法、影像分析法,最大似然解、最小平方法、阿尔发抽因法、拉奥典型抽因法等等。这些方法本质上大都属近似方法,是以相关系数矩阵为基础的,所不同的是相关系数矩阵对角线上的值,采用不同的共同性□2估值。在社会学研究中,因子分析常采用以主成分分析为基础的反覆法。

3、相关分析(Correlation Analysis) 相关分析(correlation analysis),相关分析是研究现象之间是否存在某种依存关系,并对具体有依存关系的现象探讨其相关方向以及相关程度。相关关系是一种非确定性的关系,例如,以X和Y 分别记一个人的身高和体重,或分别记每公顷施肥量与每公顷小麦产量,则X与Y显然有关系,而又没有确切到可由其中的一个去精确地决定另一个的程度,这就是相关关系。 4、对应分析(Correspondence Analysis) 对应分析(Correspondence analysis)也称关联分析、R-Q 型因子分析,通过分析由定性变量构成的交互汇总表来揭示变量间的联系。可以揭示同一变量的各个类别之间的差异,以及不同变量各个类别之间的对应关系。对应分析的基本思想是将一个联列表的行和列中各元素的比例结构以点的形式在较低维的空间中表示出来。 5、回归分析 研究一个随机变量Y对另一个(X)或一组(X1,X2,…,Xk)变量的相依关系的统计分析方法。回归分析(regression analysis)是确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法。运用十分广泛,回归分析按照涉及的自变量的多少,可分为一

如何做好统计员

如何做好公司的统计工作 随着现在企业对,节能降耗,节省费用,减少成本开支和提高产品产量和产品质量的问题越来越重视,企业统计部门也重要起来。一个企业要把以上几个方面做好就必须运用统计数据、统计分析来监控和分析企业的生产活动。可以说,在对经济活动和经济指标的分析方面,统计是最方便、最有力的方法和最基本的手段。 企业如果忽视统计信息工作,不善于运用统计方法来对经济运行状况进行细致、科学的分析,造成企业经济活动的原始记录不全面、不准确,许多经济、质量、成本、生产等各方面缺乏准确的记录和完整的核算,导致企业各种经济数据失真、造假,在管理上只能看到结果,不能分析其原因。不能通过统计分析来揭示问题的内部本质及其相互关系和发展变化趋势。就会造成企业管理混乱,费用失控,经济效益低下,同时也会造成管理措施上只治标、不治本,在经营上感情用事,盲目决策、瞎指挥。使公司的管理水平长期低下、粗放。因此,可以说切实加强公司企业的统计工作,发挥统计分析的作用,已经成为解决上述诸多矛盾的一个突破口,成为改进经营管理,完善经济核算、提高产品质量,实现管理现代化的一项基础性的基本建设。因此,要大力、切实加强企业的统计工作。 做好统计工作首先要做好以下几点: 1、企业要全面加强统计工作,统计人员要到位。企业应当根据企业经营规模的大小和产品生产经营的复杂程度,在公司内设立统计信息机构或专职统计人员,负责组织全公司的统计信息工作,负责组织指导各车间、各部门的业

务统计工作,统一管理各种统计报表资料,开展统计调查、统计分析工作。企业内各部门和生产车间原则上都应配备专职或兼职统计人员,兼职统计也必须以统计工作为主兼做其他业务,以确保能够完成部门和车间的统计任务。 2、由企业综合统计统一管理、发布各种统计数据。一律由企业的综合统计统一承担对外(对政府、对新闻单位、对企业)提供统计报表资料的任务,不准数出多门。其他部门非经公司统计同意,不准对外提供统计数据资料。公司今后对工作进行考核、检查、评比和总结,原则上一律以综合统计提供的数据为准。当业务统计与综合统计发生矛盾时,应查清事实,协调解决。对不能协调解决的,必须维护综合统计的权威。 3、提高统计工作的时效性和权威性。企业综合统计有权按照中华人民共和国统计法和山东省统计管理条例的要求,独立的向本企业各部门、各车间进行统计调查,查阅各种文件、各种原始凭证,业务凭证和有关的票据,收集各种统计信息资料,各部门、各车间应积极予以协助配合,不得以任何理由予以刁难、推委、搪塞和拒绝。为使综合统计人员全面了解生产经营状况,掌握第一手资料,应允许企业综合统计人员列席参加生产经营方面的有关会议,包括生产经营调度会议,经济核算会议,经济活动分析、质量分析会议,生产经营计划会议等。 4、综合统计人员,必须按照国家统计法和统计报表制度的要求,在公司内建立健全统计信息网络,及时、准确、全面的向总经理和上级统计部门提供统计报表资料,完成各种统计调查、统计分析任务。积极组织指导各车间、各部门的统计业务工作,培训指导各车间、各部门的统计人员。定期对公司生产经营情况、质量指标完成情况和产、供、销、存情况进行统计分析,开展统计

《统计学原理》常用公式及计算题目分析

《统计学原理》常用公式汇总及计算题目分析 第三章统计整理 a) 组距=上限-下限 b) 组中值=(上限+下限)÷2 c) 缺下限开口组组中值=上限-1/2邻组组距 d) 缺上限开口组组中值=下限+1/2邻组组距 第四章综合指标 i. 相对指标 1. 结构相对指标=各组(或部分)总量/总体总量 2. 比例相对指标=总体中某一部分数值/总体中另一部分数值 3. 比较相对指标=甲单位某指标值/乙单位同类指标值 4. 强度相对指标=某种现象总量指标/另一个有联系而性质不同的 现象总量指标 5. 计划完成程度相对指标=实际数/计划数 =实际完成程度(%)/计划规定的完成程度(%) ii. 平均指标

1.简单算术平均数: 2.加权算术平均数或 iii. 变异指标 1.全距=最大标志值-最小标志值 2.标准差: 简单σ= ;加权σ= 3.标准差系数: 第五章抽样估计 1.平均误差: 重复抽样: 不重复抽样:

2.抽样极限误差 3.重复抽样条件下: 平均数抽样时必要的样本数目 成数抽样时必要的样本数目 4.不重复抽样条件下: 平均数抽样时必要的样本数目 第八章 指数分数 一、综合指数的计算与分析 ()() ()p x 2 2 2 2 x 2 p n (1)1N (2)p 1-p p 1-p (3)p 1-p μ= μ= σσ σδδ?? ?????→??→??→??→,最基本的是:若为:乘以-若不重复抽样类型抽样整为:若为群抽样: n N R r ??→??→

(1)数量指标指数 此公式的计算结果说明复杂现象总体数量指标综合变动的方向和程度。 ( - ) 此差额说明由于数量指标的变动对价值量指标影响的绝对额。 (2)质量指标指数 此公式的计算结果说明复杂现象总体质量指标综合变动的方向和程度。 ( - ) 此差额说明由于质量指标的变动对价值量指标影响的绝对额。 加权算术平均数指数= 加权调和平均数指数= (3)复杂现象总体总量指标变动的因素分析 相对数变动分析: = ×

词语搭配抽取的统计方法及计算机实现

词语搭配抽取的统计方法及计算机实现 邓耀臣王同顺 (上海交通大学外国语学院,上海200240 ) 摘要:计算机语料库的发展为词语搭配研究提供了新的方法。然而,也同样受到资源共享困难和语料分析工具不足的困惑。本文在简要介绍词语搭配抽取中常用的三种统计方法的基础上,重点提出一种将免费检索软件Wconcord和语言研究者较为熟悉的Visual Foxpro (VFP)编程技术相结合,计算词语搭配统计量,实现词语搭配自动抽取的方法并对这种方法的可行性和结果的可靠性进行了评估。 关键词:词语搭配;统计方法;计算机实现 Statistics in Collocation Extraction and Computer Implementation DENG Yaochen, WANG Tongshun (College of Foreign Studies, Shanghai Jiao Tong University, Shanghai 200240, China) Abstract: The development of computer corpora provides a new approach for collocation study. However, the corpus-based collocation study is restricted by difficulties in resource share and inefficiency of current analysis tools. This paper, on the basis of the introduction to three commonly-used statistics in collocation extraction, proposes a method to calculate the collocation measures and to extract collocations automatically by combining a free concordance software and Visual Foxpro. An evaluation test confirms its practicability and reliability. Key words: collocation, statistics, computer implementation 语料库语言学的发展为语言研究开辟了一个新的领域,词语搭配以其在语言产生、语言理解和语言学习中的重要作用无疑处于该领域的中心地位。然而,基于语料库的词语搭配研究也同样受到资源共享困难和语料分析工具不足的困惑。目前词语搭配研究中较为权威可靠的工具要么属于商业性软件,如WordSmith,Sara等,价格昂贵,不是一般的研究人员所能拥有;要么功能不全,如TACT仅提供Z-值并且对语料库的大小有严格限制,WordSmith 仅提供MI-值,只能抽取出显著性最高的10个搭配词。由此可见,现有工具远不能满足语料库深入研究的需要。本文在简要介绍词语搭配抽取中常用的三种统计方法的基础上,重点提出一种将免费检索软件Wconcord和语言研究者较为熟悉的Visual Foxpro(VFP)编程技术相结合,计算词语搭配统计量,实现词语搭配自动抽取的方法。通过与TACT和WordSmith 抽取结果的对比,对这种方法的可行性和结果的可靠性进行了评估。 1 词语搭配抽取的统计方法 词语搭配指的是词与词的结伴使用这种语言现象,是词语间的典型共现行为(Firth 作者简介:邓耀臣(1967—),男,汉,博士研究生。研究方向:语料库语言学与二语习得。 王同顺(1955—),男,汉,教授,博士生导师。研究方向:二语习得,大纲设计。

统计学常用公式汇总情况

统计学常用公式汇总 项目三 统计数据的整理与显示 组距=上限-下限 a) 组中值=(上限+下限)÷2 b) 缺下限开口组组中值=上限-邻组组距/2 c) 缺上限开口组组中值=下限+1/2邻组组距 例 按完成净产值分组(万元) 10以下 缺下限: 组中值=10—10/2=5 10—20 组中值=(10+20)/2=15 20—30 组中值=(20+30)/2=25 30—40 组中值=(30+40)/2=35 40—70 组中值=(40+70)/2=55 70以上 缺上限:组中值=70+30/2=85 项目四 统计描述 i. 相对指标 1. 结构相对指标=各组(或部分)总量/总体总量 2. 比例相对指标=总体中某一部分数值/总体中另一部分数值 3. 比较相对指标=甲单位某指标值/乙单位同类指标值 4. 动态相对指标=报告期数值/基期数值 5. 强度相对指标=某种现象总量指标/另一个有联系而性质不同的现 象总量指标 6. 计划完成程度相对指标K = 计划数 实际数 =%%计划规定的完成程度实际完成程度 7. 计划完成程度(提高率):K= %10011?++计划提高百分数实际提高百分数 计划完成程度(降低率):K= %10011?--计划提高百分数 实际提高百分数

ii. 平均指标 1.简单算术平均数: 2.加权算术平均数 或 iii. 变异指标 1. 全距=最大标志值-最小标志值 2.标准差: 简单σ= ; 加权 σ= 成数的标准差(1) p p p σ=-3.标准差系数: 项目五 时间序列的构成分析 一、平均发展水平的计算方法: (1)由总量指标动态数列计算序时平均数 ①由时期数列计算 n a a ∑= ②由时点数列计算 在连续时点数列的条件下计算(判断标志按日登记):∑ ∑=f af a 在间断时点数列的条件下计算(判断标志按月/季度/年等登记): 若间断的间隔相等,则采用“首末折半法”计算。公式为: 1 212 11 21-++++=-n a a a a a n n Λ

基于语料库同义词辨析的一般方法

收稿日期:2005-3-28 作者简介:1.张继东(1965-),男,安徽安庆人,东华大学外语学院讲师,研究方向为语料库语言学;2.刘 萍 (1965-),女,安徽芜湖人,上海交通大学技术学院副教授,研究方向为语料库语言学与英语教学法。 基于语料库同义词辨析的一般方法 张继东1 ,刘 萍 2 (1.东华大学外语学院,上海200051;2.上海交通大学技术学院,上海200231) 摘 要:基于语料库的同义词辨析方法包括:(1)统计出同义词在语料库的不同语域中的词频分布差异;(2)以节点词的跨距为参照,统计同义词的显著搭配词,并计算同义词与其搭配词相互信息值(M I 值)以及Z 值;(3)通过观察检 索行中所呈现的同义词搭配特征,揭示出它们的类联结、搭配关系和语义韵等语言特征。 关键词:同义词;语料库;语域;搭配;语义韵 中图分类号:H31312 文献标识码:A 文章编号:10022722X (2005)0620049204 Corpus 2ba sed Approaches to the D i fferen ti a ti on of English Synony m s Z HANG J i 2dong 1 ,L I U Ping 2 (1.College of Foreign Languages,Donghua University,Shanghai,200051,China;2.Technical School,Shanghai J iao Tong University,Shanghai,200231,China ) Abstract:W ithin cor pus 2based app r oaches,synony m s can be differentiated with reference t o:1)their distributi ons a mong different registers;2)their significant coll ocates,and the M I value and Z score bet w een synony m s and their coll ocates;3)their coll ocati onal behavi ors and se mantic p r os odies with regard t o certain colligati onal fra me works .Synony m s thus differentiated will have significant pedagogical i m p licati ons . Key W ords:synony m;cor pora;register;coll ocati on;semantic p r os ody 0.引言 英语是世界上使用最广泛的语言之一,其词汇量极其庞大,其中同义词占有很大比例,是语言学习的难点。据统计,英语语言中同义词、近义词的数量约占总词汇量的60%以上(贺晓东,2003),它们通过词形、词义、结构或用法等方方面面的相同或相近构成了庞大的英语词汇体系,切实学懂、用熟同义词是突破英语词汇的重要环节,更是提高英语写作、阅读、会话等技能的关键。 传统的同义词辨析方法,多依赖于直觉经验,采用内省的定性方法,对同义词的词目意义条分缕析,然而,一般的语言学习者在实际的运用中似乎仍然难得要领。本文拟从语料库语言学的角度,通过对相关的语料库进行检索统计,发现同义词在不同语域中的词频分布差异,计算出词语搭配的不同相互信息值,通过观察检索行中所呈现的同义词搭配特征,揭示出它们不同的类联结、搭配关系和语义韵等语言特征。 1.基于英语语料库的同义词辨析111同义词在不同语域中词频分布差异 语域是人们在实际的语言活动中,出于交际的需要,或因其所从事的职业和兴趣相异,亦或因其话语发生的情景、说话的对象、地点和话题的不同而产生的一种言语变体,体现为语言中的不同语体风格、用语格调等。同义词由于其内在意义的差异,在不同的语域中往往会呈现出不同的分布特征,所以统计它们不同语域中的频率差异,有助于将它们区分开来。 为了说明同义词在不同语域中的分布频率对同义词的辨析具有宏观指导作用,本文选取了一组同义形容词:big 、great 、large,对《朗文英语口语和书面语语料库》(简称LGS W E )所提供的数据进行搜集,按会话、小说、新闻、学术文章四个语域进行分类。 big 、great 、large 之间的词义差异,学习者似乎能够直接从词典类工具书中就可以查询出来,但是 第28卷 第6期2005年11月解放军外国语学院学报 Journal of P LA University of Foreign Languages Vol .28 No .6Nov 12005

常用医学统计学方法汇总

选择合适的统计学方法 1连续性资料 1.1 两组独立样本比较 1.1.1 资料符合正态分布,且两组方差齐性,直接采用t检验。 1.1.2 资料不符合正态分布,(1)可进行数据转换,如对数转换等,使之服从正态分布,然后对转换后的数据采用t检验;(2)采用非参数检验,如Wilcoxon检验。 1.1.3 资料方差不齐,(1)采用Satterthwate 的t’检验;(2)采用非参数检验,如Wilcoxon检验。 1.2 两组配对样本的比较 1.2.1 两组差值服从正态分布,采用配对t检验。 1.2.2 两组差值不服从正态分布,采用wilcoxon的符号配对秩和检验。 1.3 多组完全随机样本比较 1.3.1资料符合正态分布,且各组方差齐性,直接采用完全随机的方差分析。如果检验结果为有统计学意义,则进一步作两两比较,两两比较的方法有LSD检验,Bonferroni法,tukey 法,Scheffe法,SNK法等。 1.3.2资料不符合正态分布,或各组方差不齐,则采用非参数检验的Kruscal-Wallis法。如果检验结果为有统计学意义,则进一步作两两比较,一般采用Bonferroni法校正P值,然后用成组的Wilcoxon检验。 1.4 多组随机区组样本比较 1.4.1资料符合正态分布,且各组方差齐性,直接采用随机区组的方差分析。如果检验结果为有统计学意义,则进一步作两两比较,两两比较的方法有LSD检验,Bonferroni法,tukey 法,Scheffe法,SNK法等。 1.4.2资料不符合正态分布,或各组方差不齐,则采用非参数检验的Fridman检验法。如果检验结果为有统计学意义,则进一步作两两比较,一般采用Bonferroni法校正P值,然后用符号配对的Wilcoxon检验。 ****需要注意的问题: (1)一般来说,如果是大样本,比如各组例数大于50,可以不作正态性检验,直接采用t 检验或方差分析。因为统计学上有中心极限定理,假定大样本是服从正态分布的。 (2)当进行多组比较时,最容易犯的错误是仅比较其中的两组,而不顾其他组,这样作容易增大犯假阳性错误的概率。正确的做法应该是,先作总的各组间的比较,如果总的来说差别有统计学意义,然后才能作其中任意两组的比较,这些两两比较有特定的统计方法,如上面提到的LSD检验,Bonferroni法,tukey法,Scheffe法,SNK法等。**绝不能对其中的两

病案室常用统计公式

病案室常用统计公式 治愈率%= [治愈人数(13)/出院病人数(12)] *100% 好转率%=[好转人数(14)/出院病人数(12)] *100% 病死率%=[死亡人数(16/出院病人数(12)] *100% 病床周转次数(次)=出院病人数“总计”(11)/平均开放病床数(20)病床工作日(日)=实际占用总床数(21)/平均开放病床数(20) 实际病床使用率=实际占用总床数(21)/实际开放总床数(19) 出院者平均出院日=出院者占用总床日数(22)/出院人数“总计”(11)疾病构成%=(实际数/合计总数)*100% 增减数=本次数-上次数 增减率%=(增减数/上次数)*100%

*实际开放总床日数:指年内医院各科每日夜晚12点开放病床数总和,不论该床是否被病人占用,都应计算在内。包括消毒和小修理等暂停使用的病床,超过半年的加床。不包括因病房扩建或大修而停用的病床及临时增设病床。 *实际占用总床日数:指医院各科每日夜晚12点实际占用病床数(即每日夜晚12点住院人数)总和。包括实际占用的临时加床在内。病人入院后于当晚12点前死亡或因故出院的病人, 作为实际占用床位1天进行统计,同时亦应统计“出院者占用总床日数”1天,入院及出院人数各1人。 *出院者占用总床日数:指所有出院人数的住院床日之总和。包括正常分娩、未产出院、住院经检查无病出院、未治出院及健康人进行人工流产或绝育手术后正常出院者的住院床日数。 *平均开放病床数=实际开放总床日数/本年日历日数(365)。 *病床使用率=实际占用总床日数/实际开放总床日数X100%。 *病床周转次数=出院人数/平均开放床位数。 *病床工作日=实际占用总床日数/平均开放病床数。 *出院者平均住院日=出院者占用总床日数/出院人数。 *病床周转率=每月(年)出院人数/科(院)床位数 *病床使用率是反映每天使用床位与实有床位的比率,即实际占用的总床日数与实际开放的总床日数之比。 *实际占用的总床日数应该从每天实际占床人数中累加得到,依据于各科室每日的动态报表中 *出院者占用总床日数是出院人数住院天数的总和,依据于出院病人病案中住院天数,实际占用的总床日数用来计算病床使用率和平均病床工作日 抗生素使用强度%=所有抗菌药物累计DDD数/同期收治患者人天数(<40) 住院患者抗菌药物使用率%=使用了抗菌药物的患者数/患者总数

语料库常用统计方法

3.5语料库常用统计方法 第3章前几节对语料库应用中的几种主要技术做了介绍。通过语料检索、词表和主题词表的生成,可以得到一定数量的句子、词汇或结构。为能更好说明所得到的结果的真正意义,常常需要对它们加以统计学分析。本章主要介绍语料分析中的一些常用统计方法。 3.5.1 语料库与统计方法 介绍相关统计方法之前,首先需要了解为什么语料库应用中需要运用统计方法。在2.1节讲到文本采集时,我们知道文本或会话构成了最终的语料库样本。这些样本是通过一定的抽样方法获得的。研究中,我们需要描述这些样本的出现和分布情况。此外,我们还经常需要观察不同语言项目之间在一定语境中共同出现(简称共现)的概率;以及观察某个(些)语言项目在不同文本之间出现多少的差异性。这些需要借助统计学知识来加以描写和分析。 理论上说,几乎所有统计方法都可以用于语料库分析。本章只择其中一些常用方法做一介绍。我们更注重相关统计方法的实际应用,不过多探讨其统计学原理。这一章我们主要介绍语料分析中的频数标准化(normalization )、频数差异检验和搭配强度的计算方法。 3.5.2 频数标准化 基本原理 通常语料检索、词表生成结果中都会报告频数(frequency, freq 或raw frequency )。那么某词(如many )在某语料库中出现频数为100次说明什么呢?这个词在另一个语料库中出现频数为105次,是否可以说many 在第二个语料库中更常用呢?显然,不能因为105大于100,就认定many 在第二个语料库中更常用。这里大家很容易想到,两个语料库的大小未必相同。按照通常的思维,我们可以算出many 在两个语料库中的出现百分比,这样就可比了。这种情况下,我们是将many 在两个语料库中的出现频数归到一个共同基数100之上,即每100词中出现多少个many 。这里通过百分比得到的频率即是一种标准化频率。有些文献中标准化频率也称归一频率或标称频率,即基于一个统一基准得出的频率。 实例及操作 频数标准化,首先需要用某个(些)检索项的实际观察频数(原始频数,raw frequency )除以总体频数(通常为文本或语料库的总词数),这样得到每一个单词里会出现该检索项多少次。在频数标准化操作中,我们通常会在此基础上乘以1千(1万、1百万)得到平均每千(万、百万)词的出现频率。即: 1000?=总体频数 观测频数标准化频率(每千词) (注:观测频数即检索词项实际出现的次数;总体频数即语料库的大小或总形符数。) 例如,more 在中国学生的作文里出现251次,在英语母语者语料中出现475次。两个语料库的大小分别为37,655词次和174,676词次。我们可以根据上面的公式很容易计算出251和475对应的标准化频率。另外,我们还可以利用Excel 或SPSS 等工具来计算标准化频率。比如,可以将实际观察频数和语料库大小如图3.5.1输入相应的单元格,然后在C1单元格里输入=(A1/B1)*1000即可得到中国学生每千词使用more 约为6.67次。要得到母语

常用相关分析方法及其计算

二、常用相关分析方法及其计算 在教育与心理研究实践中,常用的相关分析方法有积差相关法、等级相关法、质量相关法,分述如下。 (一)积差相关系数 1. 积差相关系数又称积矩相关系数,是英国统计学家皮尔逊(Pearson )提出的一种计算相关系数的方法,故也称皮尔逊相关。这是一种求直线相关的基本方法。 积差相关系数记作XY r ,其计算公式为 ∑∑∑===----= n i i n i i n i i i XY Y y X x Y y X x r 1 2 1 2 1 ) ()() )(( (2-20) 式中i x 、i y 、X 、Y 、n 的意义均同前所述。 若记X x x i -=,Y y y i -=,则(2-20)式成为 Y X XY S nS xy r ∑= (2-21) 【 式中 n xy ∑称为协方差,n xy ∑的绝对值大小直观地反映了两列变量的一致性程 度。然而,由于X 变量与Y 变量具有不同测量单位,不能直接用它们的协方差 n xy ∑来表示两列变量的一致性,所以将各变量的离均差分别用各自的标准差 除,使之成为没有实际单位的标准分数,然后再求其协方差。即: ∑∑?= = )()(1Y X Y X XY S y S x n S nS xy r Y X Z Z n ∑?= 1 (2-22) 这样,两列具有不同测两单位的变量的一致性就可以测量计算。 计算积差相关系数要求变量符合以下条件:(1)两列变量都是等距的或等比的测量数据;(2)两列变量所来自的总体必须是正态的或近似正态的对称单峰分布;(3)两列变量必须具备一一对应关系。 2. 积差相关系数的计算

利用公式 (2-20)计算相关系数,应先求两列变量各自的平均数与标准差,再求离中差的乘积之和。在统计实践中,为方便使用数据库的数据格式,并利于计算机计算,一般会将(2-20)式改写为利用原始数据直接计算XY r 的公式。即: ∑∑∑∑∑∑∑---= 2 22 2) () (i i i i i i i i XY y y n x x n y x y x n r (2-23) (二)| (三)等级相关 在教育与心理研究实践中,只要条件许可,人们都乐于使用积差相关系数来度量两列变量之间的相关程度,但有时我们得到的数据不能满足积差相关系数的计算条件,此时就应使用其他相关系数。 等级相关也是一种相关分析方法。当测量得到的数据不是等距或等比数据,而是具有等级顺序的测量数据,或者得到的数据是等距或等比的测量数据,但其所来自的总体分布不是正态的,出现上述两种情况中的任何一种,都不能计算积差相关系数。这时要求两列变量或多列变量的相关,就要用等级相关的方法。 1. 斯皮尔曼(Spearman)等级相关 斯皮尔曼等级相关系数用R r 表示,它适用于两列具有等级顺序的测量数据,或总体为非正态的等距、等比数据。 斯皮尔曼等级相关的基本公式如下: ) 1(612 2--=∑n n D r R (2-24) 式中: Y X R R D -=____________对偶等级之差; n ____________对偶数据个数。 , 如不用对偶等级之差,而使用原始等级序数计算,则可用下式 )]1() 1(4[13+-+?-= ∑n n n R R n r Y X R (2-25) 式中: X R ___________X 变量的等级; Y R ____________Y 变量的等级; n ____________对偶数据个数。 (2-25)式要求∑∑=Y X R R ,∑∑=2 2Y X R R ,从而保证22Y X S S =。在观测变量中没有相同等级出现时可以保证这一条件。但是,在教育与心理研究实践中,搜集到的观测变量经常出现相同等级。在这种情况下,∑∑=Y X R R 的条件仍可得

16种常用的数据分析方法汇总

一、描述统计 描述性统计是指运用制表和分类,图形以及计筠概括性数据来描述数据的集中趋势、离散趋势、偏度、峰度。 1、缺失值填充:常用方法:剔除法、均值法、最小邻居法、比率回归法、决策树法。 2、正态性检验:很多统计方法都要求数值服从或近似服从正态分布,所以之前需要进行正态性检验。常用方法:非参数检验的K-量检验、P-P图、Q-Q图、W检验、动差法。 二、假设检验 1、参数检验 参数检验是在已知总体分布的条件下(一股要求总体服从正态分布)对一些主要的参数(如均值、百分数、方差、相关系数等)进行的检验。 1)U验使用条件:当样本含量n较大时,样本值符合正态分布 2)T检验使用条件:当样本含量n较小时,样本值符合正态分布 A 单样本t检验:推断该样本来自的总体均数μ与已知的某一总体均数μ0 (常为理论值或标准值)有无差别; B 配对样本t检验:当总体均数未知时,且两个样本可以配对,同对中的两者在可能会影响处理效果的各种条件方面扱为相似;

C 两独立样本t检验:无法找到在各方面极为相似的两样本作配对比较时使用。 2、非参数检验 非参数检验则不考虑总体分布是否已知,常常也不是针对总体参数,而是针对总体的某些一股性假设(如总体分布的位罝是否相同,总体分布是否正态)进行检验。适用情况:顺序类型的数据资料,这类数据的分布形态一般是未知的。 A 虽然是连续数据,但总体分布形态未知或者非正态; B 体分布虽然正态,数据也是连续类型,但样本容量极小,如10以下; 主要方法包括:卡方检验、秩和检验、二项检验、游程检验、K-量检验等。 三、信度分析 检査测量的可信度,例如调查问卷的真实性。 分类: 1、外在信度:不同时间测量时量表的一致性程度,常用方法重测信度 2、内在信度;每个量表是否测量到单一的概念,同时组成两表的内在体项一致性如何,常用方法分半信度。 四、列联表分析 用于分析离散变量或定型变量之间是否存在相关。

统计学常用公式汇总

《统计学原理》常用公式汇总 组距=上限-下限组中值=(上限+下限)÷2 缺下限开口组组中值=上限-1/2邻组组距缺上限开口组组中值=下限+1/2邻组组距 111平均指标 1.简单算术平均数: 2.加权算术平均数 或 iii.变异指标 1.全距=最大标志值-最小标志值 2.标准差: 简单σ= ;加权σ= 3.标准差系数: 第五章抽样估计 1.平均误差:重复抽样: 不重复抽样: 2.抽样极限误差 3.重复抽样条件下:平均 数抽样时必要的样本数目 成数抽样时必要的样本数目 4.不重复抽样条件下:平均数抽样时必要的样本数目 第七章相关分析 1.相关系数 2.配合回归方程y=a+bx

3.估计标准误: 第八章指数分数一、综合指数的计算与分析 (1)数量指标指数 此公式的计算结果说明复杂现象总体数量指标综合变动的方向和程度。 ( - ) 此差额说明由于数量指标的变动对价值量指标影响的绝对额。 (2)质量指标指数 此公式的计算结果说明复杂现象总体质量指标综合变动的方向和程度。 ( - ) 此差额说明由于质量指标的变动对价值量指标影响的绝对额。 加权算术平均数指数= 加权调和平均数指数= (3)复杂现象总体总量指标变动的因素分析 相对数变动分析: = × 绝对值变动分析: - = ( - )×( - ) 第九章动态数列分析 一、平均发展水平的计算方法:

(1)由总量指标动态数列计算序时平均数 ①由时期数列计算 ②由时点数列计算 在间断时点数列的条件下计算: a.若间断的间隔相等,则采用“首末折半法”计算。公式为: b.若间断的间隔不等,则应以间隔数为权数进行加权平均计算。公式为: (2)由相对指标或平均指标动态数列计算序时平均数 基本公式为: 式中:代表相对指标或平均指标动态数列的序时平均数; 代表分子数列的序时平均数; 代表分母数列的序时平均数; 逐期增长量之和累积增长量 二. 平均增长量=─────────=───────── 逐期增长量的个数逐期增长量的个数 (1)计算平均发展速度的公式为: (2)平均增长速度的计算 平均增长速度=平均发展速度-1(100%)

统计学常用公式汇总

统计学常用公式汇总 项目三统计数据的整理与显示 组距二上限一下限 a ) 组中值=(上限+下限)* 2 b ) 缺下限开口组组中值二上限一邻组组距/2 c ) 缺上限开口组组中值二下限+1/2邻组组距 例 按完成净产值分组(万元) 10以下 10— 20 20— 30 30— 40 40— 70 70以上 缺下限:组中值=10 —10/2=5 组 中值=(10+20) /2=15 组中值 =(20+30) /2=25 组中值=(30+40) /2=35 组中值=(40+70) /2=55 缺上限:组中值=70+30/2=85 项目四统计描述 i. 相对指标 1. 结构相对指标=各组(或部分)总量/总体总量 2. 比例相对指标=总体中某一部分数值/总体中另一部分数值 3. 比较相对指标=甲单位某指标值/乙单位同类指标值 4. 动态相对指标二报告期数值/基期数值 5. 强度相对指标二某种现象总量指标/另一个有联系而性质不同的现 象总量 指标 实际数= 实际完成程度% 计划数 计划规定的完成程度% 1实际提高百分数 IK = 1计划提高百分数 ii. 平均指标 1. 简单算术平均数: 2. 加权算术平均数 6. 计划完成程度相对指标 7. 计划完成程度(提高率) 100% 计划完成程度(降低率) ,_1实际提高百分数 K= 1计划提高百分数

iii. 变异指标 1. 全距=最大标志值-最小标志值 2. 标准差:简单c = ' J : P Jp(1 P) 成数的标准差 项目五 时间序列的构成分析 、平均发展水平的计算方法: (1)由总量指标动态数列计算序时平均数 ① 由时期数列计算 ② 由时点数列计算 - a a n 在连续时点数列的条件下计算(判断标志按日登记):a 在间断时点数列的条件下计算(判断标志按月/季度/年等登记): 若间断的间隔相等,则采用“首末折半法”计算。公式为: 若间断的间隔不等,则应以间隔数为权数进行加权平均计算 (2)(选用)由相对指标或平均指标动态数列计算序时平均数 基本公式为: 式中:_c 代表相对指标或平均指标动态数列的序时平均数; a 代表分子数列的 序时平均数; b 代表分母数列的序时平均数; 3.标准差系数: a 1 a 2 2 1 a n 2an1 a 1 a 2 a ? a 3 a n 1 a n 2 公式为: 4F

(环境管理)常用环境统计计算方法

常用环境统计计算方法 “三废”排放统计是环境统计工作的重要组成部分。“三废”排放量计算是基层环境统计工作的基础,如何准确地填好基层环境统计报表,熟练掌握和运用环境统计计算方法是关键。目前,“三废”排放统计常用计算方法归纳起来有如下三种: 一、实测法 通过实地测量排污单位外排废气、废水(流)量及其污染物浓度,计算出废气、废水排放量及其中某污染物绝对排放量。常用计算公式: G i=K·Q·C i 式中:G i ——废气(或废水)中污染物i的排放量,kg/a; Q ——废气(或废水)排放总量,m3/a(或标m3/a); K ——单位换算系数,对废水取10-6,对废气取10-9; C i ——污染物i的实测浓度,mg/L(或mg/标m3)。 为了保证数据的准确性,需多次测定样品取平均值。 二、物料衡算法 物料衡算法是根据质量守恒定律,对某系统计算物质质量转化的方法。在生产过程中,进入某系统的物料量,必等于排出的物料量和过程中的积累量。 进入系统的物质量(∑G 入)系统输出的物质量(∑G 出)+系统内积累的物质量

三、排放系数法(经验计算法) 排放系数指在正常技术经济和管理条件下,生产某单位产品所产生(或排放)的污染物数量的统计平均值。根据生产过程中单位产品的经验排放系数与产品产量,计算出“三废”排放量的方法即是排放系数法。计算通式:G i=K i·W 式中:G i——污染物i的年排放(产生)量,kg/a; K i——污染物i的排放系数,kg/t(产品); W——产品年产量(或生产规模),t。 以上是“三废”排放统计计算的基本方法,各基层单位应结合实际情况灵活选用。但为保证计算结果准确地反映实际情况,在实际操作时必须遵循以下原则: (一)安装自动在线监测设备并与当地环保局监测站联网的单位,必须采用实时监测数据的汇总数作为排污量数据; (二)未安装自动在线监测设备的单位,在采用实测法计算排污数据时,为保证监测数据能够准确地反映实际情况,需多次测定样品取平均值,并须经当地环保局监测站认定; (三)使用经环保局监测站认定的监测数据计算得出的排污数据,须再与使用排放系数计算得出的排污数据对照验证。如与排放系数法计算结果偏差较大,应以排放系数法计算结果为依据进行调整。尤其是二氧化硫排放量的计算,一定要以排放系数法计算结果验证。

统计常用公式汇总.

常用公式 第三章统计整理 a)组距=上限-下限 b)组中值=(上限+下限)÷2 c)缺下限开口组组中值=上限-1/2邻组组距 d)缺上限开口组组中值=下限+1/2邻组组距 第四章综合指标 i.相对指标 1.结构相对指标=各组(或部分)总量/总体总量 2.比例相对指标=总体中某一部分数值/总体中另一部分数值 3.比较相对指标=甲单位某指标值/乙单位同类指标值 4.强度相对指标=某种现象总量指标/另一个有联系而性质不同的现象总量指 标 5.计划完成程度相对指标=实际数/计划数 =实际完成程度(%)/计划规定的完成程度(%) ii.平均指标 1.简单算术平均数: 2.加权算术平均数或 iii.变异指标 1.全距=最大标志值-最小标志值

2.标准差: 简单σ= ;加权σ= 3.标准差系数: 第五章抽样估计 1.平均误差: 重复抽样: 不重复抽样: 2.抽样极限误差 3.重复抽样条件下: 平均数抽样时必要的样本数目 成数抽样时必要的样本数目 4.不重复抽样条件下: 平均数抽样时必要的样本数目 第七章相关分析 1.相关系数

2.配合回归方程y=a+bx 3.估计标准误: 第八章指数分数 一、综合指数的计算与分析 (1)数量指标指数 此公式的计算结果说明复杂现象总体数量指标综合变动的方向和程度。 (-) 此差额说明由于数量指标的变动对价值量指标影响的绝对额。 (2)质量指标指数 此公式的计算结果说明复杂现象总体质量指标综合变动的方向和程度。 (-) 此差额说明由于质量指标的变动对价值量指标影响的绝对额。

加权算术平均数指数= 加权调和平均数指数= (3)复杂现象总体总量指标变动的因素分析 相对数变动分析: = × 绝对值变动分析: -= (-)×(-)第九章动态数列分析 一、平均发展水平的计算方法: (1)由总量指标动态数列计算序时平均数 ①由时期数列计算 ②由时点数列计算 在间断时点数列的条件下计算: a.若间断的间隔相等,则采用“首末折半法”计算。公式为: b.若间断的间隔不等,则应以间隔数为权数进行加权平均计算。公式为:

相关文档
相关文档 最新文档