当前位置：文档库 › 统计学

统计学

1.3 统计数据可分为哪几种类型？不同类型的数据各有什么特点？

按照所采用的计量尺度不同，可以将统计数据分为：

（1）分类数据：特点：非数字型数据。它是对数据进行分类的结果，数据表现为类别，用文字来表述。为便于统计处理，可用数字代码来表示各个类别。

（2）顺序数据：特点：非数字型数据。也是类别，但这些类别是有序的。也可以用数字代码来表示。

（3）数值型数据：特点：是按数字尺度额量的观察值，其结果表现为具体的数值。现实中所处理的大多数都是数值型数据。

分类数据和顺序数据说明的是事物的品质特征，用文字来表述，其结果均表现为类别，统称为定型数据或品质数据；数值型数据说明的是现象的数量特征，用数值来表现，可称为定量数据或数量数据。

1.5 举例说明总体、样本、参数、统计量、变量这几个概念

总体：是包含所研究的全部个体（数据）的集合，通常由所研究的一些个体组成。

样本：是从总体中抽取的一部分元素的集合，构成样本的元素的数目称为样本量。

参数：是用来描述总体特征的概括性数字度量。

统计量：是用来描述样本特征的概括性数字度量。

变量：是说明现象某种特征的概念，特点是从一次观察到下一次观察结果会呈现出差别或变化。

比如我们欲了解某市的中学教育情况，那么该市的所有中学则构成一个总体，其中的每一所中学都是一个个体。我们若从全市中学中按某种抽样规则抽出了10所中学，则这10所中学就构成了一个样本。在这项调查中我们可能会对升学率感兴趣，那么升学率就是一个变量。我们通常关心的是全市的平均升学率，这里这个平均值就是一个参数。而此时我们只有样本的有关升学率的数据，用此样本计算的平均值就是统计量。

2.2.1.1 概率抽样的特点

概率抽样也称随机抽样，是指遵循随机原则进行的抽样，总体中每个单位都有一定的机会被选入样本。具有的特点：

（1）抽样时是按照一定的概率以随机原则抽取样本；

（2）每个单位被抽中的概率是已知的，或可以计算出来；

（3）当用样本对总体目标量进行估计时，要考虑到每个样本单位被抽中的概率。

2.2.1.3 概率抽样和非概率抽样的比较

（1）概率抽样：依据随机原则抽选样本

样本统计量的理论分布存在

可根据调查的结果推断总体

目的在于掌握研究对象总体的数量特征，技术含量更高

（2）非概率抽样：不是依据随机原则抽选样本

样本统计量的分布是不确切的

无法使用样本的结果推断总体

特点是操作简便、时效快、成本低

适合探索性的研究，调查的结果用于发现问题，适合市场调查中的概念测试3.4 直方图和条形图有何区别？

（1）条形图是用条形的长度（横直时）表示各类别频数的多少，其宽度（表示类别）则是固定的，没有意义；直方图是用面积表示各组频数的多少，矩形的高度表示每一组的频数或频率，宽度则表示各组的组距，其高度和宽度均有意义。

（2）由于分组数据具有连续性，直方图的各矩形通常是连续排列，条形图是分开排列

（3）条形图主要用于展示分类数据，直方图主要用于展示数值型数据

3.9 制作统计表应注意哪几个问题？

（1）要合理安排统计表的结构，比如行标题、列标题、数字资料的位置应安排合理。当然，由于强调的问题不同，行标题和列标题可以互换，但应使统计表的横竖长度比例适当，避免出现过高或过长的表格形式。

（2）表头一般应包括表号、总标题和表中数据的单位等内容。总标题应简明确切地概括出统计表的内容，一般需要表明统计数据的时间（When）、地点（Where）以及何种数据（What），即标题内容应满足3W要求。如果表中的全部数据都是同一计量单位，可放在表的右上角标明，若各指标的计量单位不同，则应放在每个指标后或单列出一列标明。

（3）表中的上下两条线一般用粗线，中间的其他线要用细线，这样使人看起来清楚、醒目。通常情况下，统计表的左右两边不封口，列标题之间一般用竖线隔开，而行标题之间通常不必用横线隔开。总之，表中尽量少用横竖线。表中的数据一般是右对齐，有小数点时应以小数点对齐，而且小数点的位数应统一。对于没有数字的表格单元，一般用“－”表示，一线填好的统计表不应出现空白单元格。

（4）在使用统计表时，必要时可在表的下方加上注释，特别要注意注明资料来源，以表示对他人劳动成果的尊重，方便读者查阅使用。

4.5 简述众数、中位数和平均数的特点和应用场合

众数：一组数据分布的峰值，不受极端值的影响。众数只有在数据量较多时才有意义缺点--具有不惟一性。

适合--作为分类数据的集中趋势测度值

中位数：一组数据中间位置上的代表值，不受数据极端值的影响。分布偏斜程度较大时使用适合--作为顺序数据的集中趋势测度值

平均数：针对数值型数据计算，利用了全部数据信息，实际中应用最广泛的集中趋势测度值缺点--易受极端值的影响，对于偏态分布的数据，平均数的代表性差

4.8 为什么要计算离散系数？

对于平均水平不同或计量单位不同的不同组别的变量值，是不能用标准差直接比较其离散程度的。为消除变量值水平高低和计量单位不同对离散程度测度值的影响，需要计算离散系数。离散系数也称为变异系数，它是一组数据的标准差与其相应的平均数之比。离散系数是测度数据离散程度的相对统计量，主要是用于比较不同样本数据的离散程度。离散程度越大，说明数据的离散程度也大；离散系数小，说明数据的离散程度也小。

13.1 简述时间序列的构成要素

时间序列是同一现象在不同时间上的相继观察值排列而成的序列。其四大构成要素：

（1）趋势：时间序列在长期内呈现出来的某种持续上升或持续下降的变动，也称长期趋势。时间序列中的趋势可以是线性的，也可以是非线性的

（2）季节性：也称季节波动，是时间序列在一年内重复出现的周期性变动。含有季节成分的序列可能含有趋势，也可能不含有趋势

（3）周期性：也称循环波动，是时间序列中呈现出来的围绕长期趋势的一种波浪形或震荡式变动。无固定规律，变动周期多在一年以上，且周期长短不一。通常由经济环境的变化引起。（4）随机性：也称不规则波动，偶然性因素对时间序列产生影响，致使时间序列呈现出某种随机波动。

13.3 简述平稳序列和非平稳序列的含义

（1）平稳序列：是基本上不存在趋势的序列。序列中的各观察值基本上在某个固定的水平上波动，不同的时间段波动的程度不同，不存在某种规律，其波动可以看成是随机的。

（2）非平稳序列：是包含趋势、季节性或周期性的序列，可能只含有其中的一种成分，也可能是几钟成分的组合。非平稳序列又可以分为有趋势的序列，有趋势和季节性的序列、几钟成分混合而成的复合型序列。

应用统计学论文

应用统计学课程论文经过这学期短暂的学习应用统计学，我对这门学科也有了一定认识。应用统计学是一门运用统计学的原理和方法，研究各个领域有关数据收集、整理、分析的科学是经济、管理类专业的一门重要专业基础课程。掌握统计学的基本理论和方法，具有较好的科学素养，能熟练地运用计算机分析数据，能从事统计调查、统计信息管理、数量分析、市场研究、质量控制等工作。在当前的社会发展中，是市场经济和信息经济的时代，社会各个方面的发展都需要对信息进行收集、分析和整理，所以学好应用统计对不久即将走向社会的我们是只有好处，没有坏处的。绪论一、应用统计学的发展：从统计学的发展过程来看，可以把统计学大致分为古典统计学、近代统计学和现代统计学三个时期。第一、古典统计学时期：古典统计学时期是指17世纪初至18世纪末，这是统计学的创立时期,亦称古典统计学时期。在这时期出现了政治算术学派和德国的国势学派两个统计学派. 1、国势学派国势学派又称记述学派，产生于17世纪的德国。由于该学派主要以文字记述国家的显著事项，故称记述学派。 2、政治算术学派政治算术学派产生于19世纪中叶的英国,其创始人是威廉和约翰.“算术”是指统计方法。主要利用实际资料，运用数字、重量和尺度等统计方法对实际情况作了系统的数量对比分析，从而为统计学的形成和发展奠定了方法论基础。第二、近代统计学时期：近代统计学是指18世纪末到19世纪末这一百年的统计学，它是古典统计学的继续和发展，是古典统计学向现代统计学过渡的统计学。近代统计学的发端，不能不提到著名的统计学家阿道夫·凯特勒的卓越员献。他既继承了国势学和政治算术的传统，把统计学从作为管理国家行政的“政治医学”，扩展到作为研究社会内在矛盾及其规律性数量表现的科学认识方法，又积极地把古典概率引人统计学，以研究社会经济现象偶然变化中的规律性表现。 1、数理统计学派指概率论引进统计学形成数理统计学,以概率作为理论基础,抽象掉统计学的社会经济现象内涵,变成了抽象的数学分析和推断技术. 2、社会统计学派指研究社会现象变动的原因和规律性的实质性科学。社会统计学在这里也称为社会经济统计学,包括政治统计.经济统计.人口统计.犯罪统计等多方面内容. 第三、现代统计学时期：

统计学统计学概率与概率分布练习题

第5章概率与概率分布练习题 5.1 写出下列随机事件的基本空间：（1）抛三枚硬币。（2）把两个不同颜色的球分别放入两个格子。（3）把两个相同颜色的球分别放入两个格子。（4）灯泡的寿命（单位：h ）。（5）某产品的不合格率（%）。 5.2 假定某布袋中装有红、黄、蓝、绿、黑等5个不同颜色的玻璃球，一次从中取出3个球，请写出这个随机试验的基本空间。 5.3 试定义下列事件的互补事件：（1） A ={先后投掷两枚硬币，都为反面}。（2） A ={连续射击两次，都没有命中目标}。（3） A ={抽查三个产品，至少有一个次品}。 5.4 向两个相邻的军火库发射一枚导弹，如果命中第一个和第二个军火库的概率分别是、，而且只要命中其中任何一个军火库都会引起另一个军火库的爆炸。试求炸毁这两个军火库的概率有多大。 5.5 已知某产品的合格率是98%，现有一个检查系统，它能以的概率正确的判断出合格品，而对不合格品进行检查时，有的可能性判断错误（错判为合格品），该检查系统产生错判的概率是多少 5.6 有一男女比例为51：49的人群，已知男人中5%是色盲，女人中%是色盲，现随机抽中了一个色盲者，求这个人恰好是男性的概率。根据这些数值，分别计算：（1）有2到5个（包括2个与5个在内）空调器出现重要缺陷的可能性。（2）只有不到2个空调器出现重要缺陷的可能性。（3）有超过5个空调器出现重要缺陷的可能性。 5.8 设X 是参数为4=n 和5.0=p 的二项随机变量。求以下概率：（1）)2(

5.9 一条食品生产线每8小时一班中出现故障的次数服从平均值为的泊松分布。求：（1）晚班期间恰好发生两次事故的概率。（2）下午班期间发生少于两次事故的概率。（3）连续三班无故障的概率。 5.10 假定X 服从12=N ，7=n ，5=M 的超几何分布。求：（1）)3(=X P 。（2）)2(≤X P 。（3）)3(>X P 。 5.11 求标准正态分布的概率：（1）)2.10(≤≤Z P 。（2）)49.10(≤≤Z P 。（3）)048.0(≤≤-Z P 。（4）)037.1(≤≤-Z P 。（5）)33.1(>Z P 。 5.12 由30辆汽车构成的一个随机样本，测得每百公里的耗油量数据（单位：L ）如下：试判断该种汽车的耗油量是否近似服从正态分布 5.13 设X 是一个参数为n 和p 的二项随机变量，对于下面的四组取值，说明正态分布是否为二项分布的良好近似（1）30.0,23==p n 。（2）01.0,3==p n 。（3）97.0,100==p n 。（4）45.0,15==p n 。

应用统计学试题和答案分析

六、计算题：（要求写出计算公式、过程，结果保留两位小数，共4题，每题10分） 1、某快餐店对顾客的平均花费进行抽样调查，随机抽取了49名顾客构成一个简单随机样本，调查结果为：样本平均花费为元，标准差为元。试以%的置信水平估计该快餐店顾客的总体平均花费数额的置信区间；（φ（2）=）49=n 是大样本，由中心极限定理知，样本均值的极限分布为正态分布，故可用正态分布对总体均值进行区间估计。已知:8.2,6.12==S x 0455.0=α 则有: 202275 .02 ==Z Z α 平均误差=4.07 8 .22==n S 极限误差8.04.022 2 =?==? n S Z α 据公式 x x ±=±? 代入数据，得该快餐店顾客的总体平均花费数额%的置信区间为（，） 3 要求：①、利用最小二乘法求出估计的回归方程；②、计算判定系数R 。附：10805 1 2 ) (=∑-=i x x i 8.3925 1 2 ) (=∑-=i y y i 58=x 2.144=y 3题解 ① 计算估计的回归方程： ∑∑∑∑∑--= )(22 1x x n y x xy n β) ==-??-?290 217900572129042430554003060 = =-= ∑∑n x n y ββ)) 1 0 – ×58= 估计的回归方程为：y ) =+x ② 计算判定系数： 4 计算下列指数：①拉氏加权产量指数；②帕氏单位成本总指数。 4题解： ① 拉氏加权产量指数

= 1 000 00 1.1445.4 1.13530.0 1.08655.2 111.60%45.430.055.2q p q q p q ?+?+?==++∑∑ ② 帕氏单位成本总指数= 11100053.633.858.5 100.10%1.1445.4 1.13530.0 1.08655.2q p q q p q ++==?+?+?∑∑ 模拟试卷(二) 一、填空题（每小题1分，共10题） 1、我国人口普查的调查对象是，调查单位是。 2、___ 频数密度 =频数÷组距，它能准确反映频数分布的实际状况。 3、分类数据、顺序数据和数值型数据都可以用饼图条图图来显示。 4、某百货公司连续几天的销售额如下：257、276、297、252、238、310、240、236、265，则其下四分位数 5、某地区2005年1季度完成的GDP=30亿元，2005年3季度完成的GDP=36亿元，则GDP 年度化增长率6、某机关的职工工资水平今年比去年提高了5%，职工人数增加了2%，则该企业工资总额增长了 % 。 7、对回归系数的显着性检验，通常采用的是 t 检验。 8、设置信水平=1-α，检验的P 值拒绝原假设应该满足的条件是 p e M >o M ③、x >o M >e M 3、比较两组工作成绩发现σ甲＞σ乙，x 甲＞x 乙，由此可推断 ( )