当前位置：文档库 › 数据分析大作业

数据分析大作业

1. 通过对不同地区不同年份城乡居民人民币存储存款调查如下图（存款金额单位：亿元）：

其中数据来自中国统计年鉴2010。

（1）对不同地区的存款金额进行单因素方差分析

表1.1

从表 1.1可以看出存款金额的离差平方总和为 2.548E8，不同地区可解释的变差为2.117E8，抽样误差引起的变差为4.308E7，它们的方差分别为5.292E7和2872103.148，相除所得的F统计量为18.425，对应概率P值近似为0。取显著性水平为0.05由于概率P小于显著性水平，则拒绝零假设，认为不同地区对存款金额产生了显著性的影响。

表1.2

表1.2表明5种不同地区各有4个样本，1地区的存款金额最高，5地区的存款金额最低，从下图可以验证。

表1.3

表1.3表明不同地区的存款金额方差齐性经验值为4.317，概率P值为0.016，取显著性水平为0.05，由于概率P小于显著性水平，则拒绝零假设，认为不同地区对存款金额的总体方差有显著性差异，满足方差分析的前提要求。

多重比较

因变量:存款金额

(I) 地区(J) 地

区均值差 (I-J) 标准误显著性

95% 置信区间

下限上限

Scheffe 1 2 7432.4000*1198.3537 .000 3242.911 11621.889

3 1190.4000 1198.3537 .907 -2999.089 5379.889

4 4779.3500*1198.3537 .021 589.861 8968.839

5 8136.2500*1198.3537 .000 3946.761 12325.739

2 1 -7432.4000*1198.3537 .000 -11621.889 -3242.911

3 -6242.0000*1198.3537 .003 -10431.489 -2052.511

4 -2653.0500 1198.3537 .342 -6842.539 1536.439

5 703.8500 1198.3537 .985 -3485.639 4893.339

3 1 -1190.4000 1198.3537 .907 -5379.889 2999.089

2 6242.0000*1198.3537 .00

3 2052.511 10431.489

4 3588.9500 1198.3537 .113 -600.539 7778.439

5 6945.8500*1198.3537 .001 2756.361 11135.339

4 1 -4779.3500*1198.3537 .021 -8968.839 -589.861

2 2653.0500 1198.3537 .342 -1536.439 6842.539

3 -3588.9500 1198.3537 .113 -7778.439 600.539

5 3356.9000 1198.3537 .152 -832.589 7546.389

5 1 -8136.2500*1198.3537 .000 -12325.739 -3946.761

2 -703.8500 1198.3537 .985 -4893.339 3485.639

3 -6945.8500*1198.3537 .001 -11135.339 -2756.361

4 -3356.9000 1198.3537 .152 -7546.389 832.589 LSD 1 2 7432.4000*1198.3537 .000 4878.170 9986.630

3 1190.4000 1198.3537 .336 -1363.830 3744.630

4 4779.3500*1198.3537 .001 2225.120 7333.580

5 8136.2500*1198.3537 .000 5582.020 10690.480

2 1 -7432.4000*1198.3537 .000 -9986.630 -4878.170

3 -6242.0000*1198.3537 .000 -8796.230 -3687.770

4 -2653.0500*1198.3537 .043 -5207.280 -98.820

5 703.8500 1198.3537 .56

6 -1850.380 3258.080

3 1 -1190.4000 1198.3537 .336 -3744.630 1363.830

2 6242.0000*1198.3537 .000 3687.770 8796.230

4 3588.9500*1198.3537 .009 1034.720 6143.180

5 6945.8500*1198.3537 .000 4391.620 9500.080

4 1 -4779.3500*1198.3537 .001 -7333.580 -2225.120

2 2653.0500*1198.3537 .04

3 98.820 5207.280

3 -3588.9500*1198.3537 .009 -6143.180 -1034.720

5 3356.9000*1198.3537 .013 802.670 5911.130

5 1 -8136.2500*1198.3537 .000 -10690.480 -5582.020

2 -703.8500 1198.3537 .566 -3258.080 1850.380

3 -6945.8500*1198.3537 .000 -9500.080 -4391.620

4 -3356.9000*1198.3537 .013 -5911.130 -802.670 Bonferroni 1 2 7432.4000*1198.3537 .000 3494.564 11370.236

3 1190.4000 1198.3537 1.000 -2747.436 5128.236

4 4779.3500*1198.3537 .012 841.514 8717.186

5 8136.2500*1198.3537 .000 4198.414 12074.086

2 1 -7432.4000*1198.3537 .000 -11370.236 -3494.564

3 -6242.0000*1198.3537 .001 -10179.836 -2304.164

4 -2653.0500 1198.3537 .427 -6590.886 1284.786

5 703.8500 1198.3537 1.000 -3233.98

6 4641.686

3 1 -1190.4000 1198.3537 1.000 -5128.236 2747.436

2 6242.0000*1198.3537 .001 2304.164 10179.836

4 3588.9500 1198.3537 .091 -348.886 7526.786

5 6945.8500*1198.3537 .000 3008.014 10883.686

4 1 -4779.3500*1198.3537 .012 -8717.186 -841.514

2 2653.0500 1198.3537 .427 -1284.786 6590.886

3 -3588.9500 1198.3537 .091 -7526.786 348.886

5 3356.9000 1198.3537 .134 -580.93

6 7294.736

5 1 -8136.2500*1198.3537 .000 -12074.08

6 -4198.414

2 -703.8500 1198.3537 1.000 -4641.686 3233.986

3 -6945.8500*1198.3537 .000 -10883.686 -3008.014

4 -3356.9000 1198.3537 .134 -7294.736 580.936 *. 均值差的显著性水平为 0.05。

表1.4

表1.4中分别显示了两两地区下存款金额均值检验的结果。

表1.5

表1.5可以看出在显著性水平为0.05的情况下，S-N-K方法中5种不同地区下的均值有显著

性差异，形成三个相似性子集。在第一个子集中，组内相似的概率为0.566,；第二个子集中，组内相似的概率为1；第三个子集中，组内相似的概率为0.336。Scheffe方法中在第一个子

集中，组内相似的概率为0.152；在第二个子集中，组内相似的概率为0.113；在第三个子集中，组内相似的概率为0.907。

（2）对不同地区、不同年份的存款金额进行进行两因素方差分析。

表1.5

表1.5第一列是对观测变量总变差分解的说明；第二列是观测变量变差分解的结果；第三列是自由度；第四列是均方；第五列是F检验统计量的观测值；第六列是检验统计量的概率P值。

表1.6

2. 各地区的人口变动情况抽样调查样本数据如下（其中抽样比为0.873‰）：

其中数据来自中国统计年鉴2010

（1）分别对0-14岁、15-64岁、65岁以上的人口进行极大值、极小值、均值、标准差、方差统计量。

（2）对0-14岁人口画直方图、茎叶图和QQ图。

（3）分别对0-14岁、15-64岁、65岁以上的人口进行正态性的检验：K—S检验，W检验，取显著性水平为0.05。

结果分析：0-14岁中K—S检验P=0.020小于0.05 拒绝原假设，即数据所属的总体不是正态分布；W检验P=0小于0.05 拒绝原假设，即数据所属的总体

不是正态分布；

15-64岁中K—S检验P=0.014小于0.05 拒绝原假设，即数据所属的总

体不是正态分布；W检验P=0.089大于0.05 接受原假设，即数据所属

的总体是正态分布；

65岁以上中K—S检验P=0.012小于0.05 拒绝原假设，即数据所属的总

体不是正态分布；W检验P=0.003小于0.05 拒绝原假设，即数据所属

的总体不是正态分布；

互联网大数据案例分享

互联网大数据案例手中握有数据的公司站在金矿上，挖掘用户的行为习惯和喜好，凌乱纷繁的数据背后找到更符合用户兴趣和习惯的产品和服务，并对产品和服务进行针对性地调整和优化，这就是大数据的价值。有某互联网咨询公司，其手中有大量用户行为数据，希望建立用户行为分析系统，但面临数据量大，无法做到分析的实时性。也曾组建过Hadoop团队，但基于Hive 的分析系统不够实时，且项目预算有限。这家咨询公司后来通过Yonghong Z-Suite搭建大数据分析平台，完成了大数据量下的用户行为实时分析，那么下面就介绍下这个互联网大数据案例：首先需要分析的数据量是90 天细节数据约50 亿条数据，硬盘存储空间10TB左右。这些数据已经存储在Hadoop上，只是Hadoop无法做到实时分析，需要将其导入到Data Mart 中。考虑到数据压缩到Data Mart中后所需存储空间会变小，10TB的数据导入到Data Mart 中会经过压缩后大致需要900G的存储空间。假设900G的数据中有1/3是热数据需要分析的，则认为系统内存量需要300G，假设每台机器有64G内存，则大致需要5台机器。于是有如下配置： 90天的50亿详细数据已经导入到Data Mart中，经过系统调优，基于这些数据做的电商用户行为分析，互联网视频分析，互联网金融网站访问分析等等都可以在秒级响应。之后进行每日数据增量更新，并删除超过90天的数据，保存用于分析的数据为90天。

如何达到高性能计算呢？目前很多产品都是通过分布式并行计算来处理大数据计算，需要的技术有分布式文件系统，分布式通讯，计算任务拆解为可分布执行的分布式任务，需要库内计算等技术；另外列存储也是大数据高性能计算所需要的技术。上述互联网大数据案例的大数据分析平台的架构有了大数据，还要从大数据中提取价值，离不开分析工具，通过丰富的分析功能，在繁杂的数据中找到其中的价值。而大数据给分析提供了一定的挑战，需要高性能计算做支撑，才能在大数据的金矿中挖到金子。

2010年1月管综逻辑真题及答案解析

2010年1月MBA联考逻辑真题三、逻辑推理(本大题共30 小题，每小题2 分，共60 分。在下列每题给出的五个选项中，只有一项是符合试题要求的。请在答题卡...上将所选的字母涂黑。) 26.针对威胁人类健康的甲型H1N1流感，研究人员研制出了相应的疫苗，尽管这些疫苗是有效的，但某大学研究人员发现，阿司匹林、痉苯基乙酰胺等抑制某些酶的药物会影响疫苗的效果，这位研究人员指出：“如果你使用了阿司匹林或者对乙酰氢基酚，那么你注射疫苗后就必然不会产生良好的抗体反映。” 如果小张注射疫苗后产生了良好的抗体反映，那么根据上述研究结果可以得出以下哪项结论？ A．小张服用了阿司匹林，但没有服用对乙酰氢基酚 B．小张没有服用阿司匹林，但感染了H1N1流感病毒 C．小张服用了阿司匹林，但没有感染H1N1流感病毒 D．小张没有服用阿司匹林，也没有服用对乙酰氨基酚 E．小张服用了对乙酰氨基酚，但没有服用痉苯基乙酰胺【答案】D 【简析】试题类型：逻辑推断－命题推理（阿司匹林∨对乙酰氢基酚）→?良好抗体反映良好抗体反映 ―――――――――――――――――――――― 所以，?阿司匹林∧?对乙酰氢基酚 27. 为了调查当前人们的识字水平，其实验者列举了20个词语，请30位文化人士识读，这些人的文化程度都在大专以上。识读结果显示，多数人只读对3～5个词语，极少数人读对15个以上，甚至有人全部读错。其中，“蹒跚”的辨识率最高，30人中有19人读对；“呱呱坠地”所有人都读错。20个词语的整体误读率接近80%。该实验者由此得出，当前人们的识字水平没有提高，甚至有所下降。以下哪项如果为真，最能对该实验者的结论构成质疑（） A.实验者选取的20个词语不具有代表性。 B.实验者选取的30位识读者均没有博士学位。 C.实验者选取的20个词语在网络流行语言中不常用。 D.“呱呱坠地”这个词的读音有些大学老师也经常读错。 E.实验者选取的30位识读者中约有50%入学成绩不佳。【答案】A 【简析】试题类型：谬误辨析－样本不当。本题考查的知识点是简单枚举归纳推理中的统计归纳法。简单枚举归纳推理要求前提中列举的事例对于所推出的结论来说必须具有代表性，不能出现特殊样本，否则就会犯“以偏概全”或“偏向样本”的错误。题干中得出结论的依据是“20个词语”，但如果它们并不是常用字，就失去了代表性，结论的得出就失去了依据。E项的力度远不如A项。 28. 域控制器存储了域内的账户，密码和属于这个域的计算机三项信息。当计算机接入网络时，域控制器首先要鉴别这台计算机是否属于这个域，用户使用的登录账户是否存在，密码是否正确。如果三项信息均正确，则允许登陆；如果以上信息有一项不正确，那么域控制器就会拒绝这个用户从这台计算机登陆。小张的登录账号是正确的，但是域控制器拒绝小张的计算机登陆。

实验设计与数据处理大作业及解答

《实验设计与数据处理》大作业班级：姓名：学号： 1、用Excel（或Origin）做出下表数据带数据点的折线散点图（1）分别做出加药量和剩余浊度、总氮TN、总磷TP、COD Cr的变化关系图（共四张图，要求它们的格式大小一致，并以两张图并列的形式排版到Word 中，注意调整图形的大小）；（2）在一张图中做出加药量和浊度去除率、总氮TN去除率、总磷TP去除率、COD Cr去除率的变化关系折线散点图。 2、对离心泵性能进行测试的实验中，得到流量Q v、压头H和效率η的数据如表所示，绘制离心泵特性曲线。将扬程曲线和效率曲线均拟合成多项式（要求作双Y轴图）。流量Qv、压头H和效率η的关系数据序号123456 Q v(m3/h) H/m 0.0 15.00 0.4 14.84 0.8 14.56 1.2 14.33 1.6 13.96 2.0 13.65 η0.00.0850.1560.2240.2770.333

序号789101112 Q v(m3/h) H/m η 2.4 13.28 0.385 2.8 12.81 0.416 3.2 12.45 0.446 3.6 11.98 0.468 4.0 11.30 0.469 4.4 10.53 0.431 3、用分光光度法测定水中染料活性艳红（X-3B）浓度，测得的工作曲线和样品溶液的数据如下表: （1）列出一元线性回归方程，求出相关系数，并绘制出工作曲线图。（2）求出未知液（样品）的活性艳红（X-3B）浓度。 4、对某矿中的13个相邻矿点的某种伴生金属含量进行测定，得到如下一组数据：试找出某伴生金属c与含量距离x之间的关系(要求有分析过程、计算表格以及回归图形)。提示：⑴作实验点的散点图，分析c~x之间可能的函数关系，如对数函数y=a+blgx、双曲函数(1/y)=a+(b/x)或幂函数y=dx b等；⑵对各函数关系分别建立数学模型逐步讨论，即分别将非线性关系转化成线性模型进行回归分析，分析相关系数：如果R≦0.553，则建立的回归方程无意义，否则选取标准差SD最小（或R最大）的一种模型作为某伴生金属c与含量距离x之间经验公式。 5、测定了10个苯甲腈、苯乙腈衍生物对发光细菌的毒性影响，得到如下表所示的结果，试求回归方程。已知试验指标Y与X1、X2、X3间近似满足关系式：Y＝a+b1X1+b2X2+b3X3+b12X1X2+b23X2X3，试求待定系数，并将回归结果输出。

数据分析作业

一、第4题方差分析 1.1 建立数据文件由题意可知，在同一浓度和温度下各做两次实验，将每一次的实验结果看作一个样本量，共342=24 ??个样本量。 (1) 在“变量视图”下，名称分别输入“factor1”、“factor1”、“result”，类型设为“数值”，小数均为“0”，标签分别为“浓度”、“温度”、“收率”，factor1的值“1=A1，2=A2，3=A3”，factor2的值“1=B1，2=B2，3=B3，4=B4”，对齐选择“居中”。 (2) 在“数据视图”下，根据表中数据输入对应的数据。数据文件如图1所示，其中“factor1”表示浓度，“factor2”表示温度，“result”表示收率。三种不同浓度分别用1、2、3表示，四种不同温度分别用1、2、3、4表示。图1.1 SPSS数据文件格式 1.2 基本思路，利用单因素方差分析，对 (1) 设“浓度对收率的影响不显著”为零假设H 该假设进行判定。，则可 (2) 设“它们间的交互作用对收率没有显著影响”分别依次为假设H 是否成立。以通过多因素方差分析工具，利用得出的结果即能证明假设H 1.3 操作步骤 (1) 单因素的方差分析操作 ①分析—比较均值—单因素；因变量列表：收率；因子：浓度； ②两两比较：选中“LSD”复选框，定义用LSD法进行多重比较检验；显著性水平：0.05，单击“继续”； ③选项：选中“方差齐次性检验”，单击“继续”； ④单击“确定”。 (2) 有交互作用的两因素方差分析操作

①分析—一般线性模型—单变量；因变量：收率；固定因子：温度、浓度； ②绘制。水平轴：factor1，选择浓度作为均值曲线的横坐标，单图：factor2，选择温度作为曲线的分组变量；单击添加—继续。 ③选项。显示均值：factor1，定义估计因素1的均值；显著性水平：0.05；单击“继续”； ④单击“确定”。 1.4 结果分析 (1) “浓度对收率有无显著影响”结果分析执行上述操作后，生成下表。表1.1 方差齐性检验表1中Levene统计量的取值为0.352，Sig.的值为0.708，大于0.05，所以认为各组的方差齐次。表1.2 单因素方差分析从表2可以看出，观测变量收率的总离差平方和为119.58；如果仅考虑浓度单因素的影响，则收率总变差中，浓度可解释的变差为39.083，抽样误差引起的变差为80.875，它们的方差分别为19.542、3.851，相除所得的F统计量的观测值为5.074，对应的概率P值为0.016，小于显著性水平0.05，则应拒绝原假设，认为不同浓度对收率产生了显著影响，它对收率的影响效应不全为0。

定性数据分析第二章课后答案(供参考)

第二章课后作业【第1题】解：由题可知消费者对糖果颜色的偏好情况（即糖果颜色的概率分布），调查者取500块糖果作为研究对象，则以消费者对糖果颜色的偏好作为依据，500块糖果的颜色分布如下表1.1所示：表1.1 理论上糖果的各颜色数由题知r=6，n=500，我们假设这些数据与消费者对糖果颜色的偏好分布是相符，所以我们进行以下假设: 原假设：:0H 类i A 所占的比例为)6,...,1(0==i p p i i 其中i A 为对应的糖果颜色，)6,...,1(0=i p i 已知，16 10=∑=i i p 则2χ检验的计算过程如下表所示：在这里6=r 。检验的p 值等于自由度为5的2χ变量大于等于18.0567的概率。在Excel 中输入“)5,0567.18(chidist =”，得出对应的p 值为05.00028762.0<<=p ，故拒绝原假设，即这些数据与消费者对糖果颜色的偏好分布不相符。【第2题】解：由题可知，r=3，n=200，假设顾客对这三种肉食的喜好程度相同，即顾客选择这三种肉食的概率是相同的。所以我们可以进行以下假设：

原假设 )3,2,1(3 1 :0==i p H i 则2χ检验的计算过程如下表所示：在这里3=r 。检验的p 值等于自由度为2的2χ变量大于等于15.72921的概率。在Excel 中输入“)2,72921.15(chidist =”，得出对应的p 值为 05.00003841.0<<=p ，故拒绝原假设，即认为顾客对这三种肉食的喜好程度是不相同的。【第3题】解：由题可知，r=10，n=800，假设学生对这些课程的选择没有倾向性，即选各门课的人数的比例相同,则十门课程每门课程被选择的概率都相等。所以我们可以进行以下假设：原假设)10,...,2,1(1.0:0==i p H i 则2χ检验的计算过程如下表所示：在这里10=r 。检验的p 值等于自由度为9的2χ变量大于等于5.125的概率。在Excel 中输入“)9,125.5(chidist =”，得出对应的p 值为05.0823278349.0>>=p ，

第2章谓词逻辑习题及答案.解析

谓词逻辑习题 1. 将下列命题用谓词符号化。（1）小王学过英语和法语。（2）2大于3仅当2大于4。（3）3不是偶数。（4）2或3是质数。（5）除非李键是东北人，否则他一定怕冷。解： (1) 令)(x P ：x 学过英语，Q(x)：x 学过法语，c ：小王，命题符号化为)()(c Q c P ∧ (2) 令),(y x P ：x 大于y, 命题符号化为)3,2()4,2(P P → (3) 令)(x P ：x 是偶数，命题符号化为)3(P ? — (4) 令)(x P ：x 是质数，命题符号化为)3()2(P P ∨ (5) 令)(x P ：x 是北方人；)(x Q ：x 怕冷；c ：李键；命题符号化为)()(x P c Q ?→ 2. 设个体域}{c b a D ，，=，消去下列各式的量词。（1）))()((y Q x P y x ∧?? （2）))()((y Q x P y x ∨?? （3）)()(y yQ x xP ?→? （4）))()((y yQ y x P x ?→?，解： (1) 中))()(()(y Q x P y x A ∧?=，显然)(x A 对y 是自由的，故可使用UE 规则，得到 ))()(()(y Q y P y y A ∧?=，因此))()(())()((y Q y P y y Q x P y x ∧?∧?? ，再用ES 规则， )()())()((z Q z P y Q y P y ∧∧? ，D z ∈，所以)()())()((z Q z P y Q x P y x ∧∧?? （2）中))()(()(y Q x P y x A ∨?=，它对y 不是自由的，故不能用UI 规则，然而，对 $ )(x A 中约束变元y 改名z ，得到))()((z Q x P z ∨?，这时用UI 规则，可得： ))()((y Q x P y x ∨?? ))()((z Q x P z x ∨??? ))()((z Q x P z ∨? （3）略（4）略 3. 设谓词)(y x P ，表示“x 等于y ”，个体变元x 和y 的个体域都是}321 {，，=D 。求下列各式的真值。（1）)3(，x xP ? （2）)1(y yP ，? （3）)(y x yP x ，?? （4）)(y x yP x ，?? （5）)(y x yP x ， ?? （6）)(y x xP y ， ?? —

大数据结构大作业报告材料

数据结构课程设计课题名称专业名称学生姓名学号+电话指导教师

评分细则

目录评分细则----------------------------------------------------------------------------------------------------------------- 2 一、课题描述 ---------------------------------------------------------------------------------------------------------- 4 二、需求分析 ---------------------------------------------------------------------------------------------------------- 4 2.1 ------------------------------------------------------------------------------------------------------------------ 4 2.2- ------------------------------------------------------------------------------------------------------------------4 2.3--------------------------------------------------------------------------------------------------------------------4 三、概要设计 ---------------------------------------------------------------------------------------------------------- 4 3.1 结构分析 ----------------------------------------------------------------------------------------------------------- 4 3.2函数------------------------------------------------------------------------------------------------------------ 4 3.2.1 malloc() --------------------------------------------------------------------------------------------- 4 3.2.2getchar() ----------------------------------------------------------------------------------------------------- 5 3.2.3 list_create() ------------------------------------------------------------------------------------------------ 5 3.2.4 list_disp() --------------------------------------------------------------------------------------------------- 5 3.2.5 list_sort() --------------------------------------------------------------------------------------------------- 5 四、详细设计 ---------------------------------------------------------------------------------------------------------- 5 4.1课题分析 ----------------------------------------------------------------------------------------------------- 5 4.1.1选择 ------------------------------------------------------------------------------------------------- 5 4.1.2冒泡 --------------------------------------------------------------------------------------------------------- 5 4.1.3 堆------------------------------------------------------------------------------------------------------------ 6 4.1.4 快速--------------------------------------------------------------------------------------------------------- 6 4.1.5 基数--------------------------------------------------------------------------------------------------6 4.1.6 希尔--------------------------------------------------------------------------------------------------------- 6 4.1.7 归并--------------------------------------------------------------------------------------------------6 4.2课题实现 ----------------------------------------------------------------------------------------------------- 7 五、测试数据及结果------------------------------------------------------------------------------------------------- 9 六、调试分析及总结----------------------------------------------------------------------------------------------- 10

数据分析spss作业

数据分析方法及软件应用（作业）题目：4、8、13、16题指导教师：学院：交通运输学院姓名：学号：

4、在某化工生产中为了提高收率，选了三种不同浓度，四种不同温度做试验。在同一浓度与温度组合下各做两次试验，其收率数据如下面计算表所列。试在α=0.05显著性水平下分析 (1)给出SPSS数据集的格式(列举前3个样本即可)； (2)分析浓度对收率有无显著影响； (3)分析浓度、温度以及它们间的交互作用对收率有无显著影响。解答：（1）分别定义分组变量浓度、温度、收率，在变量视图与数据视图中输入表格数据，具体如下图。 (2)思路：本问是研究一个控制变量即浓度的不同水平是否对观测变量收率产生了显著影响，因而应用单因素方差分析。假设：浓度对收率无显著影响。步骤：【分析-比较均值-单因素】，将收率选入到因变量列表中，将浓度选入到因子框中，确定。输出：變異數分析收率平方和df 平均值平方 F 顯著性群組之間39.083 2 19.542 5.074 .016 在群組內80.875 21 3.851 總計119.958 23 显著性水平α为0.05，由于概率p值小于显著性水平α，则应拒绝原假设，认为浓度对收率有显著影响。

（3）思路：本问首先是研究两个控制变量浓度及温度的不同水平对观测变量收率的独立影响，然后分析两个这控制变量的交互作用能否对收率产生显著影响，因而应该采用多因素方差分析。假设，H01：浓度对收率无显著影响；H02：温度对收率无显著影响；H03：浓度与温度的交互作用对收率无显著影响。步骤：【分析-一般线性模型-单变量】，把收率制定到因变量中，把浓度与温度制定到固定因子框中，确定。输出：主旨間效果檢定因變數: 收率來源第 III 類平方和df 平均值平方 F 顯著性修正的模型70.458a11 6.405 1.553 .230 截距2667.042 1 2667.042 646.556 .000 浓度39.083 2 19.542 4.737 .030 温度13.792 3 4.597 1.114 .382 浓度 * 温度17.583 6 2.931 .710 .648 錯誤49.500 12 4.125 總計2787.000 24 校正後總數119.958 23 a. R 平方 = .587（調整的 R 平方 = .209）第一列是对观测变量总变差分解的说明；第二列是观测变量变差分解的结果；第三列是自由度；第四列是均方；第五列是Ｆ检验统计量的观测值；第六列是检验统计量的概率ｐ值。可以看到观测变量收率的总变差为119.958，由浓度不同引起的变差是39.083，由温度不同引起的变差为13.792，由浓度和温度的交互作用引起的变差为17.583，由随机因素引起的变差为49.500。浓度，温度和浓度*温度的概率p值分别为0.030,0.382和0.648。浓度：显著性<0.05说明拒绝原假设（浓度对收率无显著影响），证明浓度对收率有显著影响；温度：显著性＞0.05说明不拒绝原假设（温度对收率无显著影响），证明温度对收率无显著影响；浓度与温度: 显著性＞0.05说明不拒绝原假设（浓度与温度的交互作用对收率无显著影响），证明温浓度与温度的交互作用对收率无显著影响。 8、以高校科研研究数据为例：以课题总数X5为被解释变量，解释变量为投入人年数X2、投入科研事业费X4、专著数X6、获奖数X8；建立多元线性回归模型，

互联网营销与大数据分析

互联网营销与大数据分析大数据营销大数据营销是基于多平台的大量数据，依托大数据技术的基础上，应用于互联网广告行业的营销方式。大数据营销衍生于互联网行业，又作用于互联网行业。依托多平台的大数据采集，以及大数据技术的分析与预测能力，能够使广告更加精准有效，给品牌企业带来更高的投资回报率。大数据营销的核心在于让网络广告在合适的时间，通过合适的载体，以合适的方式，投给合适的人。大数据营销是指通过互联网采集大量的行为数据，首先帮助广告主找出目标受众，以此对广告投放的内容、时间、形式等进行预判与调配，并最终完成广告投放的营销过程。大数据营销，随着数字生活空间的普及，全球的信息总量正呈现爆炸式增长。基于这个趋势之上的，是大数据、云计算等新概念和新范式的广泛兴起，它们无疑正引领着新一轮的互联网风潮。多平台化数据采集：大数据的数据来源通常是多样化的，多平台化的数据采集能使对网民行为的刻画更加全面而准确。多平台采集可包含互联网、移动互联网、广电网、智能电视未来还有户外智能屏等数据[1]。强调时效性[2]：在网络时代，网民的消费行为和购买方式极易在短的时间内发生变化。在网民需求点最高时及时进行营销非常重要。全球领先的大数据营销企业AdTime对此提出了时间营销策略，它可

通过技术手段充分了解网民的需求，并及时响应每一个网民当前的需求，让他在决定购买的“黄金时间”内及时接收到商品广告。个性化营销：在网络时代，广告主的营销理念已从“媒体导向”向“受众导向”转变。以往的营销活动须以媒体为导向，选择知名度高、浏览量大的媒体进行投放。如今，广告主完全以受众为导向进行广告营销，因为大数据技术可让他们知晓目标受众身处何方，关注着什么位置的什么屏幕。大数据技术可以做到当不同用户关注同一媒体的相同界面时，广告内容有所不同，大数据营销实现了对网民的个性化营销。性价比高：和传统广告“一半的广告费被浪费掉”相比，大数据营销在最大程度上，让广告主的投放做到有的放矢，并可根据实时性的效果反馈，及时对投放策略进行调整。关联性：大数据营销的一个重要特点在于网民关注的广告与广告之间的关联性，由于大数据在采集过程中可快速得知目标受众关注的内容，以及可知晓网民身在何处，这些有价信息可让广告的投放过程产生前所未有的关联性。即网民所看到的上一条广告可与下一条广告进行深度互动。大数据营销的实现过程：大数据营销[3]并非是一个停留在概念上的名词，而是一个通过大量运算基础上的技术实现过程。虽然围绕着大数据进行的话题层出不穷，且在大多数人对大数据营销的过程不甚清晰。事实上，国内的很多以技术为驱动力的企业也在大数据领域深耕不辍。全球领先的大数

2016年管综逻辑真题及答案解析

三、逻辑推理（本大题共30小题，每小题2分，共60分。下面每题所给出的五个选项中，只有一项是符合试题要求的。请在答题卡上将所选项的字母涂黑。） 26、企业要建设科技创新中心，就要推进与高校、科技院所的合作，这样才能激发自主创新的活力。一个企业只有搭建服务科技创新发展的战略平台、科技创新与经济发展对接的平台以及聚集创新人才的平台，才能催生重大科技成果。根据上述信息，可以得出以下哪项？（A）如果企业搭建科技创新与经济发展对接的平台，就能激发其自主创新的活力。（B）如果企业搭建了服务科技创新发展战略的平台，就能催生重大科技成果。（C）能否推进与高校、科研院所的合作决定企业是否具有自主创新的活力。（D）如果企业没有搭建聚集创新人才的平台，就无法催生重大科技成果。（E）如果企业推荐与高校、科研院所的合作，就能激发其自主创新的活力。参考答案：D 解题思路：本题属于演绎推理。题干条件：（1）建设科技创新中心——》合作；（2）激发自主创新的活力——》合作。（3）催生重大科技成果——》（战略平台且对接平台且人才平台）。选项A，肯定条件后件部分内容，无法推出。选项B，同A。选项C，不是推理。选项D，无人才平台——》非催生重大科技成果。正确。选项E，肯定条件2的后件，无法有效推出结论。 27、生态文明建设事关社会发展方式和人民福祉。只有实行严格的制度，最严密的法治，才能为生态文明建设提供可靠保障；如果要实行最严格的制度、最严密的法治，就要建立责任追究制度，对那些不顾生态环境盲目决策并造成严重后果者，追究其相应的责任。根据上述信息，可以得出以下哪项？（A）如果对那些不顾生态环境盲目决策并造成严重后果者追究相应责任，就能为生态文明建设提供可靠保障。（B）实行最严格的制度和最严密的法治是生态文明建设的重要目标。（C）如果不建立责任追究制度，就不能为生态文明建设提供可靠保障。（D）只有筑牢生态环境的制度防护墙，才能造福于民。（E）如果要建立责任追究制度，就要实行最严格的制度，最严密的法治。参考答案：C 思路解析：假言推理型题目，重在理清假言关系。首先，分析题干，由题干可得如下条件：提供可靠保障→严格制度严密法治；严格制度严密法治→建立追责制度。两者结合整理可得：提供可靠保障→严格制度严密法治→建立追责制度。然后逐个检验选项，只有C项符合假言命题的否定后件式推理，其余四项的推理都违反了假言推理的规则。因此答案选C。 28、注重对孩子的自然教育，让孩子亲身感受大自然的神奇和奇妙，可促进孩子释放天性，激发自身潜能；而缺乏这方面教育的孩子容易变得孤独，道德、情感与认知能力的发展都会受到一定的影响。以下哪项与以上陈述方式最为类似？（A）脱离环境保护高经济发展是“涸泽而渔”，离开经济发展抓环境保护是“缘木求鱼”。

北航数理统计第二次大作业-数据分析模板

数理统计第二次大作业材料行业股票的聚类分析与判别分析 2015年12月26日

材料行业股票的聚类分析与判别分析摘要

1 引言 2 数据采集及标准化处理 2.1 数据采集本文选取的数据来自大智慧软件的股票基本资料分析数据，从材料行业的股票中选取了30支股票2015年1月至9月的7项财务指标作为分类的自变量，分别是每股收益（单位：元）、净资产收益率（单位：%）、每股经营现金流（单位：元）、主营业务收入同比增长率（单位：%）、净利润同比增长率（单位：%）、流通股本（单位：万股）、每股净资产（单位：元）。各变量的符号说明见表2.1，整理后的数据如表2.2。表2.1 各变量的符号说明自变量符号每股收益（单位：元）X1 净资产收益率（单位：%）X2 每股经营现金流（单位：元）X3 主营业务收入同比增长率（单位：%）X4 净利润同比增长率（单位：%）X5 流通股本（单位：万股）X6 每股净资产（单位：元）X7 表2.2 30支股票的财务指标股票代码X1 X2 X3 X4 X5 X6 X7 武钢股份600005-0.0990-2.81-0.0237-35.21-200.231009377.98 3.4444宝钢股份6000190.1400 1.980.9351-14.90-55.011642427.88 6.9197山东钢铁600022-0.11650.060.0938-20.5421.76643629.58 1.8734北方稀土6001110.0830 3.640.652218.33-24.02221920.48 2.2856

杭钢股份600126-0.4900-13.190.4184-36.59-8191.0283893.88 3.4497抚顺特钢6003990.219310.080.1703-14.26714.18112962.28 1.4667盛和资源6003920.0247 1.84-0.2141-5.96-19.3739150.00 1.2796宁夏建材6004490.04000.510.3795-22.15-92.3447818.108.7321宝钛股份600456-0.2090-2.53-0.3313-14.81-6070.2043026.578.1497山东药玻6005290.4404 5.26 1.2013 6.5016.7825738.018.5230国睿科技6005620.410011.53-0.2949 3.3018.9416817.86 3.6765海螺水泥600585 1.15169.05 1.1960-13.06-25.33399970.2612.9100华建集团6006290.224012.75-0.57877.90-6.4034799.98 1.8421福耀玻璃6006600.790014.250.9015 3.6017.27200298.63 6.2419宁波富邦600768-0.2200-35.02-0.5129 3.1217.8813374.720.5188马钢股份600808-0.3344-11.710.3939-21.85-689.22596775.12 2.6854亚泰集团6008810.02000.600.1400-23.63-68.16189473.21 4.5127博闻科技6008830.503516.71-0.1010-10.992612.8023608.80 3.0126新疆众和6008880.0523 1.04-0.910662.64162.0464122.59 5.0385西部黄金6010690.0969 3.940.115115.5125.5712600.00 2.4965中国铝业601600-0.0700-2.920.2066-9.0882.79958052.19 2.3811明泰铝业6016770.2688 4.66-1.09040.8227.8640770.247.4850金隅股份6019920.1989 3.390.3310-10.05-39.01311140.26 6.7772松发股份6032680.35007.00-0.3195-4.43-9.622200.00 6.0244方大集团0000550.0950 5.66-0.480939.2920.6742017.94 1.6961铜陵有色0006300.0200 1.220.6132 3.23-30.74956045.21 1.5443鞍钢股份000898-0.1230-1.870.7067-27.32-196.21614893.17 6.4932中钢国际0009280.572714.45-0.4048-14.33410.2441286.57 4.2449中材科技0020800.684610.27 1.219547.69282.1740000.00 6.8936中南重工0024450.1100 4.300.340518.8445.0950155.00 2.7030 2.2 数据的标准化处理由于不同的变量之间存在着较大的数量级的差别，因此要对数据变量进行标准化处理。本文采用Z得分值法标准化的方法进行标准化，用x的值减去x的均值再除以样本的方差。也就是把个案转换为样本均值为0、标准差为1的样本。如果不同变量的变量值数值相差太大，会导致计算个案间距离时，由于绝对值较小的数值权数较小，个案距离的大小几乎由大数值决定，标准化过程可以解决此类问题，使不同变量的数值具有同等的重要性。经Z标准化输出结果见表 2.2。表2.2 经Z标准化后的数据 ZX1ZX2ZX3ZX4ZX5ZX6ZX7

数据分析经典测试题含答案解析

数据分析经典测试题含答案解析一、选择题 1．某校九年级数学模拟测试中，六名学生的数学成绩如下表所示，下列关于这组数据描述正确的是（） A．众数是110 B．方差是16 C．平均数是109.5 D．中位数是109 【答案】A 【解析】【分析】根据众数、中位数的概念求出众数和中位数，根据平均数和方差的计算公式求出平均数和方差．【详解】解：这组数据的众数是110，A正确； 1 6 x=×（110+106+109+111+108+110）＝109，C错误； 21 S 6 = [（110﹣109）2+（106﹣109）2+（109﹣109）2+（111﹣109）2+（108﹣109）2+ （110﹣109）2]＝8 3 ，B错误；中位数是109.5，D错误；故选A．【点睛】本题考查的是众数、平均数、方差、中位数，掌握它们的概念和计算公式是解题的关键． 2．一组数据2，x，6，3，3，5的众数是3和5，则这组数据的中位数是（） A．3 B．4 C．5 D．6 【答案】B 【解析】【分析】由众数的定义求出x=5，再根据中位数的定义即可解答．【详解】解：∵数据2，x，3,3,5的众数是3和5， ∴x=5，

则数据为2、3、3、5、5、6，这组数据为35 2 =4．故答案为B．【点睛】本题主要考查众数和中位数，根据题意确定x的值以及求中位数的方法是解答本题的关键． 3．如图，是根据九年级某班50名同学一周的锻炼情况绘制的条形统计图，下面关于该班50名同学一周锻炼时间的说法错误的是（） A．平均数是6 B．中位数是6.5 C．众数是7 D．平均每周锻炼超过6小时的人数占该班人数的一半【答案】A 【解析】【分析】根据中位数、众数和平均数的概念分别求得这组数据的中位数、众数和平均数，由图可知锻炼时间超过6小时的有20+5＝25人．即可判断四个选项的正确与否．【详解】 A、平均数为1 50 ×（5×7+18×6+20×7+5×8）＝6.46，故本选项错误，符合题意； B、∵一共有50个数据， ∴按从小到大排列，第25，26个数据的平均值是中位数， ∴中位数是6.5，故此选项正确，不合题意； C、因为7出现了20次，出现的次数最多，所以众数为：7，故此选项正确，不合题意； D、由图可知锻炼时间超过6小时的有20+5＝25人，故平均每周锻炼超过6小时的人占总数的一半，故此选项正确，不合题意；故选A．【点睛】此题考查了中位数、众数和平均数的概念等知识，中位数是将一组数据从小到大（或从大到小）重新排列后，最中间的那个数（最中间两个数的平均数），叫做这组数据的中位数，如果中位数的概念掌握得不好，不把数据按要求重新排列，就会错误地将这组数据最中间的那个数当作中位数．

行测题库：逻辑判断练习及答案解析(.)

行测题库：逻辑判断练习及答案解析（10.19） 1.依据知情者提供的信息，某单位职工甲、乙、丙年终考核为“基本称职”、“称职”和“优秀”各一人，三个人中乙的好友是最低档次，丙不是最高档次。如果上述信息准确，那么三人的考核结果分别是( )。 A.甲一优秀，乙一基本称职，丙一称职 B.甲一优秀，乙一称职，丙一基本称职 C.甲一基本称职，乙一称职，丙一优秀 D.甲一称职，乙一基本称职，丙一优秀 2.当今一些领导干部之所以会违法违纪，经受不住考验，走上蜕化变质的道路，一个重要的原因，就是忽视、放松或拒绝改造自己的世界观，在世界观上出了问题。这说明( )。 A.自发产生的世界观会把人的活动引入歧途 B.世界观是影响人生道路选择的重要因素 C.世界观是人们对整个世界的根本观点和根本看法 D.世界观是哲学的重要组成部分 3.近年来我国私营经济保持了平稳快速发展，至2009年底，私营企业户数占企业总数的60%以上，在全国工业增加值中私营经济产值增长率居首位。由此可以得出的结论是( )。 A.私营经济的发展促进了生产力的发展 B.私营经济在社会总资产中占有优势 C.私营经济已成为我国国民经济的主体 D.私营经济已成为我国社会主义经济制度的基础 4.在科学技术极其落后的2000多年前，古希腊著名哲学家、科学家亚里士多德根据感觉证明“地球是球形的”：如果地球不是球形的，那么月食时就不会显示出弓形的暗影，但这弓形的暗影确实是存在的。每月的月相是多种多样的，有时是半圆形的，有时是凸形的，有时是凹形的;但月食时暗影的界线始终是凸形的。因此，如果月食是由于地球处于日月之间的位置，那么暗影的形状必定是因地球的圆周而造成的，因而地球必定是圆形的。以下哪项如果为真，最能质疑亚里土多德的结论?( ) A.月食时暗影界线不是凸形 B.月食不是地球挡住了日光 C.月食时不显示弓形的暗影 D.每月月相不是多种多样的 5.美国人能够较为轻松地对待子女的教育，并不刻意追求高学历、好职业的功利性目标;而中国人一般希望把孩子培养成“才”，将来有出息，有好职业，一生能在顺境中度过。中美两国的差异表明( )。

第四章数据分析(梅长林)习题答案

第四章习题一、习题4.4 解：（1）通过SAS 的proc princomp 过程对相关系数矩阵R 做主成分分析，得到个主成分的贡献率以及累计贡献率如表1所表 1 从表中可以得到特征值向量为： ]0.2429 0.4515 0.5396 0.8091 2.8567[=*λ 第一主成分贡献率为：57.13 % 第二主成分贡献率为：16.18 % 第三主成分贡献率为： 10.79% 第四主成分贡献率为：9.03 % 第五主成分贡献率为：6.86 % 进一步得到各主成分分析结果如表2所示：表 2

（2）由（1）中得到的结果可知前两个主成分的累积贡献率为73.32%，得到第一主成分、第二主成分为： 54212.044215.034702.024571.014636.01x x x x x Y ++++=* 55820.045257.032604.025093.012404.02x x x x x Y ++---=* 由于1*Y 是五个标准化指标的加权和，由此第一主成分更能代表三种化工股票和两种石油股票周反弹率的综合作用效果，1*Y 越大表示各股票的综合周反弹率越大。* 2Y 中关于三种化工股票的周反弹率系数为负，而关于两种石油的系数为正，它放映了两种石油周反弹率和三种化工股票周反弹率的对比，* 2Y 的绝对值越大，表明两种石油周反弹率和三种化工股票周反弹率的差距越大。二、习题4.5 解：（1）利用SAS 的proc corr 过程求得相关系数矩阵如表3：表 3 （2）从相关系数矩阵出发，通过proc princomp 过程对其进行主成分分析，表4给出了各主成分的贡献率以及累积贡献率：