文档库 最新最全的文档下载
当前位置:文档库 › 大数据时代统计学发展的若干问题

大数据时代统计学发展的若干问题

大数据时代统计学发展的若干问题
大数据时代统计学发展的若干问题

大数据时代统计学发展的若干问题

作者:马双鸽,刘蒙阕,周峙利,方匡南,朱建平,谢邦昌

本文是发表在《统计研究》的论文基础上整理的,获国家社会科学基金项目“大数据的高维变量选择方法及其应用研究”( 批准号13CTJ001) 和国家自然科学基金面上项目“广

义线性模型的组变量选择及其在信用评分中的应用”(批准号71471152) 的资助。

一、引言

随着计算机技术,尤其是互联网和多媒体技术的普及与飞速发展,人类社会被呈爆炸性增长的信息所包围。据国际商业机器公司(IBM)资料显示[1],目前数据的生成每日以千万亿字节来计算,全球近90%的数据是在过去两年产生的。大数据时代已经到来。

基于自身态度和学术背景的差异,目前,来自不同领域、学科的学者对大数据的理解并没有一个统一的定义。依照美国咨询公司麦肯锡(McKinsey)[2]的定义,大数据是指那些规模超出了典型的数据库软件工具的能力来进行捕获、存储、管理和分析的数据集。与传统数据相比,大数据的大不仅仅是体量上的扩充,数据的结构、形式、粒度、组织等各方面都更加复杂。凭借存储成本更低、运行效率更高的现代信息

技术,大数据可以认为是一切可记录的数字化信号集合。从数据特征来看,Grobelink. M(2012)提出了著名的“3V”定义,即多样性( Variety) 、规模性( Volume)、高速性

( Velocity)[3]。在此基础上,国际数据公司(IDC)认为大数据还具有价值密度低的特点(Value),而国际商业机器公司(IBM)则提出大数据的真实性(Veracity)。[1]

近年来,IBM、Oracle、Microsoft、Google、Amazon、Facebook等跨国公司大力推动了大数据处理技术的发展,大数据在自然科学、金融、医疗、移动通信等领域涌现出了大量应用成果[3]。伴随着大数据的广泛应用,越来越多的学者开始关注和讨论大数据问题,形成了一些颇具影响力、有代表性的观点。其中最典型的要属舍恩伯格和库克耶(2013)提出的大数据时代三个重要的思维转变:更多(不是随机样本,而是全体数据)、更杂(不是精确性,而是混杂性)、更好(不是因果关系,而是相关关系)[4]。上述观点在业界、学术界引起很多共鸣,同时也存在很多质疑[5,6]。此观点对于大数据时代统计学的发展方向具有一定的指导性作用,然而却很少有文章在探讨统计学科如何发展的背景下系统地

对其进行反思。因此,本文首先回顾了统计学发展历史,剖析了统计学的发展总是以应用为驱动,并在此基础上讨论了大数据背景下统计学的发展定位,进一步分析统计学与计算机之间的关系,并针对舍氏“三个重要的思维转变”提出自己

的看法。

二、统计学与大数据

大数据包含了宽泛的理论及应用领域,统计学作为提取大数据价值的核心学科该如何发展?要想弄清楚这个问题,我们不妨先简略回顾一下统计学的发展历史,从历史的角度来把握大数据时代统计学的发展定位问题。

统计学作为一门学科已有三百多年的历史。按统计方法及历史的演变顺序,通常可以将统计学的发展史分为三个阶段,分别是古典统计学时期、近代统计学时期和现代统计学时期。古典统计学的萌芽最早可以追溯到17世纪中叶,此时的欧

洲正处于封建社会解体和资本主义兴起的阶段,工业、手工业快速增长,社会经历着重大变革。政治改革家们急需辅助国家经营和管理的数据证据以适应经济发展需要,此时一系列统计学的奠基工作在欧洲各国相继展开。在这一时期,以威廉.配第和约翰.格朗特为代表的政治算术学派与海尔曼。康令(HermannConring)创立的国势学派相互渗透和借鉴,服务与指导了国家管理和社会福利改善。

18世纪末至19世纪末为近代统计学发展时期。这一百年间欧洲各国先后完成了工业革命,科学技术开始进入全面繁荣时期,天文、气象、社会人口等领域的数据资料达到一定规模的积累,对统计的需求已从国家层面扩展至社会科学各个领域。对事物现象静态性的描述也已不能满足社会需求,数

理统计学派创始人凯特勒(A·J·Quetelet)率先将概率论引进古典统计学,提出了大数定律思想,使统计学逐步成为揭示事物内在规律,可用于任何科学的一般性研究方法。一些重要的统计概念也在这一时期提出,误差测定、正态分布曲线、最小二乘法、大数定律等理论方法的大量运用为社会、经济、人口、法律等领域的研究提供了大量宝贵的指导。

20世纪科学技术的发展速度远超过之前的时代,以描述性方法为核心的近代统计已无法满足需求,统计学的重心转为推断性统计,进入了现代统计学阶段。随着20世纪初细胞学的发展,农业育种工作全面展开。1923年,英国著名统计学家费雪(R.A.Fisher)为满足作物育种的研究需求,提出了基于概率论和数理统计的随机试验设计技术以及方差分

析等一系列推断统计理论和方法。推断性统计方法的进步对工农业生产和科学研究起到了极大的促进作用。自20世纪30年代,随着社会经济的发展和医学先进理念的吸收融合,人们对于医疗保险和健康管理的需求日益增长,统计思想渗透到医学领域形成了现代医学统计方法[8]。例如在生存质量(Quality of life)研究领域,通过分析横向纵向资料,逐步形成了重复测量资料的方差分析、质量调整生存年(QALYs)法等统计方法[9]。这一阶段,统计在毒理学、分子生物学、临床试验等生物医学领域获得了大量应用,这些领域的发展又带动统计方法不断创新,主成分估计、非参数估计、MME

算法等方法应运而生。随着现代生物医学的发展,计算机技术的进步,人类对健康的管理和疾病的治疗已进入基因领域,对基因数据分析产生了大量需求。高维海量的基因数据具有全新的数据特征,由此一系列面向高维数据的统计分析方法相继产生。

回顾统计学史可以发现,在不同的社会背景下,统计学的发展都是以实际需求为驱动,伴随着需求和数据的改变逐步向前发展。在以数据信息为核心的大数据时代,人类社会各个领域的发展都需要从大数据中汲取动力,这无疑对统计数据分析产生了大量的需求。而大数据所具有的数据特征使得部分传统统计方法不再适用。根据学科特点和历史沿革,不难看出,在大数据时代,统计学需要针对大数据的特征,以服务和满足各领域需求为目标,不断创新和发展数据分析方法与理论。

三、统计学与计算机

自上个世纪以来计算机经历了飞跃式发展,计算机技术催生了大数据,并支撑了它的处理与分析。计算机技术可以说是大数据发展的基础。大数据时代对统计学发展的探讨自然离不开对计算机科学的关注。大数据的价值产生于分析过程,作为大数据分析的主要工具与方法,统计学与计算机技术共同成为服务于大数据的核心科学。两者关系密切,它们之间存在着合作与竞争并存的关系。

计算机为统计学的发展起到了极大的促进作用。计算机使人类所拥有的数据水平达到了全新的高度,无论是从数量,类型,还是粒度等方面进行考察。新型的数据或者数据特征催生出新的数据处理方法,例如社交网络的发展直接要求了基于网络的统计方法的产生;大数据流环境对数据流算法的要求等。计算机技术也融进统计方法中,促进了新的统计方法的诞生。自20世纪计算机兴起,一系列建立在计算机基础之上的统计方法就被开发出来:MCMC模拟计算、Jackknife、Bootstrap等。此类方法不仅拓展了统计学领域,而且开创了解决问题的新思路。进入大数据时代,以互联网为中心的云计算技术为大数据提供了保管、访问的场所和渠道。伴随着分布式和并行计算(云计算核心技术)的快速发展,Bag of LittleBootstraps算法(2012)、Memory-Efficient Tucker Decomposition(2008)、基于MapReduce的K-means算法(2009)、基于MapReduce的并行Apriori算法(2012)等一系列面向大数据的抽样、分类、聚类、关联分析方法应运而生。[10,11,12]

在数据统计分析方法蓬勃发展的同时,以数据库技术为关键支撑的计算机信息处理技术在很多领域上也得到大量发展。例如,在数据获取方面,DEEP WEB技术可以用于感知数据,以及进行高质量的数据继承和整合;在数据存储方面,谷歌、IBM和百度等公司大量运用的GFS技术,能够实现

高效率的分布式数据存储,并且可以给大量用户提供总体性能较高的服务;在数据索引方面,当前比较主流的索引技术之一是BigTable,它是一个分布式的、可扩展的、高效的非关系型数据库;在可视化方面,Clustergram技术可以进行聚类,从而优化大数据分析结果的形式[13]。大数据时代,统计学与计算机互相促进,存在着紧密合作关系。

另一方面,由于统计学的发展是以实际需求为驱动,如果要解决的问题随着计算机的发展可以得到很好的解决,那么相应的统计方法可能就埋没在浩瀚的历史长河里了。比如在大数据时代,出现了超高维数据,LASSO、SCAD等方法在处理超高维数据下计算效率远远不够[14]。对于超高维数据,Fan和Lv[15]提出的SIS(SureIndependence Screening)方法可以快速有效地把维数从超高维降到相对小的规模。这是一种基于相关准则的降维方法,相关准则把特征重要性按照它们与因变量的边际相关来排序,并把与因变量的边际相关弱的那些变量过滤掉。这种统计方法可以有效地降低计算成本,然而当计算机的速度和性能得到很大提升后,它的价值却在减小。基于分布式系统的大规模数据软件平台Hadoop,通过并行处理可以成倍地提高计算机性能,作为显卡核心的图形处理器GPU拥有一个专为同时处理多重任务而设计的由数以千计小而高效的核心组成的大规模并行

计算架构,经过并行计算的优化,理论上在GPU上的计算

速度会比CPU快50-100倍[16],不借助SIS方法的

“GPU+Hadoop”就可以直接处理超高维数据。部分统计学方法有可能淹没在计算机技术的发展洪流中。从学科的发展角度来看,统计学与计算机技术也存在一定的竞争关系。

与计算机的竞争关系揭示出统计学所面临的被替代的危机,而面对这个危机最好的态度是积极地拥抱计算机技术,让计算机技术融入统计学。在大数据时代,统计学应该与计算机技术更加紧密地结合。

四、大数据分析的若干误区

关于大数据的数据分析理念,学术界展开了很多研究与讨论,一定程度促进了统计学的发展和数据分析理念的更新,但是也出现了一些误区。接下来,我们探讨大数据分析中的几个主要误区。

(一)因果关系

大数据时代一个显著现象就是更关注于数据的相关关系。舍恩伯格等在《大数据时代》[4]中提到大数据的一个思维转变:“相关关系比因果关系能更好地了解这个世界”。国内外学者

也开始更多地关注大数据时代相关分析方法的研究[17,18]。针对相关分析展开的研究,使得人们对于自身和世界的认识拥有一个开放的信息系统视角,对事物的认识不再局限于封闭领域[4,19]。例如通过谷歌趋势(Google Trends)服务,

预测股市的涨跌,发现Twitter用户的情绪有助于预测股市

等[20]。在大数据时代下的相关关系分析利用发达的机器分

析能力和计算能力来寻找到最优的关联物,相关分析在各个

领域也涌现出了很多很好的应用成果,例如亚马逊的推荐系统、基于数据进行抓取、挖掘和可视化呈现的数据新闻等,这些应用通过数据挖掘实现了从数据到价值的转变,创造出很好的经济利润和社会效益。

尽管对相关关系的分析颇具价值,但相关分析只是停留在数据表面。相关关系强的对象之间可能并不存在本质上的关联性。例如在Google FluTrends(GFT)的研究中[21],GFT 预测的流感样病例门诊数超过了CDC(疾病预防控制中心)

根据全美各实验室监测报告得出的预测结果的两倍,一个很大的原因是搜索关键词很多只是数据上看似与流感有关,但实际上无关联。其次相关分析不能揭示因果关系,为决策提供指导的能力十分局限。例如收集了世界上很多国家的数据,发现电视机拥有量与国民人均寿命有很强的正相关性,但是这个相关性并不能用来指导决策,如果利用相关性的结论,通过普及电视机以提高人均寿命,这是一个极大的荒谬。基于相关分析得出的结论往往是表面现象,反应的有某种共同变化的趋势,但并不必然存在因果关系。如果直接基于相关分析结果做决策,有时可能反而对决策造成误导。

大数据时代需要更深层次的分析,而对因果关系的研究一定

程度上能满足此需求。在小数据时代,各类回归分析就试图通过假定因变量和自变量之间存在因果关系建立回归模型

来估计自变量对因变量的影响程度,回归模型可用于预测或控制等问题。1934年,Wright [22]把路径分析引入统计学,用有向图来表示因果假设开始了因果推断,路径分析逐渐发展成结构方程模型。近几十年,很多学者致力于因果关系的研究,因果网(causalnetworks)和虚拟事实模型(counterfactual)或潜在反应(potential-outcomes)模型是最重要的用来刻画因果关系的两种模型[23,24]。在小数据中,因果分析可以提供有价值的决策支持,是社会科学和自然科学领域重要的研究手段。

致力于因果关系研究的分析方法在大数据时代依然有至关

重要的地位。语音识别,自然语言的理解,图象识别,无人驾驶等领域的发展正深刻地改变这个世界,人工智能是大数据时代发展的趋势之一。在人工智能的核心领域-机器学习中,回归分析是有监督学习的主要方法之一。Pearl提出的概率

和因果推理演算法彻底改变了人工智能最初基于规则和逻

辑的方向,为该领域带来了革命性的影响[25]。在自然语言

处理、计算机视觉、信息抽取和信息检索等领域单使用相关性模型就可以满足应用需求,然而如果要求在给定情景下提供如何干预或者控制某些因素的决策支持,例如在医学领域,需要对疾病进行预防和控制,则需要使用因果推断模型。此

类决策需求会随着大数据的深入发展而增多。

至今对于大数据的处理还存在很多挑战与问题,面对开放的大数据系统,统计思维和分析方法正在经历创新与变革[26]。目前还缺少面向大数据的因果分析方法,可预见的是复杂而丰富的数据资源为复杂模型分析提供了更多可能性,因果关系研究可以在大数据时代获得更多的发展。因果关系研究意义深远,是大数据时代发展所需的理论基石,舍恩伯格等认为“相关关系比因果关系更重要”,这样的结论恐怕过于偏面,容易造成误导。

(二)抽样

舍恩伯格等在《大数据时代》[4]中提到大数据的另一个思维转变,就是“要全体不要抽样”。大数据可提供所有能够用现代信息技术记录的数据,它除了可以提供事物之间的共性信息与普遍性规律之外,还可以提供个性化的特征信息。对少数群体特征及微小的规律的揭示确实是传统抽样数据所无

法给予的。然而如果因此认为抽样在大数据时代就不重要,甚至应该退出舞台了,这样的观点是值得怀疑的。

大数据所谓的“大”不仅指的是数据体量的大,更重要的是因为高时空分辨率所带来的多层次数据信息结构。在一些大数据领域,可依靠高性能计算机使用分布式系统处理数据,然而在很多大数据环境下,计算机无法满足处理需求。例如在高速网络中,面对瞬息之间涌入的海量数据流,我们无法将

信息完全存储下来。此时一种合理的策略就是基于抽样建立起能够进行事后分析的汇总信息来保存数据核心内容[27]。针对大数据流环境,耿直(2014)提出需要探索如何抽取足以满足统计目的和精度的样本,需要研究新的适应性、序贯性和动态的抽样方法[28]。同时从计算成本,便捷性角度考虑,抽样相比于全数据处理往往是更优的选择。因此即使是在有能力处理全数据的计算环境下,对抽样依然存在着巨大的需求。

大数据的生成与采集在人为的设计框架之下,可能存在系统性偏差。例如在社交网络数据中,人群的上网行为习惯,计算机知识,经济地位等都是左右数据生成的因素[29]。大数据与真实总体之间可能存在差距。其次,大数据存在混杂性,数据误差普遍存在于大型数据库和网络中[30],在捕捉主要趋势信息时,如果进行全数据处理,大量的误差会影响分析结果的有效性[26,31]。虽然抽样受条件、时间、资源成本等诸多因素限制,然而在设计合理的情况下,在大数据领域它仍然具有价值,可以与大数据起到相互印证的作用。比如国家统计机构的官方数据与互联网数据是很好的相互补充与

校准[28]。当抽样数据与大数据结果冲突严重时,新的数据设计与采集值得被考虑,此时抽样对大数据系统起到了预警作用。

在大数据环境下,为获取在总体中的难于捕捉观测的信息,

需要研究案例抽样,不等概率抽样等方法[28]。在图像、社交网络等领域的大数据中,抽样方法存在很多需求与挑战,有待研究[32]。总之,大数据时代抽样仍然有着举足轻重的地位。

(三)数据质量

舍恩伯格等认为“执迷于精确性是信息缺乏时代和模拟时代的产物”,因为有限的信息量会使细微错误被放大。而在大数据时代,对错误的包容和对混杂性的接纳所带来的更为广泛的海量数据能揭示大致趋势,能提供足够有价值的信息。牺牲精确性常为我们换来信息的时效性与广泛性。舍恩伯格等指出“允许不精确已成为大数据的一个特点”[4]。然而如若因此认为大数据可以忽视数据质量问题,则进入了一个理解误区。

大数据记录了所有可以记录的数据,然而因为大数据的复杂性与混杂性,充斥着各种可能性误差的数据整体并不一定能提供有效信息。大数据的生成与采集经过了人为设计,并非完全客观,因此数据有可能存在本质性偏差。若数据的来源没有经过分析和评估,那么由它得出的任何结论都值得被质疑[29,31]。有数据显示,部分公司数据错误率可达到30%以上。数据误差普遍存在于大型数据库和网络中[30]。尽管在大数据时代,为掌握更多数据,容错标准被放松,数据误差不可避免,但是大数据对误差的容许,不代表着对误差的无

视。误差的界限需要被测评,数据质量需要被管理,否则信息价值缺乏保障。

其次,大数据分析对数据误差有很高的敏感性。大数据的体量、高维性以及数据生成的速度使得数据中很小的误差也会如滚雪球一样累积被放大[30]。在大数据分析中,误差累积

效应会掩盖真实信号,从而得出错误的结论。目前这一问题可部分通过稀疏模型、变量选择来缓解,但同时变量选择的准确性亦受数据误差的影响。在统计回归模型中,为保证模型估计的一致性要求解释变量需满足外生性。而在大数据情况下,数据来源的各异、形态的多元化会加剧解释变量数据误差的产生,由此有可能会出现内生性问题,影响模型的结果[26]。因此,在大数据环境下不可忽视数据的质量,反而

需要得到更多的关注。

五、待解决的问题

大数据给统计学带来了新的发展机遇,也给传统的统计学带来了一定的挑战,最直接的挑战就是部分传统经典的统计方法在大数据环境下失效了。那么,大数据时代,统计学科的发展何去何从呢?又有哪些大数据问题亟待统计学去解决

的呢?这些是统计学者很关心的问题,但是这个命题比较大,很难给出满意的答案。课题组从所研究的课题出发,谈谈我们所认为的大数据时代几个相对比较重要的问题。由于笔者的知识局限性,所提出的几个问题不一定完全正确,也肯定

是不全面的。我们希望抛砖引玉,吸引更多统计学者参与探讨大数据时代下的统计学发展方向。

(一)如何在大数据时代发展经典统计

很多应用于小数据时代的经典统计方法,从理论到实践,经过不同领域的长时间检验,表现效果良好,但在大数据时代直接应用会产生一些问题。本文认为直接抛弃这些经典统计方法是不恰当的,甚至是一种损失。如何结合高速计算方法以及相应的软硬件环境改进这些经典小数据方法,并将之应用到大数据中,即老枝发新芽,是一个值得思考的问题。(二)多源异构大数据的整合分析

在大数据时代,对同一对象或问题的描述常存在多种不同来源的数据,例如为分析城市居民出行模式可以通过GPS定位,社交网络,公交刷卡等不同数据源来获取居民的位置信息等。在大数据时代搜集数据更为便利,通过对数据进行有效整合一方面可以获取更为丰富的信息,另一方面不同来源的数据相互印证,可以检验信息的真实性和准确性。但由于不同来源的数据有不同的数据特征和结构,对于这种多源异构大数据的整合分析和建模也是统计学的重要发展方向之一。

(三)大数据的边际效应问题

大数据时代提供给人们一个开放的信息系统,可以利用各类信息收集设备采集数据,然而在实际中,数据并不是一味的

越多越好。大数据所产生的信息价值存在边际递减效应,即数据体量大到一定程度,所提供的信息几乎不再增加,但是收集、处理的成本却在不断增加,同时所含有的数据噪声反而影响信息提取。因此在大数据时代,对于数据的体量并不能一味追求大,而需要考虑成本与效用之间的平衡,选择一个最优的数据量。因此有必要从统计角度来讨论大数据在建模中的边际效应问题。

六、总结

高维海量的大数据,同时具有多样性,高速性等特点,实际应用和数据驱动着统计学向前发展。在大数据时代,计算机和统计的结合成为分析和研究大数据的基础。大数据时代,统计学者应该积极拥抱计算机技术,需要更全面地了解计算机相关知识。虽然对大数据的数据分析理念,思维变革等都已展开了很多研究与讨论,但是大数据时代的帷幕才刚刚被揭开,人们对新事物的认识总是需要一个过程。对一些问题的误解可能会对统计学的发展造成重大损失,例如相关分析比因果分析更重要,大数据时代不需要抽样了,大数据时代数据质量真的不重要了。作为统计学者不能人云亦云,对当前存在的一些认识误区应及时指出并纠正。另外,大数据时代,还有很多问题需要经过反复的讨论以及时间的检验,比如大数据时代经典统计方法该如何发展?多源异构大数据

如何整合分析?大数据是否真的就越大越好?以上所讨论

的问题是关于统计发展方向的几个比较重要的问题,值得统计学者继续研究。

[参考文献]

[1] IBM - Bringing big data tothe enterprise - What is big data? - Australia[J]. Ibm Corporation.

[2] Manyika J,Chui M, Brown B, et al. Big Data: The Next Frontier for Innovation,Comptetition, and Productivity[J]. Analytics, 2011.

[3] Grobelink M. Big-datacomputing: Creating revolutionary breakthroughs in commerce, science andsociety [N / OL]. 2012-10-02.

[4] Mayer-Schnberger V, CukierK. Big Data: A Revolution That Will Transform How We Live, Work, and Think[M]//Big data : a revolution that will transform how we live, work and think. JohnMurray, 2013:181-183.

[5] Harford T. Big data: A big mistake?[J].Significance, 2014, 11(5):14-19.

[6] Lazer D, Kennedy R, King G,et al. Big data. The parable of Google Flu: traps in big data

analysis.[J].Science, 2014, 343(6176):1203-5.

[7] Olsen C. The Lady TastingTea: How Statistics Revolutionized Science in the Twentieth Century[J].

Journalof the American Statistical Association, 2002,

286(458):1238-1239.

[8] Everitt, Brian S.ModernMedical Statistics[J]. 2002.

[9] Wagstaff A. QALYs and theequity-efficiency

trade-off.[J]. Journal of Health Economics,1991,

10(1):21-41.

[10] Ning L, Li Z, He Q, et al.Parallel Implementation of Apriori Algorithm Based on

MapReduce[J].2012,1(2):236-241.

[11] Zhao W, Ma H, He Q. ParallelK, -Means Clustering Based on MapReduce[J]. Lecture Notes in Computer Science,1970:674.

[12] Oneto L, Pilarz B, Ghio A,et al. Model Selection for Big Data: Algorithmic Stability and Bag of LittleBootstraps on GPUs[C]//Proceedings. Presses universitaires de Louvain, 2015:261.

[13] Murugesan S, Bojanova I.47. Cloud Data Management[M]// Encyclopedia of Cloud Computing. John Wiley& Sons, Ltd, 2016:572-581.

[14] Fan J, Samworth R, Wu Y.Ultrahigh dimensional variable selection: beyond the linear model[J]. Journalof Machine Learning Research Jmlr, 2008, 10(5)::

2013–2038.

[15] Fan J, Rui S. Sureindependence screening in generalized linear models with

NP-dimensionality[J].Annals of Statistics, 2009,

38(6):3567-3604.

[16] Starostenkov V. Hadoop+GPU: Boost performance of your big data project by 50x 200x[J]. CIO AsiaMagazine, 2013.

[17] Reshef D N, Reshef Y A,Finucane H K, et al. Detecting novel associations in large data sets.[J].Science, 2011, 334(6062):1518-24.

[18] Nguyen H V, Müller E,Vreeken J, et al. Multivariate maximal correlation analysis[C]// InternationalConference on Machine Learning. 2014:775-783.

[19] Hewitt C. Open InformationSystems Semantics for distributed artificial intelligence[J]. ArtificialIntelligence, 1991, 47(1-3):79-106.

[20] Preis T, Moat H S, StanleyH E. Quantifying Trading Behavior in Financial Markets Using Google

Trends[J].Scientific Reports, 2013, 3(7446):542-542. [21] Butler D. When Google gotflu wrong.[J]. Nature, 2013, 494(7436):155-6.

[22] Wright S. The Method ofPath Coefficients[J]. Annals of Mathematical Statistics, 1934, 5(3):161-215.

[23] Kumar V S, Kinshuk, ClemensC, et al. Causal Models and Big Data Learning Analytics[M]// UbiquitousLearning Environments and Technologies. Springer Berlin Heidelberg, 2015.

[24] Spirtes P, Glymour C,Scheines R. Causation, prediction, and search[J]. Lecture Notes in Statistics,1993, 81(3):272-273.

[25] Pearl J. Probabilisticreasoning in intelligent systems: networks of plausible inference[J]. ComputerScience Artificial Intelligence, 1988, 70(2):1022-1027.

[26] Fan J, Han F, Liu H.Challenges of Big Data analysis[J]. National Science Review, 2014,1(2):293-314.

[27] Cohen E, Cormode G,Duffield N. Structure-aware sampling on data streams[C]// SIGMETRICS

2011,Proceedings of the 2011 ACM SIGMETRICS International Conference on Measurementand Modeling of Computer Systems, San Jose, Ca, Usa, 07-11 June. 2011:157-168.

[28] 耿直. 大数据时代统计学面临的机遇与挑战[J]. 统计研究, 2014, 31(1):5-9.

大数据对统计学的冲击与机遇

本科毕业论文(设计) 论文题目:大数据对统计学的冲击与机遇 学生姓名:黄耀真 学号: 1004100311 专业:统计学 班级:统计1003班 指导教师:朱钰 完成日期:2014年 4月 10日

大数据对统计学的冲击与机遇 内容摘要 2010年,全球数据跨入了ZB时代,据IDC预测,至2020年全球将拥有35ZB的数据量,大量数据实时地影响我们工作、生活,甚至国家经济、社会发展,大数据时代已经到来。基于数据关系的内在本质决定了大数据与统计学之间的必然关系,大数据对统计学产生了冲击又提供了机遇。本论文首先对现代统计学体系作了简要介绍。根据统计方法将统计学分为描述统计学和推断统计学,首先从大数据对描述统计学的冲击进行分析,体现在:对搜集数据方法的冲击、对搜集数据类型的冲击、对数据存储方法的冲击。再者对推断统计学的冲击进行总结。大数据对统计学的机遇体现在:抽样平均误差的降低、统计学作用范围的扩大及统计学家地位的提升。 关键词:大数据统计学冲击机遇

The impact and opportunities of big data on statistics Abstract:In 2010,the quantity of data rcached ZB level.According to IDC,there will be at least 35zettabytes of stored data in 2020.Massive data are affecting our life,even the economy and the development of society.The Big data era alredy come.From the perspective of subject, big data can be regarded as a new dataanalysis method due to its function in storage, integration, processing and analysis formass data. The intrinsic nature of big data based on data relationships determines thecertain connection with statistics, thus big data brings both challenges andopportunities to the development of statistics. The statistical was divided into descriptive statistics and inferencial statistics. The challenges of descriptive statistics embodied in the impact on method of data collection, the impact on data type and the impact on data storage.The summary of inferencial statistics.Besides, strengthen convincingness of statistical result,extended statistics system, wilder functionfield as well as higher status of statistician. Key words:Big data statistics impact opportunity

大数据时代的Excel统计与分析定制

大数据时代的Excel统计与分析 第1章大数据分析概述 1.1 大数据概述 1.1.1 什么是大数据 1.1.2 数据、信息与认知 1.1.3 数据管理与数据库 1.1.4 数据仓库 1.1.5 数据挖掘的内涵和基本特征 1.2 制造行业需要分析哪些数据? 1.2.1 产品的良率监控 1.2.2 产品的BOM设计 1.2.3 市场数据监控 1.2.4 财务数据 1.2.5 产品生产数据 1.2.6 设备预防性维护数据 1.2.7 产品需求数据 1.2.8 其他日常数据等 第2章数据挖掘流程 2.1 数据挖掘流程概述 2.1.1 问题识别 2.1.2 数据理解 2.1.3 数据准备 2.1.4 建立模型 2.1.5 模型评价 2.1.6 部署应用 第3章大数据的Excel统计分析 3.1 研究程序与抽样 3.2 频率分布 3.2.1 传统的建表方式 3.2.2 离散变量—单选题频率布 3.2.3 如何用Word编辑频率分布表 3.2.4 绘制频率分布统计图表 3.2.5 离散变量—复选题频率分布 3.2.6 利用RANK()函数处理 3.3 集中趋势 3.3.1 平均值\平均值的优点 3.3.2中位数\ 众数\ 内部平均值\ 最大值\最小值 3.3.3 第几最大值第几最小值

3.3.4 描述统计 3.4 离散程度 3.5 假设检验 3.6 单因子方差分析 3.7 相关分析 3.8 回归分析 3.9 聚类分析 3.10预测分析 第4章大数据的图表分析案例 前言:常见图表分析的三大错误 4.1 用实例说明九大类型图表:饼图、柱状图、条形图、折线图、散点图、雷达图、气泡图、面积图、圆环图的应用场合 4.2 几种专业的图表分析法 4.3九大类型图表的生成实例演练 4.4介绍几种专业的图表分析工具,您需要展示与众不同的专业度 -利用双曲线组合图表显示预计销量和实际销量对比 -利用柱形层叠图显示计划完成度 -利用双侧比较图显示市场调查结果 -利用复合饼图深入分析主要销售组成 -使用断层图分析企业数据 第5章数据分析应用实践 5.1 合理的数据呈现与EXCEL/PPT图表制作 图表制作的关键要素 合适的图表展示合适的数据 正确表达需要的主题 图表与文字的协调 图表的结论 5.2科学的数据分析结果解读 注意因果关系 不要以偏概全 考虑环境影响 兼顾定性研究 第6章数据分析报告与汇报 6.1如何撰写一份优秀的数据分析报告 6.2现场实操演练:分析报告撰写 6.3 汇报的技巧 第7章商业预测技术 预测是企业重要的决策依据,企业通过预测技术可以估计下一季度、年度的市场规模、市场占有率、销售量等。 1. 预测责任者与支持者 2. 预测的组织流程

管理统计学练习题及答案

单选: ●一个统计总体(单项选择题) (1)只能有一个标志(2)只能有一个指标 (3)可以有多个标志(4)可以有多个指标 ●对连续型变量值分为五组:第一组为40一50,第二组为50-60,第三组为60-70,第四 组为70-80,第五组为80以上。依习惯上规定: (1)50在第一组,70在第四组(2) 60在第二组,80在第五组 (3)70在第四组,80在第五组(4) 80在第四组,50在第二组 ●在对总体现象进行分析的基础上,有意识地选择若干具有代表性的单位进行调查研究, 这种调查方法是(B)。A、抽样调查B、典型调查C、重点调查 D、普查 ●对一批商品进行质量检验,最适宜采用的方法是(B )。A、全面调查B、 抽样调查C、典型调查D、重点调查 ●下述各项调查中属于全面调查的是(B )。A、对某种连续生产的产品质量进 行检验B、对某地区对工业企业设备进行普查 C、对全面钢铁生产中的重点单位进行调查 D、抽选部分地块进行农产量调 ●某班级40名学生外语考试成绩如下(单位:分): 87 65 86 92 76 73 56 60 83 79 80 91 95 88 71 77 68 70 96 69 73 53 79 81 74 64 89 78 75 66 72 93 69 70 87 76 82 79 65 84 根据以上资料编制组距为10的分布数列, 绘制直方图(纵轴:频数) ●某生产车间30名工人日加工零件数(件)如下:

30 26 42 41 36 44 40 37 37 25 45 29 43 31 36 36 49 34 47 33 43 38 42 32 34 38 46 43 39 35 要求:根据以上资料分成如下几组:25-30,30-35,35-40,40-45,45-50,计算出各组的频数和频率,整理编制次数分布表。 某工厂12名工人完成同一工件所需的时间(分钟)为: 3134 29 32 35 38 34 30 29 32 31 26 32 试计算这些数据的众数,极值,极差,平均数,中位数, 下四分位数,上四分位数。答: Statistics VAR00001 N Valid 13 Missing 0 Mean 31.7692 Median 32.0000 Mode 32.00 Range 12.00 Minimum 26.00 Maximum 38.00 Percentiles 25 29.5000 50 32.0000 75 34.0000 VAR00001

统计学是(大数据)数据分析的灵魂

及早发现流感 谷歌有一个名为“谷歌流感趋势”的工具,它通过跟踪搜索词相关数据来判断全美地区的流感情况(比如患者会搜索流感两个字)。近日,这个工具发出警告,全美的流感已经进入“紧张”级别。它对于健康服务产业和流行病专家来说是非常有用的,因为它的时效性极强,能 够很好地帮助到疾病暴发的跟踪和处理。事实也证明,通过海量搜索词的跟踪获得的趋势报告是很有说服力的,仅波士顿地区,就有700例流感得到确认,该地区目前已宣布进入公 共健康紧急状态。 这个工具工作的原理大致是这样的:设计人员置入了一些关键词(比如温度计、流感症状、肌肉疼痛、胸闷等),只要用户输入这些关键词,系统就会展开跟踪分析,创建地区流感图表和流感地图。谷歌多次把测试结果(蓝线)与美国疾病控制和预防中心的报告(黄线)做比对,从下图可知,两者结论存在很大相关性: 但它比线下收集的报告强在“时效性”上,因为患者只要一旦自觉有流感症状,在搜索和去医院就诊这两件事上,前者通常是他首先会去做的。就医很麻烦而且价格不菲,如果能自己通过搜索来寻找到一些自我救助的方案,人们就会第一时间使用搜索引擎。故而,还存在一种可能是,医院或官方收集到的病例只能说明一小部分重病患者,轻度患者是不会去医院而成为它们的样本的。 这就是一个典型的“大数据”的应用例子,舍恩伯格的这本《大数据时代》受到了广泛的赞誉,他本人也因此书被视为大数据领域中的领军人物。 大数据的起源 大数据起源于数据的充裕,舍恩伯格在他的另外一本书《删除》中,提到了这些源头。 1、信息的数字化,使得所有信息都可以得到一个完美的副本; 2、存储器越来越廉价,大规模存储这些数字信息成本极低;

大数据时代统计调查工作的挑战与思考_季晓晶

2013.5 一、问题的提出 大数据(bigdata)泛指伴随社会化数据出现的大量在线文本、图片、流媒体数据。这里的“大”有两方面含义。一是数据量巨大。指在科学技术、计算机仿真、互联网应用、电子商务等诸多应用领域产生的海量数据集。二是以数据为“大”的价值论。即大数据之 “大”更多地反映在其重要性上,而不完全指数量上的庞大。因为可以从这些数据中挖掘出有价值的信息,目前大数据被世界经济论坛的相关报告认定为其价值堪比石油的新财富。随着互联网和移动互联网的发展,无处不在的信息感知和采集终端,将行政管理、生产经营、商务活动等众多领域源源不断产生的海量即时电子化数据,通过“云计算”技术构建了一个与物质世界相平行的数字世界,所以很多专家认为人类已经跨入了大数据时代。作为数据生产的权威机关,这样一个时代的到来给统计调查工作带来了什么样的挑战与启示?统计调查部门和统计调查工作者应该怎样应对才能满足时代提出的需求?对此,笔者拟结合多年基层工作经历进行初步探讨,意在抛砖引玉,以期更多的同仁共同关注、思考大数据时代对统计工作带来的变化和影响。 二、大数据时代的来临及意义 有资料显示,1998年全球网民平均每月使用流量是1MB,2008年是1GB,2014年将是10GB。全网流量累计达到1EB的时间在2001年是一年,在2004年是一个月,在2007年是一周,而2013年仅需一天,即一天产生的信息量可刻满1.88亿张DVD光盘。淘宝网站单日数据产生量超过50TB,存储量40PB。百度公司每天要处理60亿次搜索请求,几十PB数据。一个城市若安装几十万个交通和安防摄像头,每月产生的数据量将达几十PB。数据的规模越大,处理的难度也越大,但对其进行挖掘可能得到的价值更大,这就是大数据热的原因。根据中国互联网络信息中心统计,2012年底我国网民数为5.64亿,手机网民为4.2亿。这些网民每天在网上将产生海量的数据,这些数据记载着他们的思想、行为乃至情感,蕴含着丰富的内涵和很多规律性信息,通过分析相关数据,可以了解大众需求、诉求和意见, 反映舆情民意。大数据的重要价值还在于对其有效的开发和使 用能对社会的发展起到巨大的推动作用。企业和政府的信息系统每天源源不断产生大量数据。根据全球第四大独立软件公司,美国赛门铁克公司的调研报告,全球企业的信息存储总量已达2.2ZB,年增67%。医院、学校和银行等也都会收集和存储大量信息。政府可以部署传感器等感知单元, 收集环境和社会管理所需的信息。2011年,英国《自然》杂志曾出版专刊指出,倘若能够有效地组织和使用大数据,人类将得到更多的机会发挥科学技术 对社会发展的巨大推动作用。 (备注:1024B=1KB 1024KB=1MB 1024MB=1GB 1024GB=1TB 1024TB=1PB 1024PB=1EB 1024EB=1ZB 1024ZB=1YB 1024YB=1BB ) 三、大数据时代统计工作面临的挑战 可以预见,大数据时代的到来,对统计调查部门生产出更高质量的统计产品提供了难得的机遇和更大的可能性,但与此同时,带来更多的则是挑战。这种挑战集中体现在随着大数据时代的到来,统计调查部门应该能够使用更少的投入生产出时效性更强、质量更高的产品。社会各界对统计调查部门新的服务需求和更高的工作要求也将随之形成。基于此,笔者认为在大数据背景下,统计调查工作正面临六大挑战。 一是统计工作方式的挑战。在大数据科技大浪潮的背景下,数字化的行政商业记录、网络在线文本、流媒体数据大大拓宽了统计机构收集数据信息的渠道,统计调查部门的业务工作方式也势必发生改变。在数据收集方面, 会更多的需要从互联网、物联网的数据中进行挖掘收集。如物联网的发展将使工业生产、运输物流、最终消费、服务等各种交易生成直接可用的数据。又如,现行的居民家庭日记帐是通过统一的报表和计量方式将调查对象的收入消费行为转化为可用的数据,在大数据时代将有可能实现通过对超市商场收银系统、ETC电子收费系统、GPS定位测量、银行转账、微信等数据进行挖掘从而收集到需要的数据,不再需要调查对象长期认真的配合。这种数据收集方式可以有效避免人为误差,篡改数据的可能性越来越小,数据质量将更有保 大数据时代统计调查工作的挑战与思考 季晓晶 摘要:大数据(bi g d ata )泛指伴随社会化数据出现的大量在线文本、图片、流媒体数据。因其数据量巨大又可以从中挖掘出有价值的信息, 目前被世界经济论坛的相关报告认定为其价值堪比石油的新财富。随着互联网和移动互联网的发展,无处不在的信息感知和采集终端,将行政管理、生产经营、商务活动等众多领域源源不断产生的海量即时电子化数据,通过“云计算”技术构建了一个与物质世界相平行的数字世界,所以很多专家认为人类已经跨入了大数据时代。作为数据生产的权威机关,这样一个时代的到来给统计调查工作带来了什么样的挑战与启示? 统计调查部门和统计调查工作者应该怎样应对才能满足时代提出的需求?对此,笔者结合多年基层工作经历进行了初步探讨。 关键词:大数据;统计调查工作;思考 问题研究 17

统计学原理计算题

统计学原理计算题 Document serial number【KKGB-LBS98YT-BS8CB-BSUT-BST108】

一、时间序列: 1.某公司某年9月末有职工250人,10月上旬的人数变动情况是:10月4日新招聘12名大学生上岗,6日有4名老职工退休离岗,8日有3名青年工人应征入伍,同日又有3名职工辞职离 岗,9日招聘7名营销人员上岗。试计算该公司10月上旬的平均在岗人数。 解: 1.2562 12232 2591252225822623250=++++?+?+?+?+?= = ∑∑f af a (2)分别计算该银行2001年第一季度、第二季度和上半年的平均现金库存额。 解: 2 .(1)这是个等间隔的时点序列 (2)n a a a a a a a n n 22 13210++++++=- 第一季度的平均现金库存额: 第二季度的平均现金库存额: 上半年的平均现金库存额: 答:该银行2001年第一季度平均现金库存额为480万元,第二季度平均现金库存额为万元,上半年的平均现金库存额为万元. 解: 第一季度平均人数: 上半年平均人数: 解: 解:产品总产量∑=+++++=)(210005000040003000400030002000件a

产品总成本∑=+++++=)(1.1480.346.279.214.286.216.14万元b 平均单位成本)/(52.70210001.148件元件 万元 总产量总成本= = ∑∑ ∑a b c 或:平均单位成本)(52.706 2100010000 61 .148万元=?= =a b c 答:该企业2001年上半年的产品平均单位成本为70.52元/件。 (2)计算该地区1997—2001年间的平均国民生产总值。 (3)计算1998—2001年间国民生产总值的平均发展速度和平均增长速度。 解: (1)计算表如下: (3)平均发展速度: 平均增长速度=平均发展速度-1=110.91%—1=10.91% 答:该地区1996—2000年间的平均每年创造国民生产总值54.88亿元,1997—2000年期间国民生产总值的平均发展速度为110.91%,平均增长速度为10.91%。 平均在业人口数: 平均劳动力资源: 平均在业人口比重: 答:该地区第四季度在业人口数占劳动力资源人口的平均比重为40.94%。

大数据时代统计学重构分析

大数据时代统计学重构分析 重构随着信息科学技术的高速度发展,当代获取和储存数据信息的能力不断增强而成本不断下降,这为大数据的应用提供了必要的技术环境和可能.应用大数据技术的优势愈来愈明显,它的应用能够帮助人类获取真正有价值的数据信息.近年来,专家学者有关大数据技术问题进行了大量的研究工作[1],很多领域也都受到了大数据分析的影响.这个时代将大数据称为未来的石油,它必将对这个时代和未来的社会经济以及科学技术的发展产生深远的意义和影响.目前对于大数据概念,主要是从数据来源和数据的处理工具与处理难度方面考虑,但国内外专家学者各有各的观点,并没有给出一致的精确定义.麦肯锡全球数据分析研究所指出大数据是数据集的大小超越了典型数据库工具集合、存储、管理和分析能力的数据集,大数据被Gartner定义为极端信息管理和处理一个或多个维度的传统信息技术问题[23].目前得到专家们认可的一种观点,即:“超大规模”是GB级数据,“海量”是TB级数据,而“大数据”是PB及其以上级别数据[2]. 一些研究学者把大数据特征进行概括,称其具有数据规模巨大、类型多样、可利用价值密度低和处理速度快等特征,同时特别强调大数据区别于其他概念的最重要特征是快速动态变化的数据和形成流式数据.大数据技术发展所面临的问题是数据存储、数据处理和数据分析、数据显示和数据安全等.大数据的数据量大、多样性、复杂性及实时性等特点,使得数据存储环境有了很大变化[45],而大部分传统的统计方法只适合分析单个计算机存储的数据,这些问题无疑增加了

数据处理和整合的困难.数据分析是大数据处理的核心过程,同时它也给传统统计学带来了巨大的挑战[6].产生大数据的数据源通常情况下具有高速度性和实时性,所以要求数据处理和分析系统也要有快速度和实时性特点,而传统统计分析方法通常不具备快速和实时等特点.基于大数据的特点,传统的数据统计理论已经不能适应大数据分析与研究的范畴,传统统计学面临着巨大的机遇与挑战,然而为了适应大数据这一新的研究对象,传统统计学必须进行改进,以继续和更好的服务于人类.目前国内外将大数据和统计学相结合的研究文献并不多.本文对大数据时代这一特定环境背景,统计学的抽样理论和总体理论的存在价值、统计方法的重构及统计结果的评价标准的重建等问题进行分析与研究. 1传统意义下的统计学 广泛的统计学包括三个类型的统计方法:①处理大量随机现象的统计方法,比如概率论与数理统计方法.②处理非随机非概率的描述统计方法,如指数编制、社会调查等方法.③处理和特定学科相关联的特殊方法,如经济统计方法、环境科学统计方法等[7].受收集、处理数据的工具和能力的限制,人们几乎不可能收集到全部的数据信息,因此传统的统计学理论和方法基本上都是在样本上进行的.或者即使能够得到所有数据,但从实际角度出发,因所需成本过大,也会放弃搜集全部数据.然而,选择最佳的抽样方法和统计分析方法,也只能最大程度还原总体一个特定方面或某些方面的特征.事实上我们所察觉到的数据特征也只是总体大量特征中的一小部分,更多的其他特征尚待发掘.

大数据,统计学

大数据时代需要重视统计学 我们现在要开始重视大数据,要重视统计学,因为在数据足够大了之后,我们突然发现一切社会现象到最后都有统计规律,它不像物理学那样可以准确的去描述因果的关系,它从本质上来说就是一个统计的规律。统计学学好了,你再去学别的都战无不胜,因为一切社会现象到最后都是一个统计规律。 为什么要强调统计学呢,因为我们的认知能力中最差的是统计思维。人的大脑有一些功能优良得超过我们的想象,比如我们的语言能力。著名的语言学家乔姆斯基曾说,其实语言不是你学来的,语言是你天生就会的,因为语言太复杂了,要是从出生再学语言根本学不会,等你出生的时候,你的大脑里头已经预装了一套操作系统,语言的操作系统。所以语言我们是天生就会的。 还有,比如我们察言观色的能力,也是天生就会的。但有,一些是我们不会的。一位得诺贝尔经济学的心理学家写过一本书,《思考快与慢》。里面就讲到,我们有很多思维是靠直觉的快思维,这是我们几万年、几十万年、几百万年的自然演化,然后给我们留下来的,就是第六感觉。当你觉得可能有危险的时候,你就会跑掉。但是呢,我们另外一套操作系统是用来做逻辑推理以及进行统计分析的,装得很烂,所以我们天生缺的是逻辑推理能力和统计思维能力。 所以,在大数据的时代,我们最需要补的,其实是我们认知能力中最差的统计思维。如果有在学校的学生,我建议统计学这门课要好好地上。 “大数据”何以成为热门词汇? 为什么突然之间,大数据变成了一个最热门的词汇?

首先是由于IT革命。IT革命之后,我们有了很多处理数据的能力,对计算机数据的处理能力、存储的能力和计算的能力不断的提高。人类储存信息量的增长速度比世界经济增长的速度要快4倍,而且这还是在金融危机爆发之前的世界经济增长的速度。而计算机数据处理能力的增长速度,比世界经济增长的速度要快9倍。 其次,能够被数据化的东西越来越多。最早的时候是数字可以被数据化,所以我们有了阿拉伯的计数,后来又出现了二进位,再后来我们发现文字也可以处理成数据,然后我们发现又图像也可以处理成数据。我不知道欧美同学会《时代大讲堂》位置在哪里,我就赶紧上网查一查地图,方位也可以被数据化;你用微信、微博,跟朋友在网上交流,说明你的社会关系也会被数据化。 所以这就是为什么现在要谈大数据,因为可处理的东西太多了。而当你能够被数据化的东西越来越多。当你能够拿到的数据越来越多时,就跟原来不一样了。原来的统计学得有一个抽样,因为你不可能拿到整体,因为整体太多了,而且无法去计算。而现在,当存储能力无限扩大,处理数据的计算能力不断的进步,致使现在我们所处理的往往不是一个样本数据,而是一个整体的数据。所以这个时候,有很多原来想都不能想的事情,现在你可以去做。 大数据时代的三个规律 规律一:知其然而不必知其所以然外行打败内行 我先讲一个案例就是葡萄酒。葡萄酒怎么品酒?过去是靠品酒方面的专家。他会先闻一闻,什么味道、什么香味,然后看看是不是挂杯,最后告诉你,这个酒大

(完整版)大数据时代对统计学的影响分析

大数据时代对统计学的影响分析 大数据和统计学两者在本质上是相互联系、相互促进,没有数据也不可能完成统计,所以二者缺一不可。在大数据时代,统计学必须与时俱进,跟上时代发展的脚步,勇敢地接受大数据带来的的挑战和变革,才会走得更长远。而大数据也要珍惜统计学,两者是无法离开的,只有在共同学习进步下,才能够实现双赢,成为主宰。 关键词:大数据时代;统计学;影响分析 引言 对于大数据(Big data),可以理解为新模式中具备决策性、洞察力、发现力的一门技术。它主要概括数据的自然增长力和多样化的信息资产。 统计学是大数据里面的一门重要的学科。因为它和大数据有着千丝万缕的关系,所以它被人们广泛使用和学习。它是通过整理分析得出来的科学的数据。具有精准性、客观性即概括性。完成统计学的方法有很多种,如调查法、立案法、实验法等主要广泛应用于社会、科学等方面。 一、大数据和统计学的关系 (一)两者的关系 在当今信息时代,用数字代表的信息越来越多,科技迅速发展,互联网时代高速运转,在许多公司用来统计数据的时候,都用的电子表格,进行整理分析。在把它们汇总起来,就成了统计。数据是统计的本质,统计是数据的概括及意义。数据就像零零碎碎的字母,统计就是英语单词,通过整理分析,把字母拼成一个具有意义的单词,这就是数据和统计的意义。只有相互依存,你中有我我中有你。 (二)大数据和统计学的区别 信息功能不同。大数据的意义是某种事物的代表,有些东西要是用它原本的名称代替可能不太放便,这样一个简便的代号即简便又容易记忆。在工作中,工作人员根据超市销售的数据进行整理分析,在汇总起来就是统计,最终他们看得都是统计整理得出的数,分析的也是统计后的数据。因此,统计学是用样本单位来分析和推断数据总体的特征。由数据控制,我们只能根据获得的数据来推断总体数量。在信息时代,越来越多的东西可以用数据表示,几乎全部的信息资料都

统计学计算题例题

第四章 1. 某企业1982年12月工人工资的资料如下: 要求:(1)计算平均工资;(79元) (2)用简捷法计算平均工资。 2. 某企业劳动生产率1995年比1990年增长7%,超额完成计划2%,试确定劳动生产率计划增长数。7%-2%=5% 3. 某厂按计划规定,第一季度的单位产品成本比去年同期降低8%。实际 执行结果,单位产品成本较去年同期降低4%。问该厂第一季度产品单位成本计划的完成程度如何%( (1-4%)/(1-8%)*100%=96%/92%*100%=%结果表明:超额完成%(%-100%) ) 4. 某公社农户年收入额的分组资料如下:

要求:试确定其中位数及众数。中位数为(元)众数为(元) 求中位数: 先求比例:(1500-720)/(1770-720)= 分割中位数组的组距:(800-700)*= 加下限700+= 求众数: D1=1050-480=570 D2=1050-600=450 求比例:d1/(d1+d2)=570/(570+450)= 分割众数组的组距:*(800-700)= 加下限:700+= 年某月份某企业按工人劳动生产率高底分组的生产班组数和产量资料如下: /人) (55*300+65*200+75*140+85*60)/(300+200+140+60) 6.某地区家庭按人均月收入水平分组资料如下:

根据表中资料计算中位数和众数。中位数为(元) 众数为(元) 求中位数: 先求比例:(50-20)/(65-20)= 分割中位数组的组距:(800-600)*= 加下限:600+= 7.某企业产值计划完成103%,比去年增长5%。试问计划规定比去年增长 多少% (上年实际完成= 本年实际计划比上年增长 ()/==%) 8.甲、乙两单位工人的生产资料如下: 试分析:(1)哪个单位工人的生产水平高 (2)哪个单位工人的生产水平整齐 % 3.33V %7.44V /8.1x /5.1x ====乙甲乙甲人)(件人)(件9.在 计算平均数里,从每个标志变量中减去75个单位,然后将每个差数 缩小10倍,利用这个变形后的标志变量计算加权算术平均数,其中各个变量的权数扩大

大数据时代统计学发展的若干问题

大数据时代统计学发展的若干问题 作者:马双鸽,刘蒙阕,周峙利,方匡南,朱建平,谢邦昌 本文是发表在《统计研究》的论文基础上整理的,获国家社会科学基金项目“大数据的高维变量选择方法及其应用研究”( 批准号13CTJ001) 和国家自然科学基金面上项目“广 义线性模型的组变量选择及其在信用评分中的应用”(批准号71471152) 的资助。 一、引言 随着计算机技术,尤其是互联网和多媒体技术的普及与飞速发展,人类社会被呈爆炸性增长的信息所包围。据国际商业机器公司(IBM)资料显示[1],目前数据的生成每日以千万亿字节来计算,全球近90%的数据是在过去两年产生的。大数据时代已经到来。 基于自身态度和学术背景的差异,目前,来自不同领域、学科的学者对大数据的理解并没有一个统一的定义。依照美国咨询公司麦肯锡(McKinsey)[2]的定义,大数据是指那些规模超出了典型的数据库软件工具的能力来进行捕获、存储、管理和分析的数据集。与传统数据相比,大数据的大不仅仅是体量上的扩充,数据的结构、形式、粒度、组织等各方面都更加复杂。凭借存储成本更低、运行效率更高的现代信息

技术,大数据可以认为是一切可记录的数字化信号集合。从数据特征来看,Grobelink. M(2012)提出了著名的“3V”定义,即多样性( Variety) 、规模性( Volume)、高速性 ( Velocity)[3]。在此基础上,国际数据公司(IDC)认为大数据还具有价值密度低的特点(Value),而国际商业机器公司(IBM)则提出大数据的真实性(Veracity)。[1] 近年来,IBM、Oracle、Microsoft、Google、Amazon、Facebook等跨国公司大力推动了大数据处理技术的发展,大数据在自然科学、金融、医疗、移动通信等领域涌现出了大量应用成果[3]。伴随着大数据的广泛应用,越来越多的学者开始关注和讨论大数据问题,形成了一些颇具影响力、有代表性的观点。其中最典型的要属舍恩伯格和库克耶(2013)提出的大数据时代三个重要的思维转变:更多(不是随机样本,而是全体数据)、更杂(不是精确性,而是混杂性)、更好(不是因果关系,而是相关关系)[4]。上述观点在业界、学术界引起很多共鸣,同时也存在很多质疑[5,6]。此观点对于大数据时代统计学的发展方向具有一定的指导性作用,然而却很少有文章在探讨统计学科如何发展的背景下系统地 对其进行反思。因此,本文首先回顾了统计学发展历史,剖析了统计学的发展总是以应用为驱动,并在此基础上讨论了大数据背景下统计学的发展定位,进一步分析统计学与计算机之间的关系,并针对舍氏“三个重要的思维转变”提出自己

应用统计学专业大数据方向人才培养方案

应用统计学专业(大数据方向)人才培养方案 学科门类:理学 二级类:统计学类 专业代码:071202 英文名称:Applied Statistics(Big data) 一、专业培养目标 本专业培养德、智、体、美全面发展,掌握数学、统计学和经济学等相关学科的基本理论和知识,具备运用统计方法和大数据处理技术,利用计算机处理和分析数据的能力,能在企事业、经济、金融、保险等部门从事数据采集、预处理、数据挖掘、大数据应用分析及开发、数据可视化等工作的高素质应用型人才。 二、专业培养规格 1、知识结构 (1)掌握计算机的基础知识。 (2)掌握中外文资料查询、文献检索及运用现代信息技术获取相关信息的基本方法。 (3)熟练掌握一门外语,能顺利阅读本专业的外文资料和撰写外文摘要。 (4)具有社会学、文学、哲学和历史学等社会科学基本知识。 (5)掌握经济学、管理学的基本理论知识。 (6)掌握政治、形式与政策、思想道德修养与法律基础等基本知识。 (7)具有坚实的数学理论基础。 (8)了解与统计学相关的自然学科的基本知识,具有坚实的统计学和经济学理论基础。 (9)掌握统计学的基本思想和方法,熟悉统计政策和法规; (10)理解大数据技术领域的基本理论和基本知识。 (11)掌握大数据科学与技术的基本思维方法和研究方法,了解大数据技术的应用前景、以及相关行业最新进展与发展动态。 (12)具有分布式数据库原理与应用、大数据技术框架、数据分析与方法、数据挖掘技术、数据可视化技术、并行与分布式计算原理、大数据编程技术等专

业知识。 2、能力结构 (1)具有一定的语言文字表达能力,掌握资料查询,文献检索及运用现代信息技术获得相关信息的能力,能够跟踪统计学领域最新技术发展趋势。 (2)具备自主学习、对终身学习有正确的认识,具有不断学习和适应发展的能力。 (3)具有运用统计方法进行数据采集、处理、分析、推断和预测的能力。 (4)能熟练使用统计软件并具备一定的编程能力,并且能正确利用统计思想和方法分析判断软件的计算结果。 (5)具备应用统计方法解决企事业、经济、金融、保险等领域实际问题的能力。 (6)了解相关的技术标准,具有数据处理、分析、呈现等应用技能,具备大数据项目的组织与管理能力。 (7)具有大数据行业领域相关软件产品的应用、大数据系统分析、设计、部署以及维护和管理能力。 (8)具备一定的创新意识和从事大数据领域科学研究的初步能力,有获取最新科学技术知识和信息的基本能力。 (9)具有一定的独立工作能力、人际交往能力和团队合作能力。 3、素质结构 (1)掌握马列主义、毛泽东思想、邓小平理论和“三个代表”重要思想的基本原理,树立辩证唯物主义、历史唯物主义和科学发展观的基本观点。 (2)具有良好的道德品质、社会公德、职业道德和良好的文化素养。 (3)具有爱岗敬业、艰苦奋斗、团结合作的优秀品质。 (4)具有健全的人格、健康的体魄、良好的心理素质和积极乐观的人生态度,养成健全的职业人格和对统计的热爱态度以及良好的体育锻炼习惯, 达到国家规定的大学生体育合格标准和军事训练标准。 三、专业培养规格实现矩阵

大数据时代的统计学

大数据时代的统计学 摘要:本文主要围绕“大数据”展开话题,结合“统计学”专业,论述了什么是大数据,什么是统计学,在对概念的了解基础上掌握大数据的发展历程以及统计学的发展历程。从中找出大数据与统计学的联系,然后进一步了解在大数据时代下统计学所处的地位以及大数据时代下统计学的变化和发展。在前人的研究基础上,我们进一步的发现问题并探讨问题,运用统计学方法去解决大数据时代下的一些问题,并提出自己的看法。 关键词:大数据;统计学;数据挖掘;数据分析 引言 本文写作的目的在于阐述大数据的定义、历史发展及趋势、运用领域等有关大数据的问题,以及阐述统计学的定义、发展趋势、运用领域等有关统计方面的问题。在此基础上探析大数据时代下的统计学发生的变化,带来的影响,以及所导致的统计学的发展趋势。 有关大数据的文献很多,涉及的领域也相当广泛,如互联网、天文学、大气科学、基因组学、大规模电子商务等等,都离不开计算机作为载体,它们都成为了大数据的来源。本文写作主要基于运用统计学知识去处理大数据所涉及问题,而运用统计方法分析问题所涉及的范围也相当广泛。对于大数据的到来,对于统计学来说是福音,因为它为大数据时代处理大数据问题带来了有效的解决方法。 本文所引用文献主要来自于2011年到2015年的国内外有关大数据的期刊文献,从不同角度描述了大数据对当今时代的影响,尤其是对本文的另一位主角--统计学的影响。而对于一个统计学专业出身的人,对于大数据时代下统计学的发展有喜有忧,大数据时代的到来在一定程度上促进了统计学的发展,同样的也带来了巨大的挑战。这些都需要我们一步步的解决并完善。 正文 1 大数据的来源与发展历程 “大数据”这个术语最早期的引用可追溯到apache org的开源项目Nutch。当时,大数据用来描述为更新网络搜索索引需要同时进行批量处理或分析的大量数据集。随着谷歌MapReduce和Google File System (GFS)的发布,大数据不再仅用来描述大量的数据,还

大数据对统计学的挑战和机遇

大数据对统计学的挑战和机遇 从学科角度而言,大数据对海量数据进行存储、整合、处理和分析,可视为一种新的数据分析方法,这种基于数据关系的内在本质决定了大数据与统计学之间的必然关系,大数据对统计学的发展既提出了挑战又提供了机遇。大数据对统计学的挑战体现在:大样本标准的调整、样本选取标准和形式的重新确定、统计软件有待升级和开发及实质性统计方法的大数据化。大数据对统计学的机遇体现在:统计质量的提高、统计成本的下降、统计学作用领域的扩大、统计学科体系的延伸及统计学家地位的提升。 大数据统计学挑战机遇 一、大数据与统计学的比较 统计学在大数据的研究中存在一定的应用,表现在将“大数据”变成“小数据”,对海量数据的搜索、聚类和分类依赖于统计学的一般方法,因而大数据的研究继承了统计学科的一些特点。但大数据尚未被统计学吸纳和应用,这主要是由于大数据与统计学存在两个很关键的差别。 第一,样本统计和全样本统计的差别。统计学依赖于样本统计(普查除外),样本是按照一定的概率从总体中抽取并作为总体代表的集合体,而随机抽样是有成本的,如时间

成本、资金成本、社会关系等。在样本规模增加有限的情况下,总体数量越大样本估计的误差就越大,这是样本统计不可避免的缺陷。 第二,预测分析和非预测分析的差别。统计学旨在分析变量之间的相关关系,即两个或两个以上变量之间存在的某种规律性,故数据搜集是发生在变量确定之后,数据的分析价值是可预测的。如若要研究利率对消费行为的影响,则利率大小和消费支出的数据会有目的地被搜集和分析。一旦分析目的完成,为该目的而搜集的数据的价值也就完全实现。 二、大数据对统计学的挑战 大数据与统计学的关系及其本身的优势,意味着未来统计学的大数据化是不可避免的趋势,现有的统计学与大数据之间还存在着一些不相容的地方,为积极应对这一趋势,就必须对现有的统计学理论和方法作出相应的调整甚至是某 些方面的完全革新。 统计学依赖于样本统计,主要研究客观事物数量关系和数量特征。大数据时代产生了海量的即时的电子化数据,其样本量大,甚至可以覆盖全部总体,所以包含更多的信息量。例如,传统的经济统计一般细化到行业层面或产品层面,但电子商务的发展和条形码的普及让记录具体到每一次交易 行为。网上电子化交易信息,企业电子化经营记录,部门电子化行政记录,为统计调查提供了海量数据,对统计学样本

统计学计算题(有答案)

1、甲乙两班同时参加《统计学原理》课程的测试,甲班平均成绩为81分,标准差为9.5分,乙 班的成绩分组资料如下: 按成绩分组学生人数(人) 60以下 4 60~70 10 70~80 25 80~90 14 90~100 2 计算乙班学生的平均成绩,并比较甲乙两班,哪个班的平均成绩更有代表性? 2、某车间有甲乙两个生产组,甲组平均每个人的日产量为36件,标准差为9.6件,乙组工人产 量资料如下: 日产量(件)工人数(人) 15 15 25 38 35 34 45 13 要求:(1)计算乙组平均每个工人的日产量和标准差 (2)比较甲乙两生产小组的日产量更有代表性 3 月份 1 2 3 4 5 6 8 11 12

库存额60 55 48 43 40 50 45 60 68 又知1月1日商品库存额为63万元,试计算上半年,下半年和全年的平均商品库存额。 4 品名单位销售额2002比2001销售量增长(%) 2001 2002 电视台5000 8880 23 自行车辆4500 4200 -7 合计9500 13080 (2)计算由于销售量变动消费者增加或减少的支出金额 5、某商店两种商品的销售额和销售价格的变化情况如下:(万元) 商品单位销售额1996比1995年销售价格提高(%) 1995 1996 甲米120 130 10 乙件40 36 12 要求:(1)计算两件商品销售价格总指标和由于价格变动对销售额的影响绝对值(2)计算销售量总指数,计算由于销售变动消费者增加或减少的支出金额

6、某企业上半年产品量和单位成本资料如下: 要求:(1)计算相关系数, 说明两个变量相关的密切程度 (2)配合回归方程,指出产量每增加1000件时,单位成本平均变动多少? 月份 产量(千克) 单位成本(元) 1 2 73 2 3 72 3 4 71 4 3 73 5 4 69 6 5 68

大数据时代对统计学的挑战_邱东

第31卷第1期2014年1月统计研究 Statistical Research Vol.31,No.1Jan.2014 衡等传统计算机技术与现代网络技术融合起来,把多个计算实体整合成一个具有强大计算能力的系 统,并借助SaaS 、PaaS 、IaaS 、MSP 等商业模式把它分布到终端用户手中。云计算的核心理念就是不断提 高“云”处理能力来减少用户终端的处理负担,使用户终端简化成一个单纯的输入输出设备,并能按需 享受强大的“云”计算处理能力。可见,统计技术与云计算技术的融合是一种优势互补,只有这样统计 技术才能在大数据时代一展身手、有所作为,才能真 正把统计思想在数据分析中得到体现,实现统计分析研究的目的。 数据创造统计,流量创新分析。由于各个应用领域的不断变化,特别是数据来源与类型的不断变化,使得统计学还难以成为一门真正成熟的科学。因此,在数据分析的世界里,不断提高驾驭数据的能力是统计学发展的终身动力。 大数据时代对统计学的挑战 * 邱东 内容提要:本文首先探讨了面对大数据潮流应持有的科学态度,然后从大数据能否淹没整个世界、信息与噪声 能够泾渭分明吗、 统计学与数据科学究竟是什么关系、大数据潮流对统计学究竟产生了什么样的影响等四个方面论述了大数据对统计学的挑战。 关键词:大数据;信息;噪声;数据科学;统计学 中图分类号:C829.2 文献标识码:A 文章编号:1002-4565(2014)01-0016-07 The Challenge of Statistics in the Age of Big Data Qiu Dong Abstract :This paper discusses the trend to big data which is due from scholars to scientific attitude ,and then discusses the challenges of big data from four aspects as following :Can big data cover the whole world ?Can Information and noise be quite distinct from each other ?What ’s relationship between statistics and data sciences ?What kind of impact generated on the trend of big data ? Key words :Big Data ;Information ;Noise ;Statistics ;Data Sciences *本文为第十七次全国统计科学讨论会特邀论文。 一、除了机遇还有挑战 世界潮流,浩浩荡荡,不可阻挡,国人讲究识时务者为俊杰,信息时代,数据爆炸。大数据大势当 前,究竟采取什么样的态度才是真正的 “识时务”?大数据时代并不会自动生成,总是需要不断地提出和解决大数据发展所遇到的问题和矛盾,才会有切实的进步。事物发展的不同阶段有不同的“时 务”,需要不同的应对。2009年,大数据成为互联网信息技术行业的流行词汇。而早在1980年,著名未来学家A.托夫勒 出版《第三次浪潮》,其中已将大数据赞颂为“第三 次浪潮的华彩乐章”。此间30余年,能不能看作大数据发展的萌芽期?多数人对数据爆炸还懵懵懂 懂,世界需要赛博世界(Cyber world )的开拓者,需要大数据潮流的预示者,需要导师,需要先声夺人。 一旦人们接受大数据汹涌而来的现实,就需要既讲机遇,也讲挑战。我们固然仍需要启蒙,需要科 普, 需要科学理论和方法论的“二传手”,但不需要跟风,不需要屏蔽了部分信息的“偏息图”,不需要抓住一点不及其余的“唯数据论”,不需要“应运而生”的投机者。我们更需要切实有学术增加值的数

相关文档