文档库 最新最全的文档下载
当前位置:文档库 › 大数据的概念、特征及其应用

大数据的概念、特征及其应用

大数据的概念、特征及其应用
大数据的概念、特征及其应用

马建光等:大数据的概念、特征及其应用

(2013-09-05 16:15:35)

转载▼

分类:学习资料

标签:

杂谈

大数据的概念、特征及其应用

马建光,姜巍

(国防科技大学人文与社会科学学院,湖南长沙410074)

源自:国防科技2013年4月

[摘要]随着互联网的飞速发展,特别是近年来随着社交网络、物联网、云计算以及多种传感器的广泛应用,以数量庞大,种类众多,时效性强为特征的非结构化数据不断涌现,数据的重要性愈发凸显,传统的数据存储、分析技术难以实时处理大量的非结构化信息,大数据的概念应运而生。如何获取、聚集、分析大数据成为广泛关注的热点问题。介绍大数据的概念与特点,分别讨论大数据的典型的特征,分析大数据要解决的相关性分析、实时处理等核心问题,最后讨论大数据可能要面临的多种挑战。

[关键词]大数据; 非结构化信息; 解决核心问题; 未来挑战

一、引言

自上古时代的结绳记事起,人类就开始用数据来表征自然和社会,伴随着科技和社会的发展进步,数据的数量不断增多,质量不断提高。工业革命以来,人类更加注重数据的作用,不同的行业先后确定了数据标准,并积累了大量的结构化数据,计算机和网络的兴起,大量数据分析、查询、处理技术的出现使得高效的处理大量的传统结构化数据成为可能。而近年来,随着互联网的快速发展,音频、文字、图片视频等半结构化、非结构化数据大量涌现,社交网络、物联网、云计算广泛应用,使得个人可以更加准确快捷的发布、获取数据。在科学研究、互联网应用、电子商务等诸多应用领域,数据规模、数据种类正在以极快的速度增长,大数据时代已悄然降临。

首先,全球数据量出现爆炸式增长,数据成了当今社会增长最快的资源之一。根据国际数据公司IDC 的监测统计[1],即使在遭遇金融危机的2009 年,全球信息量也比2008 年增长了62%,达到80 万PB ( 1PB 等于10亿GB) ,到2011 年全球数据总量已经达到1. 8ZB ( 1ZB 等于1 万亿GB,) ,并且以每两年翻一番的速度飞速增长,预计到2020 年全球数据量总量将达到40 ZB,10年间增长20 倍以上,到2020 年,地球上人均数据预计将达5247GB。在数据规模急剧增长的同时,数据类型也越来越复杂,包括结构化数据、半结构化数据、非结构化数据等多种类型,其中采用传统数据处理手段难以处理的非结构化数据已接近数据总量的75%。

如此增长迅速、庞大繁杂的数据资源,给传统的数据分析、处理技术带来了巨大的挑战。为了应对这样的新任务,与大数据相关的大数据技术、大数据工程、大数据科学和大数据应用等迅速成为信息科学领域的热点问题,得到了一些国家政府部门、经济领域以及科学领域有关专家的广泛关注。2012 年3 月22 日,奥巴马宣布美国政府五大部门投资2 亿美元启动“大数据研究和发展计划( Big Data Research and Development Initiative) ”[2],欲大力推

动大数据相关的收集、储存、保留、管理、分析和共享海量数据技术研究,以提高美国的科研、教育与国家安全能力。这是继1993 年美国宣布“信息高速公路”计划后的又一次重大科技发展部署,美国政府认为大数据是未来信息时代的重要资源,战略地位堪比工业时代的石油,其影响除了体现在科技、经济方面,同时将也对政治、文化等方面产生深远的影响。在商业方面,2013 年,Gartner 发布了将在未来三年对企业产生重大影响的十大战略技术中,大数据名列其中,提出大数据技术将影响企业的长期计划、规划和行动方案,同时,IBM、Intel、EMC、Walmart、Teradata、Oracle、Microsoft、Google、Facebook 等发源于美国的跨国巨头也积极提出自己的应对大数据挑战的发展策略,他们成了发展大数据处理技术的主要推动者。在科技领域,庞大的数据正在改变着人类发现问题、解决问题的基本方式,采用最简单的统计分析算法,将大量数据不经过模型和假设直接交给高性能计算机处理,就可以发现某些传统科学方法难以得到的规律和结论。图灵奖得主吉姆·格雷提出的数据密集型科研第四范式[3],不同于传统的实验、理论和计算三种范式,第四种范式不需要考虑因果关系,以数据为中心,分析数据的相关性,打破了千百年来从结果出发探究原因的科研模式,大规模的复杂数据使得新的科研模式成为可能。

虽然大数据日益升温,但与大多数信息学领域的问题一样,大数据的基本概念及特点,大数据要解决核心问题,目前尚无统一的认识,大数据的获取、存储、处理、分析等诸多方面仍存在一定的争议,大数据概念有过度炒作的嫌疑。欧洲的一些企业甚至认为大数据就是海量数据存储,仅将大数据视作是可以获取更多信息的平台。本文分析当前流行的几种大数据的概念,讨论其异同,从大数据据有的典型特征角度描述大数据的概念和特点,从整体上分析大数据要解决的相关性分析、实时处理等核心问题,在此基础上,最后讨论大数据可能要面临的多种挑战。

二、国内外开展的相关工作

近年来,大数据成为新兴的热点问题,在科技、商业领域得到了日益广泛的关注和研究,有一些相关的研究成果。早在1980 年,阿尔文·托夫勒[4]等人就前瞻性地指出过大数据时代即将到来。此后经过几十年的发展,特别是移动互联网络和云计算的出现,人们逐渐认识到大数据的重大意义,国际顶级学术刊物相继出版大数据方面的专刊,讨论大数据的特征、技术与应用,2008 年Nature 出版专刊“Big Data”[5],分析了大量快速涌现数据给数据分析处理带来的巨大挑战,大数据的影响遍及互联网技术、电子商务、超级计算、环境科学、生物医药等多个领域。2011 年Science 推出关于数据处理的专刊“Dealing with data”[6],讨论了数据洪流( Data Deluge) 所带来的挑战,提出了对大数据进行有效的分析、组织、利

用可以对社会发展起到巨大推动作用。在大数据领域,国内学者也有大量的相关工作,李国杰等人[7]阐述了大数据的研究现状与意义,介绍了大数据应用与研究所面临的问题与挑战并对大数据发展战略提出了建议。文献[8-10]主要关注大数据分析、查询方面的理论、技术,对大数据基本概念进行了剖析,列举了大数据分析平台需要具备的几个重要特性,阐述了大数据处理的基本框架,并对当前的主流实现平台进行了分析归纳。随着大数据理念逐渐被大众了解,出现了一些阐述大数据基本概念与思想的专著,舍恩伯格等在大数据时代[11]一书中用三个部分讲述了大数据时代的思维变革、商业变革和管理变革。近年来,大数据对经济的推动作用被广泛接受,出现了探讨大数据在商业领域的应用的文章和专著,Martin Klubeck 等人在量化: 大数据时代的企业管理[12]一书中提到,进入大数据时代,数据发

挥着关键的作用,探讨了如何从空前膨胀的海量数据中挖掘出有用的指标和信息。朱志军等人所著的《转型时代丛书: 大数据·大价值、大机遇、大变革》[13]中介绍了大数据产生的背景、特征和发展趋势,从实证的角度探讨了它对社会和商业智能的影响,并认为大数据正影响着商业模式的转变,并将带来新的商业机会。

三、大数据的概念与特点

大数据是一个较为抽象的概念,正如信息学领域大多数新兴概念,大数据至今尚无确切、统一的定义。在维基百科中关于大数据的定义为[14]: 大数据是指利用常用软件工具来获取、管理和处理数据所耗时间超过可容忍时间的数据集。笔者认为,这并不是一个精确的定义,因为无法确定常用软件工具的范围,可容忍时间也是个概略的描述。IDC 在对大数据作出的定义为[15]: 大数据一般会涉及2 种或2 种以上数据形式。它要收集超过100TB 的数据,并且是高速、实时数据流; 或者是从小数据开始,但数据每年会增长60%以上。这个定义给出了量化标准,但只强调数据量大,种类多,增长快等数据本身的特征。研究机构Gartner 给出了这样的定义[16]:大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。这也是一个描述性的定义,在对数据描述的基础上加入了处理此类数据的一些特征,用这些特征来描述大数据。当前,较为统一的认识是大数据有四个基本特征: 数据规模大( Volume) ,数据种类多( Variety) ,数据要求处理速度快( Velocity) ,数据价值密度低( Value) ,即所谓的四V 特性。这些特性使得大数据区别于传统的数据概念。大数据的概念与“海量数据”不同,后者只强调数据的量,而大数据不仅用来描述大量的数据,还更进一步指出数据的复杂形式、数据的快速时间特性以及对数据的分析、处理等专业化处理,最终获得有价值信息的能力。

( 一) 数据量大

大数据聚合在一起的数据量是非常大的,根据IDC 的定义至少要有超过100TB 的可供分析的数据,数据量大是大数据的基本属性。导致数据规模激增的原因有很多,首先是随着互联网络的广泛应用,使用网络的人、企业、机构增多,数据获取、分享变得相对容易,以前,只有少量的机构可以通过调查、取样的方法获取数据,同时发布数据的机构也很有限,人们难以短期内获取大量的数据,而现在用户可以通过网络非常方便的获取数据,同时用户在有意的分享和无意的点击、浏览都可以快速的提供大量数据; 其次是随着各种传感器数据获取能力的大幅提高,使得人们获取的数据越来越接近原始事物本身,描述同一事物的数据量激增。早期的单位化数据,对原始事物进行了一定程度的抽象,数据维度低,数据类型简单,多采用表格的形式来收集、存储、整理,数据的单位、量纲和意义基本统一,存储、处理的只是数值而已,因此数据量有限,增长速度慢而随着应用的发展,数据维度越来越高,描述相同事物所需的数据量越来越大。以当前最为普遍的网络数据为例,早期网络上的数据以文本和一维的音频为主,维度低,单位数据量小。近年来,图像、视频等二维数据大规模涌现,而随着三维扫描设备以及Kinect 等动作捕捉设备的普及,数据越来越接近真实的世界,数据的描述能力不断增强,而数据量本身必将以几何级数增长。此外,数据量大还体现在人们处理数据的方法和理念发生了根本的改变。早期,人们对事物的认知受限于获取、分析数据的能力,一直利用采样的方法,以少量的数据来近似的描述事物的全貌,样本的数量可以根据数据获取、处理能力来设定。不管事物多么复杂,通过采样得到部分样本,数据规模变小,就可以利用当时的技术手段来进行数据管理和分析,如何通过正确的采样方法以最小的数据量尽可能分析整体属性成了当时的重要问题。随着技术的发展,样本数目逐渐逼近原始的总体数据,且在某些特定的应用领域,采样数据可能远不能描述整个事物,可能丢掉大量重要细节,甚至可能得到完全相反的结论,因此,当今有直接处理所有数据而不是只考虑采样数据的的趋势。使用所有的数据可以带来更高的精确性,从更多的细节来解释事物属性,同时必然使得要处理数据量显著增多。

( 二) 数据类型多样

数据类型繁多,复杂多变是大数据的重要特性。以往的数据尽管数量庞大,但通常是事先定义好的结构化数据。结构化数据是将事物向便于人类和计算机存储、处理、查询的方向

抽象的结果,结构化在抽象的过程中,忽略一些在特定的应用下可以不考虑的细节,抽取了有用的信息。处理此类结构化数据,只需事先分析好数据的意义以数据间的相关属性,构造表结构来表示数据的属性,数据都以表格的形式保存在数据库中,数据格式统一,以后不管再产生多少数据,只需根据其属性,将数据存储在合适的位置,就可以方便的处理、查询,一般不需要为新增的数据显著的更改数据聚集、处理、查询方法,限制数据处理能力的只是运算速度和存储空间。这种关注结构化信息,强调大众化、标准化的属性使得处理传统数据的复杂程度一般呈线性增长,新增的数据可以通过常规的技术手段处理。而随着互联网络与传感器的飞速发展,非结构化数据大量涌现,非结构化数据没有统一的结构属性,难以用表结构来表示,在记录数据数值的同时还需要存储数据的结构,增加了数据存储、处理的难度。而时下在网络上流动着的数据大部分是非结构化数据,人们上网不只是看看新闻,发送文字邮件,还会上传下载照片、视频、发送微博等非结构化数据,同时,遍及工作、生活中各个角落的传感器也时刻不断的产生各种半结构化、非结构化数据,这些结构复杂,种类多样,同时规模又很大的半结构化、非结构化数据逐渐成为主流数据。如上所述,非结构化数据量已占到数据总量的75%以上,且非结构化数据的增长速度比结构化数据快10 倍到50 倍。在数据激增的同时,新的数据类型层出不穷,已经很难用一种或几种规定的模式来表征日趋复杂、多样的数据形式,这样的数据已经不能用传统的数据库表格来整齐的排列、表示。大数据正是在这样的背景下产生的,大数据与传统数据处理最大的不同就是重点关注非结构化信息,大数据关注包含大量细节信息的非结构化数据,强调小众化,体验化的特性使得传统的数据处理方式面临巨大的挑战。

( 三) 数据处理速度快

要求数据的快速处理,是大数据区别于传统海量数据处理的重要特性之一。随着各种传感器和互联网络等信息获取、传播技术的飞速发展普及,数据的产生、发布越来越容易,产生数据的途径增多,个人甚至成为了数据产生的主体之一,数据呈爆炸的形式快速增长,新数据不断涌现,快速增长的数据量要求数据处理的速度也要相应的提升,才能使得大量的数据得到有效的利用,否则不断激增的数据不但不能为解决问题带来优势,反而成了快速解决问题的负担。同时,数据不是静止不动的,而是在互联网络中不断流动,且通常这样的数据的价值是随着时间的推移而迅速降低的,如果数据尚未得到有效的处理,就失去了价值,大量的数据就没有意义。此外,在许多应用中要求能够实时处理新增的大量数据,比如有大量在线交互的电子商务应用,就具有很强的时效性,大数据以数据流的形式产生、快速流动、迅速消失,且数据流量通常不是平稳的,会在某些特定的时段突然激增,数据的涌现特征明显,而用户对于数据的响应时间通常非常敏感,心理学实验证实,从用户体验的角度,瞬间( moment,3 秒钟) 是可以容忍的最大极限,对于大数据应用而言,很多情况下都必须要在1秒钟或者瞬间内形成结果,否则处理结果就是过时和无效的,这种情况下,大数据要求快速、持续的实时处理。对不断激增的海量数据数据的实时处理要求,是大数据与传统海量数据处理技术的关键差别之一。

( 四) 数据价值密度低

数据价值密度低是大数据关注的非结构化数据的重要属性。传统的结构化数据,依据特定的应用,对事物进行了相应的抽象,每一条数据都包含该应用需要考量的信息,而大数据为了获取事物的全部细节,不对事物进行抽象、归纳等处理,直接采用原始的数据,保留了数据的原貌,且通常不对数据进行采样,直接采用全体数据,由于减少了采样和抽象,呈现所有数据和全部细节信息,可以分析更多的信息,但也引入了大量没有意义的信息,甚至是错误的信息,因此相对于特定的应用,大数据关注的非结构化数据的价值密度偏低,以当前广泛应用的监控视频为例,在连续不间断监控过程中,大量的视频数据被存储下来,许多数

据可能是无用,对于某一特定的应用,比如获取犯罪嫌疑人的体貌特征,有效的视频数据可能仅仅有一两秒,大量不相关的视频信息增加了获取这有效的一两秒数据的难度。但是大数据的数据密度低是指相对于特定的应用,有效的信息相对于数据整体是偏少的,信息有效与否也是相对的,对于某些应用是无效的信息对于另外一些应用则成为最关键的信息,数据的价值也是相对的,有时一条微不足道的细节数据可能造成巨大的影响,比如网络中的一条几十个字符的微博,就可能通过转发而快速扩散,导致相关的信息大量涌现,其价值不可估量。因此为了保证对于新产生的应用有足够的有效信息,通常必须保存所有数据,这样就使得一方面是数据的绝对数量激增,一方面是数据包含有效信息量的比例不断减少,数据价值密度偏低。

四、大数据要解决的核心问题

与传统海量数据的处理流程相类似,大数据的处理也包括获取与特定的应用相关的有用数据,并将数据聚合成便于存储、分析、查询的形式; 分析数据的相关性,得出相关属性; 采用合适的方式将数据分析的结果展示出来等过程。大数据要解决的核心问题与相应的这些步骤相关。

(一) 获取有用数据

通常认为,数据是大数据要处理的对象,大数据技术流程应该从对数据的分析开始,实际上,规模巨大,种类繁多,包含大量信息的数据是大数据的基础,数据本身的优劣对分析结果有很大的影响,有一种观点认为,数据量大了可以不必强调数据的质量,允许错误的数据进入系统,参与分析。大量的数据中包含少量的错误数据影响不大,事实上如果不加约束,大量错误数据涌入就可能导致得到完全错误的结果。正是数据获取技术的进步促成了大数据的兴起,大数据理应重视数据的获取,如果通过简单的算法处理大量的数据就可以得出相关的结果,则解决问题的困难就转到了如何获取有效的数据。文献[8]中指出数据的产生技术经历了被动、主动和自动的三个阶段,早期的数据是人们为基于分析特定问题的需要,通过采样、抽象等方法记录产生的数据; 随着互联网特别是社交网络的发展,越来越多的人在网络上传递发布信息,主动产生数据;而传感器技术的广泛应用使得利用传感器网络可以不用控制全天候的自动获取数据。其中自动、主动数据的大量涌现,构成了大数据的主要来源。对于实际应用来说,并不是数据越多越好,获取大量数据的目的是尽可能正确、详尽的描述事物的属性,对于特定的应用数据必须包含有用的信息,拥有包含足够信息的有效数据才是大数据的关键。有了原始数据,要从数据中抽取有效的信息,将这些数据以某种形式聚集起来,对于结构化数据,此类工作相对简单。而大数据通常处理的是非结构化数据,数据种类繁多,构成复杂,需要根据特定应用的需求,从数据中抽取相关的有效数据,同时尽量摒除可能影响判断的错误数据和无关数据。

( 二) 数据分析

数据分析是大数据处理的关键,大量的数据本身并没有实际意义,只有针对特定的应用分析这些数据,使之转化成有用的结果,海量的数据才能发挥作用。数据是广泛可用的,所缺乏的是从数据中提取知识的能力,当前,对非结构化数据的分析仍缺乏快速、高效的手段,一方面是数据不断快速的产生、更新,一方面是大量的非结构化数据难以得到有效的分析,大数据的前途取决于从大量未开发的数据中提取价值,据IDC 统计[2]: 2012 年,若经过标记和分析,数据总量中23%将成为有效数据,大约为643EB; 但实际上只有3%的潜在有效数据被标记,大量的有效数据不幸丢失。预计到2020 年,若经过标记和分析,将有33% ( 13000EB) 的数据成为有效数据,具备大数据价值。价值被隐藏起来的数据量和价值被真正挖掘出来的数据量之间的差距巨大,产生了大数据鸿沟,对多种数据类型构成的异构数据集

进行交叉分析的技术,是大数据的核心技术之一。此外,大数据的一类重要应用是利用海量的数据,通过运算分析事物的相关性,进而预测事物的发展。与只记录过去,关注状态,简单生成报表的传统数据不同,大数据不是静止不动的,而是不断的更新、流动,不只记录过去,更反映未来发展的趋势。过去,较少的数据量限制了发现问题的能力,而现在,随着数据的不断积累,通过简单的统计学方法就可能找到数据的相关性,找到事物发生的规律,指导人们的决策。

( 三) 数据显示

数据显示是将数据经过分析得到的结果以可见或可读形式输出,以方便用户获取相关信息。对于传统的结构化数据,可以采用数据值直接显示、数据表显示、各种统计图形显示等形式来表示数据,而大数据处理的非结构化数据,种类繁多,关系复杂,传统的显示方法通常难以表现,大量的数据表、繁乱的关系图可能使用户感到迷茫,甚至可能误导用户。利用计算机图形学和图像处理的可视计算技术成为大数据显示的重要手段之一,将数据转换成图形或图像,用三维形体来表示复杂的信息,直接对具有形体的信息进行操作,更加直观,方便用户分析结果。若采用立体显示技术,则能够提供符合立体视觉原理的绘制效果,表现力更为丰富。对于传统的数据表示方式,图表、数据通常是二维的,用户与计算机交互容易,而通过三维表现的数据,通常由于数据过于复杂,难以定位而交互困难,可以通过最近兴起的动作捕捉技术,获取用户的动作,将用户与数据融合在一起,使用户直接与绘制结果交互,便于用户认识、理解数据。数据显示以准确、方便的向用户传递有效信息为目标,显示方法可以根据具体应用需要来选择。

( 四) 实时处理数据的能力

大数据需要充分、及时地从大量复杂的数据中获取有意义的相关性,找出规律。数据处理的实时要求是大数据区别于传统数据处理技术的重要差别之一。一般而言,传统的数据处理应用对时间的要求并不高。运行1-2天获得结果依然是可以接受的。而大数据领域相当大的一部分应用需要在1 秒钟内或瞬间内得到结果,否则相关的处理结果就是过时的、无效的。先存储后处理的批处理模式通常不能满足需求,需要对数据进行流处理。由于这些数据的价值会随着时间的推移不断减少,实时性成了此类数据处理的关键。而数据规模巨大、种类繁多、结构复杂,使得大数据的实时处理极富挑战性。数据的实时处理要求实时获取数据,实时分析数据,实时绘制数据,任何一个环节慢都会影响系统的实时性。当前,互联网络以及各种传感器快速普及,实时获取数据难度不大; 实时分析大规模复杂数据是系统的瓶颈,也是大数据领域亟待解决的核心问题; 数据的实时绘制是可视计算领域的热点问题,GPU 以及分布式并行计算的飞速发展使得复杂数据的实时绘制成为可能,同时数据的绘制可以根据实际应用和硬件条件选择合适的绘制方式。

五、大数据面临的挑战

当今社会,互联网络和传感器技术飞速发展,大规模非结构化数据快速积累,适应时代发展的大数据理论和技术其前瞻性是显而易见的,但同时,大数据的概念也有过分炒作的可能。大数据这种新的理念一出现,就出现了大数据当立,传统方案当下的论调,似乎大数据是万能的,传统的数据分析、处理方法可以淘汰了,以数据为中心,当数据多到一定程度时,用最简单的算法就可以得到结果,不需要关注算法的优劣,只需关注数据的质量,大数据带来的巨大运算量可以由计算优势来应对。实际上,大数据是一种新兴的理论,大数据的概念、技术、方法还远不成熟,在其发展的过程中还将面临多种挑战,不应过分夸大其先进性。

(一) 不能完全代替传统数据

当前大数据尚不能完全取代传统结构化数据,尽管大数据关注的非结构化数据的绝对数据量占总数据量的75%,但由于非结构化数据的价值偏低,有效的非结构化数据与结构化数据相比并不占绝对优势,对于某些特定的应用,结构化数据仍然占据主导地位。对于互联网、社交网络、传感器网络等应用,利用大数据分析可以更好的分析相关的非结构化海量数据,因此前面所述的EMC、Google、Facebook 等面临数据爆炸的商业巨头积极推动大数据技术发展。而对于传统的结构化数据密集型的应用,相关研究已经持续了几十年,传统数据处理方法可以很好的处理这些结构化数据,对于这些应用则没有必要应用大数据相关技术,没有必要盲目的追逐潮流。此外,商业上一些所谓大数据应用,甚至就是对原来技术进行新的包装,并没有革命性的突破。大数据当立,传统方案当下的论调当前并不准确,非结构化数据完全替代传统数据尚需时日,用户需要根据实际应用需要选择合适的数据处理方式。

( 二) 数据保护

大数据时代,互联网络的发展使得获取数据十分便利,给信息安全带来了巨大的挑战。当前,数据安全形势不容乐观,需要保护的数据量增长已超过了数据总量的增长。据IDC 统计[15]:2010 年仅有不到1 /3 的数据需要保护,到2020年这一比例将超过2 /5; 2012 年的统计显示,虽然有35%的信息需要保护,但实际得到保护的不到20%。在亚洲、南美等新兴市场,数据保护的缺失更加严重。首先个人隐私更容易通过网络泄露,随着电子商务、社交网络的兴起,人们通过网络联系的日益紧密,将个人的相关数据足迹聚集起来分析,可以很容易获取个人的相关信息,隐私数据就可能暴露,而数据在网络上的发布机制使得这种暴露似乎防不胜防; 在国家层面,大数据可能给国家安全带来隐患,如果在大数据处理方面落后,就可能导致数据的单向透明,美国发布大数据研发计划,大力发展大大数据技术就有增强国家安全方面的战略考量。

( 三) 相关性预知

大数据时代,人们不再认为数据是静止和陈旧的,而是流动的、不断更新的。大数据是人们获得新的认知,创造新的价值的源泉,通过分析数据的相关性可能预知事物的发展方向。但是从数据来的结论不一定能反映真实,比如随着数据的增多,会带来部分错误的数据,使得数据价值大大降低,影响分析的结果,甚至可能得出错误的结论。此外,大数据获取的统计学上的宏观结论,对于一些微观的问题并没有意义,比如抛硬币,抛的次数越多,得到正反两面的次数越接近,概率越接近0. 5,但不管已经抛了多少次,还是不能分析出下一次得到正面还是反面。因此,不能希望通过大数据可以预知一切。

六、结语

随着社交网络、物联网、云计算的飞速发展,大量非结构化数据呈指数级快速增长,数据样式高度复杂,为人类认识世界、改造世界提供了重要的资源,企业和个人通过网络可以大规模的收集和分析数据,也可以产生、发布数据,个体在互联的网络中既是数据的消费者又是数据的生产者,大规模生产、分享、应用数据的大数据时代已经来临。与此同时,数量巨大、种类繁多的数据给传统的数据获取、分析、处理、存储、检索技术带来了挑战,大数据成为广泛关注且亟待解决的热点问题,并已经开始影响社会的发展与人们的日常生活。然而大数据的概念和相关技术还远未成熟,尚存在着一定的争议,面临着诸多挑战,甚至有人认为大数据有过分炒作的可能。本文从几种常见的描述大数据的概念出发,分析大数据的典型的特征,依据这些特征来讨论大数据技术可能的要解决的核心问题,最后讨论了大数据可能要面临的多种挑战。

大数据的概念来源于、发展于美国,并向全球扩展,必将给我国未来的科技与经济发展带来深远影响。根据IDC 统计,目前数据量在全球比例为: 美国32%、西欧19%、中国13%,

预计到2020 年中国将产生全球21% 的数据,我国是仅次于美国的数据大国,而我国大数据方面的研究尚处在起步阶段,如何开发、利用保护好大数据这一重要的战略资源,是我国当前亟待解决的问题。

[参考文献]

[1] Obama Administration Unveils“Big Data”Initative:Announces $ 200 Million in New R&D Investments.Office of Science and Technology Policy Executive Office of the President. 2012.5.

[2] David Reinsel,John Gantz. The Digital Universe in 2020: Big Data,Bigger Digital Shadows,and Biggest Growth in the Far East. 2012, 12.

[3] Tony Hey,Stewart Tansley. The Fourth Paradigm:Data - Intensive Scientific Discovery.Microsoft,2009. 10.

[4]托夫勒.第三次浪潮[M].北京: 中信出版社, 2006.

[5] Big Data. Nature,2008,455( 7209) : 1 - 136.

[6] Dealing with data. Science,2011, 331( 6018) : 639 -806.

[7]李国杰,程学旗.大数据研究: 未来科技及经济社会发展的重大战略领域——大数据的研究现状与科学思考[J].中国科学院院刊. 2012( 06) : 647 - 657.[8]孟小峰,慈祥.大数据管理概念技术与挑战[J].计算机研究与发展, 2013, 50( 1) : 146 -169.

[9]覃雄派,王会举,杜小勇,王珊.大数据分析——RDBMS 与MapReduce 的竞争与共生[J].软件学报, 2012, 23( 1) : 32 - 45.

[10]王珊,王会举,覃雄派,周烜.架构大数据: 挑战、现状与展望[J].计算机学报,2012,34( 10) : 1741 -1752.

[11]维克托·迈尔-舍恩伯格.大数据时代[M].上海:浙江人民出版社,2012.[12] Martin Klubeck.量化: 大数据时代的企业管理[M].北京: 人民邮电出版, 2013.[13]朱志军,闫蕾.转型时代丛书: 大数据·大价值、大机遇、大变革[M].北京: 电子工业出版社,2012.

[14] Big data,http: / /en. wikipedia. org /wiki /Big_data.

[15] Benjamin Woo World wide Big Data Technology and Services 2012 – 2015 Forecast. 2012.5

[16]Big data http: / /www. gartner. com/it - glossary /big - data.

大大数据概念、技术、特点、应用与案例

大数据 目录 一、大数据概念 (1) 二、大数据分析 (2) 三、大数据技术 (3) 四、大数据特点 (4) 五、大数据处理 (4) 六、大数据应用与案例分析 (6) 一、大数据概念 "大数据"是一个体量特别大,数据类别特别大的数据集,并且这样的数据集无法用传统数据库工具对其内容进行抓取、管理和处理。"大数据"首先是指数据体量(volumes)?大,指代大型数据集,一般在10TB?规模左右,但在实际应用中,很多企业用户把多个数据集放在一起,已经形成了PB级的数据量;其次是指数据类别(variety)大,数据来自多种数据源,数据种类和格式日渐丰富,已冲破了以前所限定的结构化数据范畴,囊括了半结构化和非结构化数据。接着是数据处理速度(Velocity)快,在数据量非常庞大的情况下,也能够做到数据的实时处理。最后一个特点是指数据真实性(Veracity)高,随着社交数据、企业内容、交易与应用数据等新数据源的兴趣,传统数据源的局限被打破,企业愈发需要有效的信息之力以确保其真实性及安全性。 "大数据"是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。从数据的类别上看,"大数据"

指的是无法使用传统流程或工具处理或分析的信息。它定义了那些超出正常处理范围和大小、迫使用户采用非传统处理方法的数据集。亚马逊网络服务(AWS)、大数据科学家JohnRauser提到一个简单的定义:大数据就是任何超过了一台计算机处理能力的庞大数据量。研发小组对大数据的定义:"大数据是最大的宣传技术、是最时髦的技术,当这种现象出现时,定义就变得很混乱。" Kelly说:"大数据是可能不包含所有的信息,但我觉得大部分是正确的。对大数据的一部分认知在于,它是如此之大,分析它需要多个工作负载,这是AWS的定义。当你的技术达到极限时,也就是数据的极限"。大数据不是关于如何定义,最重要的是如何使用。最大的挑战在于哪些技术能更好的使用数据以及大数据的应用情况如何。这与传统的数据库相比,开源的大数据分析工具的如Hadoop的崛起,这些非结构化的数据服务的价值在哪里。 二、大数据分析 从所周知,大数据已经不简简单单是数据大的事实了,而最重要的现实是对大数据进行分析,只有通过分析才能获取很多智能的,深入的,有价值的信息。那么越来越多的应用涉及到大数据,而这些大数据的属性,包括数量,速度,多样性等等都是呈现了大数据不断增长的复杂性,所以大数据的分析方法在大数据领域就显得尤为重要,可以说是决定最终信息是否有价值的决定性因素。基于如此的认识,大数据分析普遍存在的方法理论有哪些呢? 1、可视化分析 大数据分析的使用者有大数据分析专家,同时还有普通用户,但是他们二者对于大数据分析最基本的要求就是可视化分析,因为可视化分析能够直观的呈现大数据特点,同时能够非常容易被读者所接受,就如同看图说话一样简单明了 2、数据挖掘算法 大数据分析的理论核心就是数据挖掘算法,各种数据挖掘的算法基于不同的数据类型和格式才能更加科学的呈现出数据本身具备的特点,也正是因为这些被全世界统计学家所公认的各种统计方法(可以称之为真理)才能深入数据内部,

林子雨大数据技术原理及应用第四章课后作业答案

大数据技术原理与应用第四章课后作业 黎狸 1.试述在Hadoop体系架构中HBase与其他组成部分的相互关系。 HBase利用Hadoop MapReduce来处理HBase中的海量数据,实现高性能计算;利用Zookeeper作为协同服务,实现稳定服务和失败恢复;使用HDFS作为高可靠的底层存储,利用廉价集群提供海量数据存储能力; Sqoop为HBase的底层数据导入功能,Pig 和Hive为HBase提供了高层语言支持,HBase是BigTable的开源实现。 2.请阐述HBase和BigTable的底层技术的对应关系。 3.请阐述HBase和传统关系数据库的区别。 4.HBase有哪些类型的访问接口? HBase提供了Native Java API , HBase Shell , Thrift Gateway , REST GateWay , Pig , Hive 等访问接口。 5.请以实例说明HBase数据模型。

6.分别解释HBase中行键、列键和时间戳的概念。 ①行键标识行。行键可以是任意字符串,行键保存为字节数组。 ②列族。HBase的基本的访问控制单元,需在表创建时就定义好。 ③时间戳。每个单元格都保存着同一份数据的多个版本,这些版本采用时间戳进行索 引。 7.请举个实例来阐述HBase的概念视图和物理视图的不同。 8.试述HBase各功能组件及其作用。 ①库函数:链接到每个客户端; ②一个Master主服务器:主服务器Master主要负责表和Region的管理工作; ③③许多个Region服务器:Region服务器是HBase中最核心的模块,负责存储和 维护分配给自己的Region,并响应用户的读写请求

大数据技术原理与应用-林子雨版-课后习题答案复习进程

大数据技术原理与应用-林子雨版-课后习 题答案

第一章 1.试述信息技术发展史上的3次信息化浪潮及具体内容。 2.试述数据产生方式经历的几个阶段 答:运营式系统阶段,用户原创内容阶段,感知式系统阶段。 3.试述大数据的4个基本特征 答:数据量大、数据类型繁多、处理速度快和价值密度低。 4.试述大数据时代的“数据爆炸”的特性 答:大数据时代的“数据爆炸”的特性是,人类社会产生的数据一致都以每年50%的速度增长,也就是说,每两年增加一倍。 5.数据研究经历了哪4个阶段? 答:人类自古以来在科学研究上先后历经了实验、理论、计算、和数据四种范式。 6.试述大数据对思维方式的重要影响 答:大数据时代对思维方式的重要影响是三种思维的转变:全样而非抽样,效率而非精确,相关而非因果。 7.大数据决策与传统的基于数据仓库的决策有什么区别 答:数据仓库具备批量和周期性的数据加载以及数据变化的实时探测、传播和加载能力,能结合历史数据和实时数据实现查询分析和自动规则触发,从而提供对战略决策和战术决策。 大数据决策可以面向类型繁多的、非结构化的海量数据进行决策分析。

8.举例说明大数据的基本应用 9.举例说明大数据的关键技术 答:批处理计算,流计算,图计算,查询分析计算 10.大数据产业包含哪些关键技术。 答:IT基础设施层、数据源层、数据管理层、数据分析层、数据平台层、数据应用层。 11.定义并解释以下术语:云计算、物联网 答:云计算:云计算就是实现了通过网络提供可伸缩的、廉价的分布式计算机能力,用户只需要在具备网络接入条件的地方,就可以随时随地获得所需的各种IT资源。 物联网是物物相连的互联网,是互联网的延伸,它利用局部网络或互联网等通信技术把传感器、控制器、机器、人类和物等通过新的方式连在一起,形成人与物、物与物相连,实现信息化和远程管理控制。

大数据基本概念及技术

大数据是当前很热的一个词。这几年来,云计算、继而大数据,成了整个社会的热点,不管什么,都要带上“大数据”三个字才显得时髦。大数据究竟是什么东西?有哪些相关技术?对普通人的生活会有怎样的影响?我们来一步步弄清这些问题。 一、基本概念 在讲什么是大数据之前,我们首先需要厘清几个基本概念。 1.数据 关于数据的定义,大概没有一个权威版本。为方便,此处使用一个简单的工作定义:数据是可以获取和存储的信息。 直观而言,表达某种客观事实的数值是最容易被人们识别的数据(因为那是“数”)。但实际上,人类的一切语言文字、图形图画、音像记录,所有感官可以察觉的事物,只要能被记下来,能够查询到,就都是数据(data)。

不过数值是所有数据中最容易被处理的一种,许多和数据相关的概念,例如下面的数据可视化和数据分析,最早是立足于数值数据的。 传统意义上的数据一词,尤其是相对于今天的“大数据”的“小数据”,主要指的就是数值数据,甚至在很多情况下专指统计数值数据。这些数值数据用来描述某种客观事物的属性。 2.数据可视化 对应英语的data visulization(或可译为数据展示),指通过图表将若干数字以直观的方式呈现给读者。比如非常常见的饼图、柱状图、走势图、热点图、K线等等,目前以二维展示为主,不过越来越多的三维图像和动态图也被用来展示数据。 3.数据分析 这一概念狭义上,指统计分析,即通过统计学手段,从数据中精炼对现实的描述。例如:针对以关系型数据库中以table形式存储的数据,按照某些指定的列进行分组,然后计算不同组的均值、方差、分布等。再以可视化的方式讲这些计算结果呈现出来。目前很多文章中提及的数据分析,其实是包括数据可视化的。

大数据及其特点(1)

大数据及其特点(1) 胡经国 一、大数据定义 据了解,目前大数据这一概念尚无大家公认的统一定义。下面仅介绍关于大数据定义的一些常见表述,供读者参考。 1、表述1 大数据(Big Data)是指一个数据集,它的尺寸大到已经无法由传统的数据库软件工具去采集、存储、管理和分析。 Big Data referes to datasets whose size is beyond the ability of typical database software tools to capture, store, manage, and analyze. MGI May,2011 大数据是指一个数据集,它的尺寸的增长已经让现有的数据库管理工具相形见绌,这些困难包括:数据采集、存储、搜索、分享、分析和可视化。 Big data are datasets that grow so large that they become awkward to work with using on-hard database management tools. Difficulties include capture, storage, search, sharing, analytics, and visualizing. Wikipedia 2、表述2 大数据是指需要用新的处理模式处理才能使其具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。从数据的类别上看,大数据是指无法使用传统流程或工具处理或分析的信息。它定义了那些超出正常处理范围和大小、迫使用户采用非传统处理方法的数据集。 3、表述3 大数据是指所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到掘取、管理、处理、并整理成为帮助企业经营决策达到更积极目的的资讯。 4、表述4 美国咨询公司麦肯锡给出的大数据定义:大数据是指其大小超出常规数据库工具的采集、存储、管理和分析能力的数据集。 由于传统数据库有效工作的数据上限一般为10~100TB;因而10~100TB 通常成为大数据的“门槛”。 无独有偶,IDC(国际数据公司)在给大数据做定义时,也把大数据的“门槛”设在100TB。其实,这种方法未必科学。不管怎样,有一个简单明晰的数值来指导对大数据的判断总是好事。

大数据的概念、技术及应用

大数据的概念、技术及应用1 概述 1.1 大数据的概念和特点 1.1.1 大数据的基础 1.1.2 大数据如何“与时俱进”? 1.1.3 大数据发展趋势 人工智能 物联网结合 各个行业的深入 1.2 大数据的技术基础 1.2.1 从数据仓库开始 1.2.2 HADOOP 生态圈 1.2.3 与云计算的关系 1.2.4 数据运维能力提升 1.3 大数据的应用举例 1.3.1 大数据提升客户分析能力 1.3.2 大数据提升产品分析能力 1.3.3 大数据提升管理水平 1.3.4 大数据提升各行业“智慧” 1.4 大数据下的人工智能(AI) 1.4.1 什么是人工智能

1.4.2 人工智能改变哪些行业? 1.4.3 大数据下的人工智能有何不同? 1.4.4 人工智能的“颠覆” 1.5 大数据如何精细化管理 1.5.1 量化管理的引出 1.5.2 大数据如何提升“量化”的维度和深度1.5.3 从艺术到技术 1.5.4 自动驾驶到自动管理? 1.6 电信企业的大数据“商机” 1.6.1 从网络运营到数据运营 1.6.2 提炼“内功” 1.6.3 提升外部管理能力 1.6.4 扩展增值产品运营市场 2 大数据的行业解决方案应用案例 2.1 基础应用范围 2.2 石油行业应用案例 2.3 交通行业应用案例 2.4 旅游行业应用案例 2.5 金融行业应用案例 2.6 电信行业应用案例 2.7 互联网行业应用案例等

3 大数据技术基础 3.1 从数据仓库开始 3.1.1 数据仓库的“集中” 3.1.2 数据仓库的模型标准化3.1.3 大数据的演进 3.2 HADOOP 生态圈 3.2.1 开源社区概述 3.2.2 开源改变了什么?3.2.3 HADOOP 生态圈内容3.2.4 HADOOP 的技术原则3.2.5 HADOOP 的运维3.3 HADOOP 基础 3.3.1 HDFS 的原理 3.3.2 MAP/REDUCE 原理3.3.3 YARN 原理 3.4 HIVE/HBASE 技术 3.4.1 HIVE 的原理 3.4.2 HBASE 的原理 3.4.3 两者的关系 3.5 SPARK 技术 3.5.1 基本原理

信息和数据的含义及其关系

信息和数据的含义及其关系: 信息:事物运动状态变化和特征的反映。 数据:客观事物记录下来可鉴别的符号。 关系:信息采用数据表示、数据是信息的载体。数据可转换为信息。共同点:数据和信息都直接反映客观事物。 区别:数据是放映信息的一种形式,但不是唯一形式,不能把任何情况下的数据等同于信息本身。 财务信息的含义及其生成的过程: 财务信息:可以对财务活动规律进行直接描述,并可在人们之间进行交流、传播和利用知识。 会计核算生成财务信息包括两个过程,既财务信息的日常加工过程——主要是通过填制和审核会计凭证和登记账簿,形成账簿记录;财务信息的再加工过程——主要是以账簿记录为基础,通过进一步分类、汇总、浓缩或扩充,并以财务报表的形式,形成一个比较完备的财务信息体系,达到对外发送的要求。财务信息的日常加工再加工,是一个连续、循环,并不断完善和提高的过程,都是会计核算形成财务信息不可或缺的重要过程。 比较分析法的含义及要注意的问题: 比较分析:将实际达到的数据同特定的各种标准相比较,从数量上确定其差异,并进行差异分析或趋势分析的一种分析方法。 比较分析要注意的问题:指标内容范围和计算的方法要一致。计量标准会计政策和会计处理方法要一致。时间单位和长度要一致。企业类型经营规模和财务规模目标要一致。 比率分析法的含义及作用: 定义:利用财务比率,包括一个单独的比率或者一组比率,以表明某一方面的业绩、状况或能力的分析。 作用:由于比率是由密切联系的两个或两个以上相关数字计算出来的,所以通过比率分析,往往可以利用一个或几个比率就可以独立地揭示和说明企业某一方面的财务状况和经营业绩,或者说明一方面的能力。 因素分析法的含义及特征: 定义:确定影响因素、测量影响程度、查明指标变动原因的分析方法。 特征:要按照影响因素同综合性经济指标之间的因果关系,确定影响因素。计算过程假设性。因素替代顺序性。 财务报表分析要注意的问题: 要弥补财务报表提供信息的局限性。使用比较分析法或比率分析法必须和实际情况相结合。经营业绩的评价要恰当。 收益性分析的含义及意义: 收益性分析:对企业通过资产经营能够取得多大收益的能力进行分析评价和预测。 意义:促进企业提高资产管理水平。促进企业改善资产结构,提高资金运用效果。促进企业扩大经营规模。促进企业增强市场竞争能力。 企业经营与收益的关系: 企业经营活动目标、范围和内容的调整变化会引起收益结构发生变化,反之,通过收益结构的分析,又可以了解企业的市场营销战略、发展战略和技术创新战略等是否合理,有无创新。 共同比损益表含义及作用 定义:也叫总体结构损益表,简称共同比损益表。是用百分比数字编制的,用以提供损益表各项目与主营业务收入之间的对比关系。

(完整版)大数据技术原理与应用林子雨版课后习题答案

第一章 1.试述信息技术发展史上的3次信息化浪潮及具体内容。 2.试述数据产生方式经历的几个阶段 答:运营式系统阶段,用户原创内容阶段,感知式系统阶段。 3.试述大数据的4个基本特征 答:数据量大、数据类型繁多、处理速度快和价值密度低。 4.试述大数据时代的“数据爆炸”的特性 答:大数据时代的“数据爆炸”的特性是,人类社会产生的数据一致都以每年50%的速度增长,也就是说,每两年增加一倍。 5.数据研究经历了哪4个阶段?

答:人类自古以来在科学研究上先后历经了实验、理论、计算、和数据四种范式。 6.试述大数据对思维方式的重要影响 答:大数据时代对思维方式的重要影响是三种思维的转变:全样而非抽样,效率而非精确,相关而非因果。 7.大数据决策与传统的基于数据仓库的决策有什么区别 答:数据仓库具备批量和周期性的数据加载以及数据变化的实时探测、传播和加载能力,能结合历史数据和实时数据实现查询分析和自动规则触发,从而提供对战略决策和战术决策。 大数据决策可以面向类型繁多的、非结构化的海量数据进行决策分析。 8.举例说明大数据的基本应用 答: 9.举例说明大数据的关键技术

答:批处理计算,流计算,图计算,查询分析计算 10.大数据产业包含哪些关键技术。 答:IT基础设施层、数据源层、数据管理层、数据分析层、数据平台层、数据应用层。 11.定义并解释以下术语:云计算、物联网 答:云计算:云计算就是实现了通过网络提供可伸缩的、廉价的分布式计算机能力,用户只需要在具备网络接入条件的地方,就可以随时随地获得所需的各种IT资源。 物联网是物物相连的互联网,是互联网的延伸,它利用局部网络或互联网等通信技术把传感器、控制器、机器、人类和物等通过新的方式连在一起,形成人与物、物与物相连,实现信息化和远程管理控制。 12.详细阐述大数据、云计算和物联网三者之间的区别与联系。

大数据的定义及基本特征

大数据的定义及基本特征 无论是2001年梅塔集团分析师道格〃莱尼提出的大数据技术萌芽,还是2008年IBM公司的史密斯首次以“BIG DATA”的名词初步定义了大数据的含义,时至今日,科学届对大数据还没有给出一个完整准确的定义,不同领域的科学家们都从不同的视角诠释了大数据的基本含义。但是,纵观大数据发展的前世今生,以及今后的发展趋势,大数据的含义可以归结为: 大数据是人类认知世界的技术理念,是在信息技术支撑下,利用全新的数据分析处理方法,在海量、复杂、散乱的数据集合中提取有价值信息的技术处理过程,其核心就是对数据进行智能化的信息挖掘,并发挥其作用。 有人说世界的本质就是数据,在当今充满数字化数据的时代,数据处理变得更加容易、更加快速,人们能够在瞬间处理成千上万的海量数据,为了在数据中理解信息内容,发现信息与信息之间的关系,人类从没有像今天这样对数据有那么深刻的认识,实际上,我们应该重新认识数据的特征:(1)海量的数据规模(Volume)。具有当前任何一种单体设备难以直接存储、管理和使用的数据量,大数据中所说的“大”也包括数据的全面性。 (2)快速的数据流转和动态的数据变化(Velocity)。数据会随着时间和环境发生变化。

(3)多样的数据类型(Variety)。刻画特定事物特征或规律的数据是以多种形式存在的。 (4)巨大的数据价值(Value)。数据就是资源,许多看似杂乱无章的数据,其潜在蕴含着巨大的价值,数据的价值是由不同的应用目的而体现。 (5)智能化数据挖掘(Intelligence)。无论数据有多少,还是以何种形式呈现,人类要想从数据中发现事物的真相,必须应用全新的方法分析数据,以得到有价值的信息。

大数据的概念、特征及其应用

马建光等:大数据的概念、特征及其应用 (2013-09-05 16:15:35) 转载▼ 分类:学习资料 标签: 杂谈 大数据的概念、特征及其应用 马建光,姜巍 (国防科技大学人文与社会科学学院,湖南长沙410074) 源自:国防科技2013年4月 [摘要]随着互联网的飞速发展,特别是近年来随着社交网络、物联网、云计算以及多种传感器的广泛应用,以数量庞大,种类众多,时效性强为特征的非结构化数据不断涌现,数据的重要性愈发凸显,传统的数据存储、分析技术难以实时处理大量的非结构化信息,大数据的概念应运而生。如何获取、聚集、分析大数据成为广泛关注的热点问题。介绍大数据的概念与特点,分别讨论大数据的典型的特征,分析大数据要解决的相关性分析、实时处理等核心问题,最后讨论大数据可能要面临的多种挑战。 [关键词]大数据; 非结构化信息; 解决核心问题; 未来挑战 一、引言 自上古时代的结绳记事起,人类就开始用数据来表征自然和社会,伴随着科技和社会的发展进步,数据的数量不断增多,质量不断提高。工业革命以来,人类更加注重数据的作用,不同的行业先后确定了数据标准,并积累了大量的结构化数据,计算机和网络的兴起,大量数据分析、查询、处理技术的出现使得高效的处理大量的传统结构化数据成为可能。而近年来,随着互联网的快速发展,音频、文字、图片视频等半结构化、非结构化数据大量涌现,社交网络、物联网、云计算广泛应用,使得个人可以更加准确快捷的发布、获取数据。在科学研究、互联网应用、电子商务等诸多应用领域,数据规模、数据种类正在以极快的速度增长,大数据时代已悄然降临。 首先,全球数据量出现爆炸式增长,数据成了当今社会增长最快的资源之一。根据国际数据公司IDC 的监测统计[1],即使在遭遇金融危机的2009 年,全球信息量也比2008 年增长了62%,达到80 万PB ( 1PB 等于10亿GB) ,到2011 年全球数据总量已经达到1. 8ZB ( 1ZB 等于1 万亿GB,) ,并且以每两年翻一番的速度飞速增长,预计到2020 年全球数据量总量将达到40 ZB,10年间增长20 倍以上,到2020 年,地球上人均数据预计将达5247GB。在数据规模急剧增长的同时,数据类型也越来越复杂,包括结构化数据、半结构化数据、非结构化数据等多种类型,其中采用传统数据处理手段难以处理的非结构化数据已接近数据总量的75%。 如此增长迅速、庞大繁杂的数据资源,给传统的数据分析、处理技术带来了巨大的挑战。为了应对这样的新任务,与大数据相关的大数据技术、大数据工程、大数据科学和大数据应用等迅速成为信息科学领域的热点问题,得到了一些国家政府部门、经济领域以及科学领域有关专家的广泛关注。2012 年3 月22 日,奥巴马宣布美国政府五大部门投资2 亿美元启动“大数据研究和发展计划( Big Data Research and Development Initiative) ”[2],欲大力推

大数据技术原理与应用 林子雨版 课后习题答案(精编文档).doc

【最新整理,下载后即可编辑】 第一章 1.试述信息技术发展史上的3次信息化浪潮及具体内容。 2.试述数据产生方式经历的几个阶段 答:运营式系统阶段,用户原创内容阶段,感知式系统阶段。

3.试述大数据的4个基本特征 答:数据量大、数据类型繁多、处理速度快和价值密度低。 4.试述大数据时代的“数据爆炸”的特性 答:大数据时代的“数据爆炸”的特性是,人类社会产生的数据一致都以每年50%的速度增长,也就是说,每两年增加一倍。 5.数据研究经历了哪4个阶段? 答:人类自古以来在科学研究上先后历经了实验、理论、计算、和数据四种范式。 6.试述大数据对思维方式的重要影响 答:大数据时代对思维方式的重要影响是三种思维的转变:全样而非抽样,效率而非精确,相关而非因果。 7.大数据决策与传统的基于数据仓库的决策有什么区别 答:数据仓库具备批量和周期性的数据加载以及数据变化的实时探测、传播和加载能力,能结合历史数据和实时数据实现查询分析和自动规则触发,从而提供对战略决策和战术决策。 大数据决策可以面向类型繁多的、非结构化的海量数据进行决策分析。

8.举例说明大数据的基本应用 答: 9.举例说明大数据的关键技术 答:批处理计算,流计算,图计算,查询分析计算 10.大数据产业包含哪些关键技术。 答:IT基础设施层、数据源层、数据管理层、数据分析层、数据平台层、数据应用层。

11.定义并解释以下术语:云计算、物联网 答:云计算:云计算就是实现了通过网络提供可伸缩的、廉价的分布式计算机能力,用户只需要在具备网络接入条件的地方,就可以随时随地获得所需的各种IT资源。 物联网是物物相连的互联网,是互联网的延伸,它利用局部网络或互联网等通信技术把传感器、控制器、机器、人类和物等通过新的方式连在一起,形成人与物、物与物相连,实现信息化和远程管理控制。 12.详细阐述大数据、云计算和物联网三者之间的区别与联系。

大数据的定义和特征

大数据的定义和特征 大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。 我们从权威的定义可以看到,大数据的特征有四点,分别为: 数据体量巨大。从TB级别,跃升到PB级别; 数据类型繁多。提到的网络日志、视频、图片、地理位置信息等等; 价值密度低,商业价值高。 以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。 处理速度快。1秒定律。 车联网的大数据在预测方面可以发挥到极致。如,预测交通堵塞的地段,实时交通信息,主动安全,公交的排班。驾驶者驾驶行为分析。

大数据的核心在于预测,这在车联网行业非常有用,例如,对于交通流量的预测,就非常需要大数据。 对于交通流量,目前我们的仿真系统更加重视交通流量大,拥堵的原因,而大数据时代,不再在乎因果关系,而重视相关性,也就是不去分析产生拥堵的原因,但确实某个时段某个路段会发生拥堵。也可以根据车联网的大数据对车友的兴趣进行分析。 大数据在商用车领域已经有相当多的应用,如公交领域的运营排班管理、出租车领域的浮动车数据,物流行业的大物流。 如何解决公交企业面临的三大问题:运力配备最少、车辆运行距离最短、驾驶员作业时间最少?如何分析各时间段、各站点的客流分布情况呢?如何实现运营的安全智能化、运营排班的智能化?在公交行业,以上问题普遍存在,通过车联网的大数据,可以解决公交行业所面临的这些问题。根据各个时间段,各站点的客流量大小,线路配备的运营车辆数、线路配备驾驶人员、线路长度、车辆运行速

度等大数据,可确定一条线路各个时间段的配车数及发车间隔,从而解决运力配备最少、车辆运行距离最短、驾驶员作业时间最少三大问题。 根据客流量、节假日、气候、节气、自然灾害、道路、车况事故、历史同期数据、售票方式、居民小区建设等条件建立计划模型,从而用最快的速度对这些影响运营计划的因素做出反映。比如增加线路,增加车辆,增加司机,有效地制定公交运营计划。同时可对于运营排班精准管理,可通过大数据可以自动排班,对行车作业计划进行优化,并快速地对运行线路进行调整和优化。 自从菜鸟网络公司出现以后,大物流的概念终于被业界提及。 什么叫大物流呢?是指企业的自有物流系统(由车队、仓库、人员等组成),和第三方物流企业的配送信息与资源进行共享,从而能充分地利用各方面资源,减少物流总支出、降低运营成本。 目前物流行业随着业务的扩大,车辆数日益增多,而且

大数据技术原理及应用

大数据技术原理及应用 (总10页) -CAL-FENGHAI.-(YICAI)-Company One1 -CAL-本页仅作为文档封面,使用请直接删除

大数据技术原理及应用 大数据处理架构—Hadoop简介 Hadoop项目包括了很多子项目,结构如下图 Common 原名:Core,包含HDFS, MapReduce和其他公共项目,从Hadoop 版本后,HDFS和MapReduce分离出去,其余部分内容构成Hadoop Common。Common为其他子项目提供支持的常用工具,主要包括文件系统、RPC(Remote procedure call) 和串行化库。 Avro Avro是用于数据序列化的系统。它提供了丰富的数据结构类型、快速可压缩的二进制数据格式、存储持久性数据的文件集、远程调用RPC的功能和简单的动态语言集成功能。其中,代码生成器既不需要读写文件数据,也不需要使用或实现RPC协议,它只是一个可选的对静态类型语言的实现。Avro系统依赖于模式(Schema),Avro数据的读和写是在模式之下完成的。这样就可以减少写入数据的开销,提高序列化的速度并缩减其大小。 Avro 可以将数据结构或对象转化成便于存储和传输的格式,节约数据存储空间和网络传输带宽,Hadoop 的其他子项目(如HBase和Hive)的客户端和服务端之间的数据传输。 HDFS HDFS:是一个分布式文件系统,为Hadoop项目两大核心之一,是Google file system(GFS)的开源实现。由于HDFS具有高容错性(fault-tolerant)的特点,所以可以设计部署在低廉(low-cost)的硬件上。它可以通过提供高吞吐率(high throughput)来访问应用程序的数据,适合那些有着超大数据集的应

大数据概念、技术及应用

大数据概念、技术及应用 ——段方老师 1 概述 1.1 大数据的概念和特点 1.1.1 大数据的基础 1.1.2 大数据如何“与时俱进”? 1.1.3 大数据发展趋势 人工智能 物联网结合 各个行业的深入 1.2 大数据的技术基础 1.2.1 从数据仓库开始 1.2.2 HADOOP 生态圈 1.2.3 与云计算的关系 1.2.4 数据运维能力提升 1.3 大数据的应用举例 1.3.1 大数据提升客户分析能力 1.3.2 大数据提升产品分析能力 1.3.3 大数据提升管理水平

1.3.4 大数据提升各行业“智慧” 1.4 大数据下的人工智能(AI) 1.4.1 什么是人工智能 1.4.2 人工智能改变哪些行业? 1.4.3 大数据下的人工智能有何不同? 1.4.4 人工智能的“颠覆” 1.5 大数据如何精细化管理 1.5.1 量化管理的引出 1.5.2 大数据如何提升“量化”的维度和深度1.5.3 从艺术到技术 1.5.4 自动驾驶到自动管理? 1.6 电信企业的大数据“商机” 1.6.1 从网络运营到数据运营 1.6.2 提炼“内功” 1.6.3 提升外部管理能力 1.6.4 扩展增值产品运营市场 2 大数据的行业解决方案应用案例 2.1 基础应用范围 2.2 石油行业应用案例 2.3 交通行业应用案例 2.4 旅游行业应用案例

2.5 金融行业应用案例 2.6 电信行业应用案例 2.7 互联网行业应用案例等 3 机器学习基础 3.1 多维分析方法 3.1.1 OLAP 分析 3.1.2 上钻和下钻 3.1.3 用OLAP 分析问题 3.2 分析算法 3.2.1 回归算法 线性回归 逻辑回归 3.2.2 决策树算法 C4.5 算法 CART 算法 3.2.3 贝叶斯算法 朴素贝叶斯算法 BBN(Bayesian Belief Network)算法 3.2.4 基于核的算法 支持向量机SVM 算法 线性判别分析(Linear Discriminate Analysis ,LDA)

大数据概念及应用未来

大数据概念及应用未来 麦肯锡是最早提出大数据时代已经到来:“各个行业和领域都已经被数据给渗透了,目前数据已成为非常重要的生产因素了。对于大数据的处理和挖掘将意味着新一波的生产率不断增长和消费者盈余浪潮的到来。”大数据概念最早是IBM定义的,将大数据的特征归纳为4个“V”(量Volume,多样Variety,价值Value,速Velocity),或者说特点有四个层面:第一,数据体量巨大。大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T);第二,数据类型繁多。比如,网络日志、视频、图片、地理位置信息等等。第三,价值密度低,商业价值高。第四,处理速度快。最后这一点也是和传统的数据挖掘技术有着本质的不同。 全世界每天都有几十亿人使用计算机、平板电脑、手机和其它数字设备产生海量数据。据Forrester的最新研究显示:在线或移动金融交易、社交媒体、GPS坐标等数据源每天要产生超过2.5X1018的所谓“大数据”。今后几年,数据的增长速度将超越摩尔定律。 有人把数据比喻为蕴藏能量的煤矿。煤炭按照性质有焦煤、无烟煤、肥煤、贫煤等分类,而露天煤矿、深山煤矿的挖掘成本又不一样。与此类似,大数据并不在“大”,而在于“有用”。价值含量、挖掘成本比数量更为重要。对于很多行业而言,如何利用这些大规模数据正成为赢得竞争的关键。 哪些传统企业最需要大数据服务呢?抛砖引玉,先举几个例子:1)对大量消费者提供产品或服务的企业(精准营销);2) 做小而美模式的中长尾企业(服务转型);3) 面临互联网压力之下必须转型的传统企业(生死存亡)。 对于企业的大数据,还有一种预测:随着数据逐渐成为企业的一种资产,数据产业会向传统企业的供应链模式发展,最终形成“数据供应链”。这里尤其有两个明显的现象:1) 外部数据的重要性日益超过内部数据。在互联互通的互联网时代,单一企业的内部数据与整个互联网数据比较起来只是沧海一粟;2)能提供包括数据供应、数据整合与加工、数据应用等多环节服务的公司会有明显的综合竞争优势。 大数据中的软件技术 大数据技术描述了新一代技术和架构,目的是通过高速捕获、发现和/或分析,经济高效地从种类繁多的大量数据中获益。 目前共有两种顶层分析方法: 1). 分析过去,不预测未来(关联分析) 2). 分析过去,预测未来(具备监督式学习功能的预测分析)。

(完整版)大数据时代的数据概念分析及其他

大数据时代的数据概念分析及其他 一、概念: "大数据"是一个体量特别大,数据类别特别大的数据集,并且这样的数据集无法用传统数据库工具对其内容进行抓取、管理和处理。"大数据"首先是指数据体量(volumes)?大,指代大型数据集,一般在10TB?规模左右,但在实际应用中,很多企业用户把多个数据集放在一起,已经形成了PB级的数据量;其次是指数据类别(variety)大,数据来自多种数据源,数据种类和格式日渐丰富,已冲破了以前所限定的结构化数据范畴,囊括了半结构化和非结构化数据。接着是数据处理速度(Velocity)快,在数据量非常庞大的情况下,也能够做到数据的实时处理。最后一个特点是指数据真实性(Veracity)高,随着社交数据、企业内容、交易与应用数据等新数据源的兴趣,传统数据源的局限被打破,企业愈发需要有效的信息之力以确保其真实性及安全性。 百度概念: 大数据(bigdata),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。大数据的4V特点:Volume、Velocity、Variety、Veracity。 研究机构Gartner概念: "大数据"是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。从数据的类别上看,"大数据"指的是无法使用传统流程或工具处理或分析的信息。它定义了那些超出正常处理范围和大小、迫使用户采用非传统处理方法的数据集。亚马逊网络服务(AWS)、大数据科学家JohnRauser提到一个简单的定义:大数据就是任何超过了一台计算机处理能力的庞大数据量。研发小组对大数据的定义:"大数据是最大的宣传技术、是最时髦的技术,当这种现象出现时,定义就变得很混乱。" Kelly说:"大数据是可能不包含所有的信息,但我觉得大部分是正确的。对大数据的一部分认知在于,它是如此之大,分析它需要多个工作负载,这是AWS的定义。当你的技术达到极限时,也就是数据的极限"。大数据不是关于如何定义,最重要的是如何使用。最大的挑战在于哪些技术能更好的使用数据以及大数据的应用情况如何。这与传统的数据库相比,开源的大数据分析工具的如Hadoop的崛起,这些非结构化的数据服务的价值在哪里。 二、大数据分析 从所周知,大数据已经不简简单单是数据大的事实了,而最重要的现实是对大数据进行分析,只有通过分析才能获取很多智能的、深入的、有价值的信息。那么越来越多的应用涉及到大数据,而这些大数据的属性,包括数量,速度,多样性等等都是呈现了大数据不断增长的复杂性,所以大数据的分析方法在大数据领域就显得尤为重要,可以说是决定最终信息是否有价值的决定性因素。基于如此的认识,大数据分析普遍存在的方法理论有哪些呢? 大数据分析的五个基本方面: 1、可视化分析Analytic Visualizations 大数据分析的使用者有大数据分析专家,同时还有普通用户,但是他们二者

大数据概念

大数据概念 研究机构Gartner—大数据概念 "大数据"是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能 力的海量、高增长率和多样化的信息资产。从数据的类别上看,"大数据"指的是无 法使用传统流程或工具处理或分析的信息。它定义了那些超出正常处理范围和大小、迫使用户采用非传统处理方法的数据集。亚马逊网络服务(AWS)、大数据科学 家JohnRauser提到一个简单的定义:大数据就是任何超过了一台计算机处理能力的庞大数据量。研发小组对大数据的定义:"大数据是最大的宣传技术、是最时髦的技术,当这种现象出现时,定义就变得很混乱。" Kelly说:"大数据是可能不包含所有的信息,但我觉得大部分是正确的。对大数据的一部分认知在于,它是如此之大,分析它需要多个工作负载,这是AWS的定义。当你的技术达到极限时,也就是数 据的极限"。大数据不是关于如何定义,最重要的是如何使用。最大的挑战在于哪

些技术能更好的使用数据以及大数据的应用情况如何。这与传统的数据库相比,开 源的大数据分析工具的如Hadoop的崛起,这些非结构化的数据服务的价值在哪里。 大数据分析 大数据分析的使用者有大数据分析专家,同时还有普通用户,但是他们二者对于大数据分析最基本的要求就是可视化分析,因为可视化分析能够直观的呈现大数据特点,同时能够非常容易被读者所接受,就如同看图说话一样简单明了。 大数据分析的理论核心就是数据挖掘算法,各种数据挖掘的算法基于不同的数据类型和格式才能更加科学的呈现出数据本身具备的特点,也正是因为这些被全世界统计学家所公认的各种统计方法(可以称之为真理)才能深入数据内部,挖掘出公认的价值。另外一个方面也是因为有这些数据挖掘的算法才能更快速的处理大数据,如果一个算法得花上好几年才能得出结论,那大数据的价值也就无从说起了。 大数据分析最终要的应用领域之一就是预测性分析,从大数据中挖掘出特点,通过科学的建立模型,之后便可以通过模型带入新的数据,从而预测未来的数据。 大数据分析最终要的应用领域之一就是预测性分析,从大数据中挖掘出特点,通过科学的建立模型,之后便可以通过模型带入新的数据,从而预测未来的数据。 大数据分析离不开数据质量和数据管理,高质量的数据和有效的数据管理,无论是在学术研究还是在商业应用领域,都能够保证分析结果的真实和有价值。大数据分析的基础就是以上五个方面,当然更加深入大数据分析的话,还有很多很多更加有特点的、更加深入的、更加专业的大数据分析方法。 大数据技术

数据挖掘概念课后习题答案

第 1 章 1.6 定义下列数据挖掘功能:特征化、区分、关联和相关分析、预测聚类和演变分析。 使用你熟悉的现实生活的数据库,给出每种数据挖掘功能的例子。 ?特征化是一个目标类数据的一般特性或特性的汇总。例如,学生的特征可被提出,形成所 有大学的计算机科学专业一年级学生的轮廓,这些特征包括作为一种高的年级平均成绩 (GPA:Grade point a ve r s ge) 的信息,还有所修的课程的最大数量。 ?区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比 较。例如,具有高GPA 的学生的一般特性可被用来与具有低GPA 的一般特性比较。最 终的描述可能是学生的一个一般可比较的轮廓,就像具有高GPA 的学生的75%是四年级 计算机科学专业的学生,而具有低GPA 的学生的65%不是。 ?关联是指发现关联规则,这些规则表示一起频繁发生在给定数据集的特征值的条件。 例如,一个数据挖掘系统可能发现的关联规则为: m a j or(X,“c omput i ng s c i e nc e”) ?owns(X, “pe r s ona l c omput e r”) [s uppor t=12%,c on f i d e nc e=98%] 其中,X 是一个表示学生的变量。这个规则指出正在学习的学生,12%(支持度)主修计算机科学并且拥有一台个人计算机。这个组一个学生拥有一台个人电脑的概率是98%(置信度,或确定度)。 ?分类与预测不同,因为前者的作用是构造一系列能描述和区分数据类型或概念的模型(或 功能),而后者是建立一个模型去预测缺失的或无效的、并且通常是数字的数据值。它们的 相似性是他们都是预测的工具:分类被用作预测目标数据的类的标签,而预测典型的应用是 预测缺失的数字型数据的值。 ?聚类分析的数据对象不考虑已知的类标号。对象根据最大花蕾内部的相似性、最小化类之间的相似性的原则进行聚类或分组。形成的每一簇可以被看作一个对象类。聚类也便于分类法组织形式,将观测组织成类分层结构,把类似的事件组织在一起。 ?数据延边分析描述和模型化随时间变化的对象的规律或趋势,尽管这可能包括时间相关数 据的特征化、区分、关联和相关分析、分类、或预测,这种分析的明确特征包括时间序列数据 分析、序列或周期模式匹配、和基于相似性的数据分析 1.9 列举并描述说明数据挖掘任务的五种原语。 五种原语是: ?任务相关数据:这种原语指明给定挖掘所处理的数据。它包括指明数据库、数据库表、或

大数据技术与应用基础_教学大纲.doc

《大数据技术与应用基础》教学大纲 学时: 60 代码: 适用专业: 制定: 审核: 批准: 一、课程的地位、性质和任务 大数据技术的发展,已被列为国家重大发展战略。而在过去的几年里,无论是聚焦大数据发展 的《促进大数据发展行动纲要》,还是《“十三五”规划》中都深刻体现了政府对大数据产业和应用 发展的重视。目前国内大数据发展还处于加速期、转型期,数据与传统产业的融合还处于起步阶段,各 行业对大数据分析和挖掘的应用还不理想。但随着市场竞争的加剧,各行业对大数据技术研究的 热情越来越高,在未来几年,各领域的数据分析都将大规模应用。 本课程在注重大数据时代应用环境前提下,考虑大数据处理分析需求多样复杂的基本情况,从 初学者角度出发,以轻量级理论、丰富的实例对比性地介绍大数据常用计算模式的各种系统和工具。 考虑到当前大数据发展处于起步并逐步赶超先进的阶段,其应用领域丰富广泛,在教学过程中应注 重掌握大数据分析的实践操作。本课程通过丰富简单易上手的实例,让学生能够切实体会和掌握各 种类型工具的特点和应用。 二、课程教学基本要求 1.了解大数据的发展和基本概念,理解并掌握大数据的特征及主要技术层面。 2.掌握 Scrapy 环境的搭建,了解网络爬虫获取数据的过程,熟悉爬虫项目的创建。 3.深刻了解 hadoop 的基础理论,理解并掌握 Hadoop 单机及集群环境的部署方法。 4.掌握 HDFS 的基本概念和 HDFS 在 hadoop 中的作用,理解并识记 HDFS 的使用,了解HDFS的JAVA API 接口及数据流原理;让学生明白Map 过程与 Reduce过程这两个独立部分各自的原理及合作途径,知道如何独立编写满足自己需求的MapReduce程序。 5.理解 HBase 中涉及的基本概念,掌握 HBase 的简单应用;让学生了解数据仓库的基础概念,熟 悉 Hive 与 HDFS 、 MapReduce 直接的关心。 6. 熟悉 Spark 和 RDD 的基本概念,熟悉spark 接口的使用,解决实战时的步骤及思路。 7. 明白 Hadoop 和 Storm 之间的差别,掌握对Storm 的使用。理解 Apex 的工作过程并能简单应用。 8.了解 Druid 的基本概念、应用场景以及集群架构,掌握批量数据加载、流数据加载的操作。 了解 Flink的重要概念和基本架构,掌握Flink简单的使用实例。 9.理解Elasticsearch的基本架构,掌握Elasticsearch的一些入门操作。了解并基本掌握怎样利用所学的工具对目标实例进行数据分析。 三、课程的内容 1.大数据概述

相关文档
相关文档 最新文档