文档库 最新最全的文档下载
当前位置:文档库 › 大数据研究综述

大数据研究综述

大数据研究综述
大数据研究综述

大数据研究综述

摘要:从大数据基本理论,大数据存储与分析处理技术和大数据应用研究三个角度说明当前研究热点,重点比较当前大数据处理工具的优缺点,并深入归纳总结了基于数据存储大数据处理技术,对未来研究进行展望。

关键词:大数据,综述,数据处理,数据挖掘

引言

现代社会提到大数据大家都知道这是近几年才形成的对于数据相关的新名词,在1980年,,著名未来学家阿尔文·托夫勒便在《第三次浪潮》一书中,将大数据热情地赞颂为“第三次浪潮的华彩乐章”。在 20 世纪 80 年代我国已经有一些专家学者谈到了海量数据的加工和管理,但是由于计算机技术和网络技术的限制大数据未能引起足够的重视,它蕴藏的巨大信息资源也暂时隐藏了起来。随着云计算技术的发展,互联网的应用越来越广泛,以微博和博客为代表的新型社交网络的出现和快速发展,以及以智能手机、平板电脑为代表的新型移动设备的出现,计算机应用产生的数据量呈现了爆炸性增长的趋势。2012年末出版的《大数据时代》的作者英国牛津大学网络学院互联网研究所治理与监管专业教授维克托·尔耶·舍恩伯格在书的引言中说,大数据正在改变人们的生活以及理解世界的方式,而更多的改变正蓄势待发。美国总统奥巴马的成功竞选及连任的背后都有大数据挖掘的支撑,美国政府认为,大数据是“未来的新石油”,并将对大数据的研究上升为国家意志,这对未来的科技与经济发展必将带来深远影响[1]。如今,大数据已成为一项业务上优先考虑的工作任务,因为它能够对全球整合经济时代的商务产生深远的影响。大数据的应用范围如此广泛,与大数据相关的很多问题都引起了专家和学者的重视。大数据最基本的问题-大数据的定义目前还没有一个统一的定论,但大数据作为一种基础性资源需要被处理才能显现其潜在的价值,那么如何更好地处理大数据这种基础性资源就显得特别重要,因为这些问题都关系到大数据核心价值的体现。为此,本文从大数据若干个版本的概念出发,调查分析了大数据的研究和应用现状,重点分析了当前主流的大数据处理工具和技术,最后预测了大数据未来的

几个研究和发展方向。

大数据的概念

从学术上来讲,大数据一次最贴切的概念最早出现在2008《Nature》杂志所设立的“Big Data”专刊中,该专刊所发表的文章分别从互联网,数据管理及生物医药信息等角度介绍大数据所带来的机遇与挑战。2008 年《Science》杂志出版的专刊中,大数据被定义为“代表着人类认知过程的进步,数据集的规模是无法在可容忍的时间内用目前的技术、方法和理论去获取、管理、处理的数据”[2]。比较有影响力的 Gartner 公司也给出了大数据的定义[3],大数据是高容量、高生成速率、种类繁多的信息价值,同时需要新的处理形式去确保判断的作出、洞察力的发现和处理的优化。这种定义不仅是数据规模大,更重要的是如何从这些动态快速生成的数据流或数据块中获取有用的具有时效性价值的信息,但是这些数据类型众多,结构化、半结构化、非结构化的数据对已有的数据处理模式带来了巨大的挑战,其中也体现了大数据在 3V 基础上发展的4V定义。4V定义即 volume,variety,velocity,value,关于第 4个V的说法并不统一,国际数据公司( International Data Corporation, IDC) 认为大数据还应当具有价值性( value) [4],大数据的价值往往呈现出稀疏性的特点; 而 IBM 认为大数据必然具有真实性( veracity) [5],这样有利于建立一种信任机制,有利于领导者的决策。百度百科对大数据的定义是: 大数据( big data) ,或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理并整理成为帮助企业经营决策更积极目的的资讯。大数据的科学家Rauser 提到一个简单的定义: 大数据就是超过了任何一个计算机处理能力的庞大数据量。

大数据的研究与应用现状

虽然大数据的概念没有一个统一的定论,但这对于大数据的研究而言并不是最重要的,如何使用大数据才是关键。研究大数据其实也就是为了更好地应用大数据,所以国内外对大数据的研究与应用都相当重视。事实上,大数据的研究与应用已经在互联网、商业智能、咨询与服务以及医疗服务、零售业、金融业、通信等行业显现,并产生了巨大的社会价值和产业空间。来自麦肯锡 2012 年大数据报告中的一组数据显示,大数据产业为美国医疗系统带来每年 3000

亿美元的收益; 为欧洲公共管理部门带来 2500 亿欧元的收益; 为零售业增加60% 的净利润; 为制造业减少 50% 的产品研发等成本。而 Canner 认为, 2015 年超过 85% 的财富 500强企业将在大数据竞争中失去优势。据市场调研机构IDC 预测,大数据技术与服务市场将从 2010 年的 32 亿美元攀升到 2015 年的 169 亿美元,实现 40% 的年增长率( IT 与通信产业增长率的 7 倍) [7]。从上面的统计数据很容易看出大数据的应用之广,价值之大。国外的大数据研究工作主要集中在如何进行大数据存储、处理、分析以及管理的技术及软件应用上。在学术界,《Nature》早在 2008 年就推出了“big data”专刊,从互联网技术、超级计算、生物医学等方面来专门探讨对大数据的研究。2012 年 3 月,美国公布了旨在提高和改进人们从海量信息数据中获取信息能力的“大数据研发计划”[1]。2012 年 4 月欧洲信息学与数学研究协会会刊《ERCIM News》出版专刊“big data”,讨论了大数据时代的数据管理、数据密集型研究的创新技术等问题。2012 年 7 月,日本推出“新 ICT 战略研究计划”,其中重点关注大数据应用,将大数据定位为战略领域之一。在具体的实际应用方面,大数据也显现出了它的价值所在。谷歌公司通过对人们在网上检索的词条与疾病中心的数据进行分析处理,有效及时地判断出了流感的传播来源,为公共卫生机构提供了有价值的信息,这是来自 2009 年《Science》杂志上发表的一篇论文。乔布斯通过大数据辅助癌症治疗,丹麦癌症协会通过大数据研究手机是否致癌等。美国最大的西奈山医疗中心( Mount Sinai Meddical Center) 使用来自大数据创业公司 Ayasdi 的技术分析大肠杆菌的全部基因序列,包括超过 100 万个 DNA 变体,来了解为什么菌株会对抗生素产生抗药性。Ayasdi 的技术使用了一种全新的数学研究方法———拓扑数据分析( topological data analysis) 来了解数据的特征。医疗行业的大数据不仅量大,而且繁杂,其中蕴涵的信息价值也是丰富且多样。英特尔全球医疗解决方案架构师吴闻新等人也预测了医疗行业数据的增长之快,特别是影像数据和 EMR电子病历数据。英特尔协助用友医疗进行了合理的架构分析和指导,对于基于大数据分析的解决方案进行了深入的探索和研究,并且制定了基于英特尔大数据解决方案的区域卫生数据中心建设目标: 文档快速检索,存储模式满足数据模式的更新,透明化扩展容量和性能。美国俄亥俄州运输部( ODOT) 利用 INRIX 的云计算分析处理大数据来

了解和处理恶劣天气的道路状况,减少了冬季连环撞车发生的概率,方便了人们的出行。在能源行业,SaaS 型软件公司 Opower 使用数据分析提供消费用电的能效。2012 年 11 月 6 日,美国总统奥巴马成功击败对手罗姆尼再次赢得美国总统,奥巴马总统获胜的秘密———通过大数据系统进行数据挖掘,用科学的方法指定策略,它帮助奥巴马在获取有效选民、投放广告、募集资金等方面起到了很大的作用。与国外相比,国内大数据的研究和应用还处在起步阶段。2012 年 5 月,香山科学会议组织了以“大数据科学与工程———一门新兴的交叉学科”为主题的会议,深入讨论了大数据的理论与工程数据研究、应用方向,指出目前最重视的都是大数据分析算法和大数据系统效率,通过研究大数据的关系网络整体而全面地研究大数据。同年 6 月,中国计算机学会青年计算机科技论坛( CCF YOCSEF) 举办了“大数据时代,智谋未来”学术报告会,就大数据时代的数据挖掘、体系架构理论、大数据安全、大数据平台开发与大数据现实案例进行了全面的讨论。随着大数据时代的到来,油田勘探开发过程中也产生了规模巨大、类型多样的数据。计算机集群上构建油田勘探开发一体化数据管理模型和数据访问基础架构,从而解决油田实际应用中所面临的大数据问题,即交叉复用、信息可见、信息传承中构建的数据模型及其接口,专业分析软件可以很容易地获得本研究区域齐、全、准的勘探开发信息,从而进行分析,部署勘探开发生产任务。以部署探井为例,分析软件可以利用“大数据”接口非常方便地获得探井区域的地震剖面、测井曲线、层位、断层等信息。商务管理、大城市亟待解决的交通问题进行相关的研究和实验,应用实例表明,在营销策略的制定、智能化的交通管理方面都得益于大数据的分析。如果在国内能够搭建一个大数据共享平台,经过预处理,抽取和集成的数据可通过相关的平台交换和共享,让大数据处理更便捷、更快速、更贴近用户、更容易去实现或者去操作,那么也就实现了数据的流通,数据才会更加有生命力,使用价值也会增值。对大数据的处理和应用,其核心还是需要从业务层面进行科学规划。大数据的处理工具与技术

从大数据比较有影响力的概念和大数据的研究现状来看,推动大数据发展的核心力量之一就是大数据的分析处理工具和技术。因为传统的数据分析处理技术已经无法满足大数据的需求,大数据的出现也必然伴随着新的处理工具和

新技术的出现。大数据的处理工具大数据处理技术的不断更新也促使了大数据处理工具的出现。在大数据的处理平台中,大家最熟悉的莫过于 Apache 的Hadoop 的块处理平台,Hadoop 主要是基于 MapReduce编程框架和 HDFS。HPCC ( high perform-ance computing cluster)系统也是一种开源的分布式密集数据处理平台,主要有以下组件: Thor( HPCC data refinery cluster) 主要是作为一个能够并行处理跨节点的分布式文件系统进行工作,主要负责大量数据的接收、传输、连接和检索工作,对数据进行整合; b) Roxie( HPCC data delivery engine) 提供了大量的高性能的多用户在线查询功能; ECL( enterprise control language ) 是一种适合处理大数据的功能强大的编程语言; d) ECL IDE 主要是与 ECL 配合工作的,用来编码、调试、监控 ECL 的程序; e) ESP ( enterprise services platform) 提供了一个易用的访问 ECL 查询接口,一般支持 SOAP、XML、HTTP 和REST 等。Hadapt是一种高性能的自适应分析平台。由于目前的关系型数据管理系统不能满足海量数据处理的需求,所以需要将数据迁移到分布式数据库来实现大数据处理。

大数据的处理技术

从大数据的处理过程来看,大数据处理的关键技术包括: 大数据采集、大数据预处理、大数据存储及管理、大数据分析及挖掘、大数据展现和应用( 大数据检索、大数据可视化、大数据应用、大数据安全等) 。基于数据存储的大数据处理技术在大数据处理技术方面,Google 起步比较早,自行开发了 GFS,随着发展的需要又不断出现了第二代 GFS———Colossus、 BigTable[18]和Megastore[18]。在 BigTable 和 Megastore 的基础上诞生了 Spanner[18],其功能主要是源于一个用 GPS 和原子钟实现的时间 API,这个 API 能将数据中心之间的时间同步精确到 10 ms 以内。基于 Spanner 服务器,2012 年 6 月,Google 研究院就推出被称为 F1( fault tolerant distributed RDBMS) 的新型数据库。微软自行开发的分布式计算平台 Cosmos[20],能够存储和分析大规模数据集,其宗旨是能够在成千上万台服务器集群上运行。Cosmos 这个平台主要包括 Cosmos 存储系统、 Cosmos 执行环境和一种高级脚本语言 SCOPE ( structured computations optimized for parallel execution) 。作为社交网络的代表,FaceBook 也在变革着自己原来的存储技术。Facebook 推出了

海量小文件的文件处理系统 Haystack,同时 Facebook 还结合自己的应用场景提出了实时的 Hadoop系统。为了改善 MapReduce 的易用性,Facebook 提出了基于 Hadoop 的大型数据仓库 Hive,它的目标就是简化 Hadoop 上的数据聚集、Ad hoc 查询和大数据的分析等操作。

基于查询的大数据处理技术

在大数据的处理过程中,数据分析是关键,数据分析主要是依赖于数据分析工具。一种新奇的大数据分析方法———危险理论( danger theory) ,这种危险理论是来源于生物免疫系统,但又不同于传统的人工免疫系统。在关键特征和属性的选择上引入危险理论,主要是被用做数据过滤策略,可提高数据分析的效率。在危险理论中关注的是潜在危险,捕捉危险信号,用数值微分法判断危险信号。这个处理模型与之前的编程处理模型相比具有自学习能力和智能性,它在数据的预处理阶段有明显的效果,更适合于快速的数据过滤。

大数据的研究与发展方向

尽管大数据的时代已经到来,各界也发现了大数据的巨大价值,但是大数据的研究还处在初始阶段。随着研究的不断深入,大数据所面临的问题也越来越多,如何让大数据朝着有利于全社会的方向发展就需要全面地研究大数据,以下是几种可能的大数据未来的研究与发展方向。

关系数据库和非关系数据库的融合众所周知,关系数据库系统在数据分析中占据着主要地位,但是随着后来半结构化和非结构化数据的大量涌现,关系数据库系统就无所适从了。而类似于 MapReduce 的大数据处理工具在容错性、可扩展性、数据的移动性上明显优于关系数据库系统,但在处理数据的实时性能上,MapReduce 与RDBMS 相比还有一定的差距。关系数据库和非关系数据库各有所长,如果在以后的大数据的研究处理过程中,能将关系数据库系统和分布式并行处理系统进行有效的结合,而不是将二者明显地区分开来,那么大数据的分析效率将在很大程度上得到提高。

数据的不确定性与数据质量

大数据,顾名思义是数据量非常大,如何从这些庞大的数据量中提取到尽可能多的有用信息就涉及到数据质量的问题。在网络环境下,不确定性的数据广泛存在,并且表现形式多样,这样大数据在演化的过程中也伴随着不确定性。

网络大数据的不确定性,其实大数据的不确定性不仅仅适用于网络大数据,对一般大数据而言也存在这种不确定性。大数据的不确定性要求人们在处理数据时也要应对这种不确定性,包括数据的收集、存储、建模、分析都需要新的方法来应对。这样也给学习者和研究者带来了很大的挑战,数据质量就很难得到保证,况且大数据的研究领域尚浅,本身就有很多亟待解决的问题。面对不断快速产生的数据,在数据分析的过程中很难保证有效的数据不丢失,而这种有效的数据才是大数据的价值所在,也是数据质量的体现。所以需要研究出一种新的计算模式,一种高效的计算模型和方法,这样数据的质量和数据的时效性才能有所保证。中几位从事大数据研究的专家也强调了数据质量的重要性,中国工程院院士、西安交通大学教授汪应洛认为,在大数据产业发展中,数据质量也是一大障碍,不容忽视,他说“数据质量是大数据产业这座大厦的基础,如果数据质量不高,基础不牢靠,大数据产业就可能岌岌可危,甚至根本无从发展。”所以处理好大数据的不确定性、提高数据质量是大数据研究中的重中之重。

跨领域的数据处理方法的可移植性

大数据自身的特点决定了大数据处理方法的多样性、灵活性和广泛性。而今几乎每个领域都有涉及到大数据,在分析处理大数据的建模过程中除了要考虑大数据的特点外还可以结合其他领域的一些原理模型,生物免疫系统的计算模型去处理大数据中的关键属性的选择。还有统计学中的统计分析模型,特别是对原始数据的统计和计量,音频、视频、照片等重要信息。广泛吸纳其他研究领域的原理模型,然后进行有效的结合,从而提高大数据处理的效率,这可能会成为以后大数据分析处理的重要方法。大数据的预测性作用日益凸显提及大数据,它的作用自然是不言而喻,也有不少专家进行了总结,大数据有变革价值的力量、大数据有变革经济的潜力、大数据有变革组织的潜能。但是从很多大数据的应用案例分析不难发现,无论是大数据的研究者还是普通人,大数据给人们带来的最直接的利益就是对未来的预见。气象部门可以根据气象数据预测未来的天气变化; 经销商可根据商品的销量分析客户的喜好从而制定未来的采购计划及时调整经营模式,增加利润; 通信部门通过对大数据的分析实时了解市场行情,从而作出合理决策。由已知推测未知,通过大数据可以提高对

未知预测的可靠性和精准性,这对整个人类来说都是一种进步。

大数据已经涉及到生活的各个领域,对于大数据的研究涉及的领域也很广。与人们直接利益相关的大数据的能耗、安全、隐私保护等都受到了很多企业和个人的关注,还有更多未知的领域也不例外。本文主要是在对大数据处理工具和处理技术对比分析的基础上给出了大数据未来几个可能的研究和发展方向: 关系数据库和非关系数据库的融合、数据的不确定性和数据质量、跨领域的数据处理方法的可移植性、大数据的预测性作用日益凸显。大数据的发展尚在起步阶段,需要人们不断开拓的空间很大,如何高效地处理大数据、合理地利用大数据仍需要不断地探索发现。

参考文献:

[1]李国杰,程学旗.大数据研究: 未来科技及经济社会发展的重大战略领域———大数据的研究现状与科学思考[J].中国科学院院刊, 2012,27( 6) : 647-657.

[2] GRAHAM-ROWE D,GOLDSTON D,DOCTOROW C,et al. Big data: science in the petabyte era[J]. Nature,2008,455( 7209) : 8-9.[3] JI Chang-qing,LI Yu,QIU Wen-ming,et al. Big data processing in cloudcomputing environments[C]/ /Proc of the 12th International Symposium on Pervasive Systems,Algorithms and Networks. 2012: 17-23.[4] BARWICK H.The“fourVs”of big data[EB /OL]. ( 2011-08-05) [2012-10-02]. http: / /www. computerworld. com. au/article/396198 / iii3_four_vs_big_data/.

[5] IBM. What is big data? [EB /OL].[2012-10-02]. http: / /www- 01. ibm. com / software / data / bigdata /what-is-big-data. html.[6]顾芳,刘旭峰,左超.大数据背景下运营商移动互联网发展策略研究[J].邮电设计技术

大数据文献综述

信息资源管理文献综述 题目:大数据背景下的信息资源管理 系别:信息与工程学院 班级:2015级信本1班 姓名: 学号:1506101015 任课教师: 2017年6月 大数据背景下的信息资源管理 摘要:随着网络信息化时代的日益普遍,我们正处在一个数据爆炸性增长的“大数据”时代,在我们的各个方面都产生了深远的影响。大数据是数据分析的前沿技术。简言之,从各种各样类型的数据中,快速获得有价值信息的能力就是大数据技术,这也是一个企业所需要必备的技术。“大数据”一词越来越地别提及与使用,我们用它来描述和定义信息爆炸时代产生的海量数据。就拿百度地图来说,我们在享受它带来的便利的同时,无偿的贡献了我们的“行踪”,比如说我们的上班地点,我们的家庭住址,甚至是我们的出行方式他们也可以知道,但我们不得不接受这个现实,我们每个人在互联网进入大数据时代,都将是透明性的存在。各种数据都在迅速膨胀并变大,所以我们需要对这些数据进行有效的管理并加以合理的运用。

关键词:大数据信息资源管理与利用 目录 大数据概念.......................................................... 大数据定义...................................................... 大数据来源...................................................... 传统数据库和大数据的比较........................................ 大数据技术.......................................................... 大数据的存储与管理.............................................. 大数据隐私与安全................................................ 大数据在信息管理层面的应用.......................................... 大数据在宏观信息管理层面的应用.................................. 大数据在中观信息管理层面的应用.................................. 大数据在微观信息管理层面的应用.................................. 大数据背景下我国信息资源管理现状分析................................ 前言:大数据泛指大规模、超大规模的数据集,因可从中挖掘出有价值 的信息而倍受关注,但传统方法无法进行有效分析和处理.《华尔街日

国内外大数据产业发展现状与趋势研究

龙源期刊网 https://www.wendangku.net/doc/b512270827.html, 国内外大数据产业发展现状与趋势研究 作者:方申国谢楠 来源:《信息化建设》2017年第06期 大数据作为新财富,价值堪比石油。 进入21世纪以来,随着物联网、电子商务、社会化网络的快速发展,数据体量迎来了爆炸式的增长,大数据正在成为世界上最重要的土壤和基础。根据IDC(互联网数据中心)预测,2020年的数据增长量将是2010年的44倍,达到35ZB。世界经济论坛报告称,“大数据为新财富,价值堪比石油”。随着计算机及其存储设备、互联网、云计算等技术的发展,大数据应用领域随之不断丰富。大数据产业将依赖快速聚集的社会资源,在数据和应用驱动的创新下,不断丰富商业模式,构建出多层多样的市场格局,成为引领信息技术产业发展的核心引擎、推动社会进步的重要力量。 大数据产业发展现状 全球大数据产业发展概况 目前,大数据以爆炸式的发展速度迅速蔓延至各行各业。随着各国抢抓战略布局,不断加大扶持力度,全球大数据市场规模保持了高速增长态势。据IDC预测,全球大数据市场规模 年增长率达40%,在2017年将达到530亿美元。美国奥巴马政府于2012年3月宣布投资2亿美元启动“大数据研究和发展计划”,将“大数据研究”上升为国家意志;2015年发布“大数据研究和发展计划”,深入推动大数据技术研发,同时还鼓励产业、大学和研究机构、非盈利机构与政府一起努力,共享大数据提供的机遇。目前,美国大数据产业增长率已超过71%,大数据在美国健康医疗、公共管理、零售业、制造业等领域产生了巨大的经济效益。英国政府自2013年开始就注重对大数据技术的研发投入,2015年投入7300万英镑用于55个政府的大数据应用项目,投资兴办大数据研究中心,通过大数据技术在公开平台上发布了各层级数据资源,直接或间接为英国增加了近490亿至660亿英镑的收入,并预测到2017年,大数据技术可以为英国提供5.8万个新的工作岗位,或将带来2160亿英镑的经济增长。法国2011年推出了公开的数据平台 date.gouv.fr,以便于公民自由查询和下载公共数据;2013年相继发布《数字化路线图》、《法国政府大数据五项支持计划》等,通过为大数据设立原始扶持资金,推动交通、医疗卫生等纵向行业设立大数据旗舰项目,为大数据应用建立良好的生态环境,并积极建设大数据初创企业孵化器。日本在《日本再兴战略》中提出开放数据,将实施数据开放、大数据技术开发与运用作为2013-2020年的重要国家战略之一,积极推动日本政务大数据开放及产业大数据的发展,零售业、道路交通基建、互联网及电信业等行业的大数据应用取得显著效果。韩国政府高度重视大数据发展,科学、通信和未来规划部与国家信息社会局(NIA)共建大数据中心,大力推动全国大数据产业发展。根据《2015韩国数据行业白皮书》统计显示, 数据服务市场规模占韩国总行业市场规模的47%,位列第一;数据库构建服务以41.8%的占有

大数据综述

Computer Science and Application 计算机科学与应用, 2018, 8(10), 1503-1509 Published Online October 2018 in Hans. https://www.wendangku.net/doc/b512270827.html,/journal/csa https://https://www.wendangku.net/doc/b512270827.html,/10.12677/csa.2018.810163 Overview on Big Data Kaiyue Liu China University of Mining & Technology (Beijing), Beijing Received: Oct. 1st, 2018; accepted: Oct. 11th, 2018; published: Oct. 19th, 2018 Abstract As a current popular technical, big data has received wide attention from every industry. In order to further understand big data, this paper comprehensively describes big data from the six aspects: The basics of big data, the origin and development status of big data, big data processing, big data application, big data challenges and the future of big data. The basics of big data include the con-cepts and differences between big data and traditional databases, and the characteristics of big data. The big data processing includes generating and getting data, preprocessing data, data sto-rage, analyzing and mining data. This article is a systematic review of big data, and can establish a good knowledge system for scholars who are new to big data. Keywords Big Data, Data Storage, Data Mining, Data Visualization, Big Data Application 大数据综述 刘凯悦 中国矿业大学(北京),北京 收稿日期:2018年10月1日;录用日期:2018年10月11日;发布日期:2018年10月19日 摘要 大数据作为当今的热点技术,受到了各行各业的广泛关注。为了进一步认识大数据,本文从大数据的基础、大数据的起源和发展现状、大数据的处理流程、大数据的应用、大数据面临的挑战、大数据未来展望六个方面对大数据进行了综合性描述。其中大数据基础包括大数据和传统数据库的概念和区别、大数据的特性,处理流程包括数据生成和获取、数据预处理、数据存储、数据分析挖掘。本文是大数据的系统性综述,可以对初次接触大数据的学者建立了良好的知识体系。

大数据文献综述

信息资源管理文献综述题目:大数据背景下的信息资源管理 系别:信息与工程学院 班级:2015级信本1班 姓名: 学号:1506101015 任课教师: 2017年6月

大数据背景下的信息资源管理 摘要:随着网络信息化时代的日益普遍,我们正处在一个数据爆炸性增长的“大数据”时代,在我们的各个方面都产生了深远的影响。大数据是数据分析的前沿技术。简言之,从各种各样类型的数据中,快速获得有价值信息的能力就是大数据技术,这也是一个企业所需要必备的技术。“大数据”一词越来越地别提及与使用,我们用它来描述和定义信息爆炸时代产生的海量数据。就拿百度地图来说,我们在享受它带来的便利的同时,无偿的贡献了我们的“行踪”,比如说我们的上班地点,我们的家庭住址,甚至是我们的出行方式他们也可以知道,但我们不得不接受这个现实,我们每个人在互联网进入大数据时代,都将是透明性的存在。各种数据都在迅速膨胀并变大,所以我们需要对这些数据进行有效的管理并加以合理的运用。 关键词:大数据信息资源管理与利用 目录 大数据概念 (3) 大数据定义 (3) 大数据来源 (3) 传统数据库和大数据的比较 (3) 大数据技术 (4) 大数据的存储与管理 (4)

大数据隐私与安全 (5) 大数据在信息管理层面的应用 (6) 大数据在宏观信息管理层面的应用 (6) 大数据在中观信息管理层面的应用 (7) 大数据在微观信息管理层面的应用 (8) 大数据背景下我国信息资源管理现状分析 (9) 前言:大数据泛指大规模、超大规模的数据集,因可从中挖掘出有价值 的信息而倍受关注,但传统方法无法进行有效分析和处理.《华尔街日 报》将大数据时代、智能化生产和无线网络革命称为引领未来繁荣的大技术变革.“世界经济论坛”报告指出大数据为新财富,价值堪比石油.因此,目前世界各国纷纷将开发利用大数据作为夺取新一轮竞争制高点的重要举措. 当前大数据分析者面临的主要问题有:数据日趋庞大,无论是入库和查询,都出现性能瓶颈;用户的应用和分析结果呈整合趋势,对实时性和响应时间要求越来越高;使用的模型越来越复杂,计算量指数级上升;传统技能和处理方法无法应对大数据挑战. 正文:

工业大数据分析综述:模型与算法

摘要:随着条形码、二维码、RFID、工业传感器、自动控制系统、工业互联网、ERP、CAD/CAM/CAE等信息技术在工业领域的广泛应用,大量与工业生产活动相关的数据被实时采集并存储到企业的信息系统中。对这些数据进行分析,有助于改进生产工艺、提高生产效率、降低生产成本,为实现智能制造奠定基础。因此,工业大数据分析引起了工业界和学术界的广泛关注。模型和算法是大数据分析理论和技术中的两个核心问题。介绍了工业大数据分析的基本概念,综述了几种流行的工业大数据分析模型在工业大数据分析领域的应用情况以及相应求解算法方面的研究成果,并探索了大数据分析模型和算法的未来研究方向。 关键词:工业大数据; 大数据分析; 模型; 算法; 智能制造 1 引言 当今时代,信息化和工业化的融合已经成为发展趋势,《中国制造2025》指出:“新一代信息技术与制造业深度融合,正在引发影响深远的产业变革,形成新的生产方式、产业形态、商业模式和经济增长点”。工业大数据在两化融合过程中起着至关重要的作用,国务院颁发的《促进大数据发展行动纲要》把发展工业大数据列为主要任务之一:“推动大数据在工业研发设计、生产制造、经营管理、市场营销、售后服务等产品全生命周期、产业链全流程各环节的应用,分析感知用户需求,提升产品附加价值,打造智能工厂。建立面向不同行业、不同环节的工业大数据资源聚合和分析应用平台”。工业大数据是指在工业领域中产生的大数据。随着信息化与工业化的深度融合,信息技术渗透到了工业企业产业链的各个环节,条形码、二维码、射频识别(radio frequency identification,RFID)、工业传感器、工业自动控制系统、工业互联网、企业资源计划(enterprise resource planning,ERP)、计算机辅助设计(computer

大数据文献综述

信息资源管理文献综述题目:大数据背景下的信息资源管理系别:信息与工程学院 班级:2015级信本1班 姓名: 学号:1506101015 任课教师: 2017年6月

大数据背景下的信息资源管理 摘要:随着网络信息化时代的日益普遍,我们正处在一个数据爆炸性增长的“大数据”时代,在我们的各个方面都产生了深远的影响。大数据是数据分析的前沿技术。简言之,从各种各样类型的数据中,快速获得有价值信息的能力就是大数据技术,这也是一个企业所需要必备的技术。“大数据”一词越来越地别提及与使用,我们用它来描述和定义信息爆炸时代产生的海量数据。就拿百度地图来说,我们在享受它带来的便利的同时,无偿的贡献了我们的“行踪”,比如说我们的上班地点,我们的家庭住址,甚至是我们的出行方式他们也可以知道,但我们不得不接受这个现实,我们每个人在互联网进入大数据时代,都将是透明性的存在。各种数据都在迅速膨胀并变大,所以我们需要对这些数据进行有效的管理并加以合理的运用。 关键词:大数据信息资源管理与利用 目录 大数据概念 (2) 大数据定义 (2) 大数据来源 (2) 传统数据库和大数据的比较 (3) 大数据技术 (3) 大数据的存储与管理 (4) 大数据隐私与安全 (4) 大数据在信息管理层面的应用 (5) 大数据在宏观信息管理层面的应用 (5) 大数据在中观信息管理层面的应用 (6) 大数据在微观信息管理层面的应用 (7) 大数据背景下我国信息资源管理现状分析 (8)

前言:大数据泛指大规模、超大规模的数据集,因可从中挖掘出有价值 的信息而倍受关注,但传统方法无法进行有效分析和处理.《华尔街日 报》将大数据时代、智能化生产和无线网络革命称为引领未来繁荣的 大技术变革.“世界经济论坛”报告指出大数据为新财富,价值堪比 石油.因此,目前世界各国纷纷将开发利用大数据作为夺取新一轮竞 争制高点的重要举措. 当前大数据分析者面临的主要问题有:数据日趋庞大,无论是入 库和查询,都出现性能瓶颈;用户的应用和分析结果呈整合趋势,对 实时性和响应时间要求越来越高;使用的模型越来越复杂,计算量指 数级上升;传统技能和处理方法无法应对大数据挑战. 正文: 大数据概念 大数据定义 维基百科对大数据的定义则简单明了:大数据是指利用常用软件工具捕获、管理和处理数据所耗时间超过可容忍时间的数据集。也就是说大数据是一个体量特别大,数据类别特别大的数据集,并且这样的数据集无法用传统数据库工具对其内容进行抓取、管理 大数据来源 1)来自人类活动:人们通过社会网络、互联网、健康、金融、经济、交通等活动过程所产生的各类数据,包括微博、病人医疗记录、文字、图形、视频等

大数据外文翻译参考文献综述

大数据外文翻译参考文献综述 (文档含中英文对照即英文原文和中文翻译) 原文: Data Mining and Data Publishing Data mining is the extraction of vast interesting patterns or knowledge from huge amount of data. The initial idea of privacy-preserving data mining PPDM was to extend traditional data mining techniques to work with the data modified to mask sensitive information. The key issues were how to modify the data and how to recover the data mining result from the modified data. Privacy-preserving data mining considers the problem of running data mining algorithms on confidential data that is not supposed to be revealed even to the party

running the algorithm. In contrast, privacy-preserving data publishing (PPDP) may not necessarily be tied to a specific data mining task, and the data mining task may be unknown at the time of data publishing. PPDP studies how to transform raw data into a version that is immunized against privacy attacks but that still supports effective data mining tasks. Privacy-preserving for both data mining (PPDM) and data publishing (PPDP) has become increasingly popular because it allows sharing of privacy sensitive data for analysis purposes. One well studied approach is the k-anonymity model [1] which in turn led to other models such as confidence bounding, l-diversity, t-closeness, (α,k)-anonymity, etc. In particular, all known mechanisms try to minimize information loss and such an attempt provides a loophole for attacks. The aim of this paper is to present a survey for most of the common attacks techniques for anonymization-based PPDM & PPDP and explain their effects on Data Privacy. Although data mining is potentially useful, many data holders are reluctant to provide their data for data mining for the fear of violating individual privacy. In recent years, study has been made to ensure that the sensitive information of individuals cannot be identified easily. Anonymity Models, k-anonymization techniques have been the focus of intense research in the last few years. In order to ensure anonymization of data while at the same time minimizing the information

人文社科大数据研究现状综述

人文社科大数据研究现状综述 前言 数据的历史与人类的历史一样久长。步入现代社会以来,伴随信息载体、种类和数量的增多,数据种类越来越丰富,数字、文字、图像、音频、视频等也都是数据。通过数据来研究规律、发现规律,贯穿了人类社会发展的始终。不仅人类自然科学发展史上的不少进步都和数据采集分析直接相关,而且人文社会科学的发展也始终离不开数据。自20世纪后期以来,随着计算机技术全面融入社会生活,信息爆炸已经积累到了一个开始引发社会全面变革的程度。它不仅使世界充斥着比以往更多的信息,而且其增长速度也在加快。信息总量的变化还导致了信息形态的变化——量变引起了质变。大数据正产生于这一大的历史背景下。 大数据就是囊括了包括各方面信息的一个庞大的数据总和,其最核心的价值在于对海量数据进行存储和分析,并实现预测某一事物发展的趋向。相比起现有的其他技术而言,大数据的廉价、迅速、优化这三方面的综合成本是最低的。大数据最重要的是如何使用,最大的挑战在于哪些领域能更好地使用数据及大数据的应用情况如何。人文社科包含人文科学和社会科学,是一个非常广泛的领域,大数据逐渐成为其研究热点,尤其是在农业、医疗、金融、社会管理等方面得到了很好的应用,为社会的发展提供了很大的帮助。 工业革命以后,以文字为载体的信息量大约每十年翻一番;1970 年以后,信息量大约每三年就翻一番。到如今,全球信息总量每两年就可以翻一番。著名管理咨询公司麦肯锡称:“数据已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于大数据的挖掘和运用,预示着新一波生产力增长和消费盈余浪潮的到来。”大数据无时无刻都在影响着我们的日常生活、国民经济、社会发展,受到社会各界的关注,如何利用这些海量数据去解决社会生活中的问题,已经成为当前研究的热点。人文社科领域重在研究并阐述各种社会现象及其发展规律,随着现实社会中数据量的剧增,比如社会化媒体,包括微信、微博、网站等,已经渗透到人们生活的各个领域,开放的群体通信和群体互动已经成社会生活的重要组成部分。人文社科领域原有的研究方法已经无法有效地处理这些数据。在过去,人文社科领域的研究常常采取抽样问卷调查、座谈、访谈等方法采集数据。然而,再好、再合理的抽样方法,反映的总是对局部和部分人群、阶层的研究结果,随机偶然性较大,准确性欠佳。如今,大数据处理技术为其提供了新的思想和方法。通过各个平台或网站的并联进行进一步分析,开展思想动态研究、行为方式分析、生活方式探索,发展趋势预测,乃至可以替代传统意义上的问卷调查而进行大规模的数据分析。通过大数据的这些相关技术挖掘社会化数据中隐藏的信息,揭示社会现象并为社会问题提供可靠的解决方案,解决了人文社科领域传统方法无法有效处理的问题。随着大数据研究的发展,大数据在人文社科领域已经有了很多较为典型的应用,特别是在农业、医疗、金融、社会管理等行业。 大数据是知识经济时代的战略高地,是国家和全球的新型战略资源。作为思维的革命性创新,大数据为科学研究带来了新的方法论。习近平总书记在谈到如何繁荣发展中国特色哲学社会科学时,要求我们善于“运用互联网和大数据技术,加强哲学社会科学图书文献、网络、数据库等基础设施和信息化建设”,这为信息化时代的人文社会科学研究的方式变革与理论创新指出了正确的方向。大数据正在成为当前中国社会快速信息化的最重要表征之一。我们应当深刻认识大数据及其对人文社会科学研究所

大数据的国内外研究现状与发展动态分析报告

大数据的国内外研究现状及发展动态分析大数据的概念 产生的背景与意义 上世纪60年代到80年代早期,企业在大型机上部署财务、银行等关键应用系统,存储 介质包括磁盘、磁带、光盘等。尽管当时人们称其为大数据,但以今日的数据量来看,这些数据无疑是非常有限的。随着PC的出现和应用增多,企业内部出现了很多以公文档为主要形式的数据,包括Word、Excel文档,以及后来出现的图片、图像、影像和音频等。此时企业内部生产数据的已不仅是企业的财务人员,还包括大量的办公人员,这极大地促进了数据 量的增长。互联网的兴起则促成了数据量的第三次大规模增长,在互联网的时代,几乎全民 都在制造数据。而与此同时,数据的形式也极其丰富,既有社交网络、多媒体等应用所主动 产生的数据,也有搜索引擎、网页浏览等被动行为过程中被记录、搜集的数据。时至今日,随着移动互联网、物联网、云计算应用的进一步丰富,数据已呈指数级的增长,企业所处理的数据已经达到PB级,而全球每年所产生的数据量更是到了惊人的ZB级。在数据的这种 爆炸式增长的背景下,“大数据”的概念逐渐在科技界、学术界、产业界引起热议。在大数据时代,我们分析的数据因为“大”,摆脱了传统对随机采样的依赖,而是面对全体数据;因为所有信息都是“数”,可以不再纠结具体数据的精确度,而是坦然面对信息的混杂;信息之“大”之“杂”,让我们分析的“据”也由传统的因果关系变为相关关系。 大数据热潮的掀起让中国期待“弯道超越”的机会,创造中国IT企业从在红海领域苦 苦挣扎转向在蓝海领域奋起直追的战略机遇。传统IT行业对于底层设备、基础技术的要求 非常高,企业在起点落后的情况下始终疲于追赶。每当企业在耗费大量人力、物力、财力取 得技术突破时,IT革命早已将核心设备或元件推进至下一阶段。这种一步落后、处处受制于人的状态在大数据时代有望得到改变。大数据对于硬件基础设施的要求相对较低,不会受困于基础设备核心元件的相对落后。与在传统数据库操作层面的技术差距相比,大数据分析应用的中外技术差距要小得多。而且,美国等传统IT强国的大数据战略也都处于摸着石头 过河的试错阶段。中国市场的规模之大也为这一产业发展提供了大空间、大平台。大数据对 于中国企业不仅仅是信息技术的更新,更是企业发展战略的变革。随着对大数据的获取、处 理、管理等各个角度研究的开展,企业逐渐认识数据已经逐渐演变成“数据资产”。任何硬件、软件及服务都会随着技术发展和需求变化逐渐被淘汰,只有数据才具有长期可用性,值得积累。数据是企业的核心资产,可以是也应该是独立于软硬件系统及应用需求而存在的。 大数据是信息技术演化的最新产物,确立了数据这一信息技术元素的独立地位。正因为数据不再是软硬件及应用的附属产物,才有了今天爆炸式的数据增长,从而奠定了大数据的基础。

大数据云计算文献综述

大数据云计算文献综述 一个大数据的调查 摘要:在这篇论文中,我们将回顾大数据的背景以及当前发展状况。我们首先介绍大数据的一般应用背景以及回顾涉及到的技术,例如:云计算、物联网、数据中心,以及Hadoop。接下来我们着重大数据价值链的四个阶段,也就是:数据生成,数据采集,数据存储和数据分析。对于每个阶段,我们介绍应用背景,讨论技术难题以及回顾最新技术。最后,我们介绍几个大数据的代表性应用,包括企业管理,物联网,在线社交网络,媒体应用,集成智慧,以及智能电网。这些讨论旨在提供一个全面的概述以及对读者感兴趣的领域的蓝图。这个调查包括了对开放问题和未来方向的讨论。 关键字大数据云计算物联网数据中心Hadoop 智能电网大数据分析 1、背景 1.1大数据时代的曙光 在过去的二十年,数据在各种各样的领域内爆炸式增长。按照2011年来自国际数据公司(IDC)的报告,世界上总共的创建及复制的数据量达到1.8zb,在五年内增长了大约九倍[1]。在未来这个数字至少每两年增加一倍。在全球数据的爆炸增长下,大数据这个词主要来描述巨大的数据集。与传统的数据集相比,大数据通常包括非结构化数据,这需要更实时的分析。 另外,大数据也能在发现新价值上带来新优势,帮助我们帮助我们获得一个深入隐藏价值的认识,也导致新挑战,例如,如何有效地组织和管理这样的数据集。

近日,行业产生兴趣的大数据的高潜力,许多政府机构公布主要计划加快大数据的研究和应用[2]。此外,大数据问题往往覆盖在公共媒体,如经济学[3,4],纽约时报[5],和全国公共广播电台[6,7]。这两个主要的科学期刊,Nature和Science,还开通了专栏讨论大数据的挑战和影响[8,9]。大数据的时代已经到来超越一切质疑[10]。 目前,与互联网公司的业务相关联的大数据快速增长。例如,谷歌处理的数据达数百拍字节(PB),Facebook的生成日志数据每月有超过10 PB,百度一家中国公司百度,业务流程有数十PB的数据,而阿里巴巴的子公司淘宝每天的网上交易产生几十太字节(TB)的数据。图1示出的全球数据量的热潮。当大型数据集的数量急剧上升,它也带来了许多具有挑战性的问题,解决方案如下: 图一、持续增长的数据 信息技术的最新发展(IT)使其更容易以产生数据。例如,每分钟有平均72个小时的视频上传到YouTube[11]。因此,我们面临的主要挑战是从广泛分布的数据源中收集和整合大量的数据。 云计算和物联网(IOT)的快速发展进一步促进数据的大幅增长。云计算提供了安全措施,访问网站以及数据资产的渠道。在物联网的典范,遍布世界各地的传感器正在收集和传送数据到云端进行存储和处理。这样的数据在数量和相互关系将远远超过对IT架构和现有企业的基础设施的能力,以及它的实时要求也将极大地强调可用的计算能力。日益增长的数据造成怎样在当前硬件和软件的基础上存储和管理如此庞大的异构数据集的问题。

大数据技术研究综述

大数据技术研究综述 摘要:大数据是继云计算、物联网之后IT 产业又一次颠覆性的技术革命。文中介绍了大数据的概念、典型的4“V”特征以及大数据的关键技术,归纳总结了大数据处理的一般流程,针对其中的关键技术,如MapReduce、GFS、Hadoop以及NoSQL等,介绍了基本的情况。最后,本文对大数据时代做了总结与展望。 关键词:大数据;数据处理技术;云计算

当人们还在津津乐道云计算、物联网等主题时,一个崭新的概念——大数据横空出世。大数据是继云计算、物联网之后IT产业又一次颠覆性的技术革命,对国家治理模式、企业决策、组织和业务流程,以及个人生活方式等都将产生巨大的影响。大数据的挖掘和应用可创造出超万亿美元的价值,将是未来IT 领域最大的市场机遇之一,其作用堪称又一次工业革命[1]。 我们身处数据的海洋,几乎所有事物都与数据有关,环境、金融、医疗……我们每天都在产生数据,打电话、发短信、进地铁站安检、进办公楼刷卡、在QQ 上聊天、上淘宝网购物……大量数据实时地影响我们的工作、生活乃至社会发展。数据成为与自然资源、人力资源同样重要的战略资源,引起了科技界和企业界的高度重视。 1大数据的概念 大数据本身就是一个很抽象的概念,提及大数据很多人也只能从数据量上去感知大数据的规模,如:百度每天大约要处理几十PB 的数据;Facebook 每天生成300 TB以上的日志数据;据著名咨询公司IDC 的统计,2011年全球被创建和复制的数据总量为1.8 ZB(1021) ,但仅仅是数据量并不能区分大数据与传统的海量数据的区别。在2008年《Science》杂志出版的专刊中,大数据被定义为“代表着人类认知过程的进步,数据集的规模是无法在可容忍的时间内用目前的技术、方法和理论去获取、管理、处理的数据”[2]。 大数据不是一种新技术,也不是一种新产品,而是一种新现象,是近来研究的一个技术热点。大数据具有以下4个特点,即4个“V”: (1) 数据体量(V olumes) 巨大。大型数据集,从TB级别,跃升到PB级别。 (2) 数据类别(Variety) 繁多。数据来自多种数据源,数据种类和格式冲破了以前所限定的结构化数据范畴,囊括了半结构化和非结构化数据。 (3) 价值(Value) 密度低。以视频为例,连续不间断监控过程中,可能有用的数据仅仅一两秒钟。 (4) 处理速度(Velocity) 快。包含大量在线或实时数据分析处理的需求,1秒定律。最后这一点也是和传统的数据挖掘技术有着本质的不同。物联网、云计算、移动互联网、车联网、手机、平板电脑、PC以及遍布地球各个角落的各种各样的传感器,无一不是数据来源或者承载的方式。

大数据环境下的增强学习综述_仵博

大数据环境下的增强学习综述* 仵 博,冯延蓬,孟宪军,江建举,何国坤 (深圳职业技术学院 教育技术与信息中心,广东 深圳 518055) 摘 要:在大数据应用领域,如何快速地对海量数据进行挖掘是当前大数据应用基础研究的热点和难点,也是制约大数据真正应用的关键.而机器学习是解决该问题的有效途径,本文综述抽象增强学习、可分解增强学习、分层增强学习、关系增强学习和贝叶斯增强学习等五类增强学习方法的研究进展,分析了它们的优势和缺点,指出将监督学习或半监督学习与增强学习相结合是大数据机器学习的有效方法. 关键词:大数据;增强学习;维数灾 中图分类号:TP18 文献标志码:B 文章编号:1672-0318(2014)03-0071-05 增强学习(Reinforcement Learning,简称RL)是一种有效的最优控制学习方法,实现系统在模型复杂或者不确定等条件下基于数据驱动的多阶段优化学习控制,是近年来一个涉及机器学习、控制理论和运筹学等多个学科的交叉研究方向.增强学习因其具有较强的在线自适应性和对复杂系统的自学能力,使其在机器人导航、非线性控制、复杂问题求解等领域得到成功应用[1-4].经典增强学习算法按照是否基于模型分类,可分为基于模型(Model-based)和模型自由(Model-free)两类.基于模型的有TD学习、Q学习、SARSA和ACTOR-CRITIC等算法.模型自由的有DYNA-Q和优先扫除等算法.以上经典增强学习算法在理论上证明了算法的收敛性,然而,在实际的应用领域,特别是在大数据环境下,学习的参数个数很多,是一个典型的NP难问题,难以最优化探索和利用两者之间的平衡[5-8].因此,经典增强学习算法只在理论上有效. 为此,近年来的增强学习研究主要集中在减少学习参数数量、避免后验分布全采样和最小化探索次数等方面,达到算法快速收敛的目的,实现探索和利用两者之间的最优化平衡.当前现有算法按照类型可分为五类:1)抽象增强学习;2)可分解增强学习;3)分层增强学习;4)关系增强学习;5)贝叶斯增强学习. 1 抽象增强学习 抽象增强学习(Abstraction Reinforcement Learning,简称ARL)的核心思想是忽略掉状态向量中与当前决策不相关的特征,只考虑那些有关的或重要的因素,达到压缩状态空间的效果[9].该类算法可以在一定程度上缓解“维数灾”问题.状态抽象原理如图1所示. 目前,状态抽象方法有状态聚类、值函数逼近和自动状态抽象等方法.函数逼近方法难于确保增强学习算法能够收敛,采用线性拟合和神经网络等混合方法来实现函数逼近是当前的研究热点和方向.状态聚类利用智能体状态空间中存在的对称性来压缩状态空间,实现状态聚类.自动状态抽象增 深圳职业技术学院学报 2014年第3期 No.3, 2014 收稿日期:2013-10-14 *项目来源:广东省自然科学基金项目(S2011040004769)和深圳市科技研发资金项目(JCYJ20120617134831736) 作者简介:仵 博(1979-),男,河南桐柏人,副教授,博士,主要研究领域为序贯决策、机器学习和大数据. 冯延蓬(1980-),男,山东潍坊人,讲师,硕士,主要研究领域为无线传感器网络、智能决策和大数据. 孟宪军(1979-),男,北京大兴人,助理研究员,博士,主要研究领域为数据挖掘、自然语言处理和机器学习. 江建举(1976-),男,河南内乡人,高级工程师,硕士,主要研究机器人控制、群智能和大数据. 何国坤(1980-),男,广东深圳人,高级工程师,硕士,主要研究领域为软件工程、机器学习和大数据. https://www.wendangku.net/doc/b512270827.html,- 71 -

大数据时代 文献综述

智慧时代下大数据技术在教育 领域的应用研究综述 姓名:李欢欢学号:2012221111120004 一、前言 大数据是近年来出现在通信和计算机领域中的一个热门关键词。关于大数据,尚未有一个统一的定义,但却有两个观点能够诠释大数据的本质。第一个观点来自于Gartner公司的Merv Adrian在2011年第一季度刊登在Teradata Magazine上的一篇文章,文中指出“数据超出了常用硬件环境和软件工具在可接受的时间内为其用户收集、管理和处理数据的能力”[1]。另一个观点来自于麦肯锡全球数据分析研究所(Mckinsey Global Institute)在2011年6月发布的《大数据:创新、竞争和生产力的下一个前沿》报告,报告中提出“大数据是指大小超出了典型数据库软件工具收集、存储、管理和分析能力的数据集”[2]。麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和应用,预示着新一波生产率增长和消费者盈余浪潮的到来。” 大数据已经深刻地影响到人们的生活、工作和学习。大数据的意义在于对由多种类型数据构成的数据集体进行分析和研究,提取有利用价值的信息,从而帮助人们在解决问题时可以作出科学的决策。同样大数据的威力强烈地冲击着教育系统,正在成为推动教育系统创新与变革的颠覆性力量。 二、大数据技术在教育领域的应用现状分析 1 大数据定义与特征 大数据(bigdata),又称巨量资料,海量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理并整理成为帮助企业经营决策更积极目的的资讯。研究机构Gartner[3]认为“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。麦肯锡的定义:大数据是指无法在一定时间内用传统数据库软件工具对其内容进行采集、存储、管理和分析的数据集合。无论哪种定义,我们可以看出,大数据并不是一种新的产品也不是一种新的技术,大数据只是数字化时代出现的一种现象。 大数据的主要特点可以概括为4V+1C。4V包含了四个层面:第一,即V olume(大容量),海量数据,规模庞大,已跃升到PB 级别;第二,Velocity(高速度),实时处理,处理速度快,涉及感知、传输、决策、控制开放式循环的大数据,数据实时处理有着极高要求,通过传统数据库查询方式得到的“当前结果”可能已没有价值,这也是大数据和传统的数据挖掘技术本质上的不同;第三,Variety(多样性),数据类型繁多:网络日志、视频、地理位置信息、图片等都是大数据;第四,Veracity(低密度),数据价值大,但价值密度低。对海量数据挖掘分析,对未来趋势与模式的可预测分析,深度复杂分析;“1C”即Complexity,是通过数据库处理持久存储的数据不再适用于大数据处理,需要有新的方法来满足异构数据统一接入和实时数据处理的需求[4]。 2 国内研究现状 对于“智慧时代下大数据技术在教育领域的应用”国内研究的现状,我主要通过借助中国知网提供的论文发表数据进行分析。在中国知网中选择“高级检索”类型,并在检索条件中选择“主题”检索,输入“大数据”并含“教育”,截止到2014年4月17日共检索出303 条结果与之相关,通过手工筛选,把会议报道等无关信息剔除掉,剩余160篇文章。 大数据在教育领域的应用,与国外相比,国内起步稍晚,还未形成整体力量。虽然2009年开始,大数据就成为了流行词汇,但是它在教育领域的应用是近3年才出现的。国内最早

工业大数据技术架构白皮书

工业大数据技术架构白皮书

编写说明 党的十九大报告中提出要“加快建设制造强国,加快发展先进制造业,推动互联网、大数据、人工智能和实体经济的深度融合”。再一次强调了运用新兴技术促进信息化和工业化的深度融合,以实现制造强国的战略目标。 工业是国民经济的主导,每一次工业届的重大变革都会对社会发展形成重大的影响。我国政府高度重视并积极推动以互联网为代表的新一代新兴技术与工业系统深度融合,以加速工业体系的智能化变革。工业互联网的建设重点概括为“网络”、“数据”、“安全”三大领域,而“数据”是实现工业智能化的核心驱动。在工业领域中合理地运用大数据技术能有效促进企业信息化发展,提升企业生产运行效率、加速生产信息在制造过程中的流动、助力企业升级转型并形成全新的智能制造模式。 为了加速新一代信息技术与传统产业的融合,工业互联网联盟(AII)针对工业领域的技术创新、标准制定、试验验证、应用实践等进行了一系列调查研究,在工业大数据领域也开展了相关工作,先后发布了《中国工业大数据技术与应用白皮书》,《工业大数据创新竞赛白皮书——风机结冰故障分析指南》等成果,以推动大数据技术在工业领域的深入应用。 本白皮书从实际出发,在现有研究的基础上,结合生产过程中的经典案例,介绍和分析了工业生产环境中大数据技术的应用方法,为工业企业建设大数据系统提供了基础架构层面的建议和指导,从数据的采集与交换、集成与处理、建模与分析、决策与控制几个层面,形成完整的大数据管理与分析架构,供相关行业伙伴参考使用,适用于广义的工业领域,包括制造业、采伐工业、原材料工业以及其他衍生的工业范围。

目录 第一章工业大数据系统综述 (1) 1.1 建设意义及目标 (1) 1.2 重点建设问题 (2) 第二章工业大数据技术架构概述 (3) 2.1 数据采集与交换 (5) 2.2 数据集成与处理 (6) 2.3 数据建模与分析 (8) 2.4 决策与控制应用 (9) 2.5 技术发展现状 (10) 第三章工业大数据技术架构实现 (12) 3.1 技术组件选择 (12) 3.1.1 数据采集 (12) 3.1.2 数据存储 (16) 3.1.3 数据计算 (17) 3.1.4 混合云架构 (18) 3.2 建设标准 (19) 3.2.1 基础业务能力 (19) 3.2.2 数据管理能力 (20) 3.2.3 运维管理能力 (21) 3.2.4 安全管理 (22) — 1 —

大数据技术概述

大数据技术 1.什么是数据挖掘,什么是机器学习: 什么是机器学习 关注的问题:计算机程序如何随着经验积存自动提高性能; 研究计算机如何样模拟或实现人类的学习行为,以猎取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能; 通过输入和输出,来训练一个模型。 2.大数据分析系统层次结构:应用层、算法层、系统软件层、基础设施层 3.传统的机器学习流程 预处理-》特征提取-》特征选择-》再到推理-》预测或者识不。手工地选取特征是一件特不费劲、启发式(需要专业知识)的方法,假如数据被专门好的表达成了特征,通常线性模型就能达到中意的精度。 4.大数据分析的要紧思想方法

4.1三个思维上的转变 关注全集(不是随机样本而是全体数据):面临大规模数据时,依靠于采样分析;统计学习的目的——用尽可能少的数据来证实尽可能重大的发觉;大数据是指不用随机分析如此的捷径,而是采纳大部分或全体数据。 关注概率(不是精确性而是概率):大数据的简单算法比小数据的复杂算法更有效 关注关系(不是因果关系而是相关关系):建立在相关关系分析法基础上的预测是大数据的核心,相关关系的核心是量化两个数据值之间的数理关系,关联物是预测的关键。 4.2数据创新的思维方式 可量化是数据的核心特征(将所有可能与不可能的信息数据化);挖掘数据潜在的价值是数据创新的核心;三类最有价值的信息:位置信息、信令信息以及网管和日志。 数据混搭为制造新应用提供了重要支持。 数据坟墓:提供数据服务,其他人都比我聪慧! 数据废气:是用户在线交互的副产品,包括了扫瞄的页面,停留了多久,鼠标光标停留的位置、输入的信息。

4.3大数据分析的要素 大数据“价值链”构成:数据、技术与需求(思维);数据的价值在于正确的解读。 5.数据化与数字化的区不 数据化:将现象转变为可制表分析的量化形式的过程; 数字化:将模拟数据转换成使用0、1表示的二进制码的过程 6.基于协同过滤的推举机制 基于协同过滤的推举(这种机制是现今应用最为广泛的推举机制)——基于模型的推举(SVM、聚类、潜在语义分析、贝叶斯网络、线性回归、逻辑回归) 余弦距离(又称余弦相似度):表示是否有相同的倾向 欧几里得距离(又称欧几里得相似度):表示绝对的距离 这种推举方法的优缺点: 它不需要对物品或者用户进行严格的建模,而且不要求物品的描述是机器可理解的;推举是开放的,能够共用他人的经验,专门好的支持用户发觉潜在的兴趣偏好。 数据稀疏性问题,大量的用户只是评价了一小部分的项目,而大多数的项目是没有进行评分;冷启动问题,新物品和新用户依靠

相关文档