文档库 最新最全的文档下载
当前位置:文档库 › 大数据分析平台建设与应用综述

大数据分析平台建设与应用综述

大数据分析平台建设与应用综述
大数据分析平台建设与应用综述

第 5 卷 第2期2016年3月

集 成 技 术

JOURNAL OF INTEGRATION TECHNOLOGY

Vol. 5 No. 2

Mar. 2016

收稿日期:2015-12-23 修回日期:2015-12-27

作者简介:王强,博士后,研究方向为聚类算法和生物信息学;李俊杰,副教授,研究方向为数据挖掘与机器学习;陈小军,博士,研究方向为数据挖掘与机器学习;黄哲学(通讯作者),特聘教授,研究方向为数据挖掘与机器学习,E-mail :zx.huang@https://www.wendangku.net/doc/c37976026.html, ;陈国良,教授,院士,研究方向为高性能计算。

大数据分析平台建设与应用综述

王?强1?李俊杰1?陈小军1?黄哲学1?陈国良2

1

(深圳大学大数据技术与应用研究所 深圳 518060)

2

(深圳大学高性能计算研究所 深圳 518060)

摘?要?大数据分析平台是开展大数据处理与分析应用所必需的基础设施。文章基于课题组开展大数据分析平台建设的科研成果与实践经验,结合大型企业实施行业应用项目的切身感受,从大数据分析平台设计、主流热点技术、行业应用案例三个方面进行介绍。文章首先分析了大数据分析平台的主要功能和体系架构,然后介绍了大数据分析平台的关键技术,重点介绍了 Spark 技术的体系架构及核心组件,最后介绍了大数据技术在大规模制造业、零售业和智能电网三个领域的应用案例。关键词?大数据平台;大数据分析;大数据应用;内存计算中图分类号?TP 391.4 文献标志码?A

Review on Construction and Application of Big Data Analytical Platform

W ANG Qiang 1 LI Junjie 1 CHEN Xiaojun 1 HUANG Zhexue 1 CHEN Guoliang 2

1

( Big Data Institute , Shenzhen University , Shenzhen 518060, China )

2

( High Performance Computing Institute , Shenzhen University , Shenzhen 518060, China )

Abstract The big data analytics platform is an indispensable infrastructure for big data processing and applications. Based on our research activities, practical experiences with big data analytics, and lessons learnt from industrial projects, this paper addressed the platform design, mainstream technologies, and industrial cases of big data analytics platforms. Firstly, the main functions and architecture of such platforms were analyzed. Then the key enabling technologies were introduced with a focus on the architecture of Spark and its core components. Finally three application case studies were presented in the areas of massive manufacture, retail, and smart grids.

Keywords big data platform; big data analytics; big data application; Spark

王?强,等:大数据分析平台建设与应用综述

2期3

1 引 言

当前,人类社会信息化进程正在迈向网络化信息技术普及阶段。整个社会的信息采集渠道日益丰富,信息应用广度不断拓展,信息总量呈指数级增长,以信息为核心的创新驱动力持续增强,从而带来全社会信息在类型多样性、关系复杂性、应用时效性等方面呈现出崭新的趋势和特征。这种由社会信息环境的变革而引发的社会数据环境的变革,给信息科学及相关产业发展带来了巨大的挑战和机遇。

大数据就是为有效应对“网络时代海量复杂数据带来的管理与应用难题”而产生的一种新的思维方式、技术体系和创新能力,其特有的战略意义和核心价值主要表现在以下三个方面:第一,在战略思维层面,数据已经成为全球社会公认的创新发展要素,大数据已经从商业领域上升到国家战略层面。

自 2011 年 6 月麦肯锡公司发布了《大数据:下一个竞争、创新和生产力的前沿领域》[1]的研究报告,拉开了全球竞相发展大数据的序幕。随后,美、英、法、澳、日、韩等发达国家,以及联合国、欧盟、八国集团等国际组织,纷纷提出国家级或区域性大数据发展战略,旨在提升从大量复杂数据中获取知识和洞见的能力,进而促进政府治理效能和经济发展活力的显著提升。我国自 2012 年起,从中央部委到地方省市,连续密集地出台了十余个与大数据相关的发展规划和行动计划,特别是国务院于 2015 年 8 月出台了《促进大数据发展行动纲要》[2],明确提出了政府率先开放政务大数据并强化与社会各方形成合力的相关任务和计划时间表,更加突显我国发展大数据的意志与决心。

第二,在信息科学与技术创新发展层面,大数据给传统的信息科学与技术体系带来了全方位的挑战,大数据科学正在加速形成以数据为核心的新的理论与技术体系。

大数据所特有的类型多样、混合异构、快速增长、体量巨大、关系复杂、高维稀疏等特性,导致传统的来源于多元统计、人工智能、机器学习、模式识别等领域的数据分析理论,以及以数据为核心的存储、索引、融合、处理、分析、应用、安全等全过程技术,亟待实现全面系统的创新与发展,不断形成和完善大数据科学与技术体系。同时,从大数据工程技术创新发展的角度,亟待将大数据相关的理论、技术成果与国际主流的大数据工程技术框架相结合,针对互联网应用的智能化和服务化的发展趋势,以及离线分析与在线分析的应用特点,围绕 Hadoop、Spark(内存计算)等当前热门主流的大数据工程技术体系,开展大数据平台开发与产业化应用,是促进大数据科技发展的另一项必要和紧迫的工作。

第三,在经济社会创新发展层面,大数据是保障我国“互联网+”和“智慧城市”战略实现的核心能力,并为推进“双创”战略提供了广阔的发展空间。

以应用为导向、以应用为引领,是大数据技术创新与发展的主要特征。当前,我国正在全力推进“互联网+”和“智慧城市”发展战略,大数据作为其中必不可少的使能性技术,将在城市虚拟空间的各种应用场景中发挥着信息整合、知识挖掘、业务协同、服务创新的作用。其中,大数据分析与应用平台更是作为大数据时代必备的基础设施:通过不断汇聚技术创新成果,为应用创新提供一站式共性基础服务,有效降低应用技术门槛,支持创业公司和创客群体在平台上开展不同领域、不同层次、不同环节的应用服务创新,加速形成以平台为核心的产业创新生态圈和产品化应用解决方案,促进大数据产业加快形成。

大数据时代,我国拥有得天独厚的发展优势。一方面,在政府大力倡导和全社会积极努力下,大数据已经成为全社会的共识,大数据所

集 成 技 术2016年4

蕴含的经济价值和创新价值已经引起社会各界的高度关注。另一方面,我国拥有海量丰富的数据资源,广阔多样的应用场景,潜力巨大的消费市场,为大数据创新与发展提供了必要条件。当务之急是如何快速有效突破数据价值挖掘的瓶颈。大数据分析与应用平台,是大数据时代必备的基础设施,也是突破当前技术瓶颈的有效突破口。开发和建设大数据分析与应用平台将带来三个方面的价值:(1)有助于不断汇集大数据技术创新成果,并用最先进的技术为用户提供一站式的应用服务;(2)有助于降低用户技术门槛,为应用开发提供共性基础设施与服务,从而加快应用创新;(3)有助于形成大数据技术产品和行业解决方案,促进我国大数据产业加快形成。

本文基于深圳大学大数据技术与应用研究所大数据分析平台课题组(以下简称“课题组”)近年来开发和建设大数据分析与应用平台的科研成果和实践经验[3,4],同时结合课题组在人才培养、科学研究、社会服务等方面的实际感受,首先介绍了大数据平台的总体功能、体系架构及其关键技术;其次,针对当前大数据领域的前沿热点技术,重点介绍了 Spark 技术架构及其核心模块;最后,介绍了课题组已经完成的在大规模制造业、零售业和智能电网三个领域的大数据应用案例,以期为学术界和产业界提供具有一定参考借鉴价值。

2 大数据分析平台

2.1 大数据分析平台发展现状

大数据分析平台是建设和实施大数据应用所必需的基础设施,也是目前国际产业界竞相发展的前沿和热点领域。从目前全球发展现状来看,大数据分析平台建设与应用的主要力量来自于传统信息技术(Information Technology,IT)企业、新兴互联网企业、高校科研院所三大阵营,以下对其发展情况和代表成果进行概括总结。

2.1.1 传统信息技术巨头的大数据平台战略

该阵营以 IBM、ORACLE、SAP、EMC、Teradata 等传统 IT 巨头为代表,凭借长期积累的技术、产品、品牌、服务等全球领先的综合实力为基础,通过“硬件+软件+数据”整体解决方案向用户提供以平台为核心的完备的大数据基础架构与服务,同时通过密集地并购大数据分析创新型企业,以迅速增强和扩展在大数据分析领域的实力和市场份额。

国际 IT 巨头的大数据平台战略实施案例包括:

(1)IBM

①企业并购:收购了商务智能软件供应商Congnos[5]、统计分析软件 SPSS[6]、数据库分析供应商 Netezza[7];

②大数据管理:结合 IBM DB2 数据库,推出了支持 Apache Hadoop 的 InfoSphereBigInsights[8]软件,支持大数据应用开发与实施;

③大数据一体机:发布了大数据一体机 Pure Data[9],作为大数据领域的软硬件一体化解决方案。

(2)ORACLE

大数据一体机:该一体机集成了 Oracle Exalogic[10]中间件云服务器、Oracle Exadata[11]数据库云服务器和 Oracle Exalytics[12]商务智能云服务器,成为 ORACLE 企业级大数据解决方案。

(3)HP

企业并购:通过收购 Vertica 公司,推出针对大数据的 Vertica 6.1[13]数据分析平台,平台覆盖了非结构化大数据存储管理、处理分析、服务交付等全过程,成为企业级大数据应用的完整解决方案。

(4)EMC

大数据一体机:对原有的E M C硬件和Greenplum 软件进行整合,推出了 Greenplum 一

王?强,等:大数据分析平台建设与应用综述

2期5

体机产品[14],平台适用于大数据分析场景,可以通过增加节点方式进行横向扩展,从而有效控制成本和性能。

整体平台解决方案厂商依靠自身原有的软件、硬件或技术优势,通过收购及整合不同公司的产品线,实现对大数据各个领域的覆盖。但是这种增量式的系统整合,只是使系统功能的体量增加。只有通过对自身产品和技术的原始创新,才能实现对大数据处理问题的彻底解决。

2.1.2 新兴互联网巨头的大数据平台战略

该阵营以 Google、Amazon、Facebook、阿里巴巴、百度、腾讯等互联网公司为代表,基于自身的应用平台、庞大用户群和海量用户信息,形成独有的互联网大数据应用生态圈,不断创新应用和商业模式,不断创造新价值。

(1)Google

①Google 提出的 GFS、MapReduce 和BigTable 等大数据核心技术,催生了大数据处理的事实标准 Hadoop。目前,Google 通过自身开发的 Caffeine[15]平台,直接将索引放置在由Google 开发的分布式数据库 BigTable 上;

②Google 还提供大数据虚拟服务器业务,用户可以把数据上传到 Google,Google 提供了包括 BigQuery[16]和 Google Compute Engine[17]等服务和基础设施运行用户的查询服务。

(2)Amazon

Amazon 弹性 MapReduce (Amazon Elastic MapReduce)[18],是一项能够迅速扩展的 Web 服务,运行在亚马逊弹性计算云(Amazon EC2)和亚马逊简单存储服务(Amazon S3)上,用于满足数据密集型任务(如互联网索引、数据挖掘、日志文件分析、机器学习、金融分析、科学模拟和生物信息学研究),平台将根据用户需要立即配置和满足资源需求。

(3)Facebook

①Corona(日冕)平台[19],可以让你在数目庞大的 Hadoop 服务器之间运行大量的任务,并且不用担心软件错误会导致整个服务器集群崩溃;

②Prism(三棱镜)[20]平台,可以自动复制数据,并在不同地点的服务器之间传输数据。这可以让 Hadoop 服务器集群运行在全球范围内的多个数据中心上,实现集群规模的灵活扩展。

(4)阿里巴巴、百度、腾讯

①早在 2011 年,阿里巴巴就已经推出了“淘宝指数”[21],商家可以根据以往的销售信息和“淘宝指数”进行生产、库存决策,同时,消费者也能以更优惠的价格购买商品;

②百度正开展大数据革命以应对企业时代需求,其已从数据、工具及应用三个层面布局大数据时代企业战略规划,为用户更深入地挖掘数据价值,优化营销决策;

③腾讯主要通过深入挖掘用户属性,培育社会化营销平台,利用大数据和关系链,为用户筛选、推荐最适合他的内容。

互联网公司在大数据领域的创新主要是基于自身的数据和业务需求,主要集中在搜索、个性化推荐和存储、计算等方面。但是对于“人、机、物”三元融合技术产生的多样化海量复杂数据,仍然需要新的分析平台及处理技术。

2.1.3 科研领域的大数据平台发展状况

国际顶级期刊《Nature》和《Sciences》近期针对大数据分别出版了专刊《Big Data》[22]和《Dealing with Data》[23],从互联网技术、互联网经济学、超级计算、环境科学、生物医药等多个方面讨论了大数据处理面临的各种问题。

在国内,中国计算机学会(China Computer Federation,CCF)成立了大数据专家委员会(CCF Big Data Task Force,简称 CCF TFBD)。2012 年10 月 19 日,中国计算机学会大数据专家委员会成立,通过竞选产生了以李国杰院士为主任的专家委员会的第一任领导班子。2012 年 11 月 30 日~12 月 1 日,中国 Hadoop 与大数据技术大会

集 成 技 术2016年6

(HBTC 2012)在北京成功举办。大会以“大数据共享与开放技术”为主题,讨论了大数据共享平台与应用、大数据的技术挑战与发展趋势。

目前,国际学术界研发的大数据平台的代表成果包括:

(1)Petuum 大数据分布式机器学习平台[24]:平台由美国卡耐基梅隆大学(CMU)邢波教授课题组针对大数据机器学习特点研发,是一个分布式机器学习框架,提供了面向超大型机器学习的通用算法和系统接口。包含数据和模型并行两套功能,平台的参数服务器为开发者提供良好的编程环境,通过共享虚拟分布内存,在编程的时候不用对每个机器进行单独通讯;平台的调度器能够对模型进行有效的分割,甚至是动态分割,然后进行任务的分布化和载量平衡。

(2)PDMiner 基于云计算的数据挖掘软件平台[25]:平台由中国科学院计算技术研究所与中国移动合作开发,集成了 ETL 组件、数据挖掘组件以及多种算法,可有效解决多种云计算数据挖掘问题。平台的挖掘效率随节点增加而增加,多个任务工作流之间互不干扰,不同节点间可同时启动,具有容错能力,架构具有开放性,算法可方便地配置加载到平台上,达到了商用软件精度,成为中国移动数据挖掘分析支撑工具。

(3)CLAIMS 并行数据分析系统[26]:系统由华中师范大学数据科学与工程研究院研发,提供了一个基于内存(in-memory)的并行数据库系统框架,可运行在服务器集群中,提供面向关系型数据的实时数据分析。

(4)深圳大学大数据分析平台:平台由深圳大学大数据技术与应用研究所研发,也是本文主要介绍内容,详见后文。

2.2 大数据分析平台的总体功能

课题组构建的大数据分析平台的主要目标是为大数据技术研发和应用项目实施提供高效完备的开发与运行环境。为此,大数据分析平台的总体功能包括以下主要方面:

(1)云计算环境:整个平台基于云计算环境,主要包括:云存储、云资源调度与管理、云计算编程模型、云计算执行引擎等核心功能,支持对海量数据的存储、处理、建模、分析、展现等全过程的分布式并行化开发与运行;

(2)面向 SaaS 服务的开放式体系架构:整个平台采用开放式体系架构,支持插件式开发与集成,提供底层核心功能的 API 调用接口,为第三方开发提供高可扩展的平台环境,基于平台开发的应用可以 SaaS 服务形式提供给用户使用;

(3)多源异构数据集成:平台提供丰富的数据集成接口,支持与传统的关系型数据库产品以及互联网、物联网应用系统的数据采集接口的无缝集成,便于将多源异构数据导入到平台数据存储系统;

(4)海量数据云存储管理:提供 PB 级结构化和非结构化数据云存储与管理,支持高效的数据查询、索引、提取等基本数据集操作;

(5)高效数据 ETL 处理:提供分布式并行的ETL 处理工具,全面支持数据质量问题处理;

(6)基于 WEB 的分析建模:提供基于 WEB 方式和基于工作流的数据挖掘建模系统,便于建模分析人员随时随地在线编辑和提交分析模型;

(7)离线分析与在线分析:提供以 Hadoop 为基础的离线分析环境和以 Spark 为基础的在线分析环境,满足不同应用场景下对数据分析响应效率的需求;

(8)知识库:平台提供算法库、模型库与案例库,支持用户将数据挖掘算法、分析模型及应用案例进行编辑和重用,不断积累成为用户知识库;

(9)可视化报表系统:平台提供可视化分析与报表系统,用户通过可视化分析工具、可视化引擎、报表模板等功能开展交互式可视化数据分析。

王?强,等:大数据分析平台建设与应用综述2期7

集成了上述核心功能的大数据分析平台,一方面可以有效支持科研工作者开展算法研究、模型设计、系统优化等探索性研发工作,并快速将研发成果集成到平台中,不断提升平台的技术先进性;另一方面可以有效支持企业级大数据应用系统的运营,以及第三方应用开发与扩展,促进行业应用解决方案不断成熟与完善。2.3 大数据分析平台的体系架构

大数据分析平台的设计理念是以区域性智能数据中心和高速互联网为基础设施,以互联网服务体系为架构,以大规模海量数据存储、处理、挖掘和可视化分析等关键技术为支撑,通过多样化智能终端及互联网为用户提供数据存储、管理及分析服务。

大数据分析平台的拓扑架构如图 1 所示。区域智能数据中心提供基于云计算的大规模数据存储及数据挖掘平台,通过平台服务器对外接口提供数据存储、分析与挖掘服务。用户使用 Web 浏览器或智能终端应用程序提出数据存储和分析的服务请求,经 Web 服务器通过互联网将服务请求发送给数据中心平台服务器,平台服务器对服务请求进行解析,发送给工作流引擎调度执行,执

行结果通过互联网发送给用户终端。

图 1 大数据分析平台体系架构

Fig. 1 Architecture of big data analytical platform

2.4 大数据分析平台的关键技术

本文提出的大数据分析平台主要包括以下关键技术: (1)平台层

①大数据分布式存储系统:针对数据不断增

长的挑战,需要研究大规模、非结构化数据的存储问题,突破大数据的存储、管理和高效访问关键技术,当前需要构建至少 PB 级存储能力的大数据平台才能满足一般的科研和应用需求; ②分布式数据挖掘运行时系统:针对大数据挖掘算法运行的挑战,突破 MapReduce 技术的局限,研究有效支持迭代、递归、层次及集成机制的海量数据挖掘编程模型和运行时系统,构建大数据运行时系统;

③智能数据中心联合调度技术:针对大数据存储和挖掘的挑战,研究多数据中心的智能联合调度、负载均衡技术,整合多个数据中心的存储和计算资源,构建基于多智能中心的大数据服务平台。 (2)功能层

①高可扩展性大数据挖掘算法:针对大数据挖掘的挑战,研究基于云计算的分布式大数据处理与挖掘算法,构建高可扩展的大数据处理与挖掘算法库,实现 TB 级数据的建模能力; ②大数据安全与隐私保护技术:针对数据挖掘“软件即服务”(SaaS )模式的需求,研究开发数据挖掘在云环境下的隐私保护、数据审计和节点数据挖掘技术,确保大数据挖掘过程中的数据安全,保证用户的隐私不被泄露;

③分布式工作流引擎:针对大数据挖掘分布式调度的挑战,研究基于云计算的分布式工作流调度、负载均衡技术,构建高效分布式工作流执行引擎;

④交互式可视化分析技术:针对传统分析方

法交互性和可理解性不足的问题,研究启发式、人机交互、可视化数据挖掘新技术,实现大数据挖掘的高度人机交互功能。 (3)服务层

①基于 Web 的大数据挖掘技术:突破传统的基于单机软件的数据挖掘技术,创新基于 Web 的大数据挖掘方法和流程,实现易于使用的基于

集 成 技 术

2016年

8Web 的大数据挖掘技术,构建基于 Web 的大数据分析环境;

②基于 Open API 的大数据挖掘技术:突破传统的基于软件的数据挖掘技术,创新基于 Open API 的大数据挖掘方法,研究大数据挖掘开放接口、开放流程,构建基于 Open AIP 的大数据分析模式。

为广大用户提供大数据处理和分析的服务功能,大数据分析平台要突破传统的基于软件和高端服务器的数据挖掘传统技术体系,采用基于云计算的大数据存储和处理架构、分布式数据挖掘算法和基于互联网的大数据存储、处理和挖掘服务模式。实现这一目标需要做如下创新: (1)系统架构创新:突破传统的基于软件和高端服务器的数据挖掘技术体系,研发基于互联网和云计算的大数据存储、处理和挖掘的数据中心系统

架构,支持多用户、多任务的大数据分析环境; (2)服务模式创新:突破传统的一次性软件销售或软件租赁的高价格解决方案,创新基于互联网的大数据存储、处理和分析服务模式,为用户提供按需、廉价的大数据存储、处理和分析服务; (3)使用模式创新:突破传统的使用单机软件的方式,创新基于互联网的大数据存储、管理和分析服务,提供多终端(台式机、笔记本、平板电脑、手机等)、多途径(浏览器访问、Open API 调用等)的用户使用模式。2.5 大数据分析平台的实践案例

根据大数据分析平台的总体功能要求(详见 2.1),课题组自主搭建了大数据分析平台,平台的硬件拓扑结构如图 2 所示。

(1)平台的核心硬件资源配置包括: ①存储资源:2 台一体化 NAS 存储设备,数

图 2 大数据分析平台拓扑结构

Fig.2 Topology of big data analytical platform

王?强,等:大数据分析平台建设与应用综述2期9

据存储总量 350 TB ;

②计算资源:60 台 RH2288 服务器,CPU 内核共计 960 核,内存累积近 8 TB ,硬盘存储总量超过 700 TB ;

③ 网络资源:华为交换机,防火墙。 (2)平台的核心软件资源配置包括: ① 操作系统:Ubuntu 14.04; ② Hadoop 管理软件:Cloudera 5.3; ③ 数据可视化软件:Tableau 9.0; ④ 报表系统:Fine Report ; ⑤ 数据挖掘软件:Matlab ,R 。

为有效保障技术研发测试和应用系统运行两种场景的不同需求,大数据平台的拓扑结构从逻辑上划分为两大集群,即:基于 Hadoop 的开发测试集群和基于 Hadoop 的生产运营集群。

3 Spark 技术

Spark 是当前大数据技术的重要组成部分,近年来日益引起国际学术界的重视[27-30]。本节介绍了 Saprk 平台的基本概念及关键技术。3.1 Spark 简介

传统的 Hadoop 平台由于频繁的磁盘读写操

作导致其不适合处理迭代式计算任务,同时也不适合处理对时间要求高的计算任务。为此,加州大学 Berkeley 分校研发了新一代大数据处理平台 Spark 。针对迭代任务的需求,Spark 可以将数据存储在内存中以避免频繁的磁盘读写,从而提高了计算效率。Spark 主要由 Scala 编写,支持通过 Java 、Scala 、Python 及 R 来使用,官方测试表明其速度可以比 Hadoop 快 10~100 倍(详见 https://www.wendangku.net/doc/c37976026.html,/)。

Spark 的主要特点包括:

(1)提供 Cache 机制来支持需要反复迭代计算或者多次数据共享,减少数据读取的 IO 开销; (2)提供了一套支持 DAG 图的分布式并行计算的编程框架,减少多次计算之间中间结果写到 Hdfs 的开销;

(3)使用多线程池模型减少 task 启动开稍,shuf?e 过程中避免不必要的 sort 操作并减少磁盘 IO 操作。3.2 BDAS

BDAS 的全称为 Berkeley Data Analysis Stack ,是加州大学 Berkeley 分校将基于 Spark 的整个大数据生态系统称为伯克利数据分析栈。BDAS 的体系架构如图 3 所示,其核心框架是

图 3 伯克利数据分析栈逻辑结构

Fig. 3

Logical architecture of Berkeley data analysis stack

集 成 技 术2016年10

Spark,同时主要包含以下基于 Spark 的大数据处理系统:

(1)Mesos:Mesos 是一个资源管理框架,提供类似于 YARN 的功能。用户可以在其中插件式地运行 Spark、MapReduce、Tez 等计算框架的任务。Mesos 会对资源和任务进行隔离,并实现高效的资源任务调度。

(2)Tachyon:Tachyon 是一个分布式内存文件系统,可以理解为内存中的 HDFS。为了提供更高的性能,将数据存储剥离 Java Heap。用户可以基于 Tachyon 实现 RDD 或者文件的跨应用共享,并提供高容错机制,保证数据的可靠性。

(3)Succinct:Succinct 支持对压缩数据不进行解压缩而直接进行搜索、范围查询及随机访问。

(4)Spark SQL:Spark SQL 提供在大数据上的 SQL 查询功能,用户可以在 Spark 上直接书写标准 SQL 语句进行查询。Spark SQL 使用Catalyst 做查询解析和优化器,并在底层使用Spark 作为执行引擎实现 SQL 的 Operator。

(5)Spark Streaming:Spark Streaming 通过将流数据按指定时间片累积为 RDD,然后将每个 RDD 进行批处理,进而实现大规模的流数据处理。其吞吐量能够超越现有主流流处理框架Storm,并提供丰富的 API 用于流数据计算。

(6)GraphX:GraphX 基于 BSP 模型,在Spark 之上封装类似 Pregel 的接口,进行大规模同步全局的图计算。

(7)BlinkDB:BlinkDB 是一个用于在海量数据上进行交互式 SQL 的近似查询引擎。它允许用户通过在查询准确性和查询响应时间之间做出权衡,完成近似查询。其数据的精度被控制在允许的误差范围内。

(8)SparkR:SparkR 是一个 R 语言包提供了一个轻量级的前端,用于从 R 语言中使用Apache Spark。SparkR 通过 RDD 类暴露 Spark API,允许用户以交互方式在集群上从 R shell 运行 Spark 任务。

(9)Splash:Splash 是一个用于在多核集群上对随机程序进行并行执行的通用框架。

(10)MLbase:MLbase 是一个基于 Spark 的通用分布式机器学习库,由三个主要的部件组成:MLlib、MLI 和 ML Optimizer。MLbase 提供了不同抽象程度的接口,用户可以扩充自己的算法。同时,MLbase 很容易上手,不同基础的用户都可以额很方便地使用它来对大数据进行分析。3.3 弹性分布数据集

弹性分布数据集(Resilient Distributed Datase,RDD)是 Spark 对数据的一个基本抽象,是对分布式内存的抽象使用,实现了以操作本地集合的方式来操作分布式数据集的抽象实现。RDD 可以 cache 到内存中,每次对 RDD 数据集的操作之后的结果,都可以存放到内存中,下一个操作可以直接从内存中输入,省去了 Hadoop 执行迭代计算需要的大量磁盘 IO 操作。这对于迭代运算比较常见的机器学习算法、交互式数据挖掘来说,效率提升很大。

RDD 主要具有如下特点:

(1)它是在集群节点上的不可变的、已分区的集合对象;

(2)通过并行转换的方式来创建(如 map、?lter、join 等);

(3)失败自动重建;

(4)可以控制存储级别(内存、磁盘等)来进行重用;

(5)必须是可序列化的;

(6)是静态类型的。

RDD 有两种计算方式:转换(Transforma-tions)及动作(Actions)。二者的区别是,转换的返回值还是一个 RDD,而动作的返回值不是一个 RDD。转换主要包括 map、filter、groupBy 及 join 等。Transformations 操作不是马上执行的,Spark 在遇到 Transformations 操作时只会记

王?强,等:大数据分析平台建设与应用综述

2期11

录需要这样的操作,并不会去执行,需要等到有Actions 操作的时候才会真正启动计算过程进行计算。动作主要包括 count、collect 及 save 等,将返回结果或把 RDD 数据写到存储系统中。3.4 MLbase

MLbase 主要包括三个组件:

(1)ML Optimizer:自动调度机器学习任务的执行,能解决特征选择及机器学习任务的优化搜索问题。这个模块当前还在开发中。

(2)MLI:一个高度抽象的机器学习编程抽象接口,可用于开发自己的特征提取及机器学习算法。

(3)MLlib:包含已有的基于 Spark 的机器学习算法。

给定一个机器学习任务,MLbase 中的 ML Optimizer 会选择它认为最适合的已经在内部实现好了的机器学习算法和相关参数,来处理用户输入的数据,并返回模型或别的帮助分析的结果。这样,不了解 ML 的用户也能使用 MLbase 这个工具来处理自己的数据。用户可以容易地使用 MLbase 这个工具来处理自己的数据。

Spark 将机器学习算法都分成了两个模块:(a)训练模块:通过训练样本输出模型参数;(b)预测模块:利用模型参数初始化,预测测试样本,输出与测值。

MLbase 提供了函数式编程语言 Scala,利用 MLlib 可以很方便地实现机器学习的常用算法。比如:如果要做分类,只需要写如下 Scala 代码:

其中,X是需要分类的数据集;Y是从这个数据集里取的一个分类标签;doClassify()是执行分类操作。4 应用案例

4.1 制造业大数据——产品制造质量监测预警

平台

4.1.1 应用需求与特点

2015 年 5 月,国务院出台了《中国制造2025》发展规划。在这份被誉为中国版“工业4.0”的规划中,明确提出了“推进信息化与工业化深度融合”、“加强质量品牌建设”等重点建设任务和发展目标。在此背景下,课题组受我国领先的通信设备制造商委托,针对海量产品生产测试数据,开展大数据分析建模和预警算法的探索性研究,构建面向产品制造质量监测预警的大数据应用平台,促进项目委托方及时、精准地发现制造质量隐患,提升产品制造质量的监控预警能力。

目前,项目委托方的部分产品采用 JDM (Join Design Manufacture)和 ODM(Outsouce Design Manufacture)的生产模式,由多家代工工厂生产相关产品。为保证产品来料质量、生产过程工艺质量、批次产品良品率,避免因批量产品质量问题而发生召回事件,项目委托方通过在代工工厂安装测量监测设备,对制造过程的相关质量因素进行实时检测(所采集的数据规模如图 4 所示),并

将相关测量数据返回到项目委托方的数据中心。

图 4 产品造质量测试数据规模

Fig. 4 Data scale level of product quality testing data

本项目的目标是针对海量的产品制造过程测

集 成 技 术

2016年

12量数据,通过数据挖掘的技术手段,从人员、物料、工艺、设备、环境五大方面发现与批次产品质量相关的影响因素及其相互关系(产品制造质量因素发现与预警流程如图 5 所示),设计相应的数据分析模型和工作流,并构建一套面向制造业海量质量检测数据分析平台。

4.1.2 应用案例设计与分析

为满足项目委托方的大数据应用需求,本项目设计并构建了如图 6 所示的大数据应用平台。该平台包括以下核心系统:面向海量数据分析的分布式文件存储系统、海量数据 ETL 引擎、流数据处理引擎、产品质量预警模型库、分析结果

图 6 产品制造质量监测预警平台体系架构

Fig. 6 Architecture of product quality monitoring and predicting platform

图 5 产品制造质量因素发现与预警流程

Fig. 5

Process of product quality factor detection and prediction

王?强,等:大数据分析平台建设与应用综述

2期13

可视化展现系统。

平台的技术体系与主要功能具有如下特点:

(1)平台体系架构:整个平台以当前业界成熟并广泛使用的 Hadoop 开源大数据架构作为数据存储和处理的基础架构,使用 HDFS 分布式文件系统来存储大数据,编写 Map/Reduce 分布式程序实现对大数据的处理与分析。

(2)海量异构数据存储:平台采用基于 HDFS 的 Cassandra 分布式数据库,实现对海量、异构、高速增长的数据进行存储管理。传统的数据库采用的是基于行的存储模型,而 Cassandra 采用的是基于列的存储模型,更适合高维大数据的存储和处理。由于两种存储模型不同,本项目将根据列存储模型及处理需求对现有的数据存储模型进行修改并优化其性能。同时,使用分布式数据仓库系统 Hive,设计满足多种分析需求的数据仓库系统。

(3)海量数据迁移与 ETL:针对数据仓库中典型的数据抽取、转换和加载任务,使用 Flume 系统将多种系统上的日志数据采集到 Hadoop 平台上,使用 Sqoop 大数据迁移工具将数据从现有的 Oracle 数据库迁移到 Hadoop 平台上,最后使用大数据 ETL 工具 Kettle 对存储在 Hadoop 上的大数据进行处理。

(4)数据挖掘:使用成熟的 Impala 大数据分析引擎,Storm 流数据处理系统,Vis 数据可视化引擎作为基础的分析引擎,采用 Mahout/Spark 等以及针对实际需求开发的基于 Map/Reduce 编程模型的分布式处理算法作为分析的基础算法库,以对大数据进行高效的分析处理。

在应用实施方面,首先对多种来源的大数据进行清洗处理,并整合成一个分布式数据库,以便于后续处理。接下来对数据进行清洗集成,根据业务需求设计构造数据仓库,以满足业务部门多样化的分析处理需求。最后采用数据挖掘技术对数据进行挖掘,并将挖掘结果用图表等多种可视化方式展示给用户。

更进一步,将大数据的集成、清洗、处理、挖掘、展示等环节的应用系统进行整合,构造一站式大数据应用平台。其中,分析结果将通过图标等多种可视化手段提供给用户使用,并与业务系统进行深度整合,从而满足项目委托方开展跨部门的大数据应用协同。

4.2 零售业大数据——基于产品树的购物篮分析4.2.1 商品分类树

一个零售企业所出售的商品,通常组织成如图 7 所示的产品分类树。产品分类树的根节点为空的根节点,叶节点为具体的商品。除根节点外的其他非叶节点代表一个类别,这些类别具有层次结构,可以表达为如图 7

所示的分类树。

图 7 商品分类树

Fig. 7 Classi?cation tree

4.2.2 基于商品分类树的关联分析

购物篮分析是关联规则在零售业的一个重要应用,它通过发现顾客每次放入购物篮中的商品之间联系,来分析顾客的购买行为并辅助零售企业制定营销策略。Apriori 算法[31]是一种经典的关联规则频繁项集挖掘算法,它使用一种称为逐层搜索的迭代方法来生成所有的频繁集,即用 k-项集来产生(k+1)-项集。首先找出 1-项集的候选集,记为C1;然后根据最小支持度对C1进行剪枝得到频繁 1-项集 L1;再由L1连接产生 2-项集的候选集C2,由C2产生频繁 2-项集L2,循环下去,直到得到的L k为空为止。

传统的购物篮分析方法不考虑商品的层次结构,如 Apriori 算法,通常获得的购物篮很多是

集 成 技 术2016年14

同一小类产品的组合。例如:可能得到这样的购物篮“苹果、梨子、香蕉、葡萄、牛奶”,其中“苹果、梨子、香蕉、葡萄”都属于“水果”。这种购物篮由于所包含的产品过于集中在某一小类中,应用价值不大,而真正有价值的购物篮被这种购物篮所淹没,难以被发现。

针对以上问题,课题组提出一种基于产品树的购物篮分析方法。在根据频繁集候选集L i连接产生候选集C i+1时,加入如下的约束条件:同一个购物篮中的产品属于不同的父类。在根据C i+1生成L i+1时,不仅考虑候选购物篮的支持度,同时也考虑候选购物篮的销售额。这样,最终得到的购物篮包含的产品分布在不同的类别中,并且销售额高。

表 1 为实验得到的购物篮分析结果示例。从表中可以看到,购物篮的组成符合我们的生活常识。例如,第一个购物篮为家居生活用品,第二个购物篮为零食小吃,并且在同一个购物篮中的商品都是属于不同的父类。这样的购物篮对企业具有更大的应用价值。

4.3 智能电网大数据——基于用电模式分析的用

户分群

4.3.1 应用需求与特点

智能电网属于典型的大数据应用领域[32,33]。目前,我国电网公司不断强化在整个电网的输配电侧和用电侧安装和应用自动化数据采集装置,通过采集和分析关于电网运营和用户用电的数据,以提高电力资源的配置和使用效率。

课题组受某国家级电网公司委托,针对广东省某市多年积累的用电数据,开展“电力用户用电模式大数据分析”的应用项目。项目面临的主要应用需求和技术挑战包括:

(1)多源异构数据融合:针对应用目标,项目将要处理和分析的数据包括用户信息、地理位置信息、电力设备信息、用电信息等具有不同来源和结构特点的海量数据,需要对这些数据进行一致性融合建模,以便为后继的建模分析提供主题数据集;

(2)数据噪声预处理:由于采集设备和采集条件等因素的影响,在原始数据集中包含较多的缺失值、异常值等数据噪声,需要准确发现和有效处理各类噪声数据,以保障后继建模分析结果的有效性;

(3)用电模式分析模型:需要针对电网公司经营管理需求,提炼不同应用场景下用电模式分析的具体目标,设计和构建用电模式分析模型;项目重点考虑不同行业、地域、时段下的用户用电模式的特征和差异,并据此实现用户分群和用电预测;

(4)电力大数据应用平台:为实现电力大数据分析的自动化和规模化应用,项目将构建应用平台,实现对电力大数据采集、融合、预处理、建模、分析、报告的全流程的一站式应用。4.3.2 应用案例设计与结果分析

根据项目委托方的应用需求和实际数据情况,课题组重点针对以下三种任务进行大数据技

表 1 基于产品树的购物篮分析实验结果示例

Table 1 Experimental results of market basket analysis based on product tree

王?强,等:大数据分析平台建设与应用综述2期

15

术的研发和实施:

(1)时间序列数据缺失值发现与处理 经过对数据的观察和探索,课题组发现在项目委托方积累的海量用电数据中,存在严重的缺失值问题,这也是传统行业大数据应用中普遍存在的问题。数据质量问题将严重影响数据分析模型的结果质量,因此,课题组首先要针对缺失值进行发现和处理。

图 8 展示了数据缺失值问题的典型情况。例如:对于 R1 和 R2 两条记录,在整个数据维度空间中(横向),存在大量空白区域,说明记录存在严重的缺失值问题;而对于记录 A 、B 、C 、D 四条记录,也存在较大比例的空白区域,说明记录的缺失值问题也非常明显;此外,在区域 AREA 中,存在大量空白区域,说明大多数记录都在该维度子空间中存在缺失值。因此,通过利用图 8 所示的方式,可以很明显地激发视觉识别能力,快速发现存在严重缺失值问题的记录和属性,乃

至该数据集质量问题的一般性特征和规律,便于为后继制定“筛选过滤”、“推断填充”等数据预处理策略和流程提供指导依据,为接下来的建模分析提供高质量的数据。 (2)用电模式发现

经过数据预处理后,课题组针对“用电模式”分析目标进行数据挖掘建模,以期能够发现电力用户在电力使用方面是否呈现出某些共性的特征和规律。用电模式的发现,将有助于电力运营企业精准把握不同时段和时期的用电需求和用电峰值,从而有助于企业更加有效地实施电力调配,并探索实践阶梯电价以均衡峰值期间的用电压力。

经过对海量用电数据的分析挖掘,课题组发现了三种典型的用电模式,其具体特征和规律如图 9 所示:展示了电力用户在一周(周日~周六,7 天×24 小时)的用电量随时间(小时)的变化情况。其中,从图 9(a )中可以很明显地发现,

图 8 原始数据缺失值发现

Fig. 8 Missing value detction from raw data

集 成 技 术

2016年

16该用电模式呈现出显著的时间特征和规律,即在周一~周六的 6 天时间中,出现三拨持续性的用电高峰,而在周日用电量不大。经过与代表性用户的实地交流验证,该用电模式正好符合企业周一~周六三班工作和周日休息的工作模式,证明所发现的用电模式符合实际应用情况。图 9(b )和图 9(c )所展示的用电模式的含义与图 9(a )相同,只是具体的模式特征存在差别。图 9(b )揭示了小型制造企业随机性用电的情况;图 9(c )揭示了企业周一~周六两班工作和周日休息的工作模式。

(3)基于用电模式的用户分群

基于上述用电模式分析的初步探索,课题组进一步研究“基于用电模式的用户分群”问题,以期待通过细化用电模式特征,找到不同模式下的用户群体。该分析结果有助于帮助电力经营企业精准把握所服务的客户的群体特征,精准预测不同时段和时期的用电需求,为制定和实施阶梯电价提供指导依据。

图 10 展现了 30 个具有典型用电模式的用户聚类(cluster )结果。从图中可以明显看出,每一

个聚类所表现出的用电模式特征,以及不同模式之间的精细化差异。在此结果基础上,可进一步结合用户信息(如所属行业、所在区域等),将可发现行业用电特征和区域用电特征等信息,有助于进一步提升电力企业对客户的服务能力和业务运营能力。

5 结论与展望

当前,大数据已经成为全社会的共识,大数据所蕴含的经济价值和创新价值已经引起社会各界的高度关注。我国拥有海量丰富的数据资源,广阔多样的应用场景,潜力巨大的消费市场,当务之急是如何快速有效突破数据价值挖掘的瓶颈。大数据分析与应用平台,是大数据时代必备的基础设施,也是突破当前技术瓶颈的有效突破口。开发和建设大数据分析与应用平台将带来三个方面的价值:第一,有助于不断汇集大数据技术创新成果,并用最先进的技术为用户提供一站式的应用服务;第二,有助于降低用户技术门

槛,为应用开发提供共性基础设施与服务,从

图 9 三种典型的用电模式

Fig. 9 Three typical power consumption patterns

王?强,等:大数据分析平台建设与应用综述

2期

17

而加快应用创新;第三,有助于形成大数据技术产品和行业解决方案,促进我国大数据产业加快形成。

参?考?文?献

[1]McKinsey Global Institute. Big data: the

next frontier for innovation, competition, and

productivity [DB/OL]. 2011-05[2015-12-24].

https://www.wendangku.net/doc/c37976026.html,/insights/business_

technology/big_data_the_next_frontier_for_

innovation.

[2]国务院. 促进大数据发展行动纲要[EB/OL].

2015-09-05[2015-12-24]. https://www.wendangku.net/doc/c37976026.html,/

zhengce/content/2015-09/05/content_10137.htm. [3]黄哲学, 曹付元, 李俊杰, 等. 面向大数据的海云

数据系统关键技术研究[J]. 网络新媒体技术,

2012, 1(6): 20-26.

[4]黄哲学, 陈小军, 李俊杰, 等. 面向服务的大数

据分析平台解决方案[J]. 科技促进发展, 2014,

10(1): 52-59.[5]IBM. Big data analytics with IBM Cognos

dynamic cubes [DB/OL]. 2012-12-07[2015-11-

24]. https://www.wendangku.net/doc/c37976026.html,/technotes/

tips0942.pdf.

[6]Performing a data mining tool evaluation [DB/

OL]. 2013-02-22[2015-12-24]. http://public.dhe.

https://www.wendangku.net/doc/c37976026.html,/common/ssi/ecm/en/imw14300usen/

IMW14300USEN.PDF.

[7]IBM. IBM Netezza analytics [EB/OL]. 2011-12-

23[2014-12-24]. https://www.wendangku.net/doc/c37976026.html,/software/

data/netezza/analytics/.

[8]IBM. What’s new in IBM InfoSphere BigInsights

V2.0 [EB/OL]. [2015-12-24]. http://www-01.ibm.

com/software/data/infosphere/biginsights/whats_

new.html.

[9]IBM. IBM PureData system for analytics

N1001 [DB/OL]. 2014-12-16[2015-12-24].

http://www.smart-talk.nl/wp-content/uploads/

IMD14400USEN.pdf.

[10]Oracle. Oracle exalogic elastic cloud [DB/OL].

[2015-12-24]. https://www.wendangku.net/doc/c37976026.html,/us/products/

图 10 基于用电模式的用户分群

Fig. 10 User segementation based on power consumption pattern

集 成 技 术2016年18

middleware/exalogic/exalogic-elastic-cloud-x2-2-

ds-1367805.pdf?ssSourceSiteId=ocomcn.

[11]Oracle. Oracle exadata database machine X2-8

[DB/OL]. [2015-12-24]. https://www.wendangku.net/doc/c37976026.html,/

technetwork/server-storage/engineered-systems/

exadata/dbmachine-x2-8-datasheet-173705.

pdf?ssSourceSiteId=ocomcn.

[12]Oracle. Oracle exalytics in-memory machine: a

brief introduction [DB/OL]. [2015-12-24]. http://

https://www.wendangku.net/doc/c37976026.html,/us/solutions/ent-performance-

bi/business-intelligence/exalytics-bi-machine/

overview/exalytics-introduction-1372418.pdf. [13]HP. HP vertica 6.1 boosts big data value [DB/OL].

[2015-12-24]. https://www.wendangku.net/doc/c37976026.html,/hpinfo/newsroom/

press_kits/2012/HPDiscoverFrankfurt2012/HP_

Vertica_6.1_NA.pdf.

[14]EMC. EMC greenplum data computing appliance

enhances EMC IT’s global data warehouse [DB/

OL]. [2015-12-24]. https://www.wendangku.net/doc/c37976026.html,/collateral/

software/white-papers/h8869-emc-greenplum-dca-

oracle-gdw-wp.pdf.

[15]Martin P. Caffeine-the new google update [EB/

OL]. [2015-12-24]. https://www.wendangku.net/doc/c37976026.html,/

blog/article/caffeine-the-new-google-update/. [16]Google. Google BigQuery-Real-time big data

analytics in the cloud [DB/OL]. [2015-12-24].

https://https://www.wendangku.net/doc/c37976026.html,/?les/BigQuery.pdf. [17]Google. Google compute engine-computation in

the cloud [DB/OL]. [2015-12-24]. https://cloud.

https://www.wendangku.net/doc/c37976026.html,/?les/GoogleComputeEngine.pdf.

[18] Amazon. [2015-12-24]. https://www.wendangku.net/doc/c37976026.html,.

[19]Harris D. Facebook open sources Corona-a better

way to do webscale Hadoop [EB/OL]. 2012-11-

08[2015-12-24]. https://www.wendangku.net/doc/c37976026.html,/2012/11/08/

facebook-open-sources-corona-a-better-way-to-do-

webscale-hadoop/.

[20] O’Dell J. Facebook’s Project Prism is reimagining

how big data scales [EB/OL]. 2012-08-22[2015-

12-24]. https://www.wendangku.net/doc/c37976026.html,/2012/08/22/

facebook-prism/.

[21]淘宝. 淘宝指数[EB/OL]. [2015-12-24]. http://

https://www.wendangku.net/doc/c37976026.html,/.

[22]Nature. Big data [J]. Nature, 2008, 455(7209):

1-136.

[23]Science. Dealing with data [J]. Science, 2011,

331(6018): 639-806.

[24]Petuum. Petuum 大数据分布式机器学习平

台[EB/OL]. 2015-02-11[2015-12-24]. http://

https://www.wendangku.net/doc/c37976026.html,/maas-blog/?p=605.

[25]智能科学. 基于 Hadoop 的并行分布式数据挖掘

平台[EB/OL]. 2010-05-19[2015-12-24]. http://

https://www.wendangku.net/doc/c37976026.html,/pdm/pdminer.html.

[26]华东师范大学数据科学与工程研究院. CLAIMS:

Cluster-Aware In-memory Sql query engine [EB/

OL]. [2015-12-24]. https://www.wendangku.net/doc/c37976026.html,/index.

php/system.

[27]Li M, Tan J, Wang YD, et al. SparkBench: a

comprehensive benchmarking suite for in memory

data analytic platform spark [C] // Proceedings

of the 12th ACM International Conference on

Computing Frontiers, 2015: 53.

[28]Zhu B, Mara A, Mozo A. CLUS: Parallel subspace

clustering algorithm on spark [M] // New Trends

in Databases and Information Systems, 2015: 175-

185.

[29]Armbrust M, Das T, Davidson A, et al. Scaling

spark in the real world: performance and usability

[J]. Proceedings of the VLDB Endowment, 2015,

8(12): 1840-1843.

[30]Shi JW, Qiu YJ, Minhas UF, et al. Clash of the

titans: MapReduce vs. Spark for large scale

data analytics [J]. Proceedings of the VLDB

Endowment, 2015, 8(13): 2110-2121.

[31]Agrawal R, Srikant R. Fast algorithms for mining

association rules [C] // Proceedings of the 20th

Very Large Data Bases, 1994: 487-499.

[32]刘义德, 梁坚. 智能电网大数据处理技术现状与

挑战[J]. 科技创新与应用, 2015(29): 184. [33]Song Y, Zhou G, Zhu Y. Present status and

challenges of big data processing in smart grid

[J]. Power System Technology, 2013, 37(4):

927-935.

大数据平台建设方案

大数据平台建设方案 项目需求与技术方案) 、项目背景 十三五”期间,随着我国现代信息技术的蓬勃发展,信息 化建设模式发生根本性转变,一场以云计算、大数据、物联网、移动应用等技术为核心的“新IT ”浪潮风起云涌,信息化应用进入一个“新常态”。*** (某政府部门)为积极应对“互联网+” 和大数据时代的机遇和挑战,适应全省经济社会发展与改革要求,大数据平台应运而生。 大数据平台整合省社会经济发展资源,打造集数据采集、数据处理、监测管理、预测预警、应急指挥、可视化平台于一体的大数据平台,以信息化提升数据化管理与服务能力,及时准确掌握社会经济发展情况,做到 “用数据说话、用数据管理、用数据决策、用数据创新”,牢牢把握社会经济发展主动权和话语权。 二、建设目标 大数据平台是顺应目前信息化技术水平发展、服务政府职能改革的架构平台。它的主要目标是强化经济运行监测分析,实现企业信用社会化监督,建立规范化共建共享投资项目管理体系,推进政务数据共享和业务协同,为决策提供及时、准确、可靠的信息依据,提高政务工作的前瞻性和针对性,加大宏观调控力度,促进经济持续健康发展。 1、制定统一信息资源管理规范,拓宽数据获取渠道,整合 业务信息系统数据、企业单位数据和互联网抓取数据,构建汇聚式一体化数据库,为平台打下坚实稳固的数据基础。 2、梳理各相关系统数据资源的关联性,编制数据资源目录, 建立信息资源交换管理标准体系,在业务可行性的基础上,实现数据信息共享,推进信息公开,建立跨部门跨领域经济形势分析制度。 3、在大数据分析监测基础上,为政府把握经济发展趋势、

预见经济发展潜在问题、辅助经济决策提供基础支撑。 三、建设原则 大数据平台以信息资源整合为重点,以大数据应用为核心,坚持“统筹规划、分步实施,整合资源、协同共享,突出重点、注重实效,深化应用、创新驱动”的原则,全面提升信息化建设水平,促进全省经济持续健康发展。 1、统筹规划、分步实施。结合我省经济发展与改革领域实际需求,明确总体目标和阶段性任务,科学规划建设项目。先期完成大数据平台的整体架构建设,后期分步完成业务系统的整合及相互间数据共享问题。 2、整合资源、协同共享。对信息资源统一梳理,建立经济发展与改革信息标准资源库和数据规范,逐步消灭“信息孤岛”,加快推进数据资源整合,建设共享共用的大数据中心,实现业务协同。 3 、突出重点、注重实效。以用户为中心,以需求为导向, 以服务为目的,突岀重点,注重实效,加强平台可用性和易用性。 4、深化应用、创新驱动。深入了解用户需求,密切跟踪信息技术发展趋势,不断深化应用、拓展新技术在应用中的广度和深度,促进跨界融合,丰富管理和服务手段。 四、建设方案 为了保证项目的顺利进行和建设目标的可行性,我们采取如下几种建设方案。 1、数据采集方案。 我们统一信息资源标准规范,建立多维度数据库,拓宽 数据来源,通过不同的方式汇聚数据,增强分析力度,提高 监测预警的准确性和时效性。 1、预留接口,支持其它系统各种数据的上传导入处理。 将现存有关经济运行业务系统中的历史数据和时效数据,过上传数据文件至服务器、分析提取有效数据导入服务器数

网络空间安全态势感知与大数据分析平台建设方案V1.0

网络空间安全态势感知与大数据分析平台建设方案 网络空间安全态势感知与大数据分析平台建立在大数据基础架构的基础上,涉及大数据智能建模平台建设、业务能力与关键应用的建设、网络安全数据采集和后期的运营支持服务。 1.1网络空间态势感知系统系统建设 平台按系统功能可分为两大部分:日常威胁感知和战时指挥调度应急处置。 日常感知部分包括大数据安全分析模块、安全态势感知呈现模块、等保管理模块和通报预警模块等。该部分面向业务工作人员提供相应的安全态势感知和通报预警功能,及时感知发生的安全事件,并根据安全事件的危害程度启用不同的处置机制。 战时处置部分提供从平时网络态势监测到战时突发应急、指挥调度的快速转换能力,统筹指挥安全专家、技术支持单位、被监管单位以及各个职能部门,进行协同高效的应急处置和安全保障,同时为哈密各单位提升网络安全防御能力进行流程管理,定期组织攻防演练。 1.1.1安全监测子系统 安全监测子系统实时监测哈密全市网络安全情况,及时发现国际敌对势力、黑客组织等不法分子的攻击活动、攻击手段和攻击目的,全面监测哈密全市重保单位信息系统和网络,实现对安全漏洞、威胁隐患、高级威胁攻击的发现和识别,并为通报处置和侦查调查等业务子系统提供强有力的数据支撑。 安全监测子系统有六类安全威胁监测的能力: 一类是云监测,发现可用性的监测、漏洞、挂马、篡改(黑链/暗链)、钓鱼、和访问异常等安全事件 第二类是众测漏洞平台的漏洞发现能力,目前360补天漏洞众测平台注册有4万多白帽子,他们提交的漏洞会定期同步到态势感知平台,加强平台漏洞发现的能力。 第三类是对流量的检测,把重保单位的流量、城域网流量、电子政务外网流量、IDC 机房流量等流量采集上来后进行检测,发现webshell等攻击利用事件。 第四类把流量日志存在大数据的平台里,与云端IOC威胁情报进行比对,发现APT 等高级威胁告警。 第五类是把安全专家的分析和挖掘能力在平台落地,写成脚本,与流量日志比对,把流量的历史、各种因素都关联起来,发现深度的威胁。 第六类是基于机器学习模型和安全运营专家,把已经发现告警进行深层次的挖掘分析和关联,发现更深层次的安全威胁。

大数据分析及其在医疗领域中的应用-图文(精)

第7期 24 2014年4月10日 计算机教育 ComputerEducation ◆新视点 文章编号:1672.5913(2014)07—0024-06 中图分类号:G642 大数据分析及其在医疗领域中的应用 邹北骥 (中南大学信息科学与工程学院,湖南长沙410083) 摘要:互联网和物联网技术的快速发展给数据的上传与下载带来了前所未有的便利,使得互联网上 的数据量急剧增长,由此产生了针对大数据的存储、计算、分析、处理等新问题,尤其是对大数据的挖掘。文章分析当前大数据产生的背景,阐述大数据的基本特征及其应用,结合医疗领域,论述医疗 大数据分析的目的、意义和主要方法。 关键词:大数据;物联网;医疗;大数据挖掘 1 大数据早已存在,为何现在称之为大

数据时代 计算与数据是一对孪生姐妹,计算需要数据,数据通过计算产生新的价值。数据是客观事 物的定量表达,来自于客观世界并早已存在。例 如,半个世纪前,全球的人口数量就有数十亿,与之相关的数据就是大数据;但是在那个时代,由于技术的局限性,大数据的采集、存储和处理 还难以实现。 互联网时代之前,采集世界各地的数据并让它们快速地进入计算系统几乎是一件不可想象的 事情。20世纪80年代兴起的互联网技术在近30 年里发生了翻天覆地的变化,彻底地改变了人们的工作和生活方式【l】。通过互联网人们不仅可以下载到新闻、小说、论文等各类文字数据,而且可以轻而易举地下载到音乐、图像和视频等多媒体数据,这使得互联网上的数据流量急剧增长。据统计,现在互联网上每分钟流人流出的数 据量达到1 000 PB,即10亿 GBt21。 推动大数据产生的另一个重要因素是物联网技术。近几年发展起来的物联网技 术通过给每个物品贴上标签 并应用RFID等技术实现了

大大数据可视化分析资料报告平台介绍

大数据可视化分析平台 一、背景与目标 基于邳州市电子政务建设的基础支撑环境,以基础信息资源库(人口库、法人库、宏观经济、地理库)为基础,建设融合业务展示系统,提供综合信息查询展示、信息简报呈现、数据分析、数据开放等资源服务应用。实现市府领导及相关委办的融合数据资源视角,实现数据信息资源融合服务与创新服务,通过系统达到及时了解本市发展的综合情况,及时掌握发展动态,为政策拟定提供依据。 充分运用云计算、大数据等信息技术,建设融合分析平台、展示平台,整合现有数据资源,结合政务大数据的分析能力与业务编排展示能力,以人口、法人、地理,人口与地理,法人与地理,实现基础展示与分析,融合公安、交通、工业、教育、旅游等重点行业的数据综合分析,为城市管理、产业升级、民生保障提供有效支撑。 二、政务大数据平台 1、数据采集和交换需求:通过对各个委办局的指定业务数据进行汇聚,将分散的数据进行物理集中和整合管理,为实现对数据的分析提供数据支撑。将为跨机构的各类业务系统之间的业务协同,提供统一和集中的数据交互共享服务。包括数据交换、共享和ETL等功能。 2、海量数据存储管理需求:大数据平台从各个委办局的业务系统里抽取的数据量巨大,数据类型繁杂,数据需要持久化的存储和访问。不论是结构化数据、半结构化数据,还是非结构化数据,经过数据存储引擎进行建模后,持久化保存在存储系统上。存储系统要具备高可靠性、快速查询能力。

3、数据计算分析需求:包括海量数据的离线计算能力、高效即席数据查询需求和低时延的实时计算能力。随着数据量的不断增加,需要数据平台具备线性扩展能力和强大的分析能力,支撑不断增长的数据量,满足未来政务各类业务工作的发展需要,确保业务系统的不间断且有效地工作。 4、数据关联集中需求:对集中存储在数据管理平台的数据,通过正确的技术手段将这些离散的数据进行数据关联,即:通过分析数据间的业务关系,建立关键数据之间的关联关系,将离散的数据串联起来形成能表达更多含义信息集合,以形成基础库、业务库、知识库等数据集。 5、应用开发需求:依靠集中数据集,快速开发创新应用,支撑实际分析业务需要。 6、大数据分析挖掘需求:通过对海量的政务业务大数据进行分析与挖掘,辅助政务决策,提供资源配置分析优化等辅助决策功能,促进民生的发展。

大数据平台建设方案

大数据平台建设方案 (项目需求与技术方案) 一、项目背景 “十三五”期间,随着我国现代信息技术的蓬勃发展,信息化建设模式发生根本性转变,一场以云计算、大数据、物联网、移动应用等技术为核心的“新 IT”浪潮风起云涌,信息化应用进入一个“新常态”。***(某政府部门)为积极应对“互联网+”和大数据时代的机遇和挑战,适应全省经济社会发展与改革要求,大数据平台应运而生。 大数据平台整合省社会经济发展资源,打造集数据采集、数据处理、监测管理、预测预警、应急指挥、可视化平台于一体的大数据平台,以信息化提升数据化管理与服务能力,及时准确掌握社会经济发展情况,做到“用数据说话、用数据管理、用数据决策、用数据创新”,牢牢把握社会经济发展主动权和话语权。 二、建设目标 大数据平台是顺应目前信息化技术水平发展、服务政府职能改革的架构平台。它的主要目标是强化经济运行监测分析,实现企业信用社会化监督,建立规范化共建共享投资项目管理体系,推进政务数据共享和业务协同,为决策提供及时、准确、可靠的信息依据,提高政务工作的前瞻性和针对性,加大宏观调控力度,促进经济持续健康发

展。 1、制定统一信息资源管理规范,拓宽数据获取渠道,整合业务信息系统数据、企业单位数据和互联网抓取数据,构建汇聚式一体化数据库,为平台打下坚实稳固的数据基础。 2、梳理各相关系统数据资源的关联性,编制数据资源目录,建立信息资源交换管理标准体系,在业务可行性的基础上,实现数据信息共享,推进信息公开,建立跨部门跨领域经济形势分析制度。 3、在大数据分析监测基础上,为政府把握经济发展趋势、预见经济发展潜在问题、辅助经济决策提供基础支撑。 三、建设原则 大数据平台以信息资源整合为重点,以大数据应用为核心,坚持“统筹规划、分步实施,整合资源、协同共享,突出重点、注重实效,深化应用、创新驱动”的原则,全面提升信息化建设水平,促进全省经济持续健康发展。

大数据分析技术与应用_实验2指导

目录 1实验主题 (1) 2实验目的 (1) 3实验性质 (1) 4实验考核方法 (1) 5实验报告提交日期与方式 (1) 6实验平台 (1) 7实验内容和要求 (1) 8实验指导 (2) 8.2 开启Hadoop所有守护进程 (2) 8.2 搭建Eclipse环境编程实现Wordcount程序 (3) 1.安装Eclipse (3) 2.配置Hadoop-Eclipse-Plugin (3) 3.在Eclipse 中操作HDFS 中的文件 (7) 4.在Eclipse 中创建MapReduce 项目 (8) 5.通过Eclipse 运行MapReduce (13) 6.在Eclipse 中运行MapReduce 程序会遇到的问题 (16)

1实验主题 1、搭建Hadoop、Eclipse编程环境 2、在Eclipse中操作HDFS 3、在Eclipse中运行Wordcount程序 4、参照Wordcount程序,自己编程实现数据去重程序 2实验目的 (1)理解Hadoop、Eclipse编程流程; (2)理解MapReduce架构,以及分布式编程思想; 3实验性质 实验上机内容,必做,作为课堂平时成绩。 4实验考核方法 提交上机实验报告,纸质版。 要求实验报告内容结构清晰、图文并茂。 同学之间实验报告不得相互抄袭。 5实验报告提交日期与方式 要求提交打印版,4月19日(第10周)之前交到软件学院412。 6实验平台 操作系统:Linux Hadoop版本:2.6.0或以上版本 JDK版本:1.6或以上版本 Java IDE:Eclipse 7实验内容和要求 (1)搭建Hadoop、Eclipse编程环境; (2)运行实验指导上提供的Wordcount程序; (3)在Eclipse上面查看HDFS文件目录; (4)在Eclipse上面查看Wordcount程序运行结果; (5)熟悉Hadoop、Eclipse编程流程及思想; 程序设计题,编程实现基于Hadoop的数据去重程序,具体要求如下: 把data1文件和data2文件中相同的数据删除,并输出没有重复的数据,自己动手实现,把代码贴到实验报告的附录里。 设计思路: 数据去重实例的最终目标是让原始数据中出现次数超过一次的数据在输出文件中只出现一次。具体就是Reduce的输入应该以数据作为Key,而对value-list则没有要求。当Reduce 接收到一个时就直接将key复制到输出的key中,并将value设置成空值。在MapReduce流程中,Map的输出 经过shuffle过程聚集成后会被交给Reduce。所以从设计好的Reduce输入可以反推出Map输出的key应为数据,而

大数据技术与应用专业详细解读

大数据技术与应用专业详细解读 大数据技术与应用专业是新兴的“互联网+”专业,大数据技术与应用专业将大数据分析挖掘与处理、移动开发与架构、人软件开发、云计算等前沿技术相结合,并引入企业真实项目演练,依托产学界的雄厚师资,旨在培养适应新形势,具有最新思维和技能的“高层次、实用型、国际化”的复合型大数据专业人才。 专业背景 近几年来,互联网行业发展风起云涌,而移动互联网、电子商务、物联网以及社交媒体的快速发展更促使我们快速进入了大数据时代。截止到目前,人们日常生活中的数据量已经从TB(1024GB=1TB)级别一跃升到PB(1024TB=1PB)、EB(1024PB=1EB)乃至ZB(1024EB=1ZB)级别,数据将逐渐成为重要的生产因素,人们对于海量数据的运用将预示着新一波生产率增长和消费者盈余浪潮的到来。大数据时代,专业的大数据人才必将成为人才市场上的香饽饽。当下,大数据从业人员的两个主要趋势是:1、大数据领域从业人员的薪资将继续增长;2、大数据人才供不应求。 图示说明:2012-2020年全球数据产生量预测 专业发展现状 填补大数据技术与应用专业人才巨大缺口的最有效办法无疑还需要依托众多的高等院校来培养输送,但互联网发展一日千里,大数据技术、手段日新月异,企业所需要的非常接地气的人才培养对于传统以培养学术型、科研型人才为主要使命的高校来说还真有些难度。幸好这个问题已经被全社会关注,政府更是一再提倡产教融合、校企合作来创办新型前沿几

乎以及“互联网+”专业方向,也已经有一些企业大胆开始了这方面的创新步伐。据我了解,慧科教育就是一家最早尝试高校校企合作的企业,其率先联合各大高校最早开设了互联网营销,这也是它们的优势专业,后来慧科教育集团又先后和北京航空航天大学、对外经济贸易大学、贵州大学、华南理工大学、宜春学院、广东开放大学等高校在硕、本、专各个层次开设了大数据专业方向,在课程体系研发、教学授课及实训实习环节均有来自BAT以及各大行业企业一线的技术大拿参与,所培养人才能够很好地满足企业用人需求。 专业示例 笔者在对慧科教育的大数据技术与应用专业做了专门研究,共享一些主要特色给大家参考: 1.培养模式 采用校企联合模式,校企双方(即慧科教育集团和合作校方)发挥各自优势,在最大限度保证院校办学特色及专业课程设置的前提下,植入相应前沿科技及特色人才岗位需求的企业课程。 2.课程体系 笔者对慧科教育的大数据技术与应用做了专门研究,现分享一下慧科专业共建的课程给大家参考。慧科教育集团的专业课程重在培养学生的理论知识和动手实践能力,学生在完成每个学期的理论学习后,至少有两个企业项目实战跟进,让学生在项目中应用各类大数据技术,训练大数据思路和实践步骤,做到理论与实践的充分结合。 大数据专业的课程体系包括专业基础课、专业核心课、大数据架构设计、企业综合实训等四个部分。

大数据平台建设方案

大数据平台建设方案 (项目需求与技术方案) 一、项目背景 “十三五”期间,随着我国现代信息技术的蓬勃发展,信息化建设模式发生根本性转变,一场以云计算、大数据、物联网、移动应用等技术为核心的“新 IT”浪潮风起云涌,信息化应用进入一个“新常态”。***(某政府部门)为积极应对“互联网+”和大数据时代的机遇和挑战,适应全省经济社会发展与改革要求,大数据平台应运而生。 大数据平台整合省社会经济发展资源,打造集数据采集、数据处理、监测管理、预测预警、应急指挥、可视化平台于一体的大数据平台,以信息化提升数据化管理与服务能力,及时准确掌握社会经济发展情况,做到“用数据说话、用数据管理、用数据决策、用数据创新”,牢牢把握社会经济发展主动权和话语权。 二、建设目标 大数据平台是顺应目前信息化技术水平发展、服务政府职能改革的架构平台。它的主要目标是强化经济运行监测分析,实现企业信用社会化监督,建立规范化共建共享投资项目管理体系,推进政务数据共享和业务协同,为决策提供及时、准确、可靠的信息依据,提高政务工作的前瞻性和针对性,加大宏观调控力度,促进经济持续健康发展。 1、制定统一信息资源管理规范,拓宽数据获取渠道,整合业务信

息系统数据、企业单位数据和互联网抓取数据,构建汇聚式一体化数据库,为平台打下坚实稳固的数据基础。 2、梳理各相关系统数据资源的关联性,编制数据资源目录,建立信息资源交换管理标准体系,在业务可行性的基础上,实现数据信息共享,推进信息公开,建立跨部门跨领域经济形势分析制度。 3、在大数据分析监测基础上,为政府把握经济发展趋势、预见经济发展潜在问题、辅助经济决策提供基础支撑。 三、建设原则 大数据平台以信息资源整合为重点,以大数据应用为核心,坚持“统筹规划、分步实施,整合资源、协同共享,突出重点、注重实效,深化应用、创新驱动”的原则,全面提升信息化建设水平,促进全省经济持续健康发展。

《大数据分析方法与应用》教学大纲

《大数据分析方法与应用》课程教学大纲 课程代码:090542008 课程英文名称:Big Data Analysis: Methods and Applications 课程总学时:40 讲课:40 实验:0 上机:0 适用专业:应用统计学 大纲编写(修订)时间:2017.6 一、大纲使用说明 (一)课程的地位及教学目标 本课程是应用统计学专业的一门专业课,通过本课程的学习,可以使学生学会选用适当的方法和技术分析数据,领会大数据分析方法和应用,掌握复杂数据的分析与建模,使学生能够按照实证研究的规范和数据挖掘的步骤进行大数据研发,为就业与继续深造打下必要而有用的基础。 (二)知识、能力及技能方面的基本要求 1.基本知识:掌握数据挖掘流程、随机森林树的回归算法、基于预测强度的聚类方法、朴素贝叶斯分类、高维回归及变量选择、图模型等。 2.基本能力:要求能在真实案例中应用相应的方法。 3.基本技能:掌握复杂数据的分析与建模。 (三)实施说明 1. 本大纲主要依据应用统计学专业2017版教学计划、应用统计学专业专业建设和特色发展规划和沈阳理工大学编写本科教学大纲的有关规定并根据我校实际情况进行编写的。 2. 课程学时总体分配表中的章节序号在授课过程中可酌情调整顺序,课时分配仅供参考。打“*”号的章节可删去或选学。 3. 建议本课程采用课堂讲授、讨论相结合的方法开展教学,通过讨论等方式强化重点,通过分散难点,使学生循序渐进的掌握难点。 4.教学手段:建议采用多媒体等现代化手段开展教学。 (四)对先修课的要求 本课程的先修课程:应用多元统计分析。 (五)对习题课、实践环节的要求 通过案例讲解算法,鼓励学生演示分析思路和分析收获,使学生有机会诊断问题,并学会选用适当的方法和技术分析数据。 (六)课程考核方式 1.考核方式:考查 2.考核目标:在考核学生基础知识、基本技能,基本能力的基础上,重点考核学生的分析能力、解决实际问题能力。 3.成绩构成:本课程由平时成绩和结课报告的质量评定优、良、中、及格和不及格。 (七)参考书目: 《大数据分析:方法与应用》,王星编,清华大学出版社,2013. 二、中文摘要 《大数据分析方法与应用》是高等学校应用统计学专业的一门选修的专业课。本课程着重介绍了统计学习、数据挖掘和模式识别等领域的各种大数据分析方法。课程主要内容包括大数据分析概述、数据挖掘流程、随机森林树、基于预测强度的聚类方法、贝叶斯分类和因果学习、高

大数据处理技术的总结与分析

数据分析处理需求分类 1 事务型处理 在我们实际生活中,事务型数据处理需求非常常见,例如:淘宝网站交易系统、12306网站火车票交易系统、超市POS系统等都属于事务型数据处理系统。这类系统数据处理特点包括以下几点: 一就是事务处理型操作都就是细粒度操作,每次事务处理涉及数据量都很小。 二就是计算相对简单,一般只有少数几步操作组成,比如修改某行得某列; 三就是事务型处理操作涉及数据得增、删、改、查,对事务完整性与数据一致性要求非常高。 四就是事务性操作都就是实时交互式操作,至少能在几秒内执行完成; 五就是基于以上特点,索引就是支撑事务型处理一个非常重要得技术. 在数据量与并发交易量不大情况下,一般依托单机版关系型数据库,例如ORACLE、MYSQL、SQLSERVER,再加数据复制(DataGurad、RMAN、MySQL数据复制等)等高可用措施即可满足业务需求。 在数据量与并发交易量增加情况下,一般可以采用ORALCERAC集群方式或者就是通过硬件升级(采用小型机、大型机等,如银行系统、运营商计费系统、证卷系统)来支撑. 事务型操作在淘宝、12306等互联网企业中,由于数据量大、访问并发量高,必然采用分布式技术来应对,这样就带来了分布式事务处理问题,而分布式事务处理很难做到高效,因此一般采用根据业务应用特点来开发专用得系统来解决本问题。

2数据统计分析 数据统计主要就是被各类企业通过分析自己得销售记录等企业日常得运营数据,以辅助企业管理层来进行运营决策。典型得使用场景有:周报表、月报表等固定时间提供给领导得各类统计报表;市场营销部门,通过各种维度组合进行统计分析,以制定相应得营销策略等. 数据统计分析特点包括以下几点: 一就是数据统计一般涉及大量数据得聚合运算,每次统计涉及数据量会比较大。二就是数据统计分析计算相对复杂,例如会涉及大量goupby、子查询、嵌套查询、窗口函数、聚合函数、排序等;有些复杂统计可能需要编写SQL脚本才能实现. 三就是数据统计分析实时性相对没有事务型操作要求高。但除固定报表外,目前越来越多得用户希望能做做到交互式实时统计; 传统得数据统计分析主要采用基于MPP并行数据库得数据仓库技术.主要采用维度模型,通过预计算等方法,把数据整理成适合统计分析得结构来实现高性能得数据统计分析,以支持可以通过下钻与上卷操作,实现各种维度组合以及各种粒度得统计分析。 另外目前在数据统计分析领域,为了满足交互式统计分析需求,基于内存计算得数据库仓库系统也成为一个发展趋势,例如SAP得HANA平台。 3 数据挖掘 数据挖掘主要就是根据商业目标,采用数据挖掘算法自动从海量数据中发现隐含在海量数据中得规律与知识。

课程名称大数据分析与应用

课程名称:大数据分析与应用 一、课程编码: 课内学时:32学分:2 二、适用学科专业:计算机专业硕士 三、先修课程:无 四、教学目标 通过本课程的课堂学习与应用案例,建立科学的大数据观,掌握大数据架构、大数据精准语义搜索、大数据语义分析挖掘、知识图谱等关键技术,熟练使用常用的大数据搜索挖掘与可视化工具,提升大数据的综合应用能力。 五、教学方式 课堂学习、研讨班与应用实践 六、主要内容及学时分配 1.科学的大数据观2学时 1.1.大数据的定义,科学发展渊源; 1.2.如何科学看待大数据? 1.3.如何把握大数据,分别从“知著”、“显微”、“晓义”三个层面阐述科学的大 数据观。 2.大数据技术平台与架构4学时 2.1云计算技术与开源平台搭建 2.2Hadoop、Spark等数据架构、计算范式与应用实践 3.机器学习与常用数据挖掘4学时 3.1常用机器学习算法:Bayes,SVM,最大熵、深度神经网络等; 3.2常用数据挖掘技术:关联规则挖掘、分类、聚类、奇异点分析。 4.大数据语义精准搜索4学时 4.1.通用搜索引擎与大数据垂直业务的矛盾; 4.2.大数据精准搜索的基本技术:快速增量在线倒排索引、结构化与非机构化数 据融合、大数据排序算法、语义关联、自动缓存与优化机制; 4.3.大数据精准搜索语法:邻近搜索、复合搜索、情感搜索、精准搜索; 4.4.JZSearch大数据精准搜索应用案例:国家电网、中国邮政搜索、国家标准搜 索、维吾尔语搜索、内网文档搜索、舆情搜索; 5.非结构化大数据语义挖掘10学时 5.1.语义理解基础:ICTCLAS与汉语分词 5.2.内容关键语义自动标引与词云自动生成; 5.3.大数据聚类; 5.4.大数据分类与信息过滤; 5.5.大数据去重、自动摘要; 5.6.情感分析与情绪计算;

大数据应用与案例分析

大数据应用与案例分析 当下,”大数据”几乎是每个IT人都在谈论的一个词汇,不单单是时代发展的趋势,也是革命技术的创新。大数据对于行业的用户也越来越重要。掌握了核心数据,不单单可以进行智能化的决策,还可以在竞争激烈的行业当中脱颖而出,所以对于大数据的战略布局让越来越多的企业引起了重视,并重新定义了自己的在行业的核心竞争。 在当前的互联网领域,大数据的应用已十分广泛,尤其以企业为主,企业成为大数据应用的主体。大数据真能改变企业的运作方式吗?答案毋庸置疑是肯定的。随着企业开始利用大数据,我们每天都会看到大数据新的奇妙的应用,帮助人们真正从中获益。大数据的应用已广泛深入我们生活的方方面面,涵盖医疗、交通、金融、教育、体育、零售等各行各业。 大数据应用的关键,也是其必要条件,就在于"IT"与"经营"的融合,当然,这里的经营的内涵可以非常广泛,小至一个零售门店的经营,大至一个城市的经营。以下是关于各行各业,不同的组织机构在大数据方面的应用的案例,并在此基础上作简单的梳理和分类。 一、大数据应用案例之:医疗行业 Seton Healthcare是采用IBM最新沃森技术医疗保健内容分析预测的首个客户。该技术允许企业找到大量病人相关的临床医疗信息,

通过大数据处理,更好地分析病人的信息。在加拿大多伦多的一家医院,针对早产婴儿,每秒钟有超过3000次的数据读取。通过这些数据分析,医院能够提前知道哪些早产儿出现问题并且有针对性地采取措施,避免早产婴儿夭折。 它让更多的创业者更方便地开发产品,比如通过社交网络来收集数据的健康类App。也许未来数年后,它们搜集的数据能让医生给你的诊断变得更为精确,比方说不是通用的成人每日三次一次一片,而是检测到你的血液中药剂已经代谢完成会自动提醒你再次服药。 二、大数据应用案例之:能源行业 智能电网现在欧洲已经做到了终端,也就是所谓的智能电表。在德国,为了鼓励利用太阳能,会在家庭安装太阳能,除了卖电给你,当你的太阳能有多余电的时候还可以买回来。通过电网收集每隔五分钟或十分钟收集一次数据,收集来的这些数据可以用来预测客户的用电习惯等,从而推断出在未来2~3个月时间里,整个电网大概需要多少电。有了这个预测后,就可以向发电或者供电企业购买一定数量的电。因为电有点像期货一样,如果提前买就会比较便宜,买现货就比较贵。通过这个预测后,可以降低采购成本。 维斯塔斯风力系统,依靠的是BigInsights软件和IBM超级计算机,然后对气象数据进行分析,找出安装风力涡轮机和整个风电场最佳的地点。利用大数据,以往需要数周的分析工作,现在仅需要不足1小时便可完成。

大数据技术原理及应用

大数据技术原理及应用 (总10页) -CAL-FENGHAI.-(YICAI)-Company One1 -CAL-本页仅作为文档封面,使用请直接删除

大数据技术原理及应用 大数据处理架构—Hadoop简介 Hadoop项目包括了很多子项目,结构如下图 Common 原名:Core,包含HDFS, MapReduce和其他公共项目,从Hadoop 版本后,HDFS和MapReduce分离出去,其余部分内容构成Hadoop Common。Common为其他子项目提供支持的常用工具,主要包括文件系统、RPC(Remote procedure call) 和串行化库。 Avro Avro是用于数据序列化的系统。它提供了丰富的数据结构类型、快速可压缩的二进制数据格式、存储持久性数据的文件集、远程调用RPC的功能和简单的动态语言集成功能。其中,代码生成器既不需要读写文件数据,也不需要使用或实现RPC协议,它只是一个可选的对静态类型语言的实现。Avro系统依赖于模式(Schema),Avro数据的读和写是在模式之下完成的。这样就可以减少写入数据的开销,提高序列化的速度并缩减其大小。 Avro 可以将数据结构或对象转化成便于存储和传输的格式,节约数据存储空间和网络传输带宽,Hadoop 的其他子项目(如HBase和Hive)的客户端和服务端之间的数据传输。 HDFS HDFS:是一个分布式文件系统,为Hadoop项目两大核心之一,是Google file system(GFS)的开源实现。由于HDFS具有高容错性(fault-tolerant)的特点,所以可以设计部署在低廉(low-cost)的硬件上。它可以通过提供高吞吐率(high throughput)来访问应用程序的数据,适合那些有着超大数据集的应

数据展现与分析平台建设方案

数据展现与分析平台建设方案 XXXXXX有限公司 2008-8-20

目录 1工商信息共享平台的重要性 (1) 2数据分析与展现总体目标 (1) 3数据展现平台系统部署要求 (2) 4数据源分析 (2) 5数据展现方法 (3) 5.1展现原则 (3) 5.2展现维度 (3) 5.3展现指标 (3) 6数据模型展现方案 (5) 6.1烟草行业分析模型 (5) 6.1.1品牌分析模型 (5) 6.1.1.1单品牌进销存分析模型 (5) 6.1.1.2商品群进销存分析模型 (6) 6.1.1.3品牌结构分析模型 (7) 6.1.1.4品牌二八分析模型 (8) 6.1.1.5品牌销售异常分析模型 (9) 6.1.1.6品牌成长分析模型 (9) 6.1.1.7单品销售日分析模型 (10) 6.1.1.8产品宽度分析模型 (11) 6.1.1.9品牌贡献度分析模型 (12) 6.1.1.10品牌波士顿矩阵分析模型 (13) 6.1.2库存及配送分析模型 (14) 6.1.2.1库销比分析模型 (14) 6.1.2.2节假日库销比分析模型 (14)

6.1.2.4品牌补货预测模型 (15) 6.1.2.5采购分析模型 (16) 6.1.2.6库存ABC模型 (16) 6.1.2.7库存周转分析模型 (17) 6.1.2.8配送分析模型 (18) 6.1.2.9库存结构分析模型 (18) 6.1.2.10购进分析模型 (19) 6.1.2.11库销预测分析模型 (20) 6.1.3销售分析模型 (20) 6.1.3.1销售计划分析模型 (21) 6.1.3.2销售趋势分析模型 (21) 6.1.3.3销售结构分析模型 (22) 6.1.3.4价格分析模型 (22) 6.1.3.5销售排名分析模型 (23) 6.1.3.6区域经营分析模型 (24) 6.1.4市场营销及市场投放分析模型 (25) 6.1.4.1市场需求总量分析模型 (25) 6.1.4.2品种投放分析模型 (25)

大数据应用分析案例分析

大数据应用分析案例分 析 Company Document number:WTUT-WT88Y-W8BBGB-BWYTT-19998

大数据应用与案例分析 当下,”大数据”几乎是每个IT人都在谈论的一个词汇,不单单是时代发展的趋势,也是革命技术的创新。大数据对于行业的用户也越来越重要。掌握了核心数据,不单单可以进行智能化的决策,还可以在竞争激烈的行业当中脱颖而出,所以对于大数据的战略布局让越来越多的企业引起了重视,并重新定义了自己的在行业的核心竞争。 在当前的互联网领域,大数据的应用已十分广泛,尤其以企业为主,企业成为大数据应用的主体。大数据真能改变企业的运作方式吗答案毋庸置疑是肯定的。随着企业开始利用大数据,我们每天都会看到大数据新的奇妙的应用,帮助人们真正从中获益。大数据的应用已广泛深入我们生活的方方面面,涵盖医疗、交通、金融、教育、体育、零售等各行各业。 大数据应用的关键,也是其必要条件,就在于"IT"与"经营"的融合,当然,这里的经营的内涵可以非常广泛,小至一个零售门店的经营,大至一个城市的经营。以下是关于各行各业,不同的组织机构在大数据方面的应用的案例,并在此基础上作简单的梳理和分类。 一、大数据应用案例之:医疗行业 SetonHealthcare是采用IBM最新沃森技术医疗保健内容分析预测的首个客户。该技术允许企业找到大量病人相关的临床医疗信息,通过大数据处理,更好地分析病人的信息。在加拿大多伦多的一家医院,针对早产婴儿,每秒钟有超过3000次的数据读取。通过这些数据分析,医院能够提前知道哪些早产儿出现问题并且有针对性地采取措施,避免早产婴儿夭折。

智慧医疗大数据分析应用平台建设方案

智慧医疗大数据分析 应用平台 建 设 方 案

目录 1.背景介绍 (10) 2.产品愿景 (14) 3.产品定位 (15) 3.1解决的问题 (15) 3.2达到的效果 (15) 4.产品理念 (16) 5.总体思路 (16) 5.1对接数据源,获取医疗卫生大数据 (17) 5.2对获取的医疗卫生大数据预处理机制 (18) 5.3建立医疗卫生大数据的存储机制 (18) 5.4医疗卫生大数据的处理和分析算法分类和形成 (20) 5.5开发专题大数据分析,形成专题大数据应用 (22) 5.6开发机构大数据分析,建立机构大数据应用 (22) 5.7建立平台应用实施推广组织机制 (23) 5.8建立平台产品优化升级服务组织机制 (23) 6.医疗卫生信息的大数据建模描述和分析 (23) 6.1 我们给出的相关数据模型 (24) 6.2 卫计委给出的相关数据模型 (25) 6.3 相关数据特征对比分析 (29) 7.大数据分析应用平台支持的业务主题场景 (31) 7.1 医疗卫生服务机构应用 (33)

7.1.1各级医院自身应用 (33) 7.1.2 基层医疗机构自身应用 (38) 7.1.3 区域卫生医疗联合体应用 (38) 7.1.4医疗卫生机构的合规应用 (43) 7.2患者医疗治疗应用 (46) 7.2.1患者就医过程提示服务 (46) 7.2.2患者服药提示服务 (46) 7.2.3患者饮食、运动、习惯注意事项服务 (46) 7.2.4患者体征和治疗效果服务 (47) 7.2.5患者交流交往服务 (47) 7.3个性化医疗服务应用 (47) 7.3.1基因测序分析应用 (47) 7.3.2个性化药物应用 (48) 7.3.3个人健康管理应用 (48) 7.4慢性病预防治疗应用(疾控中心) (50) 7.4.1慢性病检测、发现、预警服务 (50) 7.4.2慢性病诊断服务 (52) 7.4.3慢性病防控治疗服务 (52) 7.5居民健康保健应用(疾控中心) (53) 7.5.1居民自我健康保健应用 (53) 7.5.2政府卫生管理部门进行居民健康管理应用 (54) 7.5.3政府医疗规划结构进行居民健康保健决策应用

2017级大数据技术与应用专业人才培养方案

附件: 2017年大数据技术与及用人才培养方案 一、培养目标 本专业培养适应生产、建设、服务和管理第一线需要的,德、智、体、美等方面全面发展的,具有大数据行业对应岗位必备的科学文化知识及相关专业知识,以大数据系统运维与管理、数据处理、数据分析、应用系统开发能力为目标,系统掌握大数据技术与应用专业基本理论、大数据分析挖掘与处理、移动开发与架构、软件开发、云计算技术等前沿技术,旨在培养适应新形势下新兴的“互联网+”专业,具有良好职业道德和敬业精神的高素质技能型专门人才。 二、学制及招生对象 (一)学制:三年 (二)招生对象:高中毕业生和中职毕业生 三、人才培养规格 (一)职业面向、预期工作岗位名称 1.主要岗位 本专业大数据基础类岗位:大数据文档编写、大数据采集清洗与转换; 大数据技术类岗位:大数据系统搭建与运维、海量数据库管理、大数据软件开发、大数据可视化、大数据分析; 2.相关岗位 大数据销售服务类岗位:大数据营销、大数据呼叫、大数据售后服务。 3.进阶岗位 大数据技术公司管理岗位和高级技术岗位 (二)起薪标准 4500元/月 (三)人才质量标准 1.知识要求 22395 577B 坻 "#27753 6C69 汩@29901 74CD 瓍 毕业生应具有大数据技术与应用专业必要的基础理论知识,掌握从事本专业领域实际工作的基本能力和基本技能;具备适应生产、管理、服务一线岗位需要的工作能力,具备良好的职业道德与素养。

①掌握本专业培养目标所要求的基础理论知识、专业知识和技能; ②具备一定的英语知识,能够借助工具书阅读理解本专业所使用的常用计算机英语,包括技术 性文档和资料; ③掌握计算机方面的专业基础知识,能适应信息化建设; ④掌握Linux平台下大数据平台搭建,数据库系统搭建、优化、管理等方面的专业技能; ⑤掌握大数据技术与应用专业基本的专业技能,能满足大数据岗位的基本素质。 2.能力要求 通过三年的学习,学生应具备从事本专业领域相关工作的能力。 ①熟练操作办公自动化软件; ②具备计算机组装、计算机软硬件故障的判断与定位以及故障排除的能力。 ③具备办公自动化设备维护的能力;具备数据库系统管理维护的能力; ④具备非结构化数据处理能力; ⑤具备数据仓库管理基本能力; ⑥具备OOP程序设计能力; ⑦具备Web应用开发能力; ⑧具备Linux Server、Hadoop项目管理维护的能力; ⑨具备数据挖掘、数据清洗、数据可视化的处理能力。 34754 87C2 蟂26102 65F6 时29227 722B 爫36456 8E68 蹨n(;; 3.素质要求 ①政治思想素质: 热爱祖国,拥护党的基本路线。遵纪守法,善于独立思考,勇于创新的精神。具备良好的职业道德与素养。 ②文化素质: 具有一定的文化素质修养,诚实守信、礼貌待人、为人谦逊的文明习惯;具有自尊自强、爱岗敬业、勤奋好学、追求进步的品格;具备良好的人际交往与勾通和工作协调能力。 ③业务素质: 掌握大数据技术与应用专业的基础理论知识;掌握计算机组装与维护、办公自动化软件操作、办公自动化设备维护、计算机网络系统维护及管理、关系型/非关系型数据库系统维护及管理、Windows/Linux服务器系统配置管理等方面、各类大数据平台搭建管理维护的专业技能的能力。(四)职业岗位资格证书

大数据分析与应用

《应用统计学系列教材·大数据分析:方法与应用》可用做统计学、管理学、计算机科学等专业进行数据挖掘、机器学习、人工智能等相关课程的本科高年级、研究生教材或教学参考书。 目录 第1章大数据分析概述 1.1大数据概述 1.1.1什么是大数据 1.1.2数据、信息与认知 1.1.3数据管理与数据库 1.1.4数据仓库 1.1.5数据挖掘的内涵和基本特征1.2数据挖掘的产生与功能 1.2.1数据挖掘的历史 1.2.2数据挖掘的功能 1.3数据挖掘与相关领域之间的关系1.3.1数据挖掘与机器学习 1.3.2数据挖掘与数据仓库 1.3.3数据挖掘与统计学 1.3.4数据挖掘与智能决策 1.3.5数据挖掘与云计算 1.4大数据研究方法 1.5讨论题目 1.6推荐阅读 第2章数据挖掘流程 2.1数据挖掘流程概述 2.1.1问题识别 2.1.2数据理解 2.1.3数据准备 2.1.4建立模型 2.1.5模型评价 2.1.6部署应用 2.2离群点发现 2.2.1基于统计的离群点检测 2.2.2基于距离的离群点检测 2.2.3局部离群点算法 2.3不平衡数据级联算法 2.4讨论题目 2.5推荐阅读 第3章有指导的学习 3.1有指导的学习概述3.2K—近邻 3.3决策树 3.3.1决策树的基本概念 3.3.2分类回归树 3.3.3决策树的剪枝 3.4提升方法 3.5随机森林树 3.5.1随机森林树算法的定义 3.5.2如何确定随机森林树算法中树的节点分裂变量 3.5.3随机森林树的回归算法 3.6人工神经网络 3.6.1人工神经网络基本概念 3.6.2感知器算法 3.6.3LMS算法 3.6.4反向传播算法 3.6.5神经网络相关问题讨论 3.7支持向量机 3.7.1最大边距分类 3.7.2支持向量机问题的求解 3.7.3支持向量机的核方法 3.8多元自适应回归样条 3.9讨论题目 3.10推荐阅读 第4章无指导的学习 4.1关联规则 4.1.1静态关联规则算法Apriori算法 4.1.2动态关联规则算法Carma算法 4.1.3序列规则挖掘算法 4.2聚类分析 4.2.1聚类分析的含义及作用 4.2.2距离的定义 4.2.3系统层次聚类法 4.2.4K—均值算法 4.2.5BIRCH算法 4.2.6基于密度的聚类算法 4.3基于预测强度的聚类方法 4.3.1预测强度 4.3.2预测强度方法的应用 4.3.3案例分析 4.4聚类问题的变量选择 4.4.1高斯成对罚模型聚类

大数据分析的应用和产品

大数据分析的应用和产品 大数据很火。2月18日,微软宣布投资三家中国云计算和大数据公司。2月19日,IBM宣布将与AT&T在大数据分析领域展开合作——AT&T计划贡献出一个全球可访问的移动网络,用来收集数据并将其发送至应用程序;IBM公司则主要致力于生产用于数据管理和分析的软件。 “读心术”、“未卜先知”,都是大数据分析头上的耀眼光环。不管你信不信,“数据”真的会说话。人们在互联网上的一切行为都会留下数据,而通过对这些数据的分析,就能够得到消费习惯、职业、喜好甚至性格等信息。在这些信息的基础上,政府可以治理交通,减少犯罪率,而企业则可以利用这些数据进行有针对性的营销,提升业绩。 虽然目前大数据分析还处于发展的初级阶段,要从海量的非结构性数据中提取出有用信息并不是一件容易的事儿,但是很多企业已经开始利用大数据分析并推出了相关的应用和产品。大数据分析究竟能做什么?大数据分析又正在做什么?让我们一起来看看吧! 洞察“人类大迁徙” “春运”,被誉为人类历史上规模最大、有周期性的人类大迁徙。过去,我们只是粗略地知道在40天左右的时间里,有几十亿人次的人口流动。现在,随着大数据时代的到来,我们可以描绘出能够揭露更多细节的“迁徙地图”。 2014年的春运,央视首次推出了“据说春运”特别节目,基于“百度迁徙”提供的可视化大数据服务,实时播报国内春节人口的迁徙情况,例如最热门的迁出城市,最热门的迁入城市等等。尽管采用的是大数据这一当前最时髦的科技手段,但浅显易懂的“迁徙地图”,还是几乎让每个老百姓都看得明白。 那么,这张“迁徙地图”是如何绘制的呢?原理上其实并不复杂。目前,几乎每个中国人都拥有一部手机,而每部手机每一天基本上都会产生3次与位置相关的数据:既包括来自基站的数据,也包括用户在使用定位、导航等与位置相关服务时产生的数据。因此,只要调

相关文档
相关文档 最新文档