文档库 最新最全的文档下载
当前位置:文档库 › 四表合一数据集中采集典型技术方案分析

四表合一数据集中采集典型技术方案分析

四表合一数据集中采集典型技术方案分析
四表合一数据集中采集典型技术方案分析

附件3:

四表合一数据集中采集典型技术方案

四表合一数据集中采集(以下简称“四表合一”)技术方案的设计和选择须依托现有用电信息采集系统的典型技术方案,充分利用其采集终端和信道资源。本方案以调研业界通信技术为基础,以适应用电信息采集系统基本架构为导向,提出了覆盖现场各种类型用电信息采集系统技术路线和水气热表现状的四表合一典型技术方案。

一、四表合一通信技术分析

通信技术是实现四表合一的重要基础,它决定了系统的工作原理,也影响着系统的运行效率和可靠性。目前业界四表合一采用的通信技术主要为M-BUS总线、RS-485、微功率无线、无线公网、电力线载波等。以下对比分析了各种通信技术的优势和劣势。

1.1 M-BUS总线

M-BUS是一种由主机控制的分级通信系统,它由主机、从机和两条连接电缆组成。从机之间不能直接交换信息,只能通过主机来转发。M-BUS技术的传输介质为双绞线,数据传输速率可达300~9600bps,最大传输距离为1000米左右。另外,M-BUS总线可实现采集终端向计量设备远程供电,可解决四表合一水、气、热表无法自取能的问题。M-BUS总线的优缺点如下表1所示:

表1 M-BUS总线通信优缺点对比表

优点缺点(1)布线简单,只有两条通信线,

总线无极性,对布线方式无特殊要求,可并联也可串联;

(2)总线供电,可通过通信线路给表计供电,特别适合水、气、热表这类本身无电源供应的表计;(3)通信稳定,抗干扰能力强,只要双绞线不出现故障,一般都可保证通信成功率。(1)与无线通信技术相比,M-BUS需要布线,而入户布线可能会破坏居民现有的家居设施,从而引发纠纷;

(2)长时间现场运行后可能会出现双绞线接头氧化,而更换双绞线接口较为繁琐。

1.2 RS-485

RS-485是一种采用两条差分电压信号线进行信号传输的通信技术。它由主机、从机和连接电缆组成,传输介质为双绞线,数据传输速率在1Mbps以下,最大覆盖距离1200米。由于RS-485通信线不具备供电能力,因此在四表合一应用时还需要配合两条电源线使用。RS-485的优缺点如下表2所示:

表2 RS-485通信优缺点对比表

优点缺点

(1)通信速率高,可满足四表合一大数据量的承载需求;(2)采用差分信号进行数据传输,抗干扰能力强;

(3)通信稳定,只要双绞线不出现故障,一般都可保证通信成功率。(1)与无线通信技术相比,RS-485需要布线,而入户布线可能会破坏居民现有的家居设施,从而引发纠纷;

(2)无法给水、气、热表直接供电,须配备外接电源或后备电源,导致其设备费用明显高于M-BUS。

1.3 微功率无线

微功率无线通信技术是指发射功率不超过50mW,覆盖范围数百米,采用470MHz~510MHz频段,具备自组网功能的无线通信技术。微功率无线通信技术组网简单,通信速率可达10kbps。微功率无线的优缺点如下表3所示:

表3 微功率无线通信优缺点对比表

优点缺点(1)无需布线,现场工程施工

方便;

(2)无需向电信运营商缴纳通信费用;

(3)组网灵活,数据传输速率较高。(1)在台区范围较大或电磁屏蔽环境,通信效果较差;

(2)无法给水、气、热表供电,须配备外接电源或后备电源。

1.4无线公网

无线公网是指基于移动蜂窝网的通用分组无线通信技术,其覆盖范围非常大,通信速率可达100kbps以上。无线公网的优缺点如下表4所示:

表4 无线公网通信优缺点对比表

优点缺点

(1)无需敷设通信链路,使用方便快捷;

(2)不受距离限制,在移动网络覆盖范围内均可有效使用;

(3)通信速率较高,可满足四表合一大数据量承载需求。(1)设备费用及运行费用较高;(2)通信稳定性受制于电信运营商,在移动蜂窝网未覆盖地区无法使用;

(3)无法给水、气、热表供电,须配备外接电源。

1.5电力线载波

电力线载波是指利用工频强电的电力线传输高频弱电信号的通信技术。电力线载波通信一般使用(3~500)kHz 或(2~30)MHz的电力线频谱资源,数据传输速率可达1kbps以上,在公司用电信息采集系统的通信技术中占比达70%以上。电力线载波通信的优缺点如下表5所示:

表5电力线载波通信优缺点对比表

优点缺点

(1)依托电力线,无需敷设通信链路,节省一定成本;

(2)可引入电力台区管理模式。(1)将电力线引至燃气表,可能会带来消防安全隐患;

(2)自身需要配备外接电源;(3)通信性能受电网噪声干扰。

二、用电信息采集系统架构分析

四表合一技术方案设计应以不影响用电信息采集系统功能应用,充分共享现有用电信息采集系统设备和信道资源为原则。如下图1所示,用电信息采集系统由主站层、远程通信层、采集终端层、本地通信层、电能表层组成。主站通过无线公网、230MHz无线专网、光纤专网等远程通信技术与采集终端交互;采集终端通过窄带电力线载波、宽带电力线载波、微功率无线、RS-485等本地通信技术与电能表通信。在实际应用中,虽然用电信息采集系统架构各不相同,但是架构的复杂性主要体现在本地信道层面:

图1 用电信息采集系统架构图

(1)I型集中器与II型集中器共存。I型集中器下行采用载波或微功率无线,II型集中器下行使用RS-485。

(2)全载波(无线)与半载波(无线)共存。全载波

(无线)方案中,I型集中器下行使用载波或微功率无线与电能表通信;半载波(无线)方案中,I型集中器下行使用载波或微功率无线与采集器通信,采集器通过RS-485与电能表通信。

(3)I型采集器与II型采集器共存。I型采集器下行具有三路RS-485通信接口,II型采集器下行具有一路RS-485通信接口。

为适应用电信息采集系统本地信道的复杂性,同时满足四表合一的多样化需求,四表合一应部署于采集终端层以下。同时,为了契合四表合一的集约化设计原则,四表合一应在采集终端层及以上实现完全融合,复用用电信息采集系统的采集终端、远程信道及主站。

三、四表合一典型技术方案设计

如上所述,用电信息采集系统的架构差异性较大,因此基于不同用电信息采集系统架构的四表合一改造方案也截然不同。为保证技术方案的科学性、合理性、全面性,以最低的成本和改造量实现四表合一数据采集应用,提出了三种四表合一典型技术方案。

3.1升级无线模块

此方案适用于两种场景。场景一为微功率无线电能表+微功率无线水气热表,此场景要求电能表与水气热表之间的距离较近;场景二为RS-485电能表+无线水气热表+I型无线采集器的场景,此场景要求I型采集器与水气热表之间的距离较近。

改造前用电信息采集系统架构如下图2所示,I型集中器通过微功率无线直接与电能表通信,或通过微功率无线与I型采集器通信,采集器通过RS-485与电能表通信。

图2 I型集中器(全无线+半无线)采集方式示意图改造过程主要是对电能表(或I型采集器)的微功率无线模块进行软件升级,实现对水气热表的采集,I型集中器通过微功率无线与电能表(或I型采集器)通信。改造后四表合一系统架构如下图3所示。由于微功率无线水气热表仅

通过电池供电且电池容量有限,若I型集中器直接与水气热表组建网状网络会消耗较高的能量,制约水气热表的使用寿命,因此应采用电能表(或I型采集器)内置通信模块作为网关,与周围无线水气热表形成星型网络的方案。此方案可实现对水气热表的数据转发功能,但水气热表无法实现实时在线通讯,只能采用唤醒的方式来延长使用寿命。

图3 I型集中器(全无线+半无线)四表合一示意图

3.2更换双模模块

此方案适用于两种场景。场景一为载波电能表+无线水气热表,此场景要求电能表与水气热表之间的距离较近;场

景二为RS-485电能表+无线水气热表+I型载波采集器的场景。此场景要求I型采集器与水气热表之间的距离较近。

改造前用电信息采集系统架构如下图4所示,I型集中器通过电力线载波直接与电能表通信,或通过电力线载波与I型采集器通信,采集器通过RS-485与电能表通信。

图4 I型集中器(全载波或半载波)采集方式示意图针对上述两种场景,可以将电能表(I型采集器)模块更换为微功率+载波的双模通信模块方式,使电能表(I型

采集器)上行通过电力线载波与I型集中器通信,下行通过微功率无线与水气热表通信,上、下行信道独立运行。改造后四表合一系统架构如下图5所示。

图5 I型集中器(全载波或半载波)四表合一示意图

3.3增加通信接口转换器

此方案适用于电能表(RS-485)+水气热表(M-BUS 或微功率无线)场景。此场景中电能表与水气热表的相对位置距离较远。

改造前用电信息系统架构如下图6所示。第一种是I型集中器通过载波或微功率无线与采集器通信,采集器通过RS-485与电能表通信;第二种是II型集中器通过RS-485

与电能表通信。

图6 I型集中器(半载波、半无线)及II型集中器采集方式示意图

改造后四表合一采集系统架构如下图7所示,原有用电信息采集系统架构不变,同时新装或换装通信接口转换器。通信接口转换器型式外观与I型采集器相同,但弱电端子定义略有差异,具有上下行各一路RS-485及下行两路M-BUS。通信接口转换器下行可通过微功率无线或M-BUS 与水气热表通信,上行通过微功率无线、电力线载波或RS-485与采集器通信。

图7 I 型集中器(半载波、半无线)及II 型集中器四表合一示意图

四、四表合一技术方案配置表

如上所述,典型设计方案分三类,分别为方案一:升级无线模块;方案二:更换双模模块;方案三:增加通信接口转换器。基于典型设计方案,同时兼顾现场差异化的电水气热表相对位置和水气热表安装位置,形成了下述四表合一技术方案配置表。

表6 四表合一技术方案配置表

序号 电表通信方式

电表采集模式

水气热表通信方式

电水气热表相对位置

水气热表 安装位置 技术方案 具体改造方式 1 微功率无线

二段式(I 型集中器+电表)

微功率无线

较近

户内

方案一

1.组建无线星型网

2.需加配外置天线 2 户外 方案一 1.组建无线星型网 2.可采用内置天线 3 较远

户内

方案三

1.组建无线网状网

2.需加配外置天线 4 户外 方案三 1.组建无线网状网 2.可采用内置天线 5

电力线载波

二段式(I 型集中器+电表)

微功率无线

较近

户内

方案二

1.组建无线星型网

2.需加配外置天线 6 户外 方案二 1.组建无线星型网 2.可采用内置天线 7 较远

户内

方案三

1.组建无线网状网

2.需加配外置天线 8 户外 方案三 1.组建无线网状网 2.可采用内置天线 9

RS-485

二段式(II 型集中器+微功率

无线

/

户内

方案三

1.组建无线网状网

2.需加配外置天线

10 电表) 户外 方案三 1.组建无线网状网 2.可采用内置天线 11 三段式(I 型集中器+II 型采集器+电表)

/

户内 方案三 1.组建无线网状网 2.需加配外置天线 12 户外 方案三 1.组建无线网状网 2.可采用内置天线 13

三段式(I

型集中器+I 型无线采集器+电表)

较近

户内

方案一 1.组建无线星型网 2.需加配外置天线 14 户外 方案一 1.组建无线星型网 2.可采用内置天线 15 较远

户内

方案三 1.组建无线网状网 2.需加配外置天线 16 户外 方案三 1.组建无线网状网 2.可采用内置天线 17

三段式(I

型集中器+I 型载波采集器+电表) 较近

户内

方案二 1.组建无线星型网 2.需加配外置天线 18 户外 方案二 1.组建无线星型网 2.可采用内置天线 19 较远

户内

方案三 1.组建无线网状网 2.需加配外置天线 20 户外

方案三 1.组建无线网状网 2.可采用内置天线 21 微功率无线

二段式(I 型集中器+电表)

M-BUS /

户内 方案三 在户内安装M-BUS 集线

22 户外 方案三 在户外安装M-BUS 集线

23 电力线载波

二段式(I 型集中器+电表)

M-BUS /

户内

方案三 在户内安装M-BUS 集线

24 户外

方案三 在户外安装M-BUS 集线

25

RS-485 二段式(II

型集中器+

M-BUS

/

户内

方案三

在户内安装M-BUS 集线

26 电表)

户外方案三

在户外安装M-BUS集线

27 三段式(I

型集中器

+II型采集

器+电表)

/

户内方案三

在户内安装M-BUS集线

28 户外方案三在户外安装M-BUS集线

29 三段式(I

型集中器

+I型采集

器+电表)

/

户内方案三

在户内安装M-BUS集线

30 户外方案三在户外安装M-BUS集线

大数据处理常用技术简介

大数据处理常用技术简介 storm,Hbase,hive,sqoop, spark,flume,zookeeper如下 ?Apache Hadoop:是Apache开源组织的一个分布式计算开源框架,提供了一个分布式文件系统子项目(HDFS)和支持MapReduce分布式计算的软件架构。 ?Apache Hive:是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,通过类SQL语句快速实现简单的MapReduce 统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。 ?Apache Pig:是一个基于Hadoop的大规模数据分析工具,它提供的SQL-LIKE语言叫Pig Latin,该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。 ?Apache HBase:是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。 ?Apache Sqoop:是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。 ?Apache Zookeeper:是一个为分布式应用所设计的分布的、开源的协调服务,它主要是用来解决分布式应用中经常遇到的一些数据管理问题,简化分布式应用协调及其管理的难度,提供高性能的分布式服务?Apache Mahout:是基于Hadoop的机器学习和数据挖掘的一个分布式框架。Mahout用MapReduce实现了部分数据挖掘算法,解决了并行挖掘的问题。 ?Apache Cassandra:是一套开源分布式NoSQL数据库系统。它最初由Facebook开发,用于储存简单格式数据,集Google BigTable的数据模型与Amazon Dynamo的完全分布式的架构于一身 ?Apache Avro:是一个数据序列化系统,设计用于支持数据密集型,大批量数据交换的应用。Avro是新的数据序列化格式与传输工具,将逐步取代Hadoop原有的IPC机制 ?Apache Ambari:是一种基于Web的工具,支持Hadoop集群的供应、管理和监控。 ?Apache Chukwa:是一个开源的用于监控大型分布式系统的数据收集系统,它可以将各种各样类型的数据收集成适合Hadoop 处理的文件保存在HDFS 中供Hadoop 进行各种MapReduce 操作。 ?Apache Hama:是一个基于HDFS的BSP(Bulk Synchronous Parallel)并行计算框架, Hama可用于包括图、矩阵和网络算法在内的大规模、大数据计算。

大数据处理技术的特点

1)Volume(大体量):即可从数百TB到数十数百PB、 甚至EB的规模。 2)Variety(多样性):即大数据包括各种格式和形态的数据。 3)Velocity(时效性):即很多大数据需要在一定的时间限度下得到及时处理。 4)Veracity(准确性):即处理的结果要保证一定的准确性。 5)Value(大价值):即大数据包含很多深度的价值,大数据分析挖掘和利用将带来巨大的商业价值。 传统的数据库系统主要面向结构化数据的存储和处理,但现实世界中的大数据具有各种不同的格式和形态,据统计现实世界中80%以上的数据都是文本和媒体等非结构化数据;同时,大数据还具有很多不同的计算特征。我们可以从多个角度分类大数据的类型和计算特征。 1)从数据结构特征角度看,大数据可分为结构化与非结构化/半结构化数据。 2)从数据获取处理方式看,大数据可分为批处理与流式计算方式。 3)从数据处理类型看,大数据处理可分为传统的查询分析计算和复杂数据挖掘计算。 4)从大数据处理响应性能看,大数据处理可分为实时/准实时与非实时计算,或者是联机计算与线下计算。前述的流式计算通常属于实时计算,此外查询分析类计算通常也要求具有高响应性能,因而也可以归为实时或准实时计算。而批处理计算和复杂数据挖掘计算通常属于非实时或线下计算。 5)从数据关系角度看,大数据可分为简单关系数据(如Web日志)和复杂关系数据(如社会网络等具有复杂数据关系的图计算)。

6)从迭代计算角度看,现实世界的数据处理中有很多计算问题需要大量的迭代计算,诸如一些机器学习等复杂的计算任务会需要大量的迭代计算,为此需要提供具有高效的迭代计算能力的大数据处理和计算方法。 7)从并行计算体系结构特征角度看,由于需要支持大规模数据的存储和计算,因此目前绝大多数禧金信息大数据处理都使用基于集群的分布式存储与并行计算体系结构和硬件平台。

基于大数据的能力开放平台解决实施方案

基于大数据的能力开放平台解决方案

————————————————————————————————作者:————————————————————————————————日期:

基于大数据的能力开放平台解决方案 1 摘要 关键字:大数据经分统一调度能力开放 运营商经过多年的系统建设和演进,内部系统间存在一些壁垒,通过在运营商的各个内部系统,如经分、VGOP、大数据平台、集团集市等中构建基于ESB 的能力开放平台,解决了系统间调度、封闭式开发、数据孤岛等系统问题,使得运营商营销能力和效率大大提高。 2 问题分析 2.1 背景分析 随着市场发展,传统的开发模式已经无法满足业务开发敏捷性的要求。2014 年以来,某省运营商经营分析需求量激增,开发时限要求缩短,业务迭代优化需求频繁,原有的“工单-开发”模式平均开发周期为4.5 天,支撑负荷已达到极限。能力开放使业务人员可以更便捷的接触和使用到数据,释放业务部门的开发能力。 由于历史原因,业务支撑系统存在经分、VGOP、大数据平台、集团集市等多套独立的运维系统,缺乏统一的运维管理,造成系统与系统之间的数据交付复杂,无法最大化 的利用系统资源。统一调度的出现能够充分整合现有调度系统,减少运维工作量,提升维护质量。 驱动力一:程序调度管理混乱,系统资源使用不充分

经分、大数据平台、VGOP、集团集市平台各自拥有独立的调度管理,平台内程序基本是串行执行,以经分日处理为例,每日运行时间为20 个小时,已经严重影响到了指标的汇总展示。 驱动力二:传统开发模式响应慢,不能满足敏捷开发需求 大数据平台已成为一个数据宝库,已有趋势表明,只依赖集成商与业务支撑人员的传统开发模式已经无法快速响应业务部门需求,提升数据价值。 驱动力三:大数据平台丰富了经分的数据源,业务部门急待数据开放 某省运营商建立了面向企业内部所有部门的大数据平台,大数据平台整合了接入B域、O 域、互联网域数据,近100 余个数据接口,共计820T 的数据逐步投入生产。大数据平台增强了传统经分的数据处理的能力,成为公司重要的资产,但是传统经分数据仓库的用户主要面向业支内部人员,限制了数据的使用人员范围和数据的使用频度,已经无法满足公司日益发展的业务需求,数据的开放迫在眉睫。 2.2 问题详解 基于背景情况分析,我们认为主要问题有三个: 1、缺乏统一的调度管理,维护效率低下 目前经分系统的日处理一般是使用SHELL 脚本开发的,按照串行调度的思路执行。进行能力开放后,目前的系统架构无法满足开发者提交的大量程序执行调度的运维需求。如果采用统一调度的设计思路则基于任务的数据表依赖进行任务解耦及调度,将大大简化调度配置工作和提高系统的

智慧社区大数据分析平台项目建设方案

智慧社区大数据平台建设方案

目录 1.智慧城市介绍 (8) 1.1智慧城市建设背景 (8) 1.2建设目标 (8) 1.3参考资料 (9) 2.项目需求分析 (11) 第2章 (11) 2.1智慧城市服务信息化业务需求分析 (11) 2.2智慧城市建设要求分析 (13) 2.2.1功能需求分析 (14) 2.2.2性能需求分析 (20) 2.2.3项目建设难点和对策分析 (21) 3.项目总体架构设计 (22) 第3章 (22) 3.1总体设计思路 (22) 3.1.1开放平台及应用整合 (22) 3.1.2安全与隐私 (23) 3.1.3可控的技术体系 (23) 3.1.4整合资源提供便民服务 (23) 3.1.5面向运营的推广思路 (24) 3.2建设原则 (24) 3.3总体架构 (26) 3.3.1软硬件基础设施 (26) 3.3.2数据资源 (27) 3.3.3应用支撑 (27) 3.3.4社区业务开发运行平台 (28) 3.3.5业务应用 (29) 3.3.6系统门户(访问渠道) (30) 3.3.7支撑体系(信息安全与标准规范体系) (30) 3.4技术架构 (30) 3.4.1基础服务 (31) 3.4.2平台服务 (31) 3.4.3数据服务 (32) 3.4.4访问服务 (32) 3.4.5应用开发框架 (32) 3.4.6安全体系 (33) 3.5信息资源架构 (35) 3.5.1建设原则 (35) 3.5.2架构体系 (35) 3.6集成架构 (64) 3.6.1应用集成平台 (65) 3.6.2系统集成整合 (69) 3.7网络拓扑结构 (73) 3.8运维体系 (73) 4.社区人房关系验证和接口系统 (75) 第4章 (75) 4.1系统概述 (75) 4.2系统架构 (75)

商业智能BI 数据分析平台解决方案

文档收集于互联网,已重新整理排版.word版本可编辑.欢迎下载支持. 0文档来源为:从网络收集整理.word版本可编辑. 数据分析平台 解决方案 成都四方伟业软件股份有限公司 2017年1月 目录 1.背景概述 (5) 2.现状分析 (6) 2.1.主流BI模式 (6) 传统BI模式 ................................................................................. 敏捷BI模式 (7) 2.2.平台推荐模式 (8) 3.整体需求 (10) 3.1.数据源支持 (10) 3.2.自助式查询 (10)

文档收集于互联网,已重新整理排版.word版本可编辑.欢迎下载支持0文档来源为:从网络收集整理.word版本可编辑. 3.3.OLAP联机分析 (11) 3.4.UI编排功能 (12) 3.5.丰富的组件 (13) 3.6.多种展示方式 (13) 3.7.外部数据服务 (14) 4.总体设计 (15) 4.1.数据分析 (16) 4.2.设计运行 (16) 4.3.系统管理 (16) 4.4.可视化展示 (16) 5.功能设计 (17) 5.1.数据分析 (17) 多数据源 ..................................................................................... 数据建 模 ..................................................................................... 多维BI分 析 (18) 5.2.设计运行 (20) 文档收集于互联网,已重新整理排版.word版本可编辑.欢迎下载支持. 0文档来源为:从网络收集整理.word版本可编辑.

数据处理平台解决方案设计.pdf

数据处理平台解决方案设计数据采集、处理及信息结构化相关技术 全面的互联网信息采集:支持静态页面和动态页面的抓取,可以设置抓取 网页深度,抓取文件类型,以及页面的特征分析和区块抓取。支持增量更新、 数据源定位、采集过滤、格式转换、排重、多路并发等策略。 -实现企业内外部信息源的自动采集和处理,包括像网站、论坛、博客、文件系统、数据库等信息源 -海量抓取:根据信息不同来源,有效的进行海量不间断抓取,而且不干扰原有业务系统的正常运行 -更新及时:信息采集之后,对于相应的信息更新,要具备灵活的机制,保证内容的质量与完善; -结合权限:结合具体项目的流程,相应的文件都有不同的权限,抓取的时候,能够获得相关权限,以此在前台提供知识服务的同时, 满足对权限的控制; -支持录入多种格式的知识素材,包括文本、表格、图形、图像、音频、视频等。 -支持批量上传多种格式的文档,包括txt、html、rtf、word、pdf、MP3、MPEG等。 -支持采集文档里面的内嵌文档抓取(如word文件里面嵌入visio的图片文件,word的图文框等); -支持对各种压缩文件、嵌套压缩文件的采集; -支持导入Excel、XML、Txt等多种数据源,导入后可自动解析数据源中的知识条目。 -配置好之后可以完全自动化的运行,无需人工干预; -用户可指定抓取网站列表,可进行自定义、删除、更改等操作; -用户可自定义开始时间,循环次数,传送数据库等参数; -自动检测网页链接,可自动下载更新页面,自动删除无效链接; -可设置基于URL、网页内容、网页头、目录等的信息过滤; -支持Proxy模块,支持认证的网站内容抓取;

大数据处理技术的总结与分析

数据分析处理需求分类 1 事务型处理 在我们实际生活中,事务型数据处理需求非常常见,例如:淘宝网站交易系统、12306网站火车票交易系统、超市POS系统等都属于事务型数据处理系统。这类系统数据处理特点包括以下几点: 一就是事务处理型操作都就是细粒度操作,每次事务处理涉及数据量都很小。 二就是计算相对简单,一般只有少数几步操作组成,比如修改某行得某列; 三就是事务型处理操作涉及数据得增、删、改、查,对事务完整性与数据一致性要求非常高。 四就是事务性操作都就是实时交互式操作,至少能在几秒内执行完成; 五就是基于以上特点,索引就是支撑事务型处理一个非常重要得技术. 在数据量与并发交易量不大情况下,一般依托单机版关系型数据库,例如ORACLE、MYSQL、SQLSERVER,再加数据复制(DataGurad、RMAN、MySQL数据复制等)等高可用措施即可满足业务需求。 在数据量与并发交易量增加情况下,一般可以采用ORALCERAC集群方式或者就是通过硬件升级(采用小型机、大型机等,如银行系统、运营商计费系统、证卷系统)来支撑. 事务型操作在淘宝、12306等互联网企业中,由于数据量大、访问并发量高,必然采用分布式技术来应对,这样就带来了分布式事务处理问题,而分布式事务处理很难做到高效,因此一般采用根据业务应用特点来开发专用得系统来解决本问题。

2数据统计分析 数据统计主要就是被各类企业通过分析自己得销售记录等企业日常得运营数据,以辅助企业管理层来进行运营决策。典型得使用场景有:周报表、月报表等固定时间提供给领导得各类统计报表;市场营销部门,通过各种维度组合进行统计分析,以制定相应得营销策略等. 数据统计分析特点包括以下几点: 一就是数据统计一般涉及大量数据得聚合运算,每次统计涉及数据量会比较大。二就是数据统计分析计算相对复杂,例如会涉及大量goupby、子查询、嵌套查询、窗口函数、聚合函数、排序等;有些复杂统计可能需要编写SQL脚本才能实现. 三就是数据统计分析实时性相对没有事务型操作要求高。但除固定报表外,目前越来越多得用户希望能做做到交互式实时统计; 传统得数据统计分析主要采用基于MPP并行数据库得数据仓库技术.主要采用维度模型,通过预计算等方法,把数据整理成适合统计分析得结构来实现高性能得数据统计分析,以支持可以通过下钻与上卷操作,实现各种维度组合以及各种粒度得统计分析。 另外目前在数据统计分析领域,为了满足交互式统计分析需求,基于内存计算得数据库仓库系统也成为一个发展趋势,例如SAP得HANA平台。 3 数据挖掘 数据挖掘主要就是根据商业目标,采用数据挖掘算法自动从海量数据中发现隐含在海量数据中得规律与知识。

大数据处理常用技术有哪些

大数据处理常用技术有哪些? storm,hbase,hive,sqoop.spark,flume,zookeeper如下 ?Apache Hadoop:是Apache开源组织的一个分布式计算开源框架,提供了一个分布式文件系统子项目(HDFS)和支持MapReduce分布式计算的软件架构。 ?Apache Hive:是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,通过类SQL语句快速实现简单的MapReduce 统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。 ?Apache Pig:是一个基于Hadoop的大规模数据分析工具,它提供的SQL-LIKE语言叫Pig Latin,该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。 ?Apache HBase:是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。 ?Apache Sqoop:是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。 ?Apache Zookeeper:是一个为分布式应用所设计的分布的、开源的协调服务,它主要是用来解决分布式应用中经常遇到的一些数据管理问题,简化分布式应用协调及其管理的难度,提供高性能的分布式服务?Apache Mahout:是基于Hadoop的机器学习和数据挖掘的一个分布式框架。Mahout用MapReduce实现了部分数据挖掘算法,解决了并行挖掘的问题。 ?Apache Cassandra:是一套开源分布式NoSQL数据库系统。它最初由Facebook开发,用于储存简单格式数据,集Google BigTable的数据模型与Amazon Dynamo的完全分布式的架构于一身 ?Apache Avro:是一个数据序列化系统,设计用于支持数据密集型,大批量数据交换的应用。Avro是新的数据序列化格式与传输工具,将逐步取代Hadoop原有的IPC机制 ?Apache Ambari:是一种基于Web的工具,支持Hadoop集群的供应、管理和监控。 ?Apache Chukwa:是一个开源的用于监控大型分布式系统的数据收集系统,它可以将各种各样类型的数据收集成适合Hadoop 处理的文件保存在HDFS 中供Hadoop 进行各种MapReduce 操作。 ?Apache Hama:是一个基于HDFS的BSP(Bulk Synchronous Parallel)并行计算框架, Hama可用于包括图、矩阵和网络算法在内的大规模、大数据计算。

数据分析系统APP建设方案

数据分析系统APP 建设方案

文档仅供参考,不当之处,请联系改正。 决策分析系统 APP端建设方案

目录 1. 概述 (5) 1.1. 项目背景 (5) 1.2. 建设目标 (5) 2. 设计方案 (7) 2.1. 系统建设的思路如下: (7) 2.2. 系统架构 (7) 2.3. 运行环境 (7) 2.4. 系统组成 (8) 3. 建设原则 (8) 3.1. 实用性 (8) 3.2. 先进性 (8) 3.3. 前瞻性和整体性 (9) 3.4. 集成性 (9) 3.5. 扩展性 (9) 3.6. 经济性 (9) 3.7. 可管理性和可维护性 (10) 3.8. 安全性 (10) 3.9. 稳定性和可靠性 (10) 3.10. 可重构性 (10) 3.11. 设计规范..................................................... 错误!未定义书签。 4. 架构设计 (11) 5. 功能设计概述 (16)

6. 表样设计 (16)

1.概述 1.1.项目背景 移动互联,是基于“个人移动数字信息终端”(如:手机、平板电脑、PDA等)接入互联网,用户在移动的状态下同时能使用的互联网的业务。移动设备能力不断加强,操作界面不断优化,外观时尚轻薄,能满足8小时以上的连续户外操作的需求,价格也不断下降,智能手机的用户不断增加;同时,随着中国联通、中国电信、中国移动等运营上的3G网络不断发展,覆盖面至少到乡镇一级,理论速度都提升少2M以上;根据摩根(Morgan)的报告,移动互联时代的设备将超过100亿台,一个“人人有手机、时时在移动、处处在互联”的时代,将势不可挡的来临,企业将移动互联网技术应到工作业务中,为工作人员的工作带来方便快捷。 XXXX在建的数据分析系统,为营销工作带来方便快捷的数据查询服务器,为了使用人员能在脱离办公场所在外的地方进行数据查询分析服务,应用移动互联网技术对数据分析系统进行模块升级扩展,建设数据分析系统APP移动客户端,方便使用人员在移动的环境下快速进行获数据查询分析工作,更有效率的开展工作。 1.2.建设目标 将先进的便携终端/移动通讯技术与现代卷烟营销模式紧密结

大数据分析平台技术要求

大数据平台技术要求 1. 技术构架需求 采用平台化策略,全面建立先进、安全、可靠、灵活、方便扩展、便于部署、操作简单、易于维护、互联互通、信息共享的软件。 技术构架的基本要求: 采用多层体系结构,应用软件系统具有相对的独立性,不依赖任何特定的操作系统、特定的数据库系统、特定的中间件应用服务器和特定的硬 件环境,便于系统今后的在不同的系统平台、不同的硬件环境下安装、 部署、升级移植,保证系统具有一定的可伸缩性和可扩展性。 实现B(浏览器)/A(应用服务器)/D(数据库服务器)应用模式。 采用平台化和构件化技术,实现系统能够根据需要方便地进行扩展。2. 功能指标需求 2.1基础平台 本项目的基础平台包括:元数据管理平台、数据交换平台、应用支撑平台。按照SOA的体系架构,实现对我校数据资源中心的服务化、构件化、定制化管理。 2.1.1元数据管理平台 根据我校的业务需求,制定统一的技术元数据和业务元数据标准,覆盖多种来源统计数据采集、加工、清洗、加载、多维生成、分析利用、发布、归档等各个环节,建立相应的管理维护机制,梳理并加载各种元数据。 具体实施内容包括: ●根据业务特点,制定元数据标准,要满足元数据在口径、分类等方面的 历史变化。 ●支持对元数据的管理,包括:定义、添加、删除、查询和修改等操作,

支持对派生元数据的管理,如派生指标、代码重新组合等,对元数据管 理实行权限控制。 ●通过元数据,实现对各类业务数据的统一管理和利用,包括: ?基础数据管理:建立各类业务数据与元数据的映射关系,实现统一 的数据查询、处理、报表管理。 ?ETL:通过元数据获取ETL规则的描述信息,包括字段映射、数据转 换、数据转换、数据清洗、数据加载规则以及错误处理等。 ?数据仓库:利用元数据实现对数据仓库结构的描述,包括仓库模式、 视图、维、层次结构维度描述、多维查询的描述、立方体(CUBE) 的结构等。 ●元数据版本控制及追溯、操作日志管理。 2.1.2数据交换平台 结合元数据管理模块并完成二次开发,构建统一的数据交换平台。实现统计数据从一套表采集平台,通过数据抽取、清洗和转换等操作,最终加载到数据仓库中,完成整个数据交换过程的配置、管理和监控功能。 具体要求包括: ●支持多种数据格式的数据交换,如关系型数据库:MS-SQLServer、MYSQL、 Oracle、DB2等;文件格式:DBF、Excel、Txt、Cvs等。 ●支持数据交换规则的描述,包括字段映射、数据转换、数据转换、数据 清洗、数据加载规则以及错误处理等。 ●支持数据交换任务的发布与执行监控,如任务的执行计划制定、定期执 行、人工执行、结果反馈、异常监控。 ●支持增量抽取的处理方式,增量加载的处理方式; ●支持元数据的管理,能提供动态的影响分析,能与前端报表系统结合, 分析报表到业务系统的血缘分析关系; ●具有灵活的可编程性、模块化的设计能力,数据处理流程,客户自定义 脚本和函数等具备可重用性; ●支持断点续传及异常数据审核、回滚等交换机制。

数据处理平台 技术方案

数据处理平台技术方案 2016年06月

目录 1.项目说明 (1) 1.1 背景 (1) 1.2 术语定义及说明 (1) 2.建设目标和原则 (1) 2.1 建设目标 (1) 2.1.1建设和完善数据处理流程 (1) 2.1.2建设和完善管理平台 (1) 2.1.3建立良好的容错机制 (1) 2.2 设计原则 (2) 2.2.1可靠性 (2) 2.2.2易用性 (2) 2.2.3扩展性 (2) 3.功能需求 (2) 3.1 需求概述 (2) 3.2 功能模块 (3) 3.2.1数据收集 (3) 3.2.2数据清洗 (3) 3.2.3数据存储 (3) 3.2.4对外输出 (3) 3.2.5流程监控 (3) 3.2.6管理平台 (3) 3.3 其他需求 (4) 3.3.1性能需求 (4) 3.3.2可靠性要求 (4) 3.3.3进度计划 (4) 3.3.4故障处理要求 (4) 4.方案总体设计 (4)

4.1 技术路线选择 (4) 4.2 总体架构 (4) 4.2.1架构介绍 (5) 4.2.2数据处理流程 (5) 5.安全设计 (5) 5.1 数据的备份和恢复系统 (5) 5.2 管理层安全 (5)

1.项目说明 1.1背景 因项目数据拆分,***将要创建一套完备的数据管理体系,替换原有的数据处理方式。为用户提供更高效、便捷的服务。 1.2术语定义及说明 2.建设目标和原则 2.1建设目标 2.1.1建设和完善数据处理流程 基于原有的处理流程,采用新技术架构,重构现有处理平台,彻底解决现有平台的问题。 2.1.2建设和完善管理平台 建设和完善管理平台,可以为运维人员提供更好的维护管理的工具,并且能够让管理员可以根据多种数据的不同要求设置出适应数据的处理规则。 2.1.3建立良好的容错机制 建立良好的容错机制,设置更优的数据处理规则,为数据处理提供优质服务。

大数据处理:技术与流程

大数据处理:技术与流程 文章来源:ECP大数据时间:2013/5/22 11:28:34发布者:ECP大数据(关注:848) 标签: “大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。特点是:数据量大(Volume)、数据种类多样(Variety)、要求实时性强(Velocity)。对它关注也是因为它蕴藏的商业价值大(Value)。也是大数据的4V特性。符合这些特性的,叫大数据。 大数据会更多的体现数据的价值。各行业的数据都越来越多,在大数据情况下,如何保障业务的顺畅,有效的管理分析数据,能让领导层做出最有利的决策。这是关注大数据的原因。也是大数据处理技术要解决的问题。 大数据处理技术 大数据时代的超大数据体量和占相当比例的半结构化和非结构化数据的存在,已经超越了传统数据库的管理能力,大数据技术将是IT领域新一代的技术与架构,它将帮助人们存储管理好大数据并从大体量、高复杂的数据中提取价值,相关的技术、产品将不断涌现,将有可能给IT行业开拓一个新的黄金时代。 大数据本质也是数据,其关键的技术依然逃不脱:1)大数据存储和管理;2)大数据检索使用(包括数据挖掘和智能分析)。围绕大数据,一批新兴的数据挖掘、数据存储、数据处理与分析技术将不断涌现,让我们处理海量数据更加容易、更加便宜和迅速,成为企业业务经营的好助手,甚至可以改变许多行业的经营方式。 大数据的商业模式与架构----云计算及其分布式结构是重要途径 1)大数据处理技术正在改变目前计算机的运行模式,正在改变着这个世界:它能处理几乎各种类型的海量数据,无论是微博、文章、电子邮件、文档、音频、视频,还是其它形态的数据;它工作的速度非常快速:实际上几乎实时;它具有普及性:因为它所用的都是最普通低成本的硬件,而云计算它将计算任务分布在大量计算机构成的资源池上,使用户能够按需获取计算力、存储空间和信息服务。云计算及其技术给了人们廉价获取巨量计算和存储的能力,云计算分布式架构能够很好地支持大数据存储和处理需求。这样的低成本硬件+低成本软件+低成本运维,更加经济和实用,使得大数据处理和利用成为可能。

数据展现与分析平台建设方案

数据展现与分析平台建设方案 XXXXXX有限公司 2008-8-20

目录 1工商信息共享平台的重要性 (1) 2数据分析与展现总体目标 (1) 3数据展现平台系统部署要求 (2) 4数据源分析 (2) 5数据展现方法 (3) 5.1展现原则 (3) 5.2展现维度 (3) 5.3展现指标 (3) 6数据模型展现方案 (5) 6.1烟草行业分析模型 (5) 6.1.1品牌分析模型 (5) 6.1.1.1单品牌进销存分析模型 (5) 6.1.1.2商品群进销存分析模型 (6) 6.1.1.3品牌结构分析模型 (7) 6.1.1.4品牌二八分析模型 (8) 6.1.1.5品牌销售异常分析模型 (9) 6.1.1.6品牌成长分析模型 (9) 6.1.1.7单品销售日分析模型 (10) 6.1.1.8产品宽度分析模型 (11) 6.1.1.9品牌贡献度分析模型 (12) 6.1.1.10品牌波士顿矩阵分析模型 (13) 6.1.2库存及配送分析模型 (14) 6.1.2.1库销比分析模型 (14) 6.1.2.2节假日库销比分析模型 (14)

6.1.2.4品牌补货预测模型 (15) 6.1.2.5采购分析模型 (16) 6.1.2.6库存ABC模型 (16) 6.1.2.7库存周转分析模型 (17) 6.1.2.8配送分析模型 (18) 6.1.2.9库存结构分析模型 (18) 6.1.2.10购进分析模型 (19) 6.1.2.11库销预测分析模型 (20) 6.1.3销售分析模型 (20) 6.1.3.1销售计划分析模型 (21) 6.1.3.2销售趋势分析模型 (21) 6.1.3.3销售结构分析模型 (22) 6.1.3.4价格分析模型 (22) 6.1.3.5销售排名分析模型 (23) 6.1.3.6区域经营分析模型 (24) 6.1.4市场营销及市场投放分析模型 (25) 6.1.4.1市场需求总量分析模型 (25) 6.1.4.2品种投放分析模型 (25)

数据分析系统_APP建设方案

决策分析系统APP端建设方案

目录 1. 概述 (3) 1.1. 项目背景 (3) 1.2. 建设目标 (3) 2. 设计方案 (4) 2.1. 系统建设的思路如下: (4) 2.2. 系统架构 (4) 2.3. 运行环境 (5) 2.4. 系统组成 (5) 3. 建设原则 (5) 3.1. 实用性 (5) 3.2. 先进性 (6) 3.3. 前瞻性和整体性 (6) 3.4. 集成性 (6) 3.5. 扩展性 (6) 3.6. 经济性 (6) 3.7. 可管理性和可维护性 (7) 3.8. 安全性 (7) 3.9. 稳定性和可靠性 (7) 3.10. 可重构性 (7) 3.11. 设计规范 (7) 4. 架构设计 (8) 5. 功能设计概述 (12) 6. 表样设计 (13)

1.概述 1.1.项目背景 移动互联,是基于“个人移动数字信息终端”(如:手机、平板电脑、PDA 等)接入互联网,用户在移动的状态下同时能使用的互联网的业务。移动设备能力不断加强,操作界面不断优化,外观时尚轻薄,能满足8小时以上的连续户外操作的需求,价格也不断下降,智能手机的用户不断增加;同时,随着中国联通、中国电信、中国移动等运营上的3G网络不断发展,覆盖面至少到乡镇一级,理论速度都提升少2M以上;根据摩根(Morgan)的报告,移动互联时代的设备将超过100亿台,一个“人人有手机、时时在移动、处处在互联”的时代,将势不可挡的来临,企业将移动互联网技术应到工作业务中,为工作人员的工作带来方便快捷。 XXXX在建的数据分析系统,为营销工作带来方便快捷的数据查询服务器,为了使用人员能在脱离办公场所在外的地方进行数据查询分析服务,应用移动互联网技术对数据分析系统进行模块升级扩展,建设数据分析系统APP移动客户端,方便使用人员在移动的环境下快速进行获数据查询分析工作,更有效率的开展工作。 1.2.建设目标 将先进的便携终端/移动通讯技术与现代卷烟营销模式紧密结合,不断提升卷烟营销运作、管理和决策支持水平。 (1)在管理决策层面,及时掌握卷烟营销情况,为决策、调度提供信息依据。充分利用营销业务数据库、经营分析数据库等为领导层搭建宏观层面的监控

大数据处理技术ppt讲课稿

大数据处理技术ppt讲课稿 科信办刘伟 第一节Mapreduce编程模型: 1.技术背景: 分布式并行计算是大数据(pb)处理的有效方法,编写正确高效的大规模并行分布式程序是计算机工程领域的难题:分布式并行计算是大数据(pb)处理的有效方法,编写正确高效的大规模并行分布式程序是计算机工程领域的难题。并行计算的模型、计算任务分发、计算机结果合并、计算节点的通讯、计算节点的负载均衡、计算机节点容错处理、节点文件的管理等方面都要考虑。 谷歌的关于mapreduce论文里这么形容他们遇到的难题:由于输入的数据量巨大,因此要想在可接受的时间内完成运算,只有将这些计算分布在成百上千的主机上。如何处理并行计算、如何分发数据、如何处理错误?所有这些问题综合在一起,需要大量的代码处理,因此也使得原本简单的运算变得难以处理,普通程序员无法进行大数据处理。 为了解决上述复杂的问题,谷歌设计一个新的抽象模型,使用这个抽象模型,普通程序员只要表述他们想要执行的简单运算即可,而不必关心并行计算、容错、数据分布、负载均衡等复杂的细节,这些问题都被封装了,交个了后台程序来处理。这个模型就是mapreduce。 谷歌2004年公布的mapreduce编程模型,在工业、学术界产生巨大影响,以至于谈大数据必谈mapreduce。 学术界和工业界就此开始了漫漫的追赶之路。这期间,工业界试图做的事情就是要实现一个能够媲美或者比Google mapreduce更好的系统,多年的努力下来,Hadoop(开源)脱颖而出,成为外界实现MapReduce计算模型事实上的标准,围绕着Hadoop,已经形成了一个庞大的生态系统 2. mapreduce的概念: MapReduce是一个编程模型,一个处理和生成超大数据集的算法模型的相关实现。简单的一句话解释MapReduce就是“任务的分解与结果的汇总”。MapReduce从它名字上来看就大致可以看出个缘由,两个动词Map和Reduce,“Map(展开)”就是将一个任务分解成为多个任务,“Reduce”就是将分解后多任务处理的结果汇总起来,得出最后的分析结果。 mapreduce成功的最大因素是它简单的编程模型。程序员只要按照这个框架的要求,设计map和reduce函数,剩下的工作,如分布式存储、节点调度、负载均衡、节点通讯、容错处理和故障恢复都由mapreduce框架(比如hadoop)自动完成,设计的程序有很高的扩展性。所以,站在计算的两端来看,与我们通常熟悉的串行计算没有任何差别,所有的复杂性都在中间隐藏了。它让那些没有多少并行计算和分布式处理经验的开发人员也可以开发并行应用,开发人员只需要实现map 和reduce 两个接口函数,即可完成TB级数据的计算,这也就是MapReduce的价值所在,通过简化编程模型,降低了开发并行应用的入门门槛,并行计算就可以得到更广泛的应用。 3.mapreduce的编程模型原理 开发人员用两个函数表达这个计算:Map和Reduce,首先创建一个Map函数处理一个基于key/value pair的数据集合,输出中间的基于key/value pair的数据集合,然后再创建一个Reduce函数用来合并所有的具有相同中间key值的中间value值,就完成了大数据的处理,剩下的工作由计算机集群自动完成。 即:(input) ====> map(k1,v1) ->list(k2,v2) ===> combine---> => reduce(k2,list(v2)) ->list(v2) >(output)

最新石油行业大数据分析平台方案

石油行业大数据分析 平 台 方 案

目录 一数据管理的现状 (1) 二石油行业大数据分析的概述 (2) (一)石油行业大数据分析概念 (2) (二)石油行业大数据分析目标 (3) 三石油行业大数据分析体系 (3) 四石油行业大数据分析核心领域 (4) (一)数据模型 (4) (二)数据生命周期 (5) (三)数据标准 (6) (四)主数据 (8) (五)数据质量 (9) (六)数据服务............................................................................................ 1 1 (七)数据安全............................................................................................ 1 2 五石油行业大数据分析保障机制 (13) (一)制度章程............................................................................................ 1 3 (1) 规章制度............................................................................................ 1 3 (2) 管控办法............................................................................................ 1 3 (3) 考核机制............................................................................................ 1 3 (二)石油行业大数据分析组织....................................................................... 1 5

大数据处理技术研究(DOC 24页)

大数据处理技术研究(DOC 24页)

郑州轻工业学院 课程设计说明书 题目:大数据处理技术研究 姓名:王超田启森 院(系):计算机与通信工程 专业班级:计算机科学与技术 学号:541007010138 541007010137 指导教师:钱慎一 成绩: 时间:2013年6月26 日至2013 年 6 月27日

目录

图一 3. 大数据定义: “大数据”是一个涵盖多种技术的概念,简单地说,是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。IBM将“大数据”理念定义为4个V,即大量化(Volume)、多样化(Variety)、快速化(Velocity)及由此产生的价值(Value)。如图二; 图二 4. 大数据技术的发展: 大数据技术描述了一种新一代技术和构架,用于以很经济的方式、以高速的捕获、发现和分析技术,从各种超大规模的数据中提取价值,而且未来急剧增长的数据迫切需要寻求新的处理技术手段。如图三所示:

图三 在“大数据”(Big data)时代,通过互联网、社交网络、物联网,人们能够及时全面地获得大信息。同时,信息自身存在形式的变化与演进,也使得作为信息载体的数据以远超人们想象的速度迅速膨胀。 云时代的到来使得数据创造的主体由企业逐渐转向个体,而个体所产生的绝大部分数据为图片、文档、视频等非结构化数据。信息化技术的普及使得企业更多的办公流程通过网络得以实现,由此产生的数据也以非结构化数据为主。预计到2012年,非结构化数据将达到互联网整个数据量的75%以上。用于提取智慧的“大数据”,往往是这些非结构化数据。传统的数据仓库系统、BI、链路挖掘等应用对数据处理的时间要求往往以小时或天为单位。但“大数据”应用突出强调数据处理的实时性。在线个性化推荐、股票交易处理、实时路况信息等数据处理时间要求在分钟甚至秒级。 全球技术研究和咨询公司Gartner将“大数据”技术列入2012年对众多公司和组织机构具有战略意义的十大技术与趋势之一,而其他领域的研究,如云计算、下一代分析、内存计算等也都与“大数据”的研究相辅相成。Gartner在其新兴技术成熟度曲线中将“大数据”技术视为转型技术,这意味着“大数据”技术将在未来3—5年内进入主流。 而“大数据”的多样性决定了数据采集来源的复杂性,从智能传感器到社交网络数据,从声音图片到在线交易数据,可能性是无穷无尽的。选择正确的

大数据分析及其技术的关键

大数据分析及其技术的关键 关于大数据分析,现实的情况是,说的人很多,鼓吹其神奇价值的喧嚣声浪很高,却鲜见其实际运用得法的模式和方法。造成这种窘境的原因无外乎有二:一是对于大数据分析的价值逻辑尚缺乏足够深刻的洞察;二是大数据分析中的某些重大要件或技术还不成熟。 比如,提到大数据的大,一般人认为指的是它数据规模的海量――随着人类在数据记录、获取及传输方面的技术革命,造成了数据获得的便捷与低成本,这便使原有的以高成本方式获得的、描述人类态度或行为的、数据有限的小数据变成了一个巨大的、海量规模的数据包。这其实是一种不得要领、似是而非的认识。其实,前大数据时代也有海量的数据集,但由于其维度的单一,以及和人或社会有机活动状态的剥离,而使其分析和认识真相的价值极为有限。大数据的真正价值不在于它的大,而在于它的全――空间维度上的多角度、多层次信息的交叉复现;时间维度上的与人或社会有机体的活动相关联的信息的持续呈现。 以数据的交叉复现对于还原真相的价值为例:一个家住北京的男人借去杭州出差的机会到上海与情人幽会,回到北京后怕被老婆发现把相关的短信、微信、通话记录统统都删

除掉,但他老婆如果掌握了大数据分析方法的话便很容易获得真相:查询酒店的开房记录、刷卡消费的记录、甚至他在上海期间一不留神转发的一条微博都可能透露出的位置信息。正如《大数据时代》中所引述的,一个孕妇的口味及消费模式等是有一定规律的,单一一条信息并不足以判定你的状态,但关于你的不同来源的数据集合一旦与孕妇特型(如果我们掌握了这个分析模型的话)高度相关,人们便很容易对你的真实状态进行一种准确的判断而不管你自己承认或者不承认。 再举个例子,面对今天社会舆情态势,常常有人感慨:“造谣的成本很低,辟谣的成本却很高”,抱怨现在的网络给造谣者造谣、传谣带来的极大便利以及人民群众过于轻信和弱智。如果我们用某个事件的数据、单一的和静态截面上的数据去观察和分析这个问题的时候,真的可能得出上述这样一种结论。但是,如果我们从社会传播的总体信息构造上分析,会发现流言或谣言的猖獗不正在于掌握了社会信息传播主渠道的那些部门的不作为、甚至蒙蔽真相所造成的吗?再有,或许你在这个地方、这件事上没有蒙蔽真相,道出的是实情;但如果你或你的同类机构、同类官员在其他事情、其他场合上有过种种蒙蔽真相、文过饰非、官官相护甚至动用官方的强力以“辟谣”的方式制造假象的劣迹,人民群众在一次次被蒙蔽甚至被欺骗后,还会一如既往地相信你、依

相关文档
相关文档 最新文档