文档库 最新最全的文档下载
当前位置:文档库 › 2018年大数据行业深度分析报告

2018年大数据行业深度分析报告

2018年大数据行业深度分析报告

正文目录

1.大数据时代,演绎第三次浪潮的华彩乐章 (4)

1.1.大数据的定义 (4)

1.2.为什么要研究大数据? (6)

1.3.大数据发展的基础:数据积累、算力提升、技术创新 (7)

2.大数据发展全球加码,广阔空间蕴含商机无限 (7)

3.大数据产业链:数据为源、分析为核、应用为王 (11)

3.1.数据来源:政府、BA T、运营商等是当前大数据的主要拥有者 (12)

3.2.数据管理与分析:存储是支撑、安全是保证、分析是核心 (12)

3.2.1 数据处理框架:Hadoop、Spark是应用较为广泛的两种框架 (12)

3.2.2 数据处理算法:受益人工智能,神经网络算法关注度再次高涨 (19)

3.3.数据应用:应用是完成产业商业化目标,实现价值的终点 (26)

4.投资建议 (28)

5.风险提示 (35)

图表目录

图表1:大数据5V特性 (4)

图表2:大数据发展历程 (5)

图表3:大数据搜索指数趋势(百度) (5)

图表4:大数据贡献列举 (6)

图表5:全球数据规模 (7)

图表6:数据的重要性归类 (7)

图表7:美欧日韩关于大数据的主要政策(非完全统计) (8)

图表8:全球大数据核心产业规模(亿美元) (8)

图表9:国内大数据相关政策(非完全统计) (9)

图表10:中国大数据市场产值 (10)

图表11:大数据核心产业规模 (10)

图表12:中国大数据领域投融资金额 (10)

图表13:中国大数据领域投融资轮次分布(次) (10)

图表14:2012-2016各产业项目融资情况(单位:亿元) (11)

图表15:大数据产业链图谱 (11)

图表16:大数据处理框架(非完全统计) (13)

图表17:Hadoop物理结构 (14)

图表18:单点物理结构 (14)

图表19:Hadoop MapReduce运行流程 (14)

图表20:MapReduce示例(统计单词) (14)

图表21:HaDoop2.0引入YARN (15)

图表22:YARN运行流程 (15)

图表23:Hadoop特性 (16)

图表24:Spark框架构成 (17)

图表25:基于YARN的Spark架构(类MR-YARN) (17)

图表26:Spark作业处理调度框架 (17)

图表27:Spark特性 (18)

图表28:Spark在各领域的应用 (18)

图表29:评定算法优劣的依据 (19)

图表30:大数据处理算法(非完全统计,由于神经网络算法近来关注度较高故单列)

(20)

图表31:神经网络处理单元模型(神经元) (21)

图表32:神经网络算法发展历程 (21)

图表33:BP算法结构图(3层) (22)

图表34:RNN循环展开结构 (22)

图表35:LSTM隐含单元结构 (23)

图表36:卷积理念推演 (24)

图表37:CNN经典结构(LeNet-5,Yann LeCun,1998) (24)

图表38:Kohonen网络基本结构(二维平面线阵) (25)

图表39:领域示意图(可以是正方形或六角形等形状) (26)

图表40:中国大数据应用领域企业 (26)

图表41:中国政府大数据应用市场规模 (27)

图表42:中国医疗大数据应用市场规模 (28)

图表43:四维图新位置大数据服务 (29)

图表44:四维图新历年经营情况 (30)

图表45:四维图新分业务毛利情况(2017,亿元) (30)

图表46:中科曙光历年经营情况 (31)

图表47:中科曙光分业务毛利情况(2017,亿元) (31)

图表48:海康AI Cloud核心理念 (32)

图表49:海康AI Cloud产品家族 (32)

图表50:海康威视历年经营情况 (32)

图表51:海康威视分业务毛利情况(2017,亿元) (32)

图表52:美亚柏科历年经营情况 (33)

图表53:美亚柏科分业务毛利情况(2017,亿元) (33)

图表54:创业软件历年经营情况 (34)

图表55:创业软件分业务毛利情况(2017,亿元) (34)

1. 大数据时代,演绎第三次浪潮的华彩乐章

1.1. 大数据的定义

对于大数据,Gartner 给出的定义是需要运用新处理模式才能具有更强的决策力、

洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。维克托·迈尔-

舍恩伯格及肯尼斯·库克耶编写的《大数据时代》提出,大数据不是随机样本,而是

全体数据;不是精确性,而是混杂性;不是因果关系,而是相关关系。

大数据具备V olume (大量)、Velocity (高速)、Variety (多样)、Value (低价值密

度)、Veracity (真实性)的特点(IBM )。随着信息技术不断发展,互联网快速普及,

与人们的生产、生活日益紧密,全球数据亦呈现倍数级增长的特点,对经济发展、社

会治理、国家管理、人民生活都产生了重大影响。

图表1:大数据5V 特性

来源:艾瑞咨询、百度百科、国联证券研究所 1980年,著名未来学家阿尔文·托夫勒在其著作《第三次浪潮》中,将“大数据”

描绘为“第三次浪潮的华彩乐章”。

2003年《The Google File System 》、2004年《MapReduce: Simplified Data Processing

on Large Clusters 》、2006年《Bigtable: A Distributed Storage System for Structured Data 》

谷歌大数据三大论文发布,以及2005年Hadoop 项目的诞生,使得大规模处理结构

化、半结构化、非结构化数据1的廉价方案成为可能,为大数据产业的快速普及创造

了基础条件。

2008年,大数据得到部分美国知名计算机研究人员认可。业界组织计算社区联

1 结构化数据:能用数据或统一结构加以表示,如数字、符号。半结构化数据:介于结构化数据与非结构化数据之间,和普通纯文本相比,半结构化数据具有一定的结构性,但和具有严格理论模型的关系数据库数据相比,半结构化的数据结构变化又很大,如HTML 、XML 文档。非结构化数据:无法用数字或统一结构表示的信息,如图像、声音、视频等。(参考易观智库)

数据量大:IDC 预计到2020年,全球创建和复制的信息量将达到44ZB ,中国数据量将超过8ZB

数据流转快:1秒定律,要在秒级

时间范围内给出分析结果,超出

这个时间,数据就失去价值了

价值密度低:海量数据中,如何通

过强大的机器算法,更迅速有效地

完成数据的价值“提纯”,已成为目

前大数据背景下亟待解决的难题

数据类型多:除文本为主的结构化数据、网页数据为代表的半结构数据,也存在大量网络日志、音频、视频、图片、地理位置信息等非结构化数据 数据真实:大数据中的内容是与

真实世界生息息相关的,研究大

数据就是从庞大的网络数据中提

取出能够解释和预测现实事件的

过程

盟(Computing Community Consortium)发表白皮书《大数据计算:在商务、科学和

社会领域创建革命性突破》,详尽阐述了大数据对社会治理的推动作用,及其潜在的

商业价值。大数据正式进入世界最具有价值和影响的技术行列。

2009年,美国政府为构建开放、透明机制,启动https://www.wendangku.net/doc/3d15505054.html,网站向公众开放多种政府数据,包括交通、经济、医疗、教育和人口服务等。2012年,https://www.wendangku.net/doc/3d15505054.html,已累积来

自172个政府机构的数据集,数量从2009年的47个暴增至40万个以上,催化美国

政府推出相关政策,加速大数据技术发展。

至此,大数据产业迎来其发展的大时代。

图表2:大数据发展历程

来源:亿欧智库、国联证券研究所

图表3:大数据搜索指数趋势(百度)

来源:百度、国联证券研究所

相关文档
相关文档 最新文档