文档库 最新最全的文档下载
当前位置:文档库 › 分布式存储——大数据中心建设解决方案研究

分布式存储——大数据中心建设解决方案研究

本栏目责任编辑:王力

数据库与信息管理

分布式存储——大数据中心建设解决方案研究

王晶晶

(31008部队,北京10000)

摘要:随着大数据技术的发展,新型数据中心的建设面临着投资规模、数据来源、信息安全等方面的挑战,该文提出了分布

式存储建设方案,为基于大数据和云计算的新型数据中心建设提供新的模型。关键词:大数据;数据中心建设;分布式存储中图分类号:TP311文献标识码:A 文章编号:1009-3044(2017)11-0014-03

随着计算机技术和信息技术的飞速发展,人类已经进入大

数据时代。什么是大数据?大数据指的是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。某种程度说,大数据是数据分析的前沿技术,其最核心的价值是在于对海量数据进行存储和分析。业界将其归纳为4个V ——Volume (数据体量大)、Variety (数据类型繁多)、Velocity (处理速度快)、Value (价值密度低)。[1]随着信息爆炸的到来,大数据时代引发了重大的社会变革。传统的数据中心已经无法适应大数据时代的要求,新型数据中心的建设面临更大挑战。如何适应新技术的发展、尽快实现数据中心建设对大数据应用的环境支撑,是当前亟待解决的问题。

新型数据中心主要实现对大数据产品的支撑,包括基础数据汇总、数据计算、数据产品发布。其中,数据汇总是基础,数据计算是核心,数据产品发布是实现大数据成果的转化。为实现大数据的高效利用,数据中心应该将投入重点放在数据计算上,但基础数据的存储环境建设在传统数据中心建设中往往需要很高投入。如何解决这方面的矛盾,是新型大数据中心建设的研究主要方面。

1数据中心建设面临的难点

传统的数据中心主要以服务器为主,集中存储设备主要用于容灾备份,随着互联网技术的发展,网络产品深度开发,对数据分析的需求不断提高。作为数据分析的基础,数据存储量不断提高,需要大量的数据存储设备,传统的数据中心环境配置方案已经不能支撑当前飞速发展的大数据技术应用。由于本地存储能力不能适应不断增长的数据量,导致大数据计算能力无法体现,大数据的应用无法规模化。

作为大数据建设的基础,新型大数据中心建设面临新的挑战。数据中心的建设存在以下几个难点:1.1数据中心的规模设计

一个要承载政府级数据汇总和数据产品提供功能的数据

中心,要将所需数据都存储在本地,规模要保证在大型数据中心的标准以上。而且,当今社会随着物联网、云计算技术的发展,数据量以前所未有的速度发展,数据中心的规模冗余计算

是更大的挑战。如此大规模的数据中心建设面临着诸多困难。首先由于占地规模大,选址方案需要得到政府支持。制冷方案也需要探索,集装箱式制冷不适合,空气制冷成本太高,循环水制冷对于建筑群的统一制冷还没有标准。大型数据中心的运维监控系统建设和维护成本都很高。为适应大数据应用,新型数据中心需要研究新的设备配比方案,数据存储设备的比例需要大幅提高。另外,数据中心网络出口的带宽要求很高,提高了运维成本。1.2数据中心的数据来源

更多的基础数据意味着更精确更高效的数据产品。数据来源多种多样,除了已有的传统数据,还有不到增加的物联网数据。数据格式也多种多样,文本、音频、视频数据等,尤其是视频数据在当今社会生活中使用越来越广泛。这些就对数据的存储需求提出了更高要求。传统的数据中心将各种数据存储在本地,数据的存储设备数量和冗余量都是巨大的,数据转移的时间和更新的速度也是影响数据质量的关键因素。1.3数据信息的安全

环境破坏,将数据存储在本地,地震、火灾等物理破坏会造成无法恢复的数据丢失。信息破解,一旦本地数据管理员的信息被获取,所有的数据都将面临泄露的危险。网络破坏,对集中存储的数据网络出口进行攻击也将造成数据信息的整体破坏。

2分布式存储

根据以上关键问题和目前数据中心建设的技术现状,本文提出大数据建设的新的解决方案——分布式存储。

分布式存储简单地说就是将数据分成若干部分,存储在不同的位置。分布式存储分为两种方式。举例说明,下面的表格数据按照分布式存储方式存储。

如表1所示,同一行的每个特征数据是直接相关联的,而同一列的数据是没有直接关联性的。

存储方式一,将具有直接关联性的信息存在相同位置,例如将辽河流域的水质信息存储在位置甲,形成数据表“辽河流域2016年第44周水质状况表”,如表2所示。。

收稿日期:2017-03-20

14

DOI:10.14004/https://www.wendangku.net/doc/b88281221.html,ki.ckt.2017.1182

相关文档
相关文档 最新文档