文档库 最新最全的文档下载
当前位置:文档库 › (VR虚拟现实)虚拟化存储系统

(VR虚拟现实)虚拟化存储系统

(VR虚拟现实)虚拟化存储系统
(VR虚拟现实)虚拟化存储系统

(VR虚拟现实)虚拟化存

储系统

虚拟化存储系统

华中科技大学

集群与网格计算湖北省重点实验室

信息存储系统教育部重点实验室

2003年12月

1.课题研究背景

当今社会,信息正以超乎人们想象的速度增长,这对信息存储系统的容量和速度提出了空前的要求,由此引发的各种问题也随之而来。人们对信息数据日益广泛的需求导致存储系统的规模变得越来越庞大,管理越来越复杂,信息资源的爆炸性增长和管理能力的相对不足之间的矛盾日益尖锐。同时,这种信息资源的高速增长也对存储系统的可靠性和扩展性提出了挑战,信息资源的共享也显得越来越重要。

在广域网中存在大量相互独立的数据孤岛,它们之间的数据资源不能共享,存储空间不能得到有效使用,数据的传输性能不足。存储虚拟化是指将用户看到的存储资源同具体的物理存储设备分隔开来,为存储用户提供统一的虚拟存储池。它是具体存储设备或存储系统的抽象,展示给用户一个逻辑视图,同时将应用程序和用户所需要的数据存储操作和具体的存储控制分离。存储虚拟化的任务首先是在多个物理存储设备或存储系统上创建一个抽象层,屏蔽复杂性,简化管理;其次是对存储资源进行优化。本课题研究了广域网范围和存储局域网(SAN)内部的存储虚拟化技术,以及支撑这种技术的文件系统。

据统计,在企业网、局域网内部采用分布式存储技术的企业,其存储服务器、磁盘阵列甚至PC的存储空间利用率一般只达到50%,很多设备甚至还达不到,

用户投资被大量浪费。由于文件服务器系统缺乏对并行I/O的支持,在大量用户访问或遭到恶意访问攻击时,系统将很快达到饱和而无法完成服务。通过存储虚拟化技术,不仅可以简化异构存储管理的复杂性,更可以高效充分地利用存储空间。通过在互连网络环境中引入分布式RAID功能,能够实现数据有效备份和容灾,提高信息的安全可靠性。通过将三级存储设备虚拟为二级存储,可以为用户提供快速海量存储。

局域网的网络存储技术基本上可以分NAS和SAN两大类,而NAS和SAN 又各有其优缺点。因此,提供一种技术将NAS和SAN统一整合起来是一个很有意义的研究课题。

在由高速串行SCSI接口构建的SAN中,如果没有SAN管理软件的管理和调度,只要存在两台主机,就必然存在共享冲突的问题,存储设备就无法正常工作,光纤通道的优点就无法体现出来。相反,如果SAN管理软件管理调度得当,FC所具有的优势就能被充分发挥出来,在此基础上,还可在系统中增添如并行存储、负载平衡和数据迁移等功能,将使系统具有非常高的性能,全方位解决在信息高速公路中服务器存储系统的瓶颈问题。

SAN的管理问题,已成为当前学术界和产业界最为重要的一个热点。但是,目前处于领先地位的Veritas、IBM和HP等国外著名公司的SAN管理软件产品,多采用静态/动态配置的分布式管理策略,即把存储网络中的存储设备集合成为磁盘池(diskpool)并划分为卷(Volume)空间后把各卷配置给SAN中的各台主机,卷只能被其拥有主机进行读写操作,不同主机之间不能直接共享同一卷中的数据,而只能通过传统文件服务器的C-S模式共享卷中的数据。采用配置文件进行分布式管理的SAN系统实现了存储设备和存储空间的共享,但还不具备文

件共享和元数据共享的能力。

随着客户对数据的依赖性迅猛增长,数据存储的可靠性和可用性正日益成为企业信息化进程中的一个关键环节。而文件系统作为连接底层物理磁盘与上层应用层之间的纽带,在信息存储中起着至关重要的作用,如何为文件系统提供故障恢复功能以及如何提高文件系统的可用性成了目前亟待解决的关键问题。

在863项目“存储虚拟化及其文件系统研究”的资助下,我们对存储虚拟化及其相关技术进行了深入研究。经过两年的探索、研究和开发,本项目组成功研制了虚拟化存储系统。

2.系统总体结构

虚拟化存储系统可以将分布在互联网上的各种存储资源整合成具有统一逻辑视图的高性能存储系统,因此又成为GDSS (GlobalDistributedStorageSystem)系统。整个系统主要包括存储服务点SSP(StorageServicePoint)、全局命名服务器GNS(GlobalNameServer)、资源管理器RM(ResourceManager)、认证中心CA(CertificateAuthority)、客户端、存储代理SA(StorageAgent)以及可视化管理,如图1所示。

SSP是整个系统的入口,对系统所有模块的访问都通过SSP,它主要提供FTP接口、CA接口、RM接口和GNS接口;系统中SSP的个数可以根据需要动态增加;SSP接管了传统方案中GNS的部分功能,减轻了GNS的负载,提高了系统的可扩展性。

GNS负责系统的元数据管理,主要包括元数据操作接口、元数据容错系统、元数据搜索系统。

RM包括资源调度模块和副本管理模块,其主要负责资源的申请和调度,同时提供透明的副本创建和选择策略。副本技术减少了文件数据访问延迟和带宽消耗,有助于改善负载平衡和可靠性。尤其是动态的副本创建机制,即自动的选择存储点以创建副本,并根据用户的特征而自动变化创建策略,为副本机制提供了更高的灵活性。

客户端目前支持三种形式:通用FTP客户端、文件访问接口和特制客户端。用户通过系统提供的特制客户端,不但能够进行用户组操作,具有搜索和共享等功能,还可以获得更高性能的服务。

CA包含证书管理系统,主要负责系统的安全性和数据的访问控制,同时它记录了用户的注册信息。

SA屏蔽了存储资源的多样性,为系统提供统一存储访问接口,同时提供了文件操作方式和扩展的FTP操作方式,另外它对文件复制管理操作提供支持,为高效传输提供服务。同时SA这一级实现了局域存储资源的虚拟化,包括统一SAN和NAS,分布式的磁盘虚拟化、磁带库虚拟化和SAN内部共享管理等。

图1:虚拟化存储系统整体架构

3.系统功能及关键技术

GDSS系统的功能模块划分如图2所示。

图2:系统功能模块图

3.1多样的数据访问接口

GDSS系统为终端用户提供形式多样的访问方式:

1.标准FTP协议的服务。

2.特定的GDSP协议的服务。

3.兼容MPII/O文件读写接口。

4.客户端的类Java文件I/O。

5.GDSS图形客户端。

终端用户的服务访问点是SSP。SSP采用协议分离的层次式结构,支持三方数据传输,并具有平台无关、语言无关的特性。

3.2元数据管理和容错

元数据管理涉及的关键研究内容包括:定义元数据信息,包括存储资源、文件、用户等信息;元数据服务器的扩展;基于用户的资源分配方案,系统提供基于用户的资源存储视图,实现逻辑文件名与物理文件位置的分离及映射功能;元数据信息与其他相关应用的兼容性;元数据信息的检索;元数据服务器性能的优化。采用LDAP目录服务器(DS)来进行元数据的组织管理。

元数据是描述数据的数据,一旦丢失,影响全局,因此需要对其容错功能进行研究。元数据的数据量相对较小,所以本系统采用多副本对元数据进行容错。不同的用户有不同的权限,可以对其元数据要求不同的安全级别。对于安全级别比较高的元数据,可以分配较多的副本。

3.3全局范围内的数据共享与访问控制

虚拟化存储系统的一个首要目的是消除分布在广域范围内的多个信息孤岛,在更大范围内更好地实现数据共享,从而尽可能地使用户找到他想得到的数据。数据资源的共享要实现两个目标:a.数据在两个用户之间的交流共享;b.数据同时在多个用户之间的交流共享。由数据共享所引申出来的一个问题是数据的访问控制。不同的用户对共享的数据具有不同的访问权限,必须把用户限制在他所能操作的数据和所能实施的权限上。

GDSS系统的物理存储资源以域的形式来划分。每个域都是一个自治的资源实体,可以设定自己的资源使用策略和对外服务提供策略。GDSS系统负责把这些物理资源实体组织和管理起来对终端用户提供统一的存储服务。这里,我们把GDSS系统的资源使用者称为终端用户。现实世界中的实体可以根据自己的资源需要和不同域所能提供的资源服务类型,来选定一个域进行注册。然后他就可以使用GDSS系统的数据资源和存储资源。GDSS系统引入一个新的概念,存储服务点(SSP)。GDSS系统提供许多分散的SSP,它们独立于所有的域,是用户访问存储资源的入口。SSP向最终用户提供数据存储服务,并负责和所有域的GNS 和SA进行控制交互。

3.4全局统一的文件名字空间

文件命名空间用于帮助用户如何发现一个存在于特定位置的数据文件。名字空间通常有两种实现方法:一是建立一个完全全局统一的名字空间,所有的用户可以看到系统中的所有数据文件;二是多名字空间系统,不同的用户或不同位置使用的名字空间不同,可以访问数据资源也有所不同。虚拟化存储系统中存在大量分散的用户和大量分散的数据,如何建立一个文件命名机制是一个重要问题。它必须实现文件定位的高效率、位置透明性和访问透明性。

GDSS系统的名字空间结合了单一名字空间和多名字空间的特点,建立了一个全局统一的文件命名空间,对所有的用户提供相同的文件命名、定位和访问机制。同时针对不同的用户的兴趣,为他们提供不同的数据视图,这样,系统针对特定用户要维护的元数据信息也相应减少从而提供了数据定位的效率。

整个GDSS系统的物理资源由分散的多个自治域构成,但给用户提供的名字空间是逻辑的,以屏蔽数据物理位置的分散性,实现数据的透明访问。就是说,用户对数据文件的各种访问操作都是在逻辑名字空间上进行的。SSP负责逻辑名字空间的构建,而SSP与域中的GNS和RM来共同完成数据文件的完全逻辑限定名到实际数据物理位置的转换。

3.5数据副本管理技术

GDSS系统提供数据副本管理技术。主要的研究内容有:副本创建的时机;副本创建的策略;副本的更新时机;副本的替换的时机;副本的选择的策略;副本的传输。

GDSS系统动态副本模型主要由副本目录、资源管理器、访问纪录器、副本

管理器、副本传输器等五部分构成。其中,副本目录提供文件和对象的逻辑名字到具体物理存储位置之间的映射;资源管理器负责存储资源的调度分配和管理,收集域内存储系统的物理属性,资源管理器同时充当着资源选择器的角色;访问记录器记录本域或远域用户对文件的访问情况,如访问用户、用户所在域、文件访问时间、文件大小、访问回复延迟;副本管理器是整个副本模型的中枢,可以对副本目录进行条目的添加、删除、更新操作,并监控和触发副本实际过程。

3.6数据安全

如何保证数据不会被越权访问是存储虚拟化所面临的关键问题之一。GDSS 采用访问控制和安全认证相结合的方式保证数据的安全。访问控制在前面已经介绍过,本节介绍系统的安全认证架构。GDSS综合考虑Kerberos私钥认证方式和PKI公钥认证方式两者的特点,并将其有效结合,提供了一种能够适应广域网环境下身份认证和授权访问要求的安全模型,具有以下优点:

1.通过使用层次CA认证架构在广域全局范围内发放证书。同时,密钥的

管理、分配、存储都采用证书的方式。

2.实现了一次性签放的机制,所有签放票据都有一个有效期。

3.使用访问控制服务器,有效加强本地域内安全策略的实施。

4.支持双向的身份认证。

3.7数据传输

虚拟化存储系统需要一种高效可靠的数据传输机制以支持大量数据的移动、传输和复制,这种传输机制具有以下几种功能:

1.快速数据传输:可以采用并行数据传输,分块传输和流水线技术等多种

机制来保证;

2.分块数据传输:由于系统的数据是广泛分布的,所以需要支持多个数据

块的并发数据传输;

3.部分数据传输:可以支持断点续传;

4.第三方数据传输:由于应用和数据都是分布式的,许多应用需要用到多

个资源,所以必须提供一种机制,允许一个地点的用户或应用能够启动、

监视和控制其他两个地点存储系统的数据传输,为应用使用多个地点的

资源提供保障;

为了保证存储虚拟化中数据的高效、可靠传输,我们在SSP、SA、Client 和文件访问接口里面都插入了传输控制模块。

3.8文件访问接口

GDSS系统向用户提供文件系统访问接口,同时系统提供对MPI-IO的支持。文件接口由多个功能模块组成,例如文件打开模块、文件读模块、文件写模块、文件定位模块、文件大小截取模块、文件flush模块、文件删除模块和文件关闭模块。ROMIO是MPI-IO规范的一个高性能、可移植实现。ADIO (Abstract-DeviceInterfaceforParallelI/O)是ROMIO的一个关键部分,它不是提供给编程人员的新的APIs,而是实现其他APIs的一种策略。ADIO在不同的文件系统上实现,提供一组最基本的并行I/O访问的函数。ROMIO对GDSS 系统的操作是先将操作转化为ADIO层对文件的操作,之后转化为GDSS系统对其文件的操作。

相关文档