文档库 最新最全的文档下载
当前位置:文档库 › XX大数据融合服务平台建设方案

XX大数据融合服务平台建设方案

XX地区大数据融合服务平台

建设方案

云计算中心有限公司

2018.04

目录

1术语定义 (1)

2需求分析 (2)

3平台定位 (3)

4项目总体框架设计 (3)

4.1项目总体架构 (3)

4.1.1总体架构图 (3)

4.1.2架构优势 (4)

4.1.3建设内容 (4)

5项目重难点分析 (6)

5.1数据的准确性是项目的立身之本 (6)

5.2相关标准与规范的统一是核心 (6)

5.3应用拓展是项目发展的动力 (7)

5.4项目管理是项目成功的基本保障 (7)

6数据库设计 (8)

6.1数据库设计原则 (8)

6.2 数据库相关命名规则 (9)

6.3数据库表建设思路 (11)

7功能详细设计 (12)

7.1数据交换层设计 (12)

7.1.1交换桥接子系统 (12)

7.1.2前置交换子系统 (14)

7.2数据服务层设计 (15)

7.2.1数据清洗 (15)

7.2.2数据比对 (16)

7.2.3异常数据反馈 (17)

7.2.4数据融合 (17)

7.2.5数据仓库 (18)

7.3数据应用层设计 (21)

7.3.1信息资源门户 (21)

7.3.2基础数据查询 (21)

7.3.3基础数据统计分析 (23)

7.3.4统一搜索 (23)

7.4资源中心管理管理系统设计 (23)

7.4.1单点登录 (23)

7.4.2用户管理 (24)

7.4.3角色管理 (25)

7.4.4功能资源管理 (26)

7.4.5数据资源管理 (26)

7.4.6资源目录管理 (27)

8标准规范与管理办法建设框架方案 (28)

1术语定义

本项目:XX大数据融合服务平台建设方案

数据融合服务平台:是指各类信息生产、融合与服务的统一平台,是各类数据的集中储存、交换、共享的中心、枢纽、桥梁。要实现这一功能,需要建立统一的标准和规范、资源目录、数据库群和共享交互平台等。

2需求分析

信息资源共享是一项很艰巨而任重道远的工作。大多数前期的政务信息化建设项目缺乏统筹规划,应用系统之间普遍缺乏标准化的数据接口定义,不同的应用系统之间彼此隔离,资源信息纵强横弱、条块分割,所有这些成为了当前迫切要求信息整合与共享的主要原因。

建设数据融合服务平台的首要目标就是要创造一个信息共享的方式和环境,按照统一标准和规范,建立信息资源整合机制,规范数据采集口径、采集方式,规范数据的服务方式,建立统一的信息资源整合与交换机制。通过对人口基础信息库、组织单位基础信息库、自然资源和空间地理基础信息库等基础数据库和统计、税务、城市建设、房地产、人事、劳动和社会保障、教育、科技、卫生、民政、交通等专题数据库的整合,形成全区的信息共享平台。

政务信息资源整合是一个为了某种应用目的对政府业务和信息资源进行梳理、分类、组织、标准化,以满足政务业务协同对政务信息资源共享需求的过程。它不只是一个技术过程,更重要的是一个建立政务信息资源共享和管理机制与规则的过程。同时,政务信息资源整合应体现政务信息资源与政府业务之间的关联性,以满足政务业务协同对信息资源共享的需要。

以人口数据库、组织单位数据库、自然资源与空间地理数据库为基础,以部门重点业务系统和跨部门重点应用系统为重点,推动政务信息资源开发利用。基础数据库实行物理上分别建设,逻辑上统一管理。各基础数据项的责任部门在建设和应用过程中,要按照“一数一源多用”原则,不断丰富基础信息资源,保证数据项准确完整和及时更新。依托政务信息资源目录体系与交换体系和基础数据库,按照条块结合、纵横联合的原则,实现政务信息资源有序采集、更新和应用,实现政务信息资源在同级政府各部门间的横向交换、共享和公开,以及政务信息资源的纵向传输,满足各级政务部门的信息需求。

在本平台建立之前,各部门目前已经有大量正在运行和使用的信息系统等。这些信息系统是数据融合服务平台主要的信息来源,在平台建立之后也会提出对这些信息系统的改造要求,也会利用平台提供新的功能。

3平台定位

通过数据融合服务平台建设,打造城市信息化建设的引擎和基础支撑,实现区域内信息资源目录的梳理和统一管理及服务,在城区综合管理、政府机构业务应用支撑、领导决策支持和公众服务等方面,提供全方位、多层次、多途径的服务,充分利用国内外最先进的IT技术,大胆进行技术创新,形成国内领先的智慧城市大数据中心。

4项目总体框架设计

4.1项目总体架构

4.1.1总体架构图

总体架构如下图所示:

4.1.2架构优势

(1)不脱离基础资源库标准规范体系,充分利用已有的建设成果;

(2)提供了更加深入的数据融合功能,为城市的综合管理协同工作、智慧应用的全面服务奠定了基础;

(3)提供了便捷的数据利用方式,能够使云计算中心的信息资源得到有效的利用;

(4)数据的收集、清洗、比对、核查、建库形成了完整的闭环,保证了数据的完整性和现势性;

(5)采用先进的技术,保证了服务良好的扩展性和实用性;

(6)以空间位置信息为枢纽组织全区的基础数据,具有直观性和广泛的业务关联性,极大的提升了数据利用的效率和范围。

4.1.3建设内容

本项目的建设内容包括对需要采集的信息资源的梳理和建设基础数据库,同时建设保证基础数据库数据持续更新及利用的数据交换系统、数据加工处理系统、数据目录系统、数据综合展现系统、数据分析挖掘系统、数据共享服务系统、统一管理系统、数据标准规范体系和安全体系等,具体包括:

(1)信息资源梳理

针对信息资源的现状进行摸底调研,制定统一的信息资源标准规范,并参照标准规范采集、梳理政府部门的信息资源,形成信息资源目录体系,为实现具有普遍性的信息资源整合打下基础。

(2)基础数据库建库

空间地理基础信息资源包括空间地址信息表、地理信息图层、政务信息图层、公众服务图层等;物联网数据库则主要从各物联网项目中抽取实时监控的全媒体数据,实现多种监控手段的统一,构建可视化的物联网系统的数据全面的存储;同时基础数据库内容还包括各种文档数据。

(3)数据交换系统

建设数据交换系统,实现基础信息的数据交换。满足在线实时或非实时数据

交换的目标,为基础数据库建设获取数据信息。

数据交换系统核心的功能包括了数据桥接子系统、数据传输子系统、前置交换子系统和交换管理监控子系统。无论是政务外网应用、专网应用均能够利用数据交换平台便捷、安全、高效的进行数据交换。

(4)数据加工处理系统

数据加工处理系统是对通过数据交换系统交换前置交换信息库的数据进行清洗、比对、整理后,实现数据准确无误进入数据库,并将异常数据反馈给相关委办局。

数据加工处理系统的建设目的是为了保证数据的动态准确性,需要对政府基础数据库的信息进行加工处理。根据数据的具体情况,设定数据的比对、清洗流程、规则,实现对数据的自动化清洗和比对,并针对数据来源对异常数据进行反馈,并将处理完成的数据进入数据融合服务平台的中心数据库。

(5)数据融合系统

数据融合系统主要实现对不同来源数据的关联和融合,从而使得数据能够对人口的全生命周期、事件的全流程进行描述。数据融合系统另一个核心功能是实现不同来源的同一数据的关联绑定,从而实现各部门虽然能够采用部门数据标准,但能够在区域层面上实现数据的标准统一。

(6)数据目录系统

数据目录系统是维护数据融合服务平台的展示中心,其目的是让用户能够在不接触数据的情况下,对数据的属性能够有清晰地了解。数据目录系统的功能包括目录管理,元数据管理,数据源信息注册,资源目录展示等功能。

(7)数据仓库

数据仓库是面向主题的、集成的、相对稳定的、反映历史变化的数据集合。数据仓库的重点与要求是能够准确、安全、可靠地从融合服务平台数据库中取出数据,经过加工转换成有规律信息之后,再供管理人员进行分析使用。数据仓库主要是应用于决策支持系统,其主要目的是“提取”信息并加以扩展,用来进行处理基于数据仓库的决策支持系统(DSS)的应用。

本方案中涉及的数据仓库主要功能有:

原始数据抽取:将数据融合服务平台现有的原始数据进行结构化分

析,提取客观可供分析使用的原始数据,填充到数据仓库,用作数据分析的基础颗粒数据。

●数据建模:根据数据仓库中的基础数据颗粒,进行维度挑拣,设置维

度划分口径,搭建数据分析模型。

●数据切片综合:根据数据模型中多种维度,对原始颗粒数据进行多维

度切片,并进行多层次的综合,形成轻度、中度、高度、综合的统计数据。

●历史数据存储:设置统计周期,将每次统计出来的数据结果进行存

储,保存所有的历史分析记录,为历史同比、趋势分析提供直接的数据支持。5项目重难点分析

5.1数据的准确性是项目的立身之本

数据融合服务平台最大的优势在于多种信息资源的整合,从而能够实现多部门数据之间的比对,提高数据的准确性和完整性。数据融合服务平台品牌的关键。

数据融合服务平台建设数据的完整性在于数据主表的产生和基于主表的数据比对机制。在本项目的建设中,采用数据质量高的数据进行清洗和比对,在提升数据准确性的情况下形成主表,再以主表为基础,与各数据进行比对,提升数据的准确性。

然而,为了保持数据长期的准确性,建议在后期建设中与掌握第一手资料的社区工作实现有效对接,建立信息的动态采集机制,实现信息的动态准确性和完整性,只有这样才能保证数据融合服务平台的长盛不衰。

5.2相关标准与规范的统一是核心

数据融合服务平台建设要实现数据融合服务平台的整合,乃至基于地理空间框架的人口、组织单位和宏观经济等电子政务信息资源的整合,整合、共享与交换必须基于统一的信息相关标准与规范,包括数据(分类、编码、内容结构、数据格式、元数据和目录等)软件(接口、服务)和应用(表现形式)的标准与规范,只有在统一的标准下,才能实现信息资源的整合、共享与交换,避免重复建

设造成的浪费。

5.3应用拓展是项目发展的动力

平台的建设在前期主要涉及基础性和框架性的工作,随着平台建设工作的深入,应用拓展将成为平台可持续发展的动力,没有应用,平台的价值将无法体现。

应用拓展应根据政府部门的应用需要,提供各种空间信息的应用集成接口和建立专业应用,应用集成接口主要体现为数据服务接口和应用服务接口,数据服务接口主要将数据封装形成可重用的应用组件平台,应用服务接口主要基于Web Service加以封装,逐步建立基于SOA的应用服务与集成体系,建立平台开放式的应用扩展模式。

5.4项目管理是项目成功的基本保障

项目的成功与否,除了需要设计与开发单位具有能胜任平台设计与开发的项目团队以及团队对平台的定位、目标、应用需求具有充分地了解和对软件工具、相关技术具有较强地应用能力——即技术因素外,还需要团队具有较强项目管理能力和意识,具有规范化地项目管理流程和模板化的项目过程文档,并能在项目实施过程,进行规范化的项目管理。

通过规范化的项目管理,确保项目的质量、进度,加强项目团队与甲方的沟通以及团队内部的合作,识别和规避项目的风险,是项目成功的基本保障。

6数据库设计

6.1数据库设计原则

在数据库设计方面,简洁,结构明晰的表结构对数据库的设计是相当重要的。规范化的表结构设计在以后的数据维护中,不会发生插入(insert)、删除(delete)和更新(update)时的异常。反之,数据库表结构设计不合理,不仅会给数据库的使用和维护带来各种各样的问题,而且可能存储了大量不需要的冗余信息,浪费了系统资源。

要设计规范化的数据库,就需要按照数据库的规范原则来进行。

1)采用领域模型驱动的方式和自顶向下的思路进行数据库设计,首先分析系统业务,根据职责定义对象。对象要符合封装的特性,确保与职责相关的数据项被定义在一个对象之内,这些数据项能够完整描述该职责,不会出现职责描述缺失。并且一个对象有且只有一项职责,如果一个对象要负责两个或两个以上的职责,应进行分拆。

2)根据建立的领域模型进行数据库表的映射,此时应参考数据库设计第二范式:一个表中的所有非关键字属性都依赖于整个关键字。关键字可以是一个属性,也可以是多个属性的集合,不论那种方式,都应确保关键字能够保证唯一性。在确定关键字时,应保证关键字不会参与业务且不会出现更新异常,这时,最优解决方案为采用一个自增数值型属性或一个随机字符串作为表的关键字。

3)尽量少采用存储过程,目前已经有很多技术可以替代存储过程的功能如“对象/关系映射”等,将数据一致性的保证放在数据库中,无论对于版本控制、开发和部署、以及数据库的迁移都会带来很大的影响。但不可否认,存储过程具有性能上的优势,所以,当系统可使用的硬件不会得到提升而性能又是非常重要的质量属性时,可经过平衡考虑选用存储过程。

4)设计出的表要具有较好的使用性,主要体现在查询时是否需要关联多张表且还需使用复杂的SQL技巧。

5)设计出的表要尽可能减少数据冗余,确保数据的准确性,有效的控制冗余有助于提高数据库的性能,尽量满足数据库设计的第三范式。

数据库设计一、二、三范式如下:

1)第一范式(1NF)

在任何一个关系数据库中,第一范式(1NF)是对关系模式的基本要求,不满足第一范式(1NF)的数据库就不是关系数据库。

所谓第一范式(1NF)是指数据库表的每一列都是不可分割的基本数据项,同一列中不能有多个值,即实体中的某个属性不能有多个值或者不能有重复的属性。如果出现重复的属性,就可能需要定义一个新的实体,新的实体由重复的属性构成,新实体与原实体之间为一对多关系。在第一范式(1NF)中表的每一行只包含一个实例的信息。简而言之,第一范式就是无重复的列。

2)第二范式(2NF)

第二范式(2NF)是在第一范式(1NF)的基础上建立起来的,即满足第二范式(2NF)必须先满足第一范式(1NF)。第二范式(2NF)要求数据库表中的每个实例或行必须可以被惟一地区分。为实现区分通常需要为表加上一个列,以存储各个实例的惟一标识。这个惟一属性列被称为主关键字或主键、主码。

第二范式(2NF)要求实体的属性完全依赖于主关键字。所谓完全依赖是指不能存在仅依赖主关键字一部分的属性,如果存在,那么这个属性和主关键字的这一部分应该分离出来形成一个新的实体,新实体与原实体之间是一对多的关系。为实现区分通常需要为表加上一个列,以存储各个实例的惟一标识。简而言之,第二范式就是非主属性非部分依赖于主关键字。

3)第三范式(3NF)

满足第三范式(3NF)必须先满足第二范式(2NF)。简而言之,第三范式(3NF)要求一个数据库表中不包含已在其它表中已包含的非主关键字信息。简而言之,第三范式就是属性不依赖于其它非主属性。

6.2数据库相关命名规则

在数据库设计前,要对相关命名规则进行规范,既能够方便开发人员轻松理解数据库中相关内容的含义,又能使其他DBA人员快速掌握数据库结构设计,所以在本项目中数据库设计命名时满足以下规范:

(1)数据库表命名规范:

●数据库表名应该有意义,并且易于理解,最好使用可以表达功能的英文单词或缩写,如果用英文单词表示,建议使用完整的英文单词。

●表名不可以太长,最好不要超过3个英文单词长度并不超过30个英文字母。

●在数据库表命名时应该用英文单词的单数形式,如员工表命名:应该为Employee而不是Employees .

●如果是后台表命名时应该在表名基础上加上后缀_b(back首字母)

●在表创建完成前,需要为表添加表的注释。

(2)表字段命名规范:

●数据库表字段应该是有意义而且易于理解的,最好是能够表达字段含义的英文字母

●系统中所有属于内码,即仅用于标识唯一性和程序内部用到的标识性字段,字段名称建议取为ID,数据类型采用整型或长整型.

●系统中属于是业务内的编号字段,代表一定业务信息,建议字段命名为code ,如工作单编号wf_code .

●不要在数据库表字段(列名)中包含数据类型,如:datetime

●不要在数据库表字段(列名)命名时重复表名,可以使用表名首字母(不包含数据库表名前缀)

(3)存储过程命名规范

存储过程的命名遵循以下命名规范:P_ +系统模块缩写(与表前缀类似)+_ +功能标识+代表存贮过程操作的主要表名(不带前缀)或功能的英文单词或英文单词缩写。如果一个存贮过程只对一个表进行操作,建议存贮过程的名称就用存贮过程所操作的表的表名(不带前缀)。这样有利于根据表名找到相应的存贮过程。

(4)视图命名规范

视图的命名请遵循以下命名规范:V _ +系统模块缩写(与表前缀类似)+_ +功能标识+代表视图查询的主要表名(不带前缀)或功能的英文单词或英文单词缩写。如果一个视图只对一个表进行查询,建议视图的名称就用视图所查询的表的表名(不带前缀)。

(5)触发器命名规范

Insert触发器加'_i',Delete触发器加'_d',Update触发器加'_u'。

6.3数据库表建设思路

本方案中的数据表由业务主表和附属信息表组成,业务主表包括地理信息主表、自然人主表、单位组织主表等。

业务主表建立的原则是:

(1)采集容易,各委办局普遍具有共享需求;

(2)简单、不易变,并具有唯一性,因此建议采集最基本的字段;

(3)易于建立数据之间的关联。

其中,建立数据关联对于业务管理最有价值,因而建立那些业务主表与该条原则具有极强的关联性。

从数据的关联来看,我们需要建立的关联有如下四种:

(1)人-地关联

(2)组织单位-地关联

(3)人-组织单位关联

(4)人-人关联

在本项目中的招标方案中,更多的强调了前三种关联。然而,人都是社会人,对人口的管理是政务管理的核心内容,因而建立人与人之间的关联至关重要,而家庭户是社会关系中最为重要的,在政务管理中有极大的实用价值。比如医疗卫生中分析家族病史、低保申请中了解家庭收入等。因此,如果条件允许,建议建立上述主表时,同时建立户主表。

自然人主表:实地调研公安和计生的基础信息,比较二者的准确率,确定一单位的信息为基本信息来源,以自然人ID或身份证号为主键,采集自然人姓名、身份证号、性别、地址信息等主要字段,经过一定规则的数据清洗-异常处理后,形成自然人主表。从其他委办局交换来的人口数据与主表数据比对,建立与自然人主表之间的关联,形成专题附属表。

组织单位主表:组织单位主表的内容包括企业法人、社会团体、其他非企业单位组成,根据不同性质的单位,分别以不同来源的信息建立的主表。企业法人

以法人ID或组织机构代码为主键,采集企业名称、工商注册号、组织机构代码证、组织单位名称、注册地址、办公地址等信息为主要字段,形成组织单位信息库主表;社会组织则以民政局登记信息建立主表。

地理信息主表:地理信息主表由地址信息id为主键,以地址信息及地理坐标为主要字段,形成地理信息主表。各种要素的地址信息可与地理信息主表进行比对,形成附属表。

7功能详细设计

7.1数据交换层设计

数据交换系统核心的功能包括了数据桥接子系统、数据传输子系统、前置交换子系统和交换管理监控子系统。

7.1.1交换桥接子系统

7.1.1.1数据采集

在本项目的建设中,需要参与交换的信息资源包括如下数据,以及项目需要采集的其他数据:

7.1.1.2交换桥接子系统功能模块

桥接系统的功能完成部门业务系统信息库与前置信息库(或交换平台)之间双向安全、可靠的信息交换,并实现数据格式转换(XXDB—XXXDB、DB-XML、XML-XML等转换)。

桥接实现方式包括直接连接、通过网闸等定时或实时传输。

数据映射通过可视化的操作建立不同数据表之间的映射关系,能够提供多表之间的映射和表之间字段的映射。

数据抽取提供全量抽取、增量抽取、实时抽取、定时抽取、多种数据类型选择等功能;

数据过滤支持自定义过滤规则、表级过滤、字段过滤、内容组合过滤等功能;

数据转换支持自定义转换规则、编码转换、内容转换、字典转换、类型转换、元数据转换等功能;

数据导出支持手动导出、自动导出、多格式文件导出、实时导出等功能;

数据导入支持手动导入、自动导入、多格式文件导入、实时导入等功能;

监控管理支持桥接数据查看、桥接数据统计、桥接数据报警、桥接异常数据跟踪、桥接异常日志查看等功能。

7.1.1.3桥接模式

●逻辑隔离状态下的桥接

逻辑隔离情况下,桥接系统的结构如下:

对于业务数据发布过程,在业务网络中的适配器从业务库中提取新鲜数据进行转换并保存到交换库中。防火墙只允许通过从内部到外部的访问。

根据部门信息化建设的不同情况,以及业务信息存储类型可以选用各类关系型数据库、结构化文件、非结构化文件等多种类型。

●物理隔离状态下的桥接

物理隔离情况下,可选用网闸设备建设桥接系统,结构如下:

对于业务数据发布过程,在业务网络中的适配器1从业务库中提取新鲜数据

生成XML文件,保存到网闸的内部单元指定的目录中;网闸将文件摆渡到网闸的外部单元的目录中,外部网络中的适配器2从网闸指定的目录中提取XML文件进行转换并保存到交换库中。

还可以采用人工导盘的方式,实现部门业务信息与前置库的信息交换,如下图所示。

7.1.2前置交换子系统

为确保各部门的原有系统的运行不被资源整合所影响,保障原系统的数据安全,使用前置机作为各部门与数据交换平台进行数据交换的窗口,也可认为它是各部门的业务系统与数据交换平台之间的数据流动中转站。它一方面从各业务系统提取数据,向数据中心提交;另一方面从数据中心接收数据,并向业务系统传递数据。同时,前置机也具备缓存交换数据,对数据进行过滤、加工和展现的功能。这样可以有效规避潜在的信息安全风险。它由网络通信系统、操作系统、交换信息库、前置交换环境、交换服务配置工具等组成。

前置交换系统功能和特点如下:

●支持不同的交换信息库之间的双向信息交换。前置交换系统能够从交换信息库中提取数据交给交换传输系统传递,也能够从交换传输系统中获取数据存储到交换信息库;

●支持各种主流操作系统;

●支持国内外主流数据库,如:SQL Server、ORACLE、DB2、人大金仓、武汉达梦、航天奥斯卡等;

●采用适配器技术接入到交换传输系统,支持HTTP协议安全加密传输;

●采用应用适配器访问交换信息库,实现对交换信息库中数据的获取与存储;

●提供图形化的交换服务配置工具,配置、测试、部署交换服务;

●支持多个交换服务并发运行;

●提供管理与监控接口,支持远程管理功能。

7.2数据服务层设计

为保证数据的动态准确性,需要对基础空间地理信息库、人口数据库、组织单位数据库等基础数据库的信息进行加工处理。

数据加工处理流程如下图所示:

图数据加工处理流程图

7.2.1数据清洗

对采集或交换来的数据按照基础数据的标准格式要求进行检查整理,对不符合质量要求或者错误的数据进行更正,最终确保数据的准确。数据清洗的目的是数是保证数据库数据质量。

7.2.1.1数据清洗规则设置

数据清洗规则设置可以根据不同部门、不同来源的数据,针对字段进行设置。

清洗规则包括是否为空、编号长度、地区编码、校验码、数据类型定义、完整性约束等进行设置,针对不同的数据采用不同的组合规则。

针对空间数据,数据清洗检查工具主要检查空间拓扑一致性、属性结构的一致性、数据内容的一致性。

7.2.1.2数据清洗流程设计

数据清洗在中心前置交换信息库上进行,数据清洗的目的数据在入库前,对各部门交换汇总的数据进行自动清洗,保证入库时数据的准确性。对不符合规则的异常数据,同正常数据进行分表存储,并将异常数据反馈给业务部门。系统提供各部门数据清洗规则的选择,指定具体字段的具体验证规则,并指定任务的开启、关闭状态和具体执行时间和周期。数据清洗过程如下图所示:

7.2.1.3异常数据管理

对于清洗完成后产生的异常数据,自动保存进入异常数据表,能够进行分部门查询、统计、删除或反馈。

7.2.2数据比对

对数据的字段、条件、合理数值范围、检查时段、预警方式等内容,按照不同数据类型、数据来源、变动方式进行单独或组合设置,由系统按照设置的比对指标,对各基础数据库的信息进行综合比对分析,并生成比对结果,并可直接关

联到详细的个案数据。根据授权情况,将比对结果分类下发到相关部门,对数据进行核查。核查后反馈的数据,将再次进入数据加工环节。在核查过程中,系统按照设置的监管指标对各部门核查信息进行综合分析,并生成监察结果。

7.2.3异常数据反馈

异常数据反馈功能,将数据采集、清洗、比对同数据采集部门形成互动。将清洗和比对工作中发现的异常数据反馈给数据提供部门,提醒数据提供部门核实的同时,也帮助提高部门自身业务数据准确性。

7.2.4数据融合

数据整合是实现地理信息库、自然人口库、组织单位库三库相互关联的关键步骤,是自然人口信息、组织单位信息同地理地图对接的必要前提,是自然人口信息同组织单位信息相互对应的主要手段。

数据整合主要有与地理库数据整合以及身份证号码人员信息提取两大工作。与地理库数据整合实现自然人口主表和组织单位主表地址信息标准化并同地理信息库标准地址相匹配,主要是为了能方便快捷的和地理地图信息相结合;组织单位信息库涉及身份证号码的人员信息提取,主要是为了方便人口信息通过身份证号码找到其所在的组织单位信息。

7.2.4.1与地理库数据整合

地理信息库作为数据融合服务平台基础数据库的中心,自然人口库和组织单位信息库都携带地址信息,也正是通过自然人口和组织单位的地址信息将这三大基础库连接起来。所以自然人口库和组织单位库中的地址信息尤其重要。

主要功能有:

1)主表信息查询,提供地址信息模糊查询功能,地理信息库地址模糊查询,主表地址匹配状态查询等查询统计功能。

2)自然人口库和组织单位信息库主表地址信息同地理库标准地址对照,同时选择正确的标准地址,并进行地址填充。

7.2.4.2组织单位涉及身份证人员信息提取

组织单位涉及身份证人员信息提取,主要针对组织单位库,从组织单位信息库各个属性表中,人工提取含有组织内人员信息并携带身份证号码信息字段的表,将表名、身份证所在字段名称存储在记录表中,为根据自然人口身份证号码检索组织单位提供检索范围和检索字段。

组织单位涉及身份证人员信息提取功能为身份证检索范围记录表提供信息插入、修改、删除、查询基本功能。

7.2.4.3地址数据融合

地址数据作为描述自然人、组织单位的关键属性,同时也是人口库、组织单位库与空间地理库进行关联的唯一属性。但是由于来自不同委办局的地址数据在采集时没有采用统一的标准规范,从而导致各委办局的地址数据不一致,主要表现为同一地址信息在不同委办局有不同的描述形式,因此从不同委办局交换而来的地址数据如何能够有效的关联融合,具有非常重大的意义。

为了能够实现地址数据有效的关联融合,从不同委办局交换而来的地址数据一方面可以系统自带的地址匹配算法的实现自动关联,但是还存在的很大一部分地址数据无法通过自动匹配完成,对于这部分数据,需要手动进行相应的绑定,用户可以从两侧地址栏中检索出需要绑定的地址,点击绑定按钮即完成了对应地址的绑定操作,同时可以从已绑定的地址中检索出地址进行解除绑定的操作,

7.2.5数据仓库

7.2.5.1Oracle 数据仓库体系结构

如图所示,Oracle数据仓库的体系结构可以分成三个层次:

相关文档
相关文档 最新文档