文档库 最新最全的文档下载
当前位置:文档库 › 数据挖掘与GIS集成研究

数据挖掘与GIS集成研究

数据挖掘与GIS 集成研究

孙久运,刘霖,陆旺

(中国矿业大学 环境与测绘学院,江苏 徐州 221008)

摘要:地理信息系统和数据挖掘是当今信息技术中的两颗璀璨明珠。前者侧重于信息的管理,后者侧重于信息的分析,有着紧密的联系性和互补性。近年来两种技术的发展,使数据挖掘和GIS 结合以挖掘GIS 所管理的海量空间数据背后的知识与规律成为可能。本文以数据挖掘和GIS 集成为主题展开,系统分析了数据挖掘与GIS 集成来辅助空间分析的可能性、目的及意义,提出了数据挖掘与地理信息系统集成辅助空间分析的策略和实现途径。

关键词:地理信息系统;数据挖掘;集成;空间分析

The Research of Data Mining and Geographic Information System

Integrating

Sun Jiuyun, Liu Lin, Lu Wang

(College of Environment and Spatial Informatics China University of Mining Technology, Xuzhou

Jangshu 221008, China )

Abstract: Geographic Information System and Data Mining and Knowledge Discovery technology are two bright pearl of information technology in now days. The former emphasizes particularly on the management of information, and the latter emphasizes particularly on the analysis of information. The development of the two technology make it possible to mining the knowledge and rules that behind the tremendous amounts of spatial and non-spatial data have been stored in GIS by integrating the two technology. This Paper presents an overview on SDMKD, analysis the integration of GIS and Data Mining , and puts forward some methods of integration of GIS and Data Mining to assistant spatial analysis.

引言

地理信息系统(Geographic Information System ,简称GIS)发展三十余年来,它作为空间数据管理与分析的重要手段已得到地学研究领域以及与空间信息有关的其他领域的广泛认可与重视,并在一些行业和部门得到了广泛的应用。不过,从GIS 应用现状来看,它的主要功能还主要侧重于事务处理,即所谓操作型GIS 。这类GIS 在数据采集、存储、转换、管理、查询和输出等方面的功能比较

_______________________________________________________________________________https://www.wendangku.net/doc/3f2603384.html,

成熟,在这些方面确实有比较成功的应用,解决了很多以前不能解决的实际问题,并且已存储和管理着相当大的数据量。随着GIS应用领域的拓宽与应用层次的深入,对其空间分析能力的要求越来越高、越来越强烈,GIS发展的重心已经逐渐由侧重于数据获取、存储、管理、检索的初级阶段逐步向模拟、分析、预测预报的高级阶段转移,使得分析型GIS成为今后GIS发展的主要方向。但是当前GIS的分析技术远远不能满足此种要求,所拥有的空间分析能力,仍处在一个比较低级的阶段,对管理和存储着的海量数据不能做到高效的应用,难以提供有力的决策支持。GIS发展到目前程度,如果不采取切实可行的措施,取得分析能力的突破,解决GIS空间分析中的“瓶颈”问题,要想使GIS在更广的领域、更深的层次应用是比较困难的。

1 数据挖掘与空间数据挖掘的发展、定义及特点

数据挖掘技术源起于二十世纪五十年代电子数据处理的初期,在八十年代末和九十年代初由于人们所获取信息量的急剧增加和数据处理技术的进步,使数据挖掘获得了极大的发展。但“数据挖掘”这个术语却在1989年举行的第十一届国际联合人工智能(INTCAI)学术会议上才首次出现,它指所有从源数据中发掘模式或联系的方法。人们逐渐接受了这个术语,并用KDD(Knowledge discovery in database,或者 DMKD:Data Mining and knowledge Discovery)来描述整个数据发掘的过程,包括最开始的制定业务目标到最终的结果分析,而用数据挖掘(DM:Data Mining)来描述使用挖掘算法进行数据挖掘的子过程。一些文献中,更是把知识发现的中心过程数据挖掘(DM)直接代替数据挖掘和知识发现,并且这种叫法已获得行业领域的认可。数据挖掘领域在1991年、1993年和1994年分别举行了专题讨论会,汇集来自各个学科的研究人员和应用开发者,集中讨论数据统计、海量数据分析算法、知识表示、知识运用等问题。随着参与人员的不断增多,KDD国际会议发展成为年会,数据挖掘和知识发现也成为一门涉及到机器学习、模式识别、统计学、数据库、知识获取、数据可视化、高性能计算、专家系统、人工智能等多个领域的交叉性学科。发展到现在数据挖掘和知识发现已不仅仅局限于从数据库中发现知识,泛指从大量数据中提取出可信的、新颖的、有效的并能被人理解的模式的一种高级数据处理过程,普遍被认可的定义为:数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程[1][2]。

近年来数据挖掘的研究与应用已从对属性数据的挖掘延伸到对空间数据的挖掘,从关系型和事务型数据库扩展到空间数据库。对空间数据所进行的数据挖掘称为空间数据挖掘(SDM: Spatial Data Mining;SDMKD: Spatial Data Mining and Knowledge Discovery),它是数据挖掘在空间信息中的延伸与应用。参照数据挖掘的定义,空间数据挖掘是指从大量空间数据中提取隐含的,但为人们所感兴趣的知识或规律的过程。空间数据挖掘主要目的是从空间数据库中抽取隐含的知识、空间关系或非显式地存储在空间数据库中的其它模式,用于理解空间数据、发现空间和非空间数据间的关系、构建空间知识库、查询优化、空间数据库数据重组、以简单精确的方式描述通用特征等等。空间数据挖掘是一个很有发展前景的领域,因为大量空间数据可从遥感、地理信息系统(GIS)、多媒体系统、医学和卫星图像等多种应用中收集,随着所收集数据的增多,已经远远超过人脑分析的能力,迫切需要利用空间数据挖掘进行分析。

空间数据有许多不同于非空间数据的特性,所以空间数据挖掘与一般数据挖掘相比亦有其鲜明的特征。首先,空间数据带有拓扑和距离信息,通常以复杂的多维空间索引结构组织,通过空间数据存取方法存取,常常需要空间推理、几何计算和空间知识表示技术等;其次,关系型数据挖掘的算法假定数据是独立的,而在空间数据库中一个对象可能会受其邻近若干个对象的影响,数据之间也许相互依赖;另外,SDM的结果一般包含空间对象,往往是图形或图像信息,不同于一般关系数据库中的结果,很难用文字表示清楚,需要涉及到空间知识的可视化。从空间数据中挖掘潜在的知识需要考虑空间特性是空间数据挖掘的显著特点,使之具有很多挑战性的问题。

2 数据挖掘与GIS集成的可能性、目的及意义

虽然地理信息系统和数据挖掘是在不同时期发展起来的各自独立的技术,但是二者都是交叉性学科,有着很强的融合其他技术的能力,存在着紧密的联系性和互补性。新兴的数据挖掘技术作为数据分析方法的一种,不是孤立的,必然要与其它的工具或系统发生联系,Forrester 和Gartner “Stand-alone Data Mining is dead. The demise “stand alone” data mining.”对此有形象的论述:

[2];另一方面GIS不能对所管理的数据作深层次分析,就不会有更高效的应用,迫切需要其它技术支持来提高其空间分析功能。

随着GIS理论的日臻完善,GIS的模块化和数据共享以及GIS与GPS、RS等其它技术的结合,使GIS向集成化和智能化方向发展[32]。武汉大学、中科院地理所、中科院遥感所和中国测绘科学研究院,都在GIS与GPS、RS的结合与集成研究领域做出了一定的成绩。在国外,GIS集成研究与应用最为普遍也是集中在“3S”集成方面。近年来internet技术的发展,使GIS与internet集成的WebGIS技术逐渐成为GIS研究中的一个热点。相信随着数据挖掘技术的进一步成熟,数据挖掘与GIS 集成,辅助空间分析提供决策支持必将成为GIS的下一个研究热点。这是因为,当前,GIS正经历着由“以技术为中心”向“以数据为中心”的方向转变,数据分析与数据处理在GIS应用中已越来越重要;数据挖掘是在数据库技术上发展起来的,而GIS是计算机图形学与数据库结合的结果,数据挖掘在GIS空间数据库中的应用,会直接的推动GIS的发展;近年来GIS已经渗透到国民经济和社会发展的很多方面,GIS强有力的支柱——各种类型的数据库容量不断增大,所包含的信息更为丰富,而许多信息是隐含的、不为人们所知的,而这些信息却是有着非常大的潜在价值的,这些潜在的信息一旦被发现,势必在预测、决策等方面发挥巨大的作用;根据信息科学专家统计世界上所应用数据库中的数据80%与空间定位信息有关,数据挖掘不可能完全脱离于地理因素。

数据挖掘与GIS结合与集成的主要目的是辅助GIS空间分析,提高GIS的空间分析功能,有效利用地学信息。虽然数据挖掘与GIS集成是一个崭新的课题,但是其优势是显而易见的,一方面可以满足对GIS所管理数据的深层分析,另一方面解决了GIS空间分析中的“瓶颈”问题。集成的优点与意义可以概括为:数据挖掘与GIS集成首先体现在辅助GIS空间分析上,它可以增强GIS的空间分析功能,提高GIS解决实际问题的能力,使得GIS中的有限的数据变为无限的知识,使GIS 成为智能的空间信息系统[3];其次,DMKD技术在GIS中的应用,也丰富了GIS的空间数据库,使原来难以关联的、分散的和独立的人口、资源和环境方面有关信息的联合分析成为可能,拓宽了GIS 的分析范围和应用领域;第三,GIS为DMKD提供了一个具有空间信息的数据挖掘平台,使空间数据仓库的构建成为可能,空间数据挖掘的实现更容易实现,更易于数据间的关联分析和知识发现,易于提供发现的启发点,增强计算机理解地理信息的视觉能力[4],也对知识的表达、描述和可视化更加形象、直观和易于理解。

3 数据挖掘与GIS集成的技术与方法

3.1 数据挖掘与GIS集成的分类

到目前为止,国内外都开展了空间数据挖掘方面的研究,并主要以GIS作为实现平台,可以说数据挖掘与GIS集成正在迅速发展。加拿大西蒙·法拉色大学计算机科学系的Han Jiawei教授领导的小组,在MapInfo平台上建立了空间数据挖掘的原型系统,实现了空间数据特征描述、空间比较、空间关联、空间聚类和空间分类等空间数据挖掘方法[1]。国内武汉大学李德仁院士最早关注从GIS 数据库中发现知识的问题,提出从GIS空间数据库可以发现包括几何信息、空间关系、几何性质与属性关系以及面向对象知识等的多种知识[2]。

从空间数据挖掘的国内外研究现状来看,所作的空间数据挖掘研究多是侧重于空间要素的数据挖掘,而以空间要素和非空间要素信息做联合空间数据挖掘研究的不多,例如在以地图应用为主的

空间数据挖掘方面,空间数据挖掘的知识通常表现为地理现象的分布规律、聚类规律、发展演变规律、相连共生的关联规则等[5];应用数据挖掘在GIS遥感影象解译中,由于同物异谱和同谱异物的存在,单纯依靠光谱值知识的统计分类和特征提取难以满足要求,如果将空间目标的关联知识考虑进去,可以大大提高自动化和准确程度[5]。其实,我们所处的现实世界是一个复杂的空间巨系统,系统集成所研究的对象不仅是空间地理要素,它还包括地理现象、社会现象、人文现象、自然想象和经济现象及其相互作用。以非要素信息为主导的空间数据挖掘,和以空间要素和非空间要素信息联合进行空间数据挖掘,在GIS中将会有广扩的理论研究和应用前景,能更容易开展边缘学科研究,所以数据挖掘与GIS集成不应仅仅局限于地图制图、遥感影像解译等方面的研究,要拓展到多源数据的挖掘。

综合以上分析,数据挖掘与GIS集成可以根据不同的研究内容分为面向空间要素的数据挖掘、面向非空间要素的数据挖掘和空间要素信息与非空间要素信息的联合数据挖掘。

面向空间要素的数据挖掘主要是挖掘空间实体间的空间关系、空间规则和特征信息,主要从两种数据挖掘的粒度——基于目标实体和栅格来考虑的。对遥感影像的数据挖掘是在栅格的粒度上进行的。在目标实体粒度上的数据挖掘是在计算几何、数理统计等工具算法基础上展开的,以地理要素的空间位置和空间关系为研究对象,提取其局部和整体上蕴涵的、有用的知识(仍然表现为数据和关系),并转换为形式化的表达,作为计算机其他处理的输入或以结果的形式直接输出[5]。

面向非空间要素的数据挖掘是对经过空间化后的数据在非空间层次进行一般的数据挖掘,即建立在对GIS所管理的空间实体所对应的属性信息的数据挖掘,然后利用GIS对所挖掘的结果进行表达,是一种较低层次的数据挖掘与GIS集成应用。但对空间要素信息复杂程度不高,而非空间属性信息丰富的数据特别有效。

空间要素和属性信息关联的空间数据挖掘不同于前两者的数据挖掘集成,它的研究内容不仅仅局限于对地理要素的空间位置和空间关系的研究,而还包括对空间现象(四季变换、温度变化、刮风降水)、空间因素(高山、谷地、平原)、空间组成(土壤、地貌、植被、水域、矿产)、空间活动(动物变迁、人类活动、水土流失、沙漠侵蚀)等的研究,力图从中揭示出相互影响的内在机制与规律。空间特性是以上这些属性信息的共有特性,空间地理要素是这些信息的载体,对它们的研究不可能完全抛开数据的空间特性,但是也不要局限于空间特性的约束。

3.2 面向空间要素的数据挖掘主要技术[6]

3.2.1 空间关联分析(Spatial Association Analysis)

空间关联分析用来发现空间数据仓库中空间数据与空间数据或空间数据与非空间数据之间,同时或基于时序存在的内在规律,指相邻、相连、共生、包含、分布和变化等关联规则。

3.2.2 空间特征分析(Spatial Characteristic Analysis)

空间特征分析是对相关实体集的一般特性和特征的汇总,比如共性的几何特征规则可以描述某类实体的数量、大小和形态一般特征。

3.2.3 空间区分分析(Spatial Discriminate Analysis)

空间区分分析是指将目标类对象的一般特征与一个或多个对比类对象的一般特征比较得到用于区分目标类和区分类的对比度量。比如比较异域地物的坡度和坡向、公用设施的地区差异等区分规律。

3.2.4 空间分类(Spatial Classification)

空间分类是指对空间对象基于某一特性,按照一定的分类模型进行归类。

3.2.5 空间聚类[7](Spatial Clustering)

空间聚类是指根据空间实体的特征相近度,把空间对象划分到不同的组中,组之间的差别尽可能大,组内的差别尽可能小。这种方法可用于空间实体信息的概括与综合。

3.3 空间要素和属性信息关联数据挖掘主要技术

在此类应用集成中,如果简单的把图形数据和属性放在一起分析,则增加了空间数据挖掘的难度。有时把这些空间性质加以转化,可以简化空间数据挖掘难度,这些空间特性处理可以归纳为:

3.3.1 空间框架转化法

就是将所要分析的数据所在空间作为框架,同一区域范围内不考虑空间要素进行数据挖掘。静态研究区域内各因素的相互关系、综合评价以及作主成分分析;基于时间序列,动态研究系统动力学模型和各因素的发展规律与趋势等。

3.3.2 空间统计转化法

利用数据挖掘中的空间统计方法,就是选择适宜的空间尺度来完成空间分析。最常用的为空间自相关指数法,如MoranI 指数法,指数I 通过下面公式获得

x

x x x x x W W N I i j j ij ij ???×=∑∑))(( 式中:N 表示空间实体数目,表示空间实体的属性值,i x x 是的平均值;W 表示实体的空间关系,W =1表示空间实体i 相邻,W =0表示空间实体不相邻;I 的值介于1与-1之间,I =1表示空间自正相关,空间实体呈聚合分布,I =-1表示空间自负相关,空间实体呈离散分布,I =0表示空间是随机分布的i x i 与ij j i 与ij j 与ij j [4]。

3.3.3 空间要素转化法

将空间要素转化为一维属性要素如距离、方向等后进行数据挖掘,或者对空间要素的指标进行量化与序化后参与数据挖掘。

3.3.4 加权法

将空间要素作为属性要素的乘积因子参与数据挖掘,如地形中的等高线等。或者将空间要素按重要性排序,每一要素内部进行进一步分析,按其内部的分类排序,按各类别对结果的影响大小给分,从而得到该要素内各类别对结果的影响量。

3.3.5 地理因子法

将不同要素的图层进行空间配准后采用GIS 中的叠加(Overlay)方法,形成规则网格或最小图斑单元,每个单元都是具有丰富信息的地理因子,然后地理因子参与数据挖掘,不再考虑空间因素[22]。

面向空间要素和属信息关联的数据挖掘,从空间和非空间两个角度进行分析,此类研究刚刚开始,有很多尚待解决的问题。

3.3 数据挖掘与GIS 集成的主要途径

数据挖掘和GIS 集成研究和应用才刚刚兴起,理论和技术都处在探索阶段,出于不同的专业方向在认识也存在着差异。从目前GIS 和数据挖掘的发展状况,数据挖掘和GIS 集成的途径可分为四种:

第一种是在两个独立的GIS 软件和数据挖掘软件之间增加数据交换接口,把空间位置、几何和拓扑关系等信息经过转换加入数据仓库,用数据挖掘软件作空间数据挖掘,最后使数据挖掘结果得以在GIS 中以各种简单的或复合的图形方式显示出来,这种集成方式如图1所示,这种方法比较灵活,是短期内且费用较小的情况下解决高级空间分析的有效途径。

图1 数据挖掘与GIS的松散集成

第二种是指把数据挖掘模块作为一个高级应用模块嵌入GIS软件包内,使得GIS的空间分析与空间数据挖掘一体化,这样,GIS不仅直接为数据挖掘直接提供了图形显示功能,而且可以将GIS 中的有关信息直接参与数据挖掘,这种途径更能为用户提供方便、全面、有效利用,是主要的发展方向,但是目前尚未有成熟的软件出现,图2表示了这种集成方式[7]。

图2 GIS中数据挖掘模块嵌入

第三种是应用组件式GIS技术或对象联结嵌入技术,使用诸如VB、VC及Java等开发工具把GIS 软件和开发出的面向应用的数据挖掘模块帮定,实现数据挖掘与GIS集成,这种途径具有一定的灵活性,又能给用户提供方便、全面、有效的应用,是目前GIS与数据挖掘集成的一种主要方法,如加拿大西蒙·法拉色大学计算机科学系的Han Jiawei教授领导的小组在MapInfo平台上建立的空间数据挖掘的原型系统,图3是这种途径的示意图。

图3 组件式GIS与数据挖掘模块的绑定

第四种则是随着当今数据库技术的发展而出现的,因为当前GIS所管理的空间数据还主要是以文件方式,存在着难以管理海量数据,共享、并发、控制和安全保护措施差等缺点,因此逐渐出现了扩展常规关系数据库、使用对象-关系数据库和面向对象数据库来管理空间数据库的方法,如ERSI 公司的ArcSDE(SDE空间数据库引擎:Spatial Database Engineering)和MapInfo公司的SpatialWare等。然后建立在数据库管理信息系统之上进行数据挖掘,必要情况下使用GIS对所获得的结果进行解释。这也是数据挖掘与GIS集成的一个发展方向。

参考文献

[1] (加)韩家炜(Jiawei Han), (加)坎伯(Kamber, M.) 著. 数据挖掘:概念与技术. 范明等译.

北京:机械工业出版社, 2001.8

[2] 邸凯昌.空间数据挖掘与知识发现[学位论文]. 武汉:武汉测绘科技大学,1999

[3] 李德仁,程涛.从空间数据库中发现知识. 测绘学报,1995,Vol.22 No.4,37-43

[4] L.Kaufman and P.J. Rousseeuw. Finding Groups in data: An Introduction to Cluster

Analysis. New York: John Wiley & Sons, 1990

[5] 周成虎,孙战利,谢一春 著. 地理元胞自动机研究. 北京:科学出版社, 1999

[6]李德仁,王树良,史文中,等. 论空间数据挖掘和知识发现.武汉大学学报(自然科学版),2001,

Vol.26 No.6

[7] Lu W., J. Han and B. C. Ooi, Discovery of General Knowledge in Large Spatial Databases. Proc. of

1993 Far East Workshop on Geographic Information Systems (FEGIS'93), Singapore, June 1993, pp.

275-289

[8] 李德仁 关泽群 著. 空间信息系统的集成与实现. 武汉:武汉出版社, 2000.3

[9] Martin Ester, Stefan Gundlach, Hans-Peter Kriegel, J?rg Sander. Proc. Int. Conf. on

Databases in Office, Engineering and Science, (BTW ’99), Freiburg, Germany, 1999.

相关文档
相关文档 最新文档