文档库 最新最全的文档下载
当前位置:文档库 › Web信息抽取及知识表示系统的研究与实现

Web信息抽取及知识表示系统的研究与实现

Web信息抽取及知识表示系统的研究与实现
Web信息抽取及知识表示系统的研究与实现

万方数据

万方数据

万方数据

计算机系统应用2010年第19卷第9期

图3示例文档对应的DOM树结构

2.2.6数据抽取

根据得到的DOM树进行数据模型映射,步骤如下:

①利用DOM树生成对应的XML文档和DTD模式定义文档:

②利用DTD进行对象一关系映射,将XML映射到知识数据库中,生成映射规则,进行数据抽取及存入数据库处理。

2.3知识表示

采用B/S架构,利用数据库检索技术结合智能化方案生成算法,直接为用户提供解决方案,而不仅仅是知识的罗列。对解决方案给出一些评价标准,根据用户的选择按照评价标准对方案进行排序,使用户方便快捷的找到符合自己需求的方案。

3实例及分析

本文以交通信息抽取及混合交通出行方案查询作为实例,通过相关Web页面获取及Web信息抽取模块从互联网上逐步抽取得到地点信息、站点信息、列车时刻信息、航班时刻信息、长途汽车客运时刻信息、各种交通票价信息等,实验中从配置的15个站点的约30万个动态页面中抽取相关数据,抽取准确率接近100%。图4即是通过Web信息抽取得到的火车时刻信息。

开发了混合交通的出行方案生成系统,前台提供出行方案查询页面,可以指定多种交通工具和转车次数进行查询,按时间、金额、转车次数等进行排序显示。结果页面按序显示符合条件的各种出行方案,每条方案中全面给出从起点到终点的详细信息。

4系统建设SystemConstruction

图4通过Web信息抽取得到的火车时刻信息

实验结果表明,本系统具有如下一些优点:

1)以知识数据库作为支撑,通过配置网站库,能实现各种特定领域相关知识动态Web页面的自动下载:

2)使用了基于本体的关键词库及概念标注库,使信息抽取能适应不同知识领域,适应无统一语义的Web环境。

4结论

针对现有Web信息抽取方法对不同领域、不同结构Web页面的信息抽取缺乏通用性,本文提出了一种新的Web信息抽取和知识表示系统,实现不同知识领域下各种数据密集型动态Web页面的自动信息抽取,系统具有如下创新点:

1)传统PAT-array算法无法区分重复模式区域的标题项和数据项,本系统采用基于本体的关键词库从重复模式中区分出标题和数据,自动识别数据显示结构模型和语义:

2)将Web信息抽取和知识数据库有机结合起来,把知识数据库已有知识作为Web信息抽取的基础,从互联网上抽取新知识再存入知识数据库。从而达到知识数据库的不断自扩展。

实验表明该系统具有高抽取准确率和良好的适应性。下一步在页面数据显示结构模型自动识别中将利用基于本体的页面结构识别方法,提高具有复杂标题结构的重复模式结构识别能力。

参考j.J氏

l张岭.智能信息检索中的Web挖掘研究【博士学位论文】.上海:上海交通大学,2003.

(下转第9页)

万方数据

2010年第19卷第9期计算机系统应用

实现船舶的位置查询、搜索、信息管理、告警管理、轨迹回溯、应急自动处理、增值消息管理和地标图层管理等功能。运行界面如图4。

图4海上救助卫星监控客户端软件运行界面

4结束语

作为海上应急救援系统的组成部分,本文给出了系统传输层以上部分的设计并加以实现,整套系统已经应用在浙江省的某渔船监控与应急救援系统项目中。实践证明该系统服务数据可靠、界面友好、系统可扩展性强,较好地实现了船舶定位与应急救援功能。另外,基于GoogleEarth的位置服务系统还可以用于道路交通、勘探、环境监测、物流、工业控制等诸多领域,具有较高的推广和参考价值。

参考,o酞

l邵全琴.海洋渔业地理信息系统研究与应用.北京:科学出版,2001.

2OpenGeospatialConsortiumInc.OGCKMLVersion:2.2.[2008—04].http://www.opengeospatial.ore,/standards/kml.

3GoogleInc.GoogleEarthCOMAPIDocumentation.Version:1.0.[2008一01].http://earth.google.corrgcomapV4MartinC.Brown.HackingGoogleMapsandGoogleEarth.NewYork:WileyPublishing,Inc.2006.

5江宽,龚小鹏等.GoogleAPI开发详解.北京:电子工业出版社.2008.

6陈锐祥等.GoogleEarth在交通信息服务系统中的应用研究.中山大学学报(自然科学版),2007?12,146:195一197.

7孙玉龙等.GoogleEarth在航标监控系统中的应用.交通与计算机,2007,25:98—101.

8飞思科技.Delphi下深入Windows核心编程.北京:电子工业出版社,2003.

(上接第4页)

2Ana-MariaP-InformationexuactionfromunstructuredW|ebtext[Ph.DDissertation].UniversityofWashing-tOn.2007.

3李海健,王晓丰.w曲信息抽取的现状及未来展望.廊坊师范学院学报(自然科学版)'2009,9(3):39—40.4WongTL,WaiL.AnunsupervisedmethodforjointinformationextractionandfeatureminingacrossdifferentWebsites.DataandKnowledgeEngineering,2009,68(I):107—125.

5韩存鸽,燕敏.Web信息抽取方法研究.计算机系统应用,2009,18(7):172—174,189.

6ChangCH,KayedM,GirgisM氏eta1.ASurveyofWbbInformationExtractionSystems.IEEETransac-fions0nKnowledgeandDataEngineering2006,18(10):14ll一1428.7Gatterbauer彰Bohunsky£Herzog霉KruplB,PollakB.Towardsdomain?independentinformationexlractionfromWebtables.PrOC.ofthe16thinternationalconferenceonWorldWideⅥ佬b.May.2007.71—80.

8CrescenziVMeccaGAutomaticinformationex口actionfromlargewebsites.JournaloftheACM,2004,51(5):731—779.

9邓尚民,孙玉伟.信息抽取系统的研究现状.现代图书情报技术,2006,(3):54—58,81.

10林建敏,谢康林.基于PAT-array和模糊聚类的文本聚类方法.计算机工程,2004,30(12):126—127.

1lJtidy说明.【2008-11-21].http://jtidy.sourceforge.net/.

System

Construction系统建设9万方数据

web信息抽取技术纵览

网上信息抽取技术纵览 Line Eikvil 原著(1999.7)陈鸿标译(2003.3) 第一章导论 信息抽取(Information Extraction: IE)是把文本里包含的信息进行结构化处理,变成表格一样的组织形式。输入信息抽取系统的是原始文本,输出的是固定格式的信息点。信息点从各种各样的文档中被抽取出来,然后以统一的形式集成在一起。这就是信息抽取的主要任务。 信息以统一的形式集成在一起的好处是方便检查和比较。例如比较不同的招聘和商品信息。还有一个好处是能对数据作自动化处理。例如用数据挖掘方法发现和解释数据模型。 信息抽取技术并不试图全面理解整篇文档,只是对文档中包含相关信息的部分进行分析。至于哪些信息是相关的,那将由系统设计时定下的领域范围而定。 信息抽取技术对于从大量的文档中抽取需要的特定事实来说是非常有用的。互联网上就存在着这么一个文档库。在网上,同一主题的信息通常分散存放在不同网站上,表现的形式也各不相同。若能将这些信息收集在一起,用结构化形式储存,那将是有益的。 由于网上的信息载体主要是文本,所以,信息抽取技术对于那些把因特网当成是知识来源的人来说是至关重要的。信息抽取系统可以看作是把信息从不同文档中转换成数据库记录的系统。因此,成功的信息抽取系统将把互联网变成巨大的数据库! 信息抽取技术是近十年来发展起来的新领域,遇到许多新的挑战。 本文首先在第二章简要介绍信息抽取技术,第三章介绍网页分装器(wrapper)的开发,第四章介绍已经开发出来的网站信息抽取系统,第五章介绍信息抽取技术的应用范围以及首批已经进入商业运作的商用系统。 第二章信息抽取技术概述 信息抽取原来的目标是从自然语言文档中找到特定的信息,是自然语言处理领域特别有用的一个子领域。所开发的信息抽取系统既能处理含有表格信息的结构化文本,又能处理自由式文本(如新闻报道)。IE系统中的关键组成部分是一系列的抽取规则或模式,其作用是确定需要抽取的信息[52]。网上文本信息的大量增加导致这方面的研究得到高度重视。 本章首先介绍信息抽取领域的发展。第2.1.节比较了信息抽取和信息检索的区别;第2.2.节介绍IE的历史。接下来两节解释评价IE系统的指标和常用的两派技术方法。信息抽取技术所处理的文本类型将在第2.5.节中说明。第2.6.节描述信息抽取技术可利用的网页特征。 第2.1.节IR和IE

Web信息抽取及知识表示系统的研究与实现

万方数据

万方数据

万方数据

计算机系统应用2010年第19卷第9期 图3示例文档对应的DOM树结构 2.2.6数据抽取 根据得到的DOM树进行数据模型映射,步骤如下: ①利用DOM树生成对应的XML文档和DTD模式定义文档: ②利用DTD进行对象一关系映射,将XML映射到知识数据库中,生成映射规则,进行数据抽取及存入数据库处理。 2.3知识表示 采用B/S架构,利用数据库检索技术结合智能化方案生成算法,直接为用户提供解决方案,而不仅仅是知识的罗列。对解决方案给出一些评价标准,根据用户的选择按照评价标准对方案进行排序,使用户方便快捷的找到符合自己需求的方案。 3实例及分析 本文以交通信息抽取及混合交通出行方案查询作为实例,通过相关Web页面获取及Web信息抽取模块从互联网上逐步抽取得到地点信息、站点信息、列车时刻信息、航班时刻信息、长途汽车客运时刻信息、各种交通票价信息等,实验中从配置的15个站点的约30万个动态页面中抽取相关数据,抽取准确率接近100%。图4即是通过Web信息抽取得到的火车时刻信息。 开发了混合交通的出行方案生成系统,前台提供出行方案查询页面,可以指定多种交通工具和转车次数进行查询,按时间、金额、转车次数等进行排序显示。结果页面按序显示符合条件的各种出行方案,每条方案中全面给出从起点到终点的详细信息。 4系统建设SystemConstruction 图4通过Web信息抽取得到的火车时刻信息 实验结果表明,本系统具有如下一些优点: 1)以知识数据库作为支撑,通过配置网站库,能实现各种特定领域相关知识动态Web页面的自动下载: 2)使用了基于本体的关键词库及概念标注库,使信息抽取能适应不同知识领域,适应无统一语义的Web环境。 4结论 针对现有Web信息抽取方法对不同领域、不同结构Web页面的信息抽取缺乏通用性,本文提出了一种新的Web信息抽取和知识表示系统,实现不同知识领域下各种数据密集型动态Web页面的自动信息抽取,系统具有如下创新点: 1)传统PAT-array算法无法区分重复模式区域的标题项和数据项,本系统采用基于本体的关键词库从重复模式中区分出标题和数据,自动识别数据显示结构模型和语义: 2)将Web信息抽取和知识数据库有机结合起来,把知识数据库已有知识作为Web信息抽取的基础,从互联网上抽取新知识再存入知识数据库。从而达到知识数据库的不断自扩展。 实验表明该系统具有高抽取准确率和良好的适应性。下一步在页面数据显示结构模型自动识别中将利用基于本体的页面结构识别方法,提高具有复杂标题结构的重复模式结构识别能力。 参考j.J氏 l张岭.智能信息检索中的Web挖掘研究【博士学位论文】.上海:上海交通大学,2003. (下转第9页) 万方数据

相关文档