当前位置：文档库 › Web页面主题信息抽取研究与实现

Web页面主题信息抽取研究与实现

万方数据

标记Ｂ来描述，Ｂ。＝ｏ表示第ｎ个标记是词，Ｂ。＝１表示是标签。图３为标记的分布图。

抽取方法是这样的：从标记分布图可以看出．在上升到某一个高度时达到一个相对平稳的区域．此区域的起点和终止点

对应了页面主题内容的开始和结尾。本方法的关键是确定ｉ、ｆ点，让位于ｉ之下和＿『之上的标签标记数目达到最大，同时，ｉ√之间的文本标记数目也达到最大。我们关心和抽取的只是ｉ、ｆ

中间的文本部分，可以用下面这个公式来确定ｉ、ｉ：

／－１』Ｎ－Ｉ

耻∑Ｂ一∑（１一Ｂ。）＋∑Ｂ。（２）ｎ＝Ｏｎ＝ｉｎ爿＋ｌ

使五最大，即相当于使（ｉ√）区域内的词最多，使（ｉ√）区域外的标记最多．

在测试的过程中．逐步加入了启发式规则：

（１）对嵌套毛Ｅ＜ｓｐａｎ＞里的＜ｂｒ＞赋值为０；

（２）＜ｂ＞、＜ｓｔｒｏｎｇ＞、＜ｅｍｐｈａｓｉｓ＞赋值为Ｏ；

（３）＜Ｈ１＞＜Ｈ２＞…＜Ｈ６＞赋值为０；

（４）＜ＨＲ＞赋值为６；

（５）＜Ａ＞赋值为２，尽量使＜Ａ＞内的词数少；

我们还对此方法做了进一步优化：

（１）汉字分词问题的解决方案

经过对大量样本的提取．发现将每两个字划分为一个词后提取的效果最好。

（２）抽取失败时的解决方案

如果主题内容词数太少．该方法将抽取不到任何内容。此时就把＜ｔｉｄｅ＞里的内容作为主体内容抽出来。

４测试集及试验结果

本次实验的测试集由来自１２０个网站的５０００篇网页组成．测试网站几乎涵盖了国内所有的大型门户网站及主要的新闻网站。这些网页结构差别大．有助于验证算法的性能。我们还实现了Ｆｉｎｎ嘲和Ｇｕｐｔａｔ５】的系统．以便与它们进行比较。

因为对主题文字的判断具有主观性．我们采用人工评价打分的方法，按照“优。良，中。差”四档进行打分。如果主题文字提取正确则打分为“优”．有少量错误则打分为“良”．错误较多但结果整体上可以接受则打分为“中”．提取有严重错误或错误很多则打分为“差”。根据这种评分标准．我们让８位测试者独立打分，最后取其平均值。表１显示了主题信息提取的结果．图４是主题信息提取对比图。

从表１和图４中可以看出我们的方法具有较高的准确度。优于其它两种。

我们对抽取效果差的网页做了进一步分析．发现抽取失败的原因有以下两种：

（１）对个别奇特的网页。我们对网页的分析分块不够准确。

（２）启发式规则还不完善。

该方法从本质上抓住了网页的设计特征（主要内容总是在网页中部）以及ＨＴＭＬ源代码的特征。可以说抓住了本质，充分利用了ＨＴＭＬ中的标签。优点是获得了高的通用性和准确率。

１４８２００６．２１计算机工程与应用

裹１主曩信息提取实验结果

圈４对比圈

５结论

本文针对Ｗｅｂ信息提取工作的需要．提出了一种新的Ｗｅｂ页面分析和主题提取框架．并设计了相应的算法．加入了启发式规则来提取Ｗｅｂ页面的主体信息。并通过人工判定的方法进行了实验和评估。实验结果表明该方法切实可行。具有较高的准确率．

未来．我们将继续丰富启发式规则以提高准确率：现在提取的主体内容仍局限于主题文字．下一步将要提取与主题内容相关联的各种媒体信息（如图片、ｆｌａｓｈ、ｖｉｄｅｏ、ａｕｄｉｏ等）。

（收稿日期：２００６年１月）

参考文献

１．ＹｉＬａｎ．ＬｉｕＢｉｎｇ．ＷｅｂＰａｇｅＣｌｅａｎｉｎｇｆｏｒＷｅｂＭｉｎｉｎｇｔｈｒｏｕｇｈＦｅａ—ｔｕｒｅＷｅｉｇｈｔｉｎｇ：［Ｃ］．Ｉｎ：ｔｈｅｐｒｏｃｅｅｄｉｎｇｓｏｆＥｉ曲ｔｅｅｎｔｈＩｎｔｅｒｎａｔｉｏｎａｌＪｏｉｎｔＣｏｎｆｅｒｅｎｃｅｏｎＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ（ＩＪＣＭ－０３），Ａｃａｐｕｌｃｏ，Ｍｅｘｉｃｏ，２００３一０８

２．Ｂａｒ－ＹｏｓｓｅｆＺ．Ｒ８ｊａｇｏｐＭａｎＳ．ＴｅｍｐｌａｔｅＤｅｔｅｃｔｉｏｎｖｉａＤａｔａＭｉｎｉｎｇａｎｄｉｔｓＡｐｐｌｉｃａｔｉｏｎｓ［Ｃ］．Ｉｎ：ｔｈｅｐｒｏｃｅｅｄｉｎｇｓｏｆ１ｌｔｈＷｏｒｌｄＷｉｄｅＷｅｂｃｏｎｆｅｆｅｎｃｅ（ＷＷＷ２００２），Ｈａｗａｉｉ，ＵＳＡ，２００２一０５

３．ＬｉｎＳ—Ｈ．ＨｏＪ－Ｍ．ＤｉｓｃｏｖｅｒｉｎｇＩｎｆｏｒｍａｔｉｖｅＣｏｎｔｅｎｔＢｌｏｃｋｓｆｒｏｍＷｅｂＤｏｃｕｍｅｎｔｓ［Ｃ］．Ｉｎ：ｔｈｅｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＡＣＭＳＩＧＫＤＤＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＫｎｏｗｌｅｄｇｅＤｉｓｃｏｖｅｒｙ＆ＤａｔａＭｉｎｉｎｇ（ＳＩＧＫＤＤ’０２），Ａｌｂｅｒｔａ，Ｃａｎａｄａ，２００２

４．ＤｅｎｇＣａｉ．ＹｕＳｈｉｐｅｎｇ。ＷｅｎＪｉｒｅｎｇｅｔａ１．ＶＩＰＳ：ａｖｉｓｉｏｎ—ｂａｓｅｄｐａｇｅｓｅｇｍｅｎｔａｔｉｏｎａｌｇｏｒｉｔｈＩｌｌ【Ｒ】．ＭｉｃｒｏｓｏｆｔＴｅｃｈｎｉｃａｌＲｅｐｏｒｔ，ＭＳＲ—ＴＲ－２００３—７９．２００３

５．ＧｕｐｔａＳ。ＫａｉｓｅｒＧ，ＮｅｉｓｔａｄｔＤｅｔ

ａ１．ＤＯＭｂａｓｅｄＣｏｎｔｅｎｔＥｘｔｒａｃｔｉｏｎｏｆＨＴＭＬＤｏｃｕｍｅｎｔｓ［Ｃ］．Ｉｎ：ｔｈｅｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ１２ｔｈＷｏｄｄＷｉｄｅＷｅｂｃｏｎｆｅｒｅｎｃｅ（ＷＷＷ２００３），Ｂｕｄａｐｅｓｔ，Ｈｕｎｇａｒｙ，２００３—０５

６．ＡｉｄａｎＦｉｎｎ，ＮｉｃｈｏｌａｓＫｕｓｈｍｅｒｉｃｋ，ＢａｒｒｙＳｎｌｙｔｈ．Ｆａｃｔｏｒｆｉｃｔｉｏｎ：Ｃｏｎ—ｔｅｎｔＣｌａｓｓｉｆｉｃａｔｉｏｎｆｏｒｄｉｇｉｔａｌｌｉｂｒａｒｉｅｓ［Ｃ］．Ｉｎ：ＪｏｉｎｔＤＥＬＯＳ—ＮＳＦＷｏｒｋ—ｓｈｏｐｏｎ

ＰｅｒｓｏｎａｌｉｓａｔｉｏｎａｎｄＲｅｃｏｍｍｅｎｄｅｒＳｙｓｔｅｍｓｉｎＤｉｇｉｔａｌＬｉ—ｂｒａｒｉｅｓ，Ｄｕｂｌｉｎ，２００ｌ

７．ＣｙｂｅｒＮｅｋｏＨＴＭＬＰａｒｓｅｒ．ｈｔｔｐ：／／ｗｗｗ．ａｐａｃｈｅ．ｏｒｇ／一ａｎｄｙｅ／ｎｅｋｏ／ｄｏｅ／ｈｔｍｌ／

ｉｎｄｅｘ．ｈｔｍｌ

万方数据

web信息抽取技术纵览

网上信息抽取技术纵览 Line Eikvil 原著（1999.7）陈鸿标译(2003.3) 第一章导论信息抽取（Information Extraction: IE）是把文本里包含的信息进行结构化处理，变成表格一样的组织形式。输入信息抽取系统的是原始文本，输出的是固定格式的信息点。信息点从各种各样的文档中被抽取出来，然后以统一的形式集成在一起。这就是信息抽取的主要任务。信息以统一的形式集成在一起的好处是方便检查和比较。例如比较不同的招聘和商品信息。还有一个好处是能对数据作自动化处理。例如用数据挖掘方法发现和解释数据模型。信息抽取技术并不试图全面理解整篇文档，只是对文档中包含相关信息的部分进行分析。至于哪些信息是相关的，那将由系统设计时定下的领域范围而定。信息抽取技术对于从大量的文档中抽取需要的特定事实来说是非常有用的。互联网上就存在着这么一个文档库。在网上，同一主题的信息通常分散存放在不同网站上，表现的形式也各不相同。若能将这些信息收集在一起，用结构化形式储存，那将是有益的。由于网上的信息载体主要是文本，所以，信息抽取技术对于那些把因特网当成是知识来源的人来说是至关重要的。信息抽取系统可以看作是把信息从不同文档中转换成数据库记录的系统。因此，成功的信息抽取系统将把互联网变成巨大的数据库！信息抽取技术是近十年来发展起来的新领域，遇到许多新的挑战。本文首先在第二章简要介绍信息抽取技术，第三章介绍网页分装器(wrapper)的开发，第四章介绍已经开发出来的网站信息抽取系统，第五章介绍信息抽取技术的应用范围以及首批已经进入商业运作的商用系统。第二章信息抽取技术概述信息抽取原来的目标是从自然语言文档中找到特定的信息，是自然语言处理领域特别有用的一个子领域。所开发的信息抽取系统既能处理含有表格信息的结构化文本，又能处理自由式文本（如新闻报道）。IE系统中的关键组成部分是一系列的抽取规则或模式，其作用是确定需要抽取的信息[52]。网上文本信息的大量增加导致这方面的研究得到高度重视。本章首先介绍信息抽取领域的发展。第2.1.节比较了信息抽取和信息检索的区别；第2.2.节介绍IE的历史。接下来两节解释评价IE系统的指标和常用的两派技术方法。信息抽取技术所处理的文本类型将在第2.5.节中说明。第2.6.节描述信息抽取技术可利用的网页特征。第2.1.节IR和IE

Web信息抽取及知识表示系统的研究与实现

万方数据

计算机系统应用２０１０年第１９卷第９期图３示例文档对应的ＤＯＭ树结构２．２．６数据抽取根据得到的ＤＯＭ树进行数据模型映射，步骤如下： ①利用ＤＯＭ树生成对应的ＸＭＬ文档和ＤＴＤ模式定义文档： ②利用ＤＴＤ进行对象一关系映射，将ＸＭＬ映射到知识数据库中，生成映射规则，进行数据抽取及存入数据库处理。２．３知识表示采用Ｂ／Ｓ架构，利用数据库检索技术结合智能化方案生成算法，直接为用户提供解决方案，而不仅仅是知识的罗列。对解决方案给出一些评价标准，根据用户的选择按照评价标准对方案进行排序，使用户方便快捷的找到符合自己需求的方案。３实例及分析本文以交通信息抽取及混合交通出行方案查询作为实例，通过相关Ｗｅｂ页面获取及Ｗｅｂ信息抽取模块从互联网上逐步抽取得到地点信息、站点信息、列车时刻信息、航班时刻信息、长途汽车客运时刻信息、各种交通票价信息等，实验中从配置的１５个站点的约３０万个动态页面中抽取相关数据，抽取准确率接近１００％。图４即是通过Ｗｅｂ信息抽取得到的火车时刻信息。开发了混合交通的出行方案生成系统，前台提供出行方案查询页面，可以指定多种交通工具和转车次数进行查询，按时间、金额、转车次数等进行排序显示。结果页面按序显示符合条件的各种出行方案，每条方案中全面给出从起点到终点的详细信息。４系统建设ＳｙｓｔｅｍＣｏｎｓｔｒｕｃｔｉｏｎ图４通过Ｗｅｂ信息抽取得到的火车时刻信息实验结果表明，本系统具有如下一些优点：１）以知识数据库作为支撑，通过配置网站库，能实现各种特定领域相关知识动态Ｗｅｂ页面的自动下载：２）使用了基于本体的关键词库及概念标注库，使信息抽取能适应不同知识领域，适应无统一语义的Ｗｅｂ环境。４结论针对现有Ｗｅｂ信息抽取方法对不同领域、不同结构Ｗｅｂ页面的信息抽取缺乏通用性，本文提出了一种新的Ｗｅｂ信息抽取和知识表示系统，实现不同知识领域下各种数据密集型动态Ｗｅｂ页面的自动信息抽取，系统具有如下创新点：１）传统ＰＡＴ－ａｒｒａｙ算法无法区分重复模式区域的标题项和数据项，本系统采用基于本体的关键词库从重复模式中区分出标题和数据，自动识别数据显示结构模型和语义：２）将Ｗｅｂ信息抽取和知识数据库有机结合起来，把知识数据库已有知识作为Ｗｅｂ信息抽取的基础，从互联网上抽取新知识再存入知识数据库。从而达到知识数据库的不断自扩展。实验表明该系统具有高抽取准确率和良好的适应性。下一步在页面数据显示结构模型自动识别中将利用基于本体的页面结构识别方法，提高具有复杂标题结构的重复模式结构识别能力。参考ｊ．Ｊ氏ｌ张岭．智能信息检索中的Ｗｅｂ挖掘研究【博士学位论文】．上海：上海交通大学，２００３．（下转第９页）万方数据