当前位置：文档库 › jdsi

jdsi

基金项目：河北省科学技术研究与发展计划项目（114572126）

面向ＯＷＬ知识的Agile问答系统
赵喜清1) 张利明2) 郭喜凤3)霍丽芳4)高明霞5）孙兆豪6)
1,2,3)
(河北北方学院信息科学与工程学院张家口 075000)
(河北建筑工程学院数理系张家口 075000)
(北京工业大学计算机学院北京 100124)
(河北师范大学数学与信息科学学院计算机系石家庄 050016)
摘要：
问答系统因其能提供方便的输入模式与更精确的答案而成为获取网络信息的重要手段。本文介绍了一个面向ＯＷＬ知识的问答系统 Agile, 并着重阐述了其在问题规范和知识索引方面的技术方案。为了得到合适的映射单位，Agile定义了两个数据结构用于规范自然语言问题和OWL本体知识字典，并借助一些自然语言处理工具和OWL解析工具将两种源知识进行了形式化。和现有网络问答系统比较, Agile不需要用户参与，能够处理的问题领域和形式更加丰富。
关键词：问答系统，OWL知识，问题规范，知识索引
中图法分类号 TP311
A Question-Answering System based on OWL Knowledge: Agile
ZHAO Xi-Qing 1) ZHANG Li-Ming 2) GUO Xi-Feng3) HUO Li-Fang 4)
GAO Ming-Xia5) SUN Zhao-Hao6)
1,2,3) (College o f Information Science&engineering, Hebei North University，zhangjiakou，075000)
4) (Department of Mathematics &Physics , Hebei Institute of Architecture and Civil Engineering，zhangjiakou，075000)
5) (College o f Computer Science, Beijing University of Technology，Beijing，10022)
6) (School of Computer Science and Technology, College of Mathematics and Information Science, Hebei Normal University Shijiazhuang, 050016, China, Email: zhsun@https://www.wendangku.net/doc/8012476836.html,)
Abstract Existing Question-Answering systems for the Web focus on source of text. The Web Ontology Language (OWL) is recommended by W3C as the standard for knowledge representation and exchange on the Internet in 2004. So QA based on OWL knowledge become an important research. A QA system named Agile is presented in this paper, and the detail schemes of formulating questions and indexing OWL are described. In order to acquire mapping unit, Agile defines two data structures for formulating questions and OWL and formatted them through existing natural language processing technology and OWL parsing method. Agile is auto and can deal with more kinds of questions than former QA based on OWL systems.
Keywords: Question-Answering, OWL knowledge, formulating questions, indexing knowledge

1 引言

问答系统（Question Answering System, QA）[1]支持自然语言格式的用户问题并能返回简洁、准确的答案，又称为人机对话系统(Human-machine conversation, HMC)。伴随着不同知识表示方式的出现和发展，研究、开发针对不同知识源和不同应用的各类问答系统吸引了众多研究者的兴趣。网络本体语言（Web Ontology L

anguage, 缩写为OWL）[2,3] 是2004年W3C推荐的用于表示网络本体知识的工业标准。随着OWL语言规范的标准化，大量的个人和学术团体专注于自动学习和手动建立各种各样OWL版本的本体知识（简称为OWL知识）并将其发布于网络。基于OWL知识的问答系统[4，5，6]成为面向Web问答系统研究的新探索，这类系统兼顾了基于知识库问答系统的推理能力和基于Web问答系统的知识获取方式。QACID [4]，Aqualog[5], Agile[6]是其中的重要成果。QACID只能处理电影领域的问题。它自动建立了一个问题模式(question pattern)和SPARQL匹配的数据库，但是需要手动收集大量问题作为学习实例。Aqualog专门处理英语问题，对问题进行了手工分类，但是其问题理解过程中概念和关系的识别过程是半自动化的，需要用户的参与。由于使用了问题手工分类模板，其可处理的问题范围只有带“who” 和“what”问题标记词的问题。Agile可以用OWL知识回答用户的面向事实的句子级英语问题，能够实现知识索引、问题规范、问题理解、查询组合、答案推理等主要步骤。为了得到合适的映射单位，Agile定义了两个数据结构用于规范自然语言问题和OWL知识，并借助一些自然语言处理工具和OWL解析工具将两种知识进行了形式化；为了减少用户干预并利用源问题中的语义信息，Agile将问题理解形式化为一个模糊约束满足问题，并将不同的影响问题理解的因素形式化为不同的软约束，利用最小－最优解答和Leximin排序将包含语义信息的问题成分翻译成了OWL知识元素；查询组合以OWL语言规范生成的模版为基础，采用模式匹配方式生成了有效的RDF图模式；答案推理借助了推理引擎Pallet。和现有OWL知识问答系统比较, Agile不需要用户参与，能够处理的问题领域和形式更加丰富。因为篇幅所限，本文着重介绍系统的整体结构以及问题规范和知识索引技术，其中第2节介绍Agile的系统结构和各部分的功能；第3节介绍问题规范和知识索引技术；第4节验证了Agile在几个真实OWL知识库上的效果；第5节对系统进行总结并指出进一步的研究方向。
2 Agile的系统结构
Agile 将用户的英语自然语言问题规范成带属性集的词集，同时将OWL知识索引为字典，通过问题理解和查询组合将自然语言问题翻译为等价的RDF元组，答案推理改写这些元组成为有效的OWL查询（SPARQL等）并借助现有推理引擎Pallet从OWL知识库中获取到了OWL格式的答案。如图1所示，整个系统分为知识索引、问题规范、问题理解、查询组合、答案推理五个部分。

图1 Agile的系统结构
Fig. 1 Agile system framework

2.1 问题规范和知识索引
问题理解是将用户的自然语言问题表达或映

射为问答系统内部知识的过程。Agile的内部知识是OWL知识，Agile的问题理解过程就是将自然语言问题表达成OWL知识的过程。从OWL知识库角度看，元素是表示知识的最小单位，通常情况下由一个或多个自然语言词组成。而词（或者实体）又是自然语言中具有实际语义的最小单位。所以，Agile选择了自然语言中的词和OWL知识库中的元素作为问题理解过程的最小单位。问题规范和知识索引就是处理自然语言问题和ＯＷＬ知识库成为这种最小单位的两个重要步骤，详细技术见第3 节。
2.2 问题理解
问题理解是在问题规范和知识索引的基础上，在问题词集和元素集之间建立语义等价映射的过程。对一个问题词语义的理解受很多因素影响，常见的有：语法因素，词形因素等。这些因素的影响程度和影响优先级各不相同，为了统一、量化的评估这些影响因素，Agile将这个映射过程形式化为一个模糊约束满足问题。词集被看作是离散变量集，其中的词是离散变量，元素集则是每个离散变量的值域。各种来自于语言，常识和用户的影响因素被统一形式化为软约束，优化约束，硬约束三种类型，作为全局次序的衡量标准。获取一个词集到一个元素集的“最一致”的语义映射，等价于通过模糊约束满足问题中最小－最优解答和leximin排序在每个可行的解决中发现最优解答的问题。
2.3 查询组合
目前，能用于查询OWL知识库的查询语言主要有：RDQL，SPARQL， OWL-QL三种。尽管这些查询语言的表达能力、模式匹配方式及具体语法存在差异，但是，它们的查询都是面向数据的，都以RDF图模型为基础。所以，查询组合的关键是将问题理解结果，即和问题词集“最一致”的OWL元素集组合成RDF图模式（RDF元组）。根据OWL语言规范，一种特定类型的OWL元素可以组合成几种有限的RDF图模式，Agile中的查询组合利用这些规范形成的模板和一些隐含属性识别方法完成这一工作。
2.4 答案推理
答案推理主要完成如下两个任务：RDF图模式到选定查询语言的重写；提交符合规范的OWL查询给OWL知识推理机。由于SPARQL是W3C推荐的标准RDF查询语言，语法类似于SQL，可以通过图形模式匹配实现对多个RDF图的查询。因此Agile选择SPARQL作为OWL知识库的查询语言。RDF图模式和SPARQL有各自的语法规范，答案推理根据这些规范将查询组合结果重写成了格式有效的SPARQL查询，并将其提交给支持SPARQL查询的推理引擎Pallet 。
3 问题规范和知识索引
问题规范的最终目的就是将问题中蕴含的各种词法、语法和语义信息转换为合适的形式提供给Agile的后续模块。为此，Agile定义了一个统一的数据结构用于表示各种自然

语言问题，如定义1所示。问题规范的主要任务就是获得这个形式化结构。
问题规范需要各种各样的自然语言处理技术[7]，例如：分词，stop词识别，取词干，词性标注，命名实体识别，同义词扩展等。大致流程分为：分割和标注两部分，图2提供了一个问题规范的实例。正如图2所示，一个原始问题首先通过分割（tokenization）获得了一组包含属性的候选词。然后，通过不同的标注技术增加这些词的语法和语义属性，例如使用一个预先定义的stop词典为候选词中的stop词作标注，或者利用实体识别技术标注各类实体，比如人名，地名，数字，日期等。最后，通过语义字典等工具扩展同义词，等价词，缩写词等属性。Agile主要利用现有的自然语言处理工具：Gate [8], WordNet [9] 和montylingua-2.1 提供的API完成这些工作。
图2 问题规范实例
Fig. 2 A schematic illustration of the process for formulating a question
为了定义描述方便介绍一些自然语言领域的术语：记号（token），词（word），和词组（phrase）。记号是一个字符序列。词是具有语言意义的单位，包括标准词和命名实体。词组是一组表现出独立句法结构的词的集合。
定义1 问题是一个满足顺序关系的词集。刻画了词集中词在问题中的语言特征，例如：词的形态，句法及语义结构。其中，是组成该词的记号集；Attributes是该词的属性集，用于刻画其词性（POS），词干（Stem），同义词（Syn），等价词（Equ），命名实体类型（NeType）等；Top-Phrase指向包括该词的词组。
和问题规范类似，知识索引任务需要将OWL知识库中潜在的一些知识组织成一个特定数据结构用于理解问题。定义2是Agile中使用的平面结构。这个结构将公理知识，元素等OWL知识库中的知识特征以自然语言中的语义词进行了索引，形成了一个如图3所示的数据结构。为了获取OWL知识库特征，Agile使用了现存的OWL知识解析器：Jena[9]。一个OWL元素通常由一个词或多个词组成。单个词就是自然的索引词。由多个词组成的元素或者遵循一定的命名规则，或者是一个较完整的自然语言片段例如词组，短语等。前者可以依据命名规则分解元素获取索引词集，后者使用和问题规范类似的自然语言处理技术建立索引词集索引。
定义2 知识库是由一个元素集和RDF元组集组合成的二元组。其中，是元素集；是RDF元组集。刻画了元素集中元素在知识库中的特征。其中，Type是元素类型集｛class, individual, DatatypeProperty, ObjectProperty, value｝中的一员；是组成该元素的记号集；是包括这个元素的RDF元组集。

图3 知识库索引结构
Fig. 3 Data structure of OWL KB

4 实验
4.1实验数据
为

了验证Agile的效果，我们利用不同渠道获取了三个不同主题的OWL知识库，表1提供了这些知识库的基本特点。第一个知识库—institute.owl描述了国际WIC研究院涉及的人、出版物、会议等概念及他们间的关系。这个知识库是根据国际WIC研究院的实际知识并基于大学本体手工扩充生成的。这个知识库定义了大量的简单命名类和属性，匿名类和限定相对较少。第二个知识库—people-pets.owl描述的是人、动物和宠物等概念及它们间的关系。它的原始概念来自于Racer 的例子知识库。实例和关系是根据一些介绍宠物的Web站点扩充的。这个知识库使用了大量的属性限定用于定义类。第三个知识库—references.owl描述的是和参考文献相关的概念和关系。它是EON Ontology Alignment Contest 所用的参考本体。它的实例更像是自动生成的，实例名称使用了人类很难理解的符号，例如“a456080390”。这些实例通常附属有两个和名称等价的属性“title”或是“label”。为了消除符号名称，预处理过程中用等价属性值替换了符号名称。
表1知识库的基本情况
知识库类数据属性+对象属性个体公理
institute.owl 91 70 120 1768
people -pets.owl 59 16 27 565
references.owl 37 71 114 864

表2提供了和上述知识库匹配的三个问题集根据问题标记词的分类情况。第一个问题集的问题包括两个来源。一部分是参考Webclopedia 中问题类型模拟生成的，另一部分是直接从WIC研究院的学生那里收集到的。其余两个问题集中的问题都是参考Webclopedia中问题类型手工模拟生成的。从表4可见，问题集中包含着9个祁使类问题（im 表示祁使类问题），在进行问题规范实验时，这些问题要手工重写为带问题标记词的问题。
一个自然语言问题能否被一个给定知识库中的知识正确理解，除了理解技术的影响外，更重要的条件是：知识库中是否包含有足够理解这个问题的知识。为了消除由于知识不足引起的误差，表4中的问题通过人类专家进行了手工检查，确认是可以由对应知识库回答的。表2 问题集的分类
问题集 what which who whose how when where im sum
institute 21 24 22 7 6 5 4 4 93
people-pets 26 11 22 5 6 0 0 5 75
references 23 21 6 2 7 5 3 9 76
4.2 实验结果及分析
Agile的问题规范模块采用了现有的自然语言处理工具，这些现有技术在分割和标注问题时不可避免的会产生少量错误。Agile的后续模块会将问题规范结果作为输入，问题规范引入的错误就会影响其他模块的精度，并最终影响Agile系统的精度。通过模块的单独测试得出三个问题集（institute, people-pets, references）在问题规范模块的精度分别是：92.3%，96.05%，96.05%。

图4 Agile在三个数据集上的精度比

较
Fig. 4 Agile precision on three OWL KBs

为了消除问题规范的影响，手工纠正了这些分割和标注错误形成了一个无规范错误的问题集。图3提供了Agile在三个数据库上针对两个问题集的精度结果。从图中可知：Agile是领域无关系统，在消除了问题规范错误后，三个问题集的精度都达到了80%。由于三个知识库的结构特点相差较远，其中第二和第三个知识库中包含了大量的匿名个体和匿名类，这些通过属性限制声明的类在知识库索引时很难生成一致的三元组公理知识，这可能会影响问题理解模块的精度，并最终影响了整个Agile的精度。
5 结论和展望
本文介绍的基于OWL知识的问答系统Agile，和以前系统相比有以下贡献：（1）系统是全自动的，在问题规范，问题理解以及知识库索引等关键步骤无需用户和领域专家参与。 (2) 系统是领域无关的，在三个不同领域的知识库和问题集上的实验，其最优准确率都达到了80%。开发面向Web的问答系统是一个具有相当难度的前沿课题，在以下方面Agile 也没有取得完全令人满意的结果：(1) 在多变量问题处理方面，问题理解精度仍然需要提高，查询组合需要新的技术；(2) 在问题领域定位方面，Agile仍然是静态的，一次部署只适合于解决一个领域的问题，领域实时动态选择仍然是个难题；（3）在知识库获取和更新方面，Agile也没有实现动态化，一次部署只适合于利用现有的OWL知识库，不能增量式更新。

参考文献：
1 Wang Shu-Xi. Question Answering System: Core Technology, Application. Computer Engineering and Applications, 2005, 18(41):1-3 (in chinese)
(王树西，问答系统：核心技术、发展趋势. 计算机工程与应用, 2005, 18(41):1-3)
2 I. Horrocks, P. Patel-Schneider, F. Harmelen. From SHIQ and RDF to OWL: The Making of a Web Ontology Language. Journal of Web Semantics. 2003, 1(1): 7~26
3 M. K. Smith, C. Welty, D. L. McGuinness. OWL Web Ontology language guide. https://www.wendangku.net/doc/8012476836.html,/TR/owl-guide/
4 ′OSCAR, Ferr′andez, R. IZQUIERDO, S. FERR′ANDEZ, and J. L.VICEDO. 2009. Addressing ontology-based question answering with collections of user queries. Information Processing and Management, 45:175–188.
5 V. Lopez, M. Pasin, E. Motta. AquaLog: An Ontology-Portable Question Answering System for the Semantic Web. ESWC 2005. 2005, LNCS 3532: 546~562
6 M.X. Gao, J.M Liu, N. Zhong, F.R. Chen, C.N. Liu. Semantic Mapping from Natural Language Questions to OWL Queries. Computational Intelligence, 2011, 27(2),280-314 （SCI：WOS:000290267600006）
7 D. Jurafsky, J. H. Martin. Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. Prentice Hall, 2000
8 H. Cunningham. Software Architecture for Language Engineering. Doctor of Philosophy, Departm

ent of Computer Science, University of Sheffield, June 2000
9 C. Fellbaum eds. WordNet: An Electronic Lexical Database. MIT Press, 1998
10 M. Brian. Jena: A Semantic Web Toolkit. IEEE Internet Computing, vol. 6, no. 6, pp. 55-59, November/December, 2002.