当前位置：文档库 › 隐喻计算的研究

隐喻计算的研究

自上世纪60年代起，西方掀起了隐喻研究的热潮，学者们把隐喻从单纯的修辞学纳入到认知语言学的范畴。隐喻不仅仅是一种语言现象，而是人的一种思维方式的说法引起了人们的广泛认同。同时专家们也进行了一些隐喻计算模型的探讨和试验，相比较而言，中文的隐喻计算理解研究显得有些薄弱，因此本文在传统隐喻研究的基础上综述了隐喻计算模型和隐喻知识库建设方面的进展，力图通过国内外专家在计算隐喻方面的研究成果，探索面向信息处理的汉语隐喻形式化的研究方向。

隐喻的认识

一．隐喻作为一种修辞现象

隐喻是个古老的话题，西方学者早在二千年以前就对隐喻进行了描述，亚里士多德认为隐喻是通过把一个事物的词语给予另一个事物而构成的表达方式，提出了著名的“对比论”，不过他的对比论和后来的“替换论”都认为就其结构和形式来看隐喻是正常语言的一种偏离，隐喻的功能只是一种修辞作用。这种语义偏离的思想对后来的优选中断理论、修正语义学理论产生了深远的影响。20世纪30年代，Richard“互动论”指出隐喻是一种新意义的创新过程，是两个主词的词义相互作用的结果【1 J。突破了把隐喻仅仅看作一种词汇层次的修现象的局限，后来Black发展和完善了“互动论”。他们把隐喻作为一种语义现象，放到句子层面考察的方法为认知言学研究提供了启示。和亚里士多德的观点一致，中国古代也把隐喻看作是语言的一种修饰。先秦诸子的作品大量运用比喻来说明事理，各种观点的阐述都离不开比喻，也提出了很多精当描述。不过中国

学者一直注重在传统修辞学的框架下丰富和完善隐喻类别。近年来，随着西方语言学理论方

法的引入，中国的学者才开始从认知角度来分析汉语的隐喻现象。

3隐喻的计算理解研究

认知科学所取得的可喜成果对隐喻形式化研究有很好的促进作用。国外出现了一些很有代表性的隐喻计算模型，从设计方法上大致可以分为两大类：

第一类：主要以规则推导为主。

根据其设计思想的不同还可细分为：优选语义思想：这方面的主要代表是Fass_列提出的可以处理隐喻、转喻、字面义，反常表达的隐喻理解模型Met5系统；基于实例化思想：Martin提出了识别和解释常规隐喻的MIDAS系统。同时期还出现了隐喻理解的逻辑推理模型。例如：Gentner et al【9’m’的结构映射引擎(Structure—Mapping Engine)(SME)，Holyoak and Thagard[1u的ACME 隐喻分析模型，以及VealeLl21的Sapper模型。除此之外，还有基于隐喻突显思想【l3'¨]、基于语义标记思想¨纠的隐喻理解模型。模型的设计思路会在下一节重点论述。

第二类：主要以统计为手段，基于大规模语料库提取的隐喻分析模型。

这方面的典型代表是CorMet模型。Mason【16]利用大规模语料动态提取优先选择参数来识别特定领域的隐喻表达。CorMet系统的出现表明了基于大规模语料的计算隐喻识别方法正悄然兴起。同时也出现了与各种计算模型相配套的隐喻知识库，例如：MetaBank，Metalude等等，这些知识库的设计风格迥然不同，各有侧重。隐喻计算模型国内研究不多，不过最近两年有一些讨论：解角度提出

了“空手套白狼”，“郎平是个铁榔头”，古诗词等多个层面的隐喻理解问题[17J，周昌乐教授和他的学生们在隐喻逻辑推理方面的探索[1¨21|，袁毓林教授的容器套件隐喻研‘除此之外，还有台北学者黄居仁教授、安可思教授利用WordNet、SUMO等语义资源所做的隐喻映射研究等等。总体上讲，汉语的隐喻计算研究还处于起步阶段。

4规则推理模型的实现

4．1优选语义思想

WilksⅢ1提出了隐喻理解的优先选择限制方法。在系统中，词义信息包含在一个称为“语义公式”的知识结构中。算法通过语义公式之间的语义异常来判断隐喻表达。Wilks后来又提出了一个基本的补充解释的识别策略，即依赖伪文(pseudo．text)结构的机制，伪文是一种由格标记链接的知识结构模板。如果句子出现语义异常，系统就会从伪文中寻找一个近似匹配投射到原来的表示，例如：汽车喝油，my car drinks gasoline，语义表示为[my+car drink gaso．1ine]，出现语义冲突后，系统选择了近似匹配[ICengine(USE)#liquid]，这里“消耗(USE)”投射到“drink”而形成[my+car use gasoline]。Fass 07 J提出的修正语义学(Collative Semantics)方法实际上就是Wilks优选中断思想的发展，而且在他的隐喻系统Met‘中还提供了识别英语短句中隐喻(metaphor)、转喻(metonymy)和字面义(1iteralness)的一种手段。转喻和隐喻最主要的区别在于转喻被认为是构成了一个或多个像“容器一内容，部分一整体”这样的语义联系，而隐喻被认为是包含了相关的推理。这种方法是面向自然语言处理的修正语义研究的一部分，并且已经在Met5系统中实现，Met5系统用Quintus Prolog编写，系统流程如图1。

第一步：如果满足优选语义限制，则可以表示成字面理解，算法结束。

第二步：如果存在语义冲突，则进入转喻搜索，若满足，实现s(source)和T(target)的替换。若不满足，则转入3。

第三步：进入隐喻搜索，如果满足，建立隐喻联系，算法结束。如果不满足，进入异常运用处理。Fass的met5系统还包含一个500词条的语义框架词典(sense'frame)，该词典的设计后面会详细谈到。Wilks和Fass按照隐喻表达中源域和目标域存在语义矛盾的事实，设计了优选中断的问题求解思路，计算流程合乎情理，这应该是人工智能领域隐喻问题求解的一个好方法。不过他们的方法后来有人提出置疑。因为按照Wilks，Fass的理论，隐喻的处理比字面意义

需要更多的时间，但后来的心理学假设并不是这样，Gerrig瞄1提出的“处理各种非字面语言和字面语言的时间没有太大的不同，特别是没有证据表明在解释隐喻语言和字面语言所需要的时间有根本的差别”。心理学的假设和计算机处理过程是否完全一致，还有待于进一步验证。Wilks和Fass的计算模型把n+v的语义冲突作为识别隐喻表达的关键，但是从目前汉语词典的描述体系看，没有语

义冲突这方面特殊的描述。如果能够利用现有资源，提取隐喻约束条件倒是一个可行的方案。

4．2基于实例思想

Martin旧。设计了一个用来解释常规隐喻和识别新生隐喻的计算模型(Metaphor InterpretationDenotation and Acquisition System MIDAS模型)。它能够实现常规隐喻的知识描述，运用这些知识解释隐喻语言和学习新遇到的隐喻现象。该系统的隐喻分析包含三部分。

1．MIDAS知识表示

MIDAS系统包含了一个常规隐喻知识库，它使用了KODIAK知识表示语言来描述词义和常规隐喻，被称作隐喻义，一个隐喻义包含隐喻映射，每个连接表示源域概念到目标域概念的映射。例如：在常规隐喻中Non-living—thing—aS living-thing，源域是living-thing，目标域是Non-living—thing，一个Non-living-thing被看作是一个living—thing源域到目标域的连接。

2．隐喻解释系统(MIS)

MIS用来解释知识描述详尽充分的隐喻。MIDAS中MIS分两步处理，第一步经过句法分析，形成初步的语义表示，这些知识主要来自词库，第二步是最后的意义，这当中包含两个推理过程，具体化推理(concretion)和隐喻不可见推理(metaphorical unviewing)，具体化推理是以更具体的概念替换抽象概念，隐喻不可见推理用隐喻中源域概念替换相应的目标域概念。“My car drinks gasoline”被解释成“Drinking-reduce．mnout”o

3．隐喻扩展系统(MES)

如果遇到新生隐喻时，MES通过系统扩展、描述、归并已经熟悉的隐喻来识别和发现知识描述不充分的新生隐喻。算法推理主要使用相似度扩展和核心扩展技术，隐喻扩展算法首先搜索新生隐喻和已知相关隐喻，然后计算新生隐喻和已知相关隐喻的概念距离来选取距离最短的相关隐喻，这个最短的已知相关隐喻作为该隐喻的最新解释，例如“possession flu”可扩展为“gavenu”即“infection is giVins”。MIDAS系统利用了隐喻表达中源域和目标域的映射推理关系来识别新生隐喻，这种思想和基于实例的机器翻译方法表面很相似，可是隐喻与翻译不同，翻译允许直译，直译甚至是翻译的一种方式，但隐喻一定有深层含义，甚至有言外之意。由于知识表示的弱点，MIDAS系统的局限性无法处理复合隐喻，无法建立两个隐喻之间的联系。例如：INVESTMENTS->CONTAINERS and MONEY 一>WATER的确有关联，但是MIDAS不能表示这种现象，而且MIDAS的覆盖率也受到限制，因为并不是所有的新生隐喻都能从已知常

规隐喻库继承过来。

4．3逻辑推理模型

Gentner【9川利用了隐喻和推理的相似性，构建了结构映射理论，Falkenhainer 嘶1对这一理论给予了程序实现。该系统为结构映射引擎(Structure—Mapping Engine，SME)。该算法比较了特征集合表示的概念语义信息。其特征使用一阶谓词和二阶谓词来表示。SME首先搜索源域和目标域单一词条的位置匹配，基于丽个领域中相同名称的联系，然后按照匹配的优先级别排序，级别最高者作为隐喻推理的可能解释。Holyoak and Thagard¨u描述了一个基于满足约束的ACME隐喻分析模型，它的主要优点是语义结构和语用约束在同一个框架下被实现。Holyoak的思想和Gemner很相似，不同的是Gent．ner的SME系统还无法实现ACME系统的语义相似性约束。Steinhart田1运用扩展的谓词演算提

供了逻辑真值条件方法，提出了一种隐喻逻辑推理解释方法，该方法在命题中增加论元角色，使得逻辑推理的约束力更强。以上三种模型都是通过谓词演算的逻辑推理来发现源域和目标域的映射，不同之处在于它们选择了不同的约束方式。处理非字面语言的主要方法被典型化为问题求解，他们试图发现和推理非字面用法的最近似意义。解释隐喻的任务被看成一种特殊的求解目的，没有利用语言的传统知识，这种推理技术

造价相当高Ⅲ一。

4．4隐喻突显思想

OrtonyLl”提出了隐喻理解的突显观点，突显观点的核心思想是：在“A是(像)B”表达中，很少强调目标域A的突显特性，而是通过比较，源域B的特性被高度突显出来，例如：“高速公路像一条蛇”，源域“蛇”的特性被高度突显，隐喻的突显特性主要体现在源域概上。后来，Wein—er[141融合了隐喻的突显性、非对称性、非一致性、夸张性以及不可表达性等多种特点，利用KL—ONE知识表示语言进行隐喻概念描述。不过，他的方法忽视了隐喻所具有的推理能力，对于复杂的隐喻还不能进行推理。另外，隐喻的知识表示需要手工建造。关于手工建造知识库的难题提出了基于微特征的隐喻连接方法。

4．5基于语义标记(semantic marker theory)思想

Aarts and Calbertu朝提出一种基于语义标记(semantic marker)的扩展方法，其思想也是语义偏移思想的一种，例如：“绿色的梦想”被考虑成一种偏移，因为“绿色”附加了【+物质】选择限制，此标记无法限定“梦想”。语义标记方法的最大局限是标记成分完备性问题，目前还没有一个切实可行的定义。

5以统计为手段的隐喻分析模型

Mason提出一种为发现和分析常规隐喻的隐喻计算系统(CorMet)，该系统通过实现领域选择优先来发现系统参数。这种选择优先从大规模的特定领域语料库中推断出来㈣J。Mason利用WordNet语义资源，获取了每个领域特征动词的优先选择，一个动词的优先选择就是在一个特殊格槽中动词的偏爱，例如：“pour”的宾语一般是“液体”，可以根据“pour”支配的宾语名词是“液体”与否，来判定是隐喻或非隐喻。该系统CorMet通过发现领域之间优先选择倾向的差异来发现隐喻。其分析过程包括以下几个部分：

1．从互联网上搜集领域语料

CorMet从网上搜集到具体领域语料库；一个返回具体领域文件，一个返回包括特征词语的领域文件。被提炼的文件用apple pie分析器分析，从抽取的句子中提出格框架模板。

2．发现领域特征谓词

CorMet选择寻找领域中重要动词的子集，根据语料库中词根所出现的比率与英语通用词典频率比作为领域的相关频率，相关频率高低被认为是特征词语。相对频率高的作为领域特征谓词。

3．优先选择算法

CorMet首先采用Resnik∞”的优先选择算法来获取动词的语义优先，发现最能表示格槽优先选择的WordNet语义节点，一个格槽选择的全面衡量使用选择优先强度表示，记做：S。(P)(Selectional—preference strength)。根据相关熵最后得到公式(1)。

这里S。(P)表示为后验概率P(cIp)和先验概率p(c)之间的相对熵，P(c)表示一个Word—Net节点C或者他的一个子孙节点的先验概率，P(CIP)表示概念c和他的子孙节点出现在格槽上的概率。一个格槽选择特定节点的程度使用选择关联(selectional association)来衡量，这里^表示WordNet节点node出现在动词格位上的选择优先度，这样，一个谓词verb在格位case上的选择优先可以由一个向量来表示，其中的元素对应于WordNet中相应节点与它之间的选择相关。然后利用最近邻聚类分析算法得到可以表示该领域的各类特征概念聚类，并记录支持各个概念类的谓词集。

CorMet系统虽然利用机器学习方法，自动获取谓词的选择优先，但是他的理论思想和Wilks，Fass的思想是一致的，所不同的是CorMet系统主要是语料库驱动，而不是手工词库驱动。这样避免了基于优先语义方法中手工构造知识库的不足。但是，由于它主要依赖于谓词来进行分析，名词隐喻还无法处理。基于统计方法的还有Kintsch口纠的CI—LSA(Latent Semantic Analysis)框架的设计。该系统考察了“X is Y”类型的隐喻，第一步利用LSA计算x和Y之间，以及它们与其它词的语义距离，根据语义接近的词向量空间相近的原理，计算词与词的语义距离。张威¨列从认知逻辑人手，通过设计池空间、格式塔规则，构造一个隐喻逻辑体系来解释语言中普遍存在的隐喻现象。同时也使用潜在语义空间和互信息的发掘算法，利用语篇上下文寻找隐喻旬的隐含意义。从计算角度分析汉语还是首创。但是他们只是对“A是B”这一种形式的识别。

6隐喻知识库的建造

从上面的计算模型来看，隐喻表达往往涉及到概念的推理关系。因此隐喻表达的识别、解释、提取往往需要一个或多个知识库的支撑。具有代表性的隐喻库有以下几个。

1．Sense—frame

Sense—frame是Fass的met5系统中所利用的知识库，共包含500词条，词条设计如下：

每个词义框架包含两部分，arcs部分和node部分。arcs部分包含了该词条类属条目(一个词条和它的意义描述)，语义框架所有的arcs构成了词语深层结构化的语义网络，node部分包含了被定义的语义框架的差异。Met5系统就是利用上述的知识表示实现了cal"drinks gaso—line的隐喻解释。

2．Master Metaphor List(重要隐喻目录)

Master Metaphor List是加利福尼亚大学Berkeley分校在Lakoff的指导下，搜集了英语常规隐喻表达的一个在线知识库，Lakoff和他的学生们从出版的隐喻文献，加利福尼亚大学Berke．

1ey分校的研究生论坛中收集隐喻用例，手工编辑而成，加工的词条包含了隐喻映射和每个隐喻的隐喻实现。数据库中大约有200个不同层级的隐喻。每个隐喻的词条包含了源域和目标域的描述，还有一组隐喻例句，一个简要分析。Metaphor List依照专家们的直觉分成不同的概念隐喻类别，不去考虑这些隐喻是否已经词汇化。

3．MetaBank知识库

Martin【3纠提出了一个面向自然语言应用的经验诱导和理论驱动相结合的隐喻知识库(MetaBank)。该数据库直接继承了Metaphors List的研究成果，除此之外还包含两部分资源，一部分是UNIX文本，这是一个使用Mail处理UNIX操作系统的语料库，语料库规模大约有150000词次，另一部分就是来自Wall Street Journal的语料。Martin指出建造隐喻知识库的两种方法。一种是基于已知隐喻的直接研究方法，另一种是基于文本的任意实例方法。已知隐喻的直接研究方法通过常用的隐喻在特定文本中的实现来发现它们在大规模文本的情况，这种方法可以获得特定隐喻的频次信息和它们被应用领域的普遍性，同时也可能发现在语料库中不流行的其他常规隐喻的频次信息。这种研究可能直接来自Berkeley List或其他的隐喻资源。

4．Metalude隐喻库的设计

Metalude是一种已经词汇化的英语隐喻交互语料库ⅢJ，该语料库从词汇上考查隐喻，并非单纯的认识或知觉的研究这一点和Berkeley的Master Metaphor List 有明显的不同。目前Metalude包含9000个英语词条以及它们的字面义、隐喻义、词类、实例等属性信息。其所收的隐喻均根据概念隐喻或构成隐喻的基本类比来进行分类，因此一个词形往往有多个词条。例如：Lexical Term=fleet(港湾)有ACTIVITY IS BOAT TRAVEL；ORGANISA耵ON IS SHIP；TRAFFIC IS LIQUID／BLOOD三个根隐喻，因此设定三个词条。上述的知识库大多为系统专门设计，具有很强的实用性，对汉语的知识库描述是很好的借鉴。除此之外还有直接利用Ontology资源进行隐喻库的建设，例如：Carina Eihs，Birte

LOnnekerl3副关于在线法德隐喻库Hamburg Metaphor Database的建设工作。7隐喻研究未来的发展方向

从上文的描述看，大多数计算模型主要是以动词秽核心，通过类似于格框架的一种“t，+n”形式表示，如果推断“口+rL”存在语义冲突，则进行隐喻表达的识别和分析，这种基于“t，+n”的隐喻推理模型只能解决部分问题，汉语中有大量的隐喻并不是“移+凡”形式，例如前文提到的“张开理想的翅膀，奔向知识的海洋”这样的隐喻表达无法识别，因为“张开办翅膀／n，飞向向海洋／n”中的秽和凡没有任何语义冲突，这里决定隐喻的因素并不在动词秽上，而在于名词n和其修饰语的搭配上，类似的还有“人间地狱，历史漩涡”等。

语言中有大量的隐喻，虽然隐喻作为人的思维方式，无所不在，但是并不是这些无所不在的隐喻现象都能形式化，例如：小说中的人物形象大多都有隐喻对象，《红楼梦》其实就是一个玉的传说，贾宝玉的前身就是一块玉石，而林黛玉是玉石下的一棵仙草，宝玉和黛玉的爱情悲剧实际上就是绛珠仙草以毕生之泪还报“石头”浇水之情的隐喻，同时在文学作品中还可能有

更深刻的更隐蔽的对社会的影射和批判。这样复杂的篇章隐喻，语言信息处理的隐喻研究还无法实现，因此面向自然语言处理的汉语隐喻研究的界定很重要。另外由于文化背景的不同，不同语言所表现的隐喻表达也有差别，例如：汉语中有“阳光总在风雨后。不经历风雨怎能见彩虹”的隐喻表达，这样的表达英文中

很少见到，汉语中关于名词的隐喻表达到底有多少?在语言中的分布如何?汉语隐喻模型设计时对隐喻表达如何界定?这些研究无论对于隐喻的认知研究还是计算研究的定位都是有价值的。

据因此，汉语隐喻计算研究有待拓展的领域可以从以下几个方面考虑。

1．注重隐喻现象的全面描写和分类研究。

隐喻是人类思维的方式，贯穿语言研究的历史，而且渗透在语言的各个层面，隐喻研究应该是一个层级的概念，应该对语言不同层次的隐喻现象进行考察，然后给出面向中文信息处理的隐喻现象分类。

2．隐喻标注语料库和知识库的建造。

从目前的发展趋势看，隐喻计算方法已经处于由单纯的知识推理逐步向基于大规模语料的统计方法转变的过程中，由此隐喻语言知识工程的建设也得到了应有的重视。如果能够把汉语的隐喻描写同大规模语料结合起来，把隐喻的描写成果标注到语料库中，这样机器就可以在此基础上自动学习。目前汉语的隐喻标注语料库和隐喻知识库方面还是空白，如果能够小规模地加工标注隐喻文本，对于汉语隐喻形式化描写和隐喻模型设计都是有帮助的。

3．尝试规则和统计相结合的隐喻识别模型的建造

计算隐喻研究从规则推理的方法到基于统计的方法经历了漫长的过程，两种方法孰好孰坏还不能定论，但是有一点可以肯定，就是随着大规模语料库的出现，关注从语料库中提取隐喻知识可以在一定程度上弥补规则方法知识库建造方面的不足。这是一个值得我们注意的新的研究方向。因此我们的策略是将自然语言处理的分类技术引入名词短语隐喻识别研究，隐问题被描述成一个隐喻与字面义的分类问题。充分利用隐喻标注资源和人工归纳的语言学知识，通过最大熵方法、朴素贝叶斯方法的隐喻建模，进行了两种模型的窗口比较实验，然后再结合CCD概念词典建立隐喻表达的推理机制，来提高识别效果。