文档库 最新最全的文档下载
当前位置:文档库 › 自然语言处理技术的三个里程碑

自然语言处理技术的三个里程碑

自然语言处理技术的三个里程碑
自然语言处理技术的三个里程碑

自然语言处理技术的三个里程碑

微软亚洲研究院黄昌宁张小凤

摘要要:本文就半个世纪以来自然语言处理(NLP)研究领域中笔者所观察到的要点进行阐述,其中包括两个事实和三大重要成果。近年自然语言处理研究所揭示的两个事实为:(1)对于句法分析来说,基于单一标记的短语结构规则是不充分的;(2)短语结构规则在真实文本中的分布呈现严重扭曲。换言之,有限数目的短语结构规则不能覆盖大规模语料中的语法现象。这与原先人们的预期大相径庭。笔者认为,NLP技术的发展历程在很大程度上受到以上两个事实的影响。从这个意义上来说,在该领域中可以称得上里程碑式的成果有如下三个:(1)复杂特征集和合一语法;(2)语言学研究中的词汇主义;(3)语料库方法和统计语言模型。业内人士普遍认为,大规模语言知识的开发和自动获取是NLP 技术的瓶颈问题。因此,语料库建设和统计学习理论将成为该领域中的关键课题。

关键词词:自然语言处理复杂特征集词汇主义语料库方法统计语言模型

1. 引言

随着高科技的迅速发展,其应用深入人们生活的各个方面。信息输入、检索、人机对话等对自然语言处理(NLP)提出越来越高的要求,使NLP 研究成为本世纪最热门的学科之一。从50年代的机器翻译和人工智能研究算起, NLP 至今至少也有长达半个世纪的历史了。在这个进程中,学术界曾经提出过许多重要的理论和方法,也诞生了丰富的成果。但笔者认为,近二十年年来在这一领域中堪称里程碑式的贡献有如下三个:(1)复杂特征集和合一语法;(2)语言学研究中的词汇主义;(3)语料库方法和统计语言模型。这三个成果将继续对语言学、计算语言学和NLP 的研究产生深远影响。为了更好地理解这些成果的意义,有必要先介绍一下两个与此相关的事实。

2. 两个事实

2.1 事实之一

大家知道,在自然语言处理中为了识别一个输入句子的句法结构,首先要把句子中的词一个一个地切分出来:然后去查词典,给句子中的每个词指派一个合适的词性(part ofspeech);之后再用句法规则把句子里包含的的句法成分,如名词短语、动词短语、小句等,逐个地识别出来。进而,判断每个短语的句法功能,如主语、谓语、宾语等,及其语义角色,最终得到句子的意义表示,如逻辑语义表达式。这就是一个句法分析的全过程。

本文要提到的第一个事实是:短语结构语法(Phrase Structure Grammar,简称PSG)不能有效地描写自然语言。PSG在Chomsky 的语言学理论中占有重要地位,并且在自然语言的句法描写中担当着举足轻重的角色。但是它有一些根本性的弱点,主要表现为它使用的是像词类和短语类那样的单一标记,因此不能有效地指明和解释自然语言中的结构歧义问题。让我们先来看一看汉语中“V+N”组合。假如我们把“打击,委托,调查”等词指派为动词(V);把“力度,方式,盗版,甲方”等词视为名词(N)。而且同意“打击力度”、“委托方式”是名词短语(NP),“打击盗版”、“委托甲方”是动词短语(VP)。那么就会产生如下两条

有歧义的句法规则:

(1)NP → V N

(2)VP → V N

换句话讲,当计算机观察到文本中相邻出现的“V+N”词类序列时,仍不能确定它们组成的究竟是NP 还是VP。我们把这样的歧义叫做“短语类型歧义”。例如:

? 该公司正在招聘[ 销售V 人员N]NP。

? 地球在不断[ 改变V 形状N]VP。

下面再来看“N+V”的组合,也同样会产生带有短语类型歧义的规则对,如:

(3)NP → N V 例:市场调查;政治影响。

(4)S → N V 例:价格攀升;局势稳定。

其中标记S 代表小句。

不仅如此,有时当机器观察到相邻出现的“N+V”词类序列时,甚至不能判断它们是不是在同一个短语中。也就是说,“N+V”词类序列可能组成名词短语NP 或小句S,也有可能根本就不在同一个短语里。后面这种歧义称为“短语边界歧义”。下面是两个相关的例句:

? 中国的[ 铁路N 建设V]NP 发展很快。

? [中国的铁路N]NP 建设V 得很快。

前一个例句中,“铁路建设”组成一个NP;而在后一个例句中,这两个相邻的词却分属于两个不同的短语。这足以说明,基于单一标记的PSG 不能充分地描述自然语言中的句

法歧义现象。下面让我们再来看一些这样的例子。

(5)NP → V N1 de N2

(6)VP → V N1 de N2

其中de代表结构助词“的”。例如,“[削苹果]VP 的刀”是NP; 而“削[苹果的皮]NP”则是VP。这里既有短语类型歧义,又有短语边界歧义。比如,“削V 苹果N”这两个相邻

的词,可能构成一个VP,也可能分处于两个相邻的短语中。

(7)NP → P N1 de N2

(8)PP → P N1 de N2

规则中P 和PP 分别表示介词和介词短语。例如,“[对上海]PP 的印象”是NP; 而“对[上海的学生]NP”则是PP。相邻词“对P 上海N”可能组成一个PP,也可能分处于两个短语中。

(9)NP → NumP N1 de N2

其中NumP 表示数量短语。规则(9)虽然表示的是一个NP,但可分别代表两种结构意义:

(9a)NumP [N1 de N2]NP 如:五个[公司的职员]NP

(9b)[NumP N1]NP de N2 如:[五个公司]NP 的职员

(10)NP → N1 N2 N3

规则(10)表示的也是一个NP,但“N1+ N2”先结合,还是“N2 +N3”先结合,会出现两种不同的结构方式和意义,即:

(10a)[N1 N2]NP N3 如:[现代汉语]NP 词典

(10b)N1 [N2 N3]NP 如:新版[汉语词典]NP

以上讨论的第一个事实说明:

! 由于约束力不够,单一标记的PSG 规则不能充分消解短语类型和短语边界的歧义。用数学的语言来讲,PSG 规则是必要的,却不是充分的。因此机器仅仅根据规则右边的一个词类序列来判断它是不是一个短语,或者是什么短语,其实都有某种不确定性。

! 采用复杂特征集和词汇主义方法来重建自然语言的语法系统,是近二十年来全球语言学界就此作出的最重要的努力。

2.2 事实之二

通过大规模语料的调查,人们发现一种语言的短语规则的分布也符合所谓的齐夫率(Zipf’s Law)。Zipf是一个统计学家和语言学家。他提出,如果对某个语言单位(不论是英语的字母或词)进行统计,把这个语言单位在一个语料库里出现的频度(frequency)记作F,而且根据频度的降序对每个单元指派一个整数的阶次(rank) R。结果发现R和F 的乘积近似为一个常数。即

F*R ≈ const (常数)

或者说,被观察的语言单元的阶次R 与其频度F 成反比关系。在词频的统计方面齐夫律显示,不管被考察的语料仅仅是一本长篇小说,还是一个大规模的语料库,最常出现的100个词的出现次数就会占到语料库总词次数(tokens)的近一半。假如语料库的规模是100 万词次,那么其中频度最高的100 个词的累计出现次数大概是50万词次。如果整个语料库含有5 万词型(types),那么其中的一半(也就是2.5 万条左右)在该语料库中只出现过

一次。即使把语料库的规模加大十倍,变成1000万词次,统计规律大体不变。有趣的是,80 年代英国人Sampson 对英语语料库中的PSG规则进行统计,发现它们的分布同样是扭曲的,大体表现为齐夫率[1]。也就是说,一方面经常遇到的语法规则只有几十条左右,它们的出现频度非常非常高;另一方面,规则库中大约一半左右的规则在语料库中只出现过一次。随着语料库规模的扩大,新的规则仍不断呈现。Chomsky 曾提出过这样的假设,认为对一种自然语言来说,其语法规则的数目总是有限的,但据此生成的句子数目却是无限的。但语料库调查的结果不是这个样子。这个发现至少说明,单纯依靠语言学家的语感来编写语法规则不可能胜任大规模真实文本处理的需求,我们必须寻找可以从语料库中直接获取大规模语言知识的新方法。

几十年来,NLP 学界曾发表过许多灿烂成果,有词法学、语法学、语义学的,有句法分析算法的,还有众多著名的自然语言应用系统。那么究竟什么是对该领域影响最大的、里程碑式的成果呢?

3.三个里程碑

3.1 里程碑之一一:复杂特征集

复杂特征集(complex feature set)又叫做多重属性(multiple features)描写。在语言学里,这种描写方法最早出现在语音学中。后来被Chomsky学派采用来扩展PSG的描写能力。现在无论是在语言学界还是计算语言学界,几乎没有哪个语法系统在词汇层的描写中不采用复杂特征集,并且利用这些属性来强化句法规则的约束力。一个复杂特征集F 包含任意多个特征名fi和特征值vi对。其形式如:F = {…, fi=vi , …}, i=1,…,n特征值vi既可以是一个简单的数字或符号,也可以是另外一个复杂特征集。这种递归式的定义使复杂特征集获得了强大的表现能力。举例来说,北京大学俞士汶开发的《现代汉语语法信息词典》[2],对一个动词定义了约40项属性描写,对一个名词定义了约27项属性描写。

一条含有词汇和短语属性约束的句法规则具有如下的一般形式:

: <属性约束>

: <属性传递>

一般来说,PSG 规则包括右部(条件:符号序列的匹配模式)和左部(动作:短语归并结果)。词语的“属性约束”直接来自系统的词库,而短语的“属性约束”则是在自底向上的短语归并过程中从其构成成分的中心语(head)那里继承过来的。在Chomsky 的理论中这叫做X-bar 理论。X-bar代表某个词类X所构成的、仍具有该词类属性的一个成分。如果X= N,就是一个具有名词特性的N-bar。当一条PSG规则的右部匹配成功,且“属性约束”部分得到满足,这条规则才能被执行。此时,规则左部所命名的的短语被生成,该短语的复杂特征集通过“属性传递”部分动态生成。

80 年代末、90年代初学术界提出了一系列新的语法,如广义短语结构语法(GPSG)、中心语驱动的短语结构语法(HPSG)、词汇功能语法(LFG)等等。这些形式语法其实都是在词汇和短语的复杂特征集描写背景下产生的。合一(unification)算法则是针对复杂特

征集的运算而提出来的。“合一”是实现属性匹配和赋值的一种算法,所以上述这些新语法又统称为“基于合一的语法”。

3.2 里程碑之二二:词汇主义

在NLP 领域中,第二个里程碑式的贡献叫词汇主义(lexicalism)。语言学家Hudson 曾宣称词汇主义是当今语言学理论发展的头号倾向[3]。其出现原因也同前面所观察的两个事实有关。词汇主义方法不仅提出了一种颗粒度更细的语言知识表示形式,而且体现了一种语言知识递增式开发和积累的新思路。

这里首先要解释一下这样一个矛盾。一方面,语言学界一向认为,不划分词类就无法

讲语法,如前面介绍的短语结构语法。也就是说,语法“不可能”根据一个个个别的词来写规则。但是另一方面,人们近来又注意到,任何归类其实都会丢失个体的某些重要信息。所以从前文提到的第一个事实出发,要想强化语法约束能力,词汇的描写应当深入到比词类更细微的词语本身上来。换句话讲,语言学呼唤在词汇层采用颗粒度更小的描写单元。从本质上来说,词汇主义倾向反映了语言描写的主体已经从句法层转移到了词汇层;这也就是所谓的“小语法,大词库”的思想。下面让我们来看与词汇主义有关的一些工作。

3.2.1 词汇语法法(Lexicon-grammar)

法国巴黎大学Gross 教授在60 年代就创立了一个研究中心叫做LADL,并提出了词汇语法的概念(https://www.wendangku.net/doc/c216447061.html,dl.jussieu.fr/)。

? 把12,000个主要动词分成50 个子类。

? 每个动词都有一个特定的论元集。

? 每一类动词都有一个特定的矩阵, 其中每个动词都用400 个不同句式来逐一描写(“+”代表可进入该句式;“-”表示不能)。

? 已开发英、法、德、西等欧洲语言的大规模描写。

? INTEX 是一个适用于大规模语料分析的工具,已先后被世界五十多个研究中心采用。

3.2.2 框架语义学(Frame Semantics)

Fillmore是格语法(Case Grammar)的创始人,他前几年主持了美国自然科学基金的一个名为框架语义学的项目(https://www.wendangku.net/doc/c216447061.html,/~framenet)。该项目从WordNet 上选取了2000个动词,从中得到75 个语义框架。例如,动词”categorize” 的框架被定义为:一个人(Cognizer) 把某个对象(Item) 视为某个类(Category)。同原先的格框架相比,原来一般化的动作主体被具体化为认知者Cognizer,动作客体被具体化为事物Item,并根据特定体动词的性质增加了一个作为分类结果的语义角色Category。项目组还

从英国国家语料库中挑出50,000 个相关句子,通过人工给每个句子标注了相应的语义角色。例句:

Kim categorized the book as fiction.

(Cog) (Itm) (Cat)

3.2.3 WordNet

WordNet是一个描写英语词汇层语义关系的词库。1990 年由普林斯顿大学Miller开发

(https://www.wendangku.net/doc/c216447061.html,:80/~wn/)。到现在已有很多个版本,全部公布在因特网上,供研究人员自由下载。欧洲有一个Euro-WordNet,以类似的格式来表现各种欧洲语言的词汇层语义关系。WordNet刻意描写的是词语之间的各种语义关系,如同义关系(synonymy)、反义关系(antonymy)、上下位关系(hyponymy),部分-整体关系(part-of)等等。这种词汇语义学又叫做关系语义学。这一学派同传统的语义场理论和和语义属性描写理论相比,其最大的优势在于第一次在一种语言的整个词汇表上实现了词汇层的语义描写。这是其他学派从来没有做到的。其他理论迄今仅仅停留在教科书或某些学术论文中,从来就没有得到工程规模的应用。下面是WordNet的概况:

? 95,600 条实词词型(动词、名词、形容词)

? 被划分成70,100 个同义词集(synsets)

3.2.4 知网网(How-Net)

知网是董振东和董强[4]设计的一个汉语语义知识网(https://www.wendangku.net/doc/c216447061.html,)。

? 自下而上地依据概念对汉语实词进行了穷尽的分类。

? 15,000 个动词被划分成810 类。

? 定义了300 个名词类,100 个形容词类。

? 全部概念用400 个语义元语来定义。

知网的特点是既有WordNet 所描写的同一类词之间的语义关系(如:同义、反义、上下位、部分-整体等),又描写了不同类词之间的论旨关系和语义角色。

3.2.5 MindNet

MindNet 是微软研究院NLP 组设计的(https://www.wendangku.net/doc/c216447061.html,/nlp/)。其设计思想是试图用三元组(triple)作为全部知识的表示基元。一个三元组由两个节点和一条连接边组成。每个节点代表一个概念,连接这两个概念节点的边表示概念之间的语义依存关系。部三元组通过句法分析器自动获取。具体来说,就是通过对两部英语词典(Longmal Dictionary of Contemporary English,American Heritage Dictionary)和一部百科全书(Encarta)中的全部句子进行分析,获得每个句子的逻辑语义表示(logical form,简称LF)。而LF本来就是由三元组构成的,如(W1, V-Obj, W2)表示:W1 是一个动词,W2是其宾语中的中心词, 因此W2 从属于W1,它们之间的关系是V-Obj。比如(play, V-Obj, basketball)便是一个具体的三元组。.又如(W1, H-Mod, W2),W1 代表一个偏正短语中的中心词(head word),W2 是其修饰语(modifier), 因此W2 从属于W1,它们之间的关系是

H-Mod。这种资源是完全自动做出来的,所得的三元组不可能没有错误。但是那些出现频度很高的三元组一般来说是正确的。MindNet已经应用到像语法检查、句法结构排歧、词义排歧、机器翻译等许多场合。

3.3 里程碑之三三:统计语言模型

第三个贡献就是语料库方法,或者叫做统计语言模型。如果用变量W代表一个文本中顺序排列的n个词,即W = w1w2…wn ,则统计语言模型的任务是给出任意一个词序列W 在文本中出现的概率P(W) 。利用概率的乘积公式,P(W)可展开为:

P(W) = P(w1)P(w2/w1)P(w3/ w1 w2)…P(wn/w1 w2…wn-1) (1)

式中P(w1)表示第一个词w1的出现概率,P(w2/w1) 表示在w1出现的情况下第二个词w2出现的条件概率,依此类推。不难看出,为了预测词wn的出现概率,必须已知它前面所有词的出现概率。从计算上来看,这太复杂了。如果近似认为任意一个词wi 的出现概率只同它紧邻的前一个词有关,那么计算就得以大大简化。这就是所谓的二元模型(bigram),由(1)式得:

P(W) ≈ P(w1) ∏i=2,…,nP(wi/ wi-1 ) (2)

式中∏i=2,…,nP(wi/ wi-1 )表示多个概率的连乘。

需要着重指出的是:这些概率参数都可以通过大规模语料库来估值。比如二元概率

P(wi/ wi-1) ≈ count(wi-1 wi) / count(wi-1) (3)

式中count(…) 表示一个特定词序列在整个语料库中出现的累计次数。若语料库的总词次数为N,则任意词wi在该语料库中的出现概率可估计如下:

P(wi) ≈ count(wi) / N (4)

同理,如果近似认为任意词wi的出现只同它紧邻的前两个词有关,就得到一个三元模型

(trigram):

P(W) ≈ P(w1)P(w2/w1) ∏i=3,…,nP(wi/wi-2 w-1 ) (5)

统计语言模型的方法有点像天气预报。用来估计概率参数的大规模语料库好比是一个地区历年积累起来的气象记录,而用三元模型来做天气预报,就像是根据前两天的天气情况来

预测当天的天气。天气预报当然不可能百分之百正确。这也算是概率统计方法的一个特点。

3.3.1 语音识别

语音识别作为计算机汉字键盘输入的一种图代方式,越来越受到信息界人士的青睐。所谓听写机就是这样的商品。据报道中国的移动电话用户已超过一亿,随着移动电话和个人数字助理(PDA)的普及,尤其是当这些随身携带的器件都可以无线上网的时候,广大用户更迫切期望通过语音识别或手写板而不是小键盘来输入简短的文字信息。其实,语音识别任务可视为计算以下条件概率的极大值问题:

W*= argmaxWP(W/speech signal)

= argmaxWP(speech signal/W) P(W) / P(speech signal)

= argmaxW P(speech signal/W) P(W) (6)

式中数学符号argmaxW 表示对不同的候选词序列W计算条件概率P(W/speech signal)的值,从而使W*成为其中条件概率值最大的那个词序列,这也就是计算机选定的识别结果。换句话讲,通过式(6)的计算,计算机找到了最适合当前输入语音信号speech signal的词串W*。式(6)第二行是利用贝叶斯定律转写的结果,因为条件概率P(speech signal/W)比较容易估值。公式的分母P(speech signa ) 对给定的语音信号是一个常数,不影响极大值的计算,故可以从公式中删除。在第三行所示的结果中,P(W) 就是前面所讲得统计语言模型,一般采用式(5)所示的三元模型;P(speech signal/W) 叫做声学模型。讲到这儿,细心的读者可能已经明白,汉语拼音输入法中的拼音-汉字转换任务其实也是用同样方法实现的,而且两者所用的汉语语言模型(即二元或三元模型)是同一个模型。据笔者所知,目前市场上的听写机产品和微软拼音输入法(3.0 版)都是用词的三元模型实现的, 几乎完全不用句法-语义分析手段。为什么会出现这样的局面呢?这是优胜劣汰的客观规律所决定的。可比的评测结果表明,用三元模型实现的拼音-汉字转换系统,其出错率比其它产品减少约50%。

3.3.2 词性标注

一个词库中大约14%的词型具有不只一个词性。而在一个语料库中,占总词次数约30% 的词具有不止一个词性。所以对一个文本中的每一个词进行词性标注,就是通过上下文的约束,实现词性歧义的消解。历史上曾经先后出现过两个自动词性标注系统。一个采用上下文相关的规则,叫做TAGGIT(1971),另一个应用词类的二元模型,叫做CLAWS(1987)[5]。两个系统都分别对100 万词次的英语非受限文本实施了词性标注。结果显示,采用统计语言模型的CLAWS 系统的标注正确率大大高于基于规则方法的TAGGIT系统。请看下表的对比:

系统名TAGGIT(1971) CLAWS(1987)

标记数86 133

方法3000条CSG 规则隐马尔科夫模型

标注精度77% 96%

测试语料布朗LOB

令C 和W 分别代表词类标记序列和词序列,则词性标注问题可视为计算以下条件概率的极大值:

C*= argmaxC P(C/W)

= argmaxCP(W/C)P(C) / P(W)

≈ argmaxC ∏i=1,…,nP(wi/ci )P(ci /ci-1 ) (7)

式中P(C/W)是已知输入词序列W 的情况下,出现词类标记序列C 的条件概率。数学符号argmaxC 表示通过考察不同的候选词类标记序列C, 来寻找使条件概率取最大值的那个词类标记序列C* 。后者应当就是对W的词性标注结果。公式第二行是利用贝叶斯定律转写的结果,由于分母P(W) 对给定的W是一个常数,不影响极大值的计算,可以从公式中删除。接着对公式进行近似。首先,引入独立性假设,认为任意一个词wi的出现概率近似只同当前词的词类标记ci 有关,而与周围(上下文)的词类标记无关。于是词汇概率可计算如下:

P(W/C) ≈ ∏i=1,…,n P(wi/ci ) (8)

其次,采用二元假设,即近似认为任意一个词类标记ci 的出现概率只同它紧邻的前一个词

类标记ci-1有关。有

P(C) ≈ P(c1) ∏i=2,…,n P(ci /ci-1 ) (9)

P(ci /ci-1 ) 是词类标记的转移概率,也叫做基于词类的二元模型。

上述这两个概率参数都可以通过带词性标记的语料库来分别估计:

P(wi/ci ) ≈ count(wi,ci) / count(ci) (10)

P(ci /ci-1 ) ≈ count(ci-1ci) / count(ci-1) (11)

据文献报道,采用统计语言模型方法汉语和英语的次性标注正确率都可以达到96%左右[6]。

5.3 介词短语PP 的依附歧义

在英语中,介词短语究竟依附于前面的名词还是前面的动词,是句法分析中一种常见的结构歧义问题。下面通过一个例子看看,怎样用语料库方法来解决这个问题,以及这种方法究竟能达到多高的正确率。。

例句: Pierre Vinken, 61 years old, joined the board as a nonexecutive director.

令A=1表示名词依附,A=0 为动词依附,则上述例句的PP 依附问题可表为:

(A=0, V=joined, N1=board, P=as, N2=director)

令V, N1, N2分别代表句中动词短语、宾语短语、介宾短语的中心词,并在一个带有句

法标注的语料库(又称树库)中统计如下四元组的概率Pr:Pr = (A=1 / V=v, N1=n1, P=p, N2=n2) (10)

对输入句子进行PP 依附判断的算法如下:

若Pr = (1 / v, n1, p, n2) ≥ 0.5,

则判定PP 依附于n1,

否则判定PP 依附于v。

Collins 和Brooks[7].实验使用的语料库是宾夕法尼亚大学标注的华尔街日报(WSJ)树库,

包括:训练集20,801个四元组,测试集3,097 个四元组。他们对PP 依附自动判定精度的

上下限作了如下的分析:

一律视为名词依附(即A≡1) 59.0%

只考虑介词p的最常见附加72.2%

三位专家只根据四个中心词判断88.2%

三位专家根据全句判断93.2%

很明显,自动判断精确率的下限是72.2%,因为机器不会比只考虑句中介词p的最常见依附做得更差了;上限是88.2%,因为机器不可能比三位专家根据四个中心词作出的判断更高明。论文报告,在被测试的3,097 个四元组中,系统正确判断的四元组为2,606 个,因此平均精确率为84.1%。这与上面提到的上限值88.2%相比,应该说是相当不错的结果。

4. 结论

语言学家的努力,不论是复杂特征集和合一语法,还是词汇主义方法,都是在原先所谓的理性主义框架下做出的重大贡献。词汇主义方法值得特别推崇,因为它不仅提出了一种颗粒度更细的语言知识表示形式,而且体现了一种语言知识递增式开发和积累的新思路。尤其值得重视的是在众多词汇资源的开发过程中,语料库和统计学习方法发挥了很大的作用。这也是经验主义方法和理性主义方法相互融合的一个可喜开端。

对于语料库方法和统计语言模型,国内同行中实际上存在不同的评价。有一种观点认为NLP 必须建立在语言理解的基础上,所以它们不大相信统计语言模型在语音识别、词性标注、信息检索等应用领域中所取得的进展。这些争论之所以久久不能得到澄清,就是因为同行间缺少统一的的评测。有评测才会有鉴别。评判一种方法优劣的唯一标准是公开、公平、相互可比的评测,而不是研究人员自己设计的“自评”。笔者相信,语料库方法和统计语言模型是当前自然语言处理技术的主流,它们的实用价值已在很多应用系统中得到充分证实。统计语言模型的研究,尤其在结构化对象的统计建模方面,仍有广阔的发展空间。

参考文献

[1] Jan Aarts, WillenMeijs (eds.). Corpus Linguistics: Theory and Practice. Amsterdam: Rodopi,1990.

[2] 俞士汶等:《现代汉语语法信息词典详解》。北京:清华大学出版社,1998

[3] Hudson, R. A. English Word Grammar. Cambridge, Mass.: Basil Blackwell, 1991

[4] 董振东、董强:知网。《语言文字应用》1997(3)

[5] Garside, R., Leech, G. and Sampson, G. (eds.). The Computational Analysis of English: ACorpus-Based Approach. London: Longman, 1989

[6]白拴虎:《汉语词性自动标注系统研究》,清华大学计算机科学与技术系硕士学位论文,1992

[7] M. Collins and J. Brooks. Preposition phrase attachment through a backed-off model. InProceedings of the 3rd Workshop of Very Large Coepora, Cambridge, MA, 1995

人工智能时代下的自然语言处理技术发展应用

人工智能时代下的自然语言处理技术发展应用 摘要:如今,随着人工智能的迅速发展,自然语言处理技术已经成为互联网应 用中的一个炙手可热的研究方向,各大公司也都投入巨额资金和高端人力。但是,在高速发展过程中的自然语言处理技术仍然面临着巨大挑战。在这样的背景下, 本文主要探讨了人工智能时代下的自然语言处理技术发展应用有关内容,可供参考。 关键词:人工智能;自然语言;处理技术;发展应用 1自然语言处理的概述 自然语言处理是使用计算机对自然语言的音,形,义进行处理,即对字、词、句、篇章的输入、输出、识别、分析、理解、生成的操作和加工。主要包括自然 语言理解和自然语言生成两个流程。其中自然语言理解是指计算机能够理解自然 语言的意义。自然语言生成是指计算机能够以自然语言来表达给定的意图。 2自然语言处理的相关技术和应用分析 2.1个性化智能推荐 个性化智能推荐以自然语言文本挖掘为基础,具有信息过滤的作用,能够以 用户档案或者历史行为记录为依据,对用户的兴趣爱好进行学习,进而围绕给定 物品岀发,对用户的偏好或者评分进行预测。电子商务发展过程当中,信息处理 面临着信息过载的问题,用户如何在快速增长的资源中对自己所需信息进行准确 定位,是一个重要的问题,正如同商家需要向用户提供精准恰当的服务一般,都 存在一定难度。推荐系统的诞生极大地缓解了这个困难。通过跟踪用户在商城的 浏览、选购、下单等行为,提供基于用户行为的商品推荐,提高商品曝光率和用 户决策效率。“猜你喜欢”、“购买过此商品的用户还购买过……”对于离不开社交平台、电商、生活服务的现代互联网用户来说,个性化推荐已经不是什么新鲜事儿。它改变了商家与用户的沟通方式,加强了和用户之间的交互性。据报道,推荐系 统给亚马逊带来了35%的销售收入,给Netflix带来了高达75%的消费,而且Youtube主页上60%的浏览来自推荐服务。在新闻服务领域,以细分化的数据分 析为基础的个性化新闻推送已经成为新闻客户端的重要方式。通过用户个人的信 息阅读内容、时长、评论等偏好,以及社交网络甚至所使用的移动终端设备机型等,综合分析用户所关注的信息源与信息核心词汇,进而进行专业的细化分析, 从而进行新闻整理推送,基本实现了新闻的个人定制服务.让平台更“懂”用户,提 升了用户体验和粘性。 2.2语音识别技术 以机器为支持来对过程进行识别和理解,促进语音信号向文本与命令技术的 转变,这就是语音识别技术的整个过程,从本质上来说,就是确保人类的语言能 够为机器所理解,促进人类语音词汇内容向计算机可读数据的转化,从而满足应 用需求。在这一过程当中,需要将连续讲话进行合理分解,建立规则以准确理解 语义。前端降噪、语音切割分帧等都是语音识别技术的重要流程,可将其框架分 为声学模型、语言模型以及解码这三个方面。在智能家居领域,普通家庭都会有 很多需要红外遥控器控制的家电,由于红外线传输会受到空间位置影响,一个可 将多个遥控设备集中于一体并且可以通过声音控制其常用功能的集成设备,能自 动切断电源,调换频道。双手没有空闲的状态下,可以通过语音来与智能音箱进

浅谈自然语言处理

浅谈自然语言处理 摘要 主要阐述了自然语言处理的定义,发展历史,并对其研究内容,以及目前相关领域的应用加以讨论。最后对自然语言处理的未来发展趋势做简单的介绍。 关键词 自然语言处理 Abstract The definition and the development history of Natural Language Processing(NLP) are explained,the research content and the applications in interrelated areas of NLP are discussed.And the develop direction of NLP in the future are simply introduced. Key Words: Natural Language Processing(NLP)

0.引言 早在计算机还未出现之前,英国数学家A.M.Turing便已经预见到未来计算机将会对自然语言处理研究提出新的问题。他指出,在未来我们可以“教机器英语并且说英语。”同时他觉得“这个过程可以仿效教小孩子说话的那种办法进行”。这便是最早关于自然语言处理概念的设想。 人类的逻辑思维以语言为形式,人类的多种智能都与语言有着密切的联系。所以用自然语言与计算机进行通信是计算机出现以来人们一直所追求的目标。 1.什么是然语言处理 美国计算机科学家Bill Manaris(马纳瑞斯)在1999年出版的《计算机进展》(Advances Computers)第47卷的《从人—机交互的角度看自然语言处理》一文中,曾经给自然与然处理提出了如下定义:“自然语言处理可以定义为研究在人与人交际中的语言问题的一门学科。自然语言处理要研制表示语言能力(linguistic competence)和语言应用(linguistic performance)的模型,建立计算框架来实现这样的语言模型,提出相应的方法来不断地完善这样的语言模型,根据这样的语言模型设计各种实用系统,并探讨这些实用系统的评测技术。”这个定义被广泛的接受,它比较全面的地表达了计算机对自然语言的研究和处理。 简单来说,自然语言处理就是一门研究能实现人鱼计算机之间用自然语言处理进行有效的通信与方法的一门学科,它是计算机科学领域与人工智能领域中的一个重要方向。普遍认为它主要是应用计算机技术,通过可计算的方法对自然语言处理的各级语言单位(字,词,语句,篇章等)进行转换,传输,存储,分析等加工处理的学科,是一门融合了语言学,计算机学,数学等学科于一体的交叉性学科。 互联网技术的发展,极大地推动了信息处理技术的发展,也为信息处理技术不断提出新的需求,语言作为信息的载体,语言处理技术已经日益成为全球信息化和我国社会及经济发展的重要支撑技术。

自然语言理解技术

自然语言理解技术,未来人工智能的核动力 摘要:自然语言理解是人工智能研究重要的领域之一,同时也是目前前沿的难题之一。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法,是未来人工智能的核动力。因此理解自然语言理解以及自然语言理解技术的含义,阐述自然语言理解的研究及其相关应用,综述自然语言理解技术研究方向变化并对自然语言理解的发展前景进行分析和展望,是十分有意义的。 关键词:自然语言理解技术;智能信息服务; 1.引言: 随着计算机科学的不断发展和成熟,计算机应用开始迈人知识处理、语言理解阶段,人们对计算机的智能提出了新的要求随着社会的日益信息化,人们越来越强烈地希望能更好地同计算机交流。自然语言就是这样一个媒介。 2. 1自然语言理解的含义: 广义的“语言”是任何一种有结构的符号系统。其中, 最重要的两类语言,自然语言和形式语言。而狭义的“语言”是人类在社会牛活中发展出来的用来互相交际的声音符号系统,是“自然语言”。 “自然语言理解”即Natural Language Understanding 俗称人机对话,指的就是使计算机来按照这种语言所表达的意义做出相应反应的机制。它主要研究用电子计算机模拟人的语言交际过程,使计算机能理解和运用人类社会的自然语言如汉语、英语等,实现人机之间的自然语言通信,以代替人的部分脑力劳动,包括查询资料、解答问题、摘录文献、汇编资料以及一切有关自然语言信息的加工处理。这在当前新技术革命的浪潮中占有十分重要的地位。自然语言理解是计算机科学中的一个引人入胜的、富有挑战性的课题。从计算机科学特别是从人工智能的观点看,自然语言理解的任务是建立一种计算机模型,这种计算机模型能够给出象人那样理解、分析并回答自然语言(即人们日常使用的各种通俗语言)的结果。2. 1自然语言理解技术的含义: 首先, 自然语言是极其复杂的符号系统。一个人尽管可以对自己的母语运用自如, 但却无法把自己母语的构成规律、意义的表达规律和语言使用的规律用计算机可以接受的方式彻底说清楚。传统的语言学是在没有计算机参照的条件下发展起来的, 虽然为自然语言理解积累了宝贵的财富, 但那是讲给人的, 真正要让语言学知识变成计算机上可操作的, 绝不是那么简单, 也不能那么模糊。这个目标的实现,需要大量又懂语言学又懂计算机的人在正确的技术路线的指导下一起做非常大规模的基本建设, 绝不是一拍脑袋想出个“绝招”就能解决的。 其次, 自然语言的各个层次上都含有巨大的不确定性。在语音和文字层次上,有一字多

NLP入门 实战必读:一文教会你最常见的10种自然语言处理技术(附代码)

大数据文摘作品 编译:糖竹子、吴双、钱天培 自然语言处理(NLP)是一种艺术与科学的结合,旨在从文本数据中提取信息。在它的帮助下,我们从文本中提炼出适用于计算机算法的信息。从自动翻译、文本分类到情绪分析,自然语言处理成为所有数据科学家的必备技能之一。 在这篇文章中,你将学习到最常见的10个NL P任务,以及相关资源和代码。

为什么要写这篇文章? 对于处理NL P问题,我也研究了一段时日。这期间我需要翻阅大量资料,通过研究报告,博客和同类NL P问题的赛事内容学习该领域的最新发展成果,并应对NL P处理时遇到的各类状况。 因此,我决定将这些资源集中起来,打造一个对N L P常见任务提供最新相关资源的一站式解决方案。下方是文章中提到的任务列表及相关资源。那就一起开始吧。 目录: 1.词干提取

2.词形还原 3.词向量化 4.词性标注 5.命名实体消岐 6.命名实体识别 7.情感分析 8.文本语义相似分析 9.语种辨识 10.文本总结 1.词干提取 什么是词干提取?词干提取是将词语去除变化或衍生形式,转换为词干或原型形式的过程。词干提取的目标是将相关词语还原为同样的词干,哪怕词干并非词典的词目。例如,英文中: 1.b e a u t i f u l和b e a u t i f u l l y的词干同为b e a u t i 2.G o o d,b e t t e r和b e s t的词干分别为g o o d,b e t t e r和b e s t。 相关论文:M a r t i n P o r t e r的波特词干算法原文

相关算法:在P yt h o n上可以使用P o r t e r2词干算法 (h t t p s://t a r t a r u s.o r g/m a r t i n/P o r t e r S t e m m e r/d e f.t xt) 程序实现:这里给出了在p yt h o n的s t e mm i n g库中使用 (https://https://www.wendangku.net/doc/c216447061.html,/mchaput/stemming/src/5c242aa592a6 d4f0e9a0b2e1afdca4fd757b8e8a/stemming/porter2.py?at=d efault&fileviewer=file-view-default) P o r t e r2算法做词干提取的代码: #!pip install stemmingfrom stemming.porter2 import stem stem("casually") 2.词形还原 什么是词形还原?词形还原是将一组词语还原为词源或词典的词目形式的过程。还原过程考虑到了P O S问题,即词语在句中的语义,词语对相邻语句的语义等。例如,英语中: 1.b e a u t i f u l和b e a u t i f u l l y被分别还原为b e a u t i f u l和b e a u t i f u l l y。 2.g o o d,b e t t e r和b e st被分别还原为g o o d,g o o d和g o o d 相关论文1:这篇文章详细讨论了词形还原的不同方法。想要了解传统词形还原的工作原理必读。(h t t p://www.i j r a t.o r g/d o wn l o a d s/i c a t e st2015/I CA TE S T-2015127.p d f)

概率论在自然语言处理中的应用

概率论在自然语言处理中的应用 twd2 2017年5月4日 当下,人工智能是热议话题。人工智能中,有一个方向叫做自然语言处理。 而在自然语言处理方面,有两个经典的问题:光学字符识别(奏奃奒)和拼音输 入法。它们都可以用概率的方法解决,本文就尝试讨论这个话题。 光学字符识别问题所谓光学字符识别(奏奃奒),就是给定一幅图片,让计算 机程序识别出来图片中的文字。这涉及到图像匹配、模式识别等算法,但本文 不关注于此,本文关注的是后处理的过程。 首先,对于一个字符的识别,识别结果就可能有多种,每一个结果都有一 个置信度。所谓后处理过程,就是对于已经识别出来的字串(字串每个字都有 多种可能选项),选择“最佳”的组合。这和下文讨论的拼音输入法十分类似,所以本文的重点放在对于拼音输入法的讨论。 拼音输入法问题拼音输入法,指的是一个程序,它接受用户输入的拼音串(比如“奱奩奮奧奨奵奡奤奡奸奵奥奪奩女奵奡奮奪奩奫奥奸奵奥她奵奪奩女奨奵奸奩”),根据内部数据,将这 个拼音串转换为文字串输出(对于上面的例子就是“清华大学计算机科学与技 术系”)。 对于输入拼音串的每一个拼音(上面例子中的“奱奩奮奧”、“奨奵奡”、“奤奡”、“奸奵奥”等),可以简单直接地查询字典来获得该拼音对应的所有可能的字,然后选择“最佳”的组合,认为是该拼音串对应的句子: 请清氢··· 画话华··· 大打答··· 学雪血··· ··· “最佳”的不同的定义方法,对应着寻找最佳组合的不同算法。这里,我讨论 一个简单的二元字模型或字的二元模型。我理解中,字的二元模型就是将句子 失

中相邻的两个字作为一组,后一个字出现的概率只和前面一个字出现的情况有关。这能够极大地简化相关算法设计、提高算法速度,但是准确度也会因此受到不良影响。 对于任意一个句子S ,如果记其长度n |S |,并且记S 夽w 1w 2···w n ,w i ∈W 夨i 夽失,夲,...,n 天为字符集W 中的一个字符,那么,其出现的概率P 夨S 天可以表示成: P 夨S 天夽 P 夨w 1天·P 夨w 2|w 1天·····P 夨w n |w 1w 2···w n ?1天夽n i =1 P 夨w i |w 1w 2···w i ?1天 其中,P 夨w i 天夨i 夽失,夲,...,n 天为w i 出现的概率。 在字的二元模型下,这个表达式可以进一步简化成: P 夨S 天≈ n i =1P 夨w i |w i ?1天再由条件概率的定义及大数定律, P 夨w i |w i ?1天夽P 夨w i ?1w i 天P 夨w i ?1天夽P 夨w i ?1w i 天count 夨?天P 夨w i ?1天count 夨?天≈count 夨w i ?1w i 天count 夨w i ?1天 其中,count 夨w 天夽w 出现的次数,并且count 夨?天 w ∈W count 夨w 天,表示字和字的二元组出现次数总和。它们都可以由语料统计得到。于是, P 夨S 天≈ n i =1count 夨w i ?1w i 天count 夨w i ?1天 这就是一个句子出现概率的算法。记W 夨y 天夽{拼音y 对应的所有字}?W ,不妨认为其中的元素按照某种顺序排好序。这样,给定一个包含m 个拼音的拼音串y 1y 2···y m ,如“奱奩奮奧奨奵奡奤奡奸奵奥”,可以枚举每一个可能的句子S ∈ m i =1W 夨y i 天夽{请,清,氢,...}×{画,话,华,...}×{大,打,答,...}×{学,雪,血,...},计算P 夨S 天,然后认为P 夨S 天最大的S 就是这个拼音串对应的句子,即对y 1y 2···y m 求出 奡奲奧奭奡奸S ∈ m i =1W (y i ) {P 夨S 天}实现上有几个问题:精度问题、平滑问题以及速度问题。 夲

自然语言处理的关键技术

自然语言处理的关键技术 自然语言处理技术是所有与自然语言的计算机处理有关的技术的统称,其目的是使计算机理解和接受人类用自然语言输入的指令,完成从一种语言到另一种语言的翻译功能。自然语言处理技术的研究,可以丰富计算机知识处理的研究内容,推动人工智能技术的发展。下面我们就来了解和分析自然语言处理的关键技术。 一、常用技术分类 1、模式匹配技术 模式匹配技术主要是计算机将输入的语言内容与其内已设定的单词模式与输入表达式之间的相匹配的技术。例如计算机的辅导答疑系统,当用户输入的问题在计算机的答疑库里找到相匹配的答案时,就会完成自动回答问题的功能。但是不能总是保证用户输入的问题能得到相应的回答,于是很快这种简单匹配式答疑系统有了改进。答疑库中增加了同义词和反义词,当用户输入关键词的同义词或反义词时,计算机同样能完成答疑,这种改进后的系统被称为模糊匹配式答疑系统。 2、语法驱动的分析技术

语法驱动的分析技术是指通过语法规则,如词形词性、句子成分等规则,将输入的自然语言转化为相应的语法结构的一种技术。这种分析技术可分为上下文无关文法、转换文法、ATN文法。上下文无关文法是最简单并且应用最为广泛的语法,其规则产生的语法分析树可以翻译大多数自然语言,但由于其处理的词句无关上下文,所以对于某些自然语言的分析是不合适的。转换文法克服了上下文无关文法中存在的一些缺点,其能够利用转换规则重新安排分析树的结构,即能形成句子的表层结构,又能分析句子的深层结构。但其具有较大的不确定性。ATN文法扩充了转移网络,比其他语法加入了测试集合和寄存器,它比转移文法更能准确地分析输入的自然语言,但也具有复杂性、脆弱性、低效性等缺点。3、语义文法 语义文法的分析原理与语法驱动相似,但其具有更大的优越性。语义文法中是对句子的语法和语义的共同分析,能够解决语法驱动分析中单一对语法分析带来的不足。它能够根据句子的语义,将输入的自然语言更通顺地表达出来,除去一些语法正确但不合语义的翻译。但是语义文法分析仍然有不容忽视的缺点,其分析的语句中有时会出现不合语法的现象,并且这类分析较为复杂,语义类难以确定,语义的规则太多……因此,语义文法技术仍需要改进措施。 4、格框架约束分析技术

北京大学自然语言处理

语言信息工程系与自然语言处理 自然语言处理做什么? 首先,让我们从那些比较实用的方面来看看什么是自然语言处理。一般来说,所有那些和语言相关的数据,以及处理它的计算机程序,都是我们研究的内容。现在,个人计算机和网络已经进入我们日常的生活,我们用它们做文书处理,收发电子邮件,看新闻,搜索资料,…,所有这些,我们看到的、输入的和存贮的都用到了至少一种自然语言,比如说,中文或者是英文。 自然语言处理技术,简单来说就是实现那些与语言处理相关的特定任务的程序,举例来说,它们可能是: 支持文本处理:例如,智能文字输入,查找拼写错误,寻找与改正病句等; 写作支持:帮助作者寻找合适的语言表达方法,甚至文体风格,至少也能帮助用户使用最正确的术语表达形式; 辅助翻译:从一种语言翻译为另一种语言,或多种语言,未来的目标是全自动化高正确率的翻译,虽然达到这个目标的路很艰辛; 改进信息组织与管理:文献主题标引、关键词标引,文本分类、聚类,自动文摘,模板式信息提取等等。由此,我们可以更有效地利用信息和知识; 信息检索,除了研制更强大更准确的搜索引擎之外,也有相当多的研究关注如何检索到更深层次的东西,例如试图分析与理解被检索文档的语义内容等; 辅助语言学习,如果现在我们还不用计算机以及有效的语言学方法来帮助我们学习语言,无论是母语还是外语,那是不可思议的。事实上,自然语言处理在语言教学领域已经开始大展身手了… 所有这些问题我们要能有完美的解决,显然不只是应用计算机科学与技术的技艺。更进一步说,我们要透彻理解和把握自然语言的自身特性。自然语言处理横跨计算机科学和语言学,相应的数学和逻辑基础也很重要。 从抽象化的理论层面看自然语言处理,则更加微妙。计算机只是操纵符号运算的自动机器。语言是符号的集合和系统,尽管自然语言包含了极其复杂的符号以及运用的规则。自然语言处理技术扩展了传统语言学研究的视野和方法,让

自然语言处理技术在中文全文检索中的应用

3本文为国家社会科学基金项目“基于中文X ML 文档的全文检索研究”的成果之一,项目编号:04CT Q005。 ●熊回香,夏立新(华中师范大学 信息管理系,湖北 武汉 430079) 自然语言处理技术在中文全文检索中的应用 3 摘 要:自然语言处理技术是中文全文检索的基础。首先介绍了全文检索技术及自然语言处理技术,接着详细地阐述了自然语言处理技术在中文全文检索中的应用,并对目前基于自然语言处理技术的中文全 文检索技术的局限性进行了分析,探讨了中文全文检索技术的未来发展方向。 关键词:自然语言处理;全文检索;智能检索 Abstract:Natural language p r ocessing technol ogy is the basis of Chinese full 2text retrieval .This paper firstly intr oduces the full 2text retrieval technol ogy and natural language p r ocessing technol ogy .Then,it gives a detailed 2descri p ti on of the app licati on of natural language p r ocessing technol ogy in Chinese full 2text retrieval .The p resent li m itati ons of the Chinese full 2text retrieval system based on natural language p r ocessing technol ogy is als o ana 2lyzed .Finally,the paper exp l ores the devel opment trend of Chinese full 2text retrieval technol ogy in future . Keywords:natural language p r ocessing;full text retrieval;intelligent retrieval 随着社会网络化、信息化程度的日益提高,网上信息呈指数级剧增,人们越来越强烈地希望用自然语言同计算机交流,并能方便、快捷、准确地从互联网上获得有价值的信息,因此,自然语言处理技术和中文全文检索技术成为当今计算机科界、语言学界、情报学界共同关注的课题,并共同致力于将自然语言处理技术的研究成果充分运用到全文检索中,从而促进了全文检索技术的发展。 1 全文检索技术 全文检索是一种面向全文和提供全文的检索技术,其核心技术是将文档中所有基本元素的出现信息记录到索引库中,检索时允许用户采用自然语言表达其检索需求,并借助截词、邻词等匹配方法直接查阅文献原文信息,最后将检索结果按相关度排序返回给用户。因而索引数据库的建立是全文检索系统实现的基础,它以特定的结构存储了数据资源的全文信息,从而为全文检索系统提供可检索的数据对象。在中文全文检索系统中,建立索引库的前提是运用自然语言处理技术对中文信息进行基于词(字)、句、段落等更深层次的处理。 2 自然语言处理技术 自然语言是指作者所使用的书面用语,在信息检索中包括关键词、自由词和出现在文献题名、摘要、正文或参 考文献中的具有一定实质意义的词语[1]。自然语言处理 (Natural Language Pr ocessing,NLP )是语言信息处理的一 个重要分支,在我国就是中文信息处理。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法,具体来说就是用计算机对包括汉语(字)的形、音、义等信息及词、句子、篇章的输入、输出、存储和识别、分析、理解、生成等多方面的加工处理[2]。由于自然语言处理侧重于词、句子、篇章,因而词法分析、句法分析、语义分析、语用分析、语境分析便构成了自然语言处理研究内容的基础部分。 211 词法分析 词法分析包括词形和词汇两个层次,其中词形主要是对各种词形和词的可识别部分的处理。如前缀、后缀及复合词的分析;词汇的重点在于复合对词操作和词汇系统的控制。其主要目的是有助于确认词性以及做到部分理解词与词、词与文档之间的关系,提高检索的效率。由于计算机内部存储的中文信息没有明显的词与词之间的分隔符,因此,在中文全文检索系统中,词法分析首要任务之一是对文本信息进行词语切分,即汉语自动分词,汉语自动分词是中文信息处理中的关键技术,也是中文全文检索的瓶颈,只有对汉语词进行正确的切分后,才能准确地提取文献的特征信息,对文献进行正确标引,才能正确分析用户的查询意图,为用户提供准确的信息服务。 212 句法分析 句法分析是对句子中词汇短语进行分析以便揭示句子的语法结构。目的是通过对句型结构的分析,自动抽取复

自然语言处理的单词嵌入及表征方法

自然语言处理的单词嵌入及表征方法 简介 过去几年,深度神经网络在模式识别中占绝对主流。它们在许多计算机视觉任务中完爆之前的顶尖算法。在语音识别上也有这个趋势了。 虽然结果好,我们也必须思考……它们为什么这么好使? 在这篇文章里,我综述一下在自然语言处理(NLP)上应用深度神经网络得到的一些效果极其显著的成果。我希望能提供一个能解释为何深度神经网络好用的理由。我认为这是个非常简练而优美的视角。 单隐层神经网络 单隐层神经网络有一个普适性(universality):给予足够的隐结点,它可以估算任何函数。这是一个经常被引用的理论,它被误解和应用的次数就更多了。 本质上这个理论是正确的,因为隐层可以用来做查询表。 简单点,我们来看一个感知器网络(perceptron network)。感知器(perceptron)是非常简单的神经元,如果超过一个阈值它就会被启动,如果没超过改阈值它就没反应。感知器网络的输入和输出都是是二进制的(0和1)。 注意可能的输入个数是有限的。对每个可能的输入,我们可以在隐层里面构建一个只对这个输入有反应的神经元(见注解1)。然后我们可以利用这个神经元和输出神经元之间的连接来控制这个输入下得到的结果(见注解2)。

这样可以说明单隐层神经网络的确是有普适性的。但是这也没啥了不起的呀。你的模型能干和查询表一样的事并不能说明你的模型有任何优点。这只能说明用你的模型来完成任务并不是不可能的罢了。 普适性的真正意义是:一个网络能适应任何你给它的训练数据。这并不代表插入新的数据点的时候它能表现地很理想。 所以普适性并不能解释为什么神经网络如此好用。真正的原因比这微妙得多…为了理解它,我们需要先理解一些具体的成果。 单词嵌入(Word Embeddings) 我想从深度学习研究的一个非常有意思的部分讲起,它就是:单词嵌入(word embeddings)。在我看来,单词嵌入是目前深度学习最让人兴奋的领域之一,尽

自然语言处理在现实生活中运用

自然语言处理在现实生活中运用 1 需求分析与描述: 首先谈下这款软件的来源和用途吧,本科至今没有挂科记录,很不幸第一次《英语学位英语考试》挂科了。于是,笔者开始疯狂的做题和背单词,对于GET真题很多单词不认识,抱着有道词典,逐字翻译耗时耗力。再说历来10余年试题考试单词范围是一定的,把出现频率高的单词,所谓核心单词掌握了不就事倍功半了?问题来了,不像四六级词汇或者考研词汇市场有专门卖的。当时就开始设想,如果我收集10余年真题,然后去除所有非单词结构(真题算是结构化数据,有一定规则,比较容易处理。此过程其实就是数据清洗过程)最后把所有单词集中汇总,再去除如:a/an/of/on/frist等停用词(中文文本处理也需要对停用词处理,诸如:的,地,是等)。处理好的单词进行去重和词频统计,最后再利用网络工具对英语翻译。然后根据词频排序。基于以上思路,结合笔者前不久对数据挖掘中分类实现的经验和暑假学习的统计学知识最终上周末(10.31—11.1)花了2天时间搞定,这些自然语言处理的基础方法在分类,聚类等数据挖掘和本体领域构建中都有使用。最后我将其核心方法进行梳理,下面咱们具体展开。 2 自然语言处理结果预览: 前面提到本算法是对自然语言中常规英文试卷的处理,那么开始收集原始数据吧。 1 历年(2002—2010年)GET考试真题,文档格式不一,包括txt/pdf/word等如下图: 2 对所有格式不一的文档进行统计处理成txt文档,格式化(去除汉字/标点/空格等非英文单词)和去除停用词(去除891个停用词)处理后结果如下:【17套试卷原始单词(含重复)82158个,数据清洗处理后32011个】 3 对清洗后的单词进行去重和词频统计:【去重后7895个单词尺寸】 4 显示这10余年考试的词汇量还是很大的,加上停用词,考查词汇量在9000左右,那么常考的应该没那么多。试想下17套试卷中,去除停用词后出现频率大于5的和小于25次【1674个单词】的数据应该是合理的,那么我就指定阈值提取。 5 最后一步,中英文翻译(目前通过google工具快速查询,然后合并)。最终效果如下:(处理的最终txt结果和自己word整理的结果)

自然语言处理技术分享1

内容大概分为:自然语言处理的简介、关键技术、流程及应用。 首先,介绍一下什么是自然语言处理(也叫自然语言理解): 语言学家刘涌泉在《大百科全书》(2002)中对自然语言处理的定义为:“自然语言处理是人工智能领域的主要内容,即利用电子计算机等工具对人类所特有的语言信息(包括口语信息和文字信息)进行各种加工,并建立各种类型的人-机-人系统,自然语言理解是其核心,其中包括语音和语符的自动识别以及语音的自动合成。” 从微观上讲,自然语言理解是指从自然语言到机器(计算机系统)内部之间的一种映射。 从宏观上看,自然语言理解是指机器能够执行人类所期望的某些语言功能。这些功能包括: ①回答有关提问;计算机正确地回答用自然语言输入的有关问题 ②提取材料摘要;机器能产生输入文本的摘要 ③同词语叙述;机器能用不同的词语和句型来复述输入的自然语言信息 ④不同语言翻译。机器能把一种语言翻译成另外一种语言 自然语言处理的关键技术 自然语言处理的关键技术包括:词法分析、句法分析、语义分析、语用分析和语句分析。 1.词法分析 词法分析的主要目的是从句子中切分出单词,找出词汇的各个词素,并确定其词义。 词法分析包括词形和词汇两个方面。一般来讲,词形主要表现在对单词的前缀、后缀等的分析,而词汇则表现在对整个词汇系统的控制。在中文全文检索系统中,词法分析主要表现在对汉语信息进行词语切分,即汉语自动分词技术。通过这种技术能够比较准确的分析用户输入信息的特征,从而完成准确的搜索过程。它是中文全文检索技术的重要发展方向。 不同的语言对词法分析有不同的要求,例如英语和汉语就有较大的差距 汉语中的每个字就是一个词素,所以要找出各个词素是相当容易的,但要切分出各个词就非常难。 如”我们研究所有东西“,可以是“我们——研究所——有——东西”也可是“我们——研究——所有——东西”。

自然语言处理大纲

课程编号:S0300010Q 课程名称:自然语言处理 开课院系:计算机科学与技术学院任课教师:关毅刘秉权 先修课程:概率论与数理统计适用学科范围:计算机科学与技术 学时:40 学分:2 开课学期:秋季开课形式:课堂讲授 课程目的和基本要求: 本课程属于计算机科学与技术学科硕士研究生学科专业课。计算机自然语言处理是用计算机通过可计算的方法对自然语言的各级语言单位进行转换、传输、存贮、分析等加工处理的科学。是一门与语言学、计算机科学、数学、心理学、信息论、声学相联系的交叉性学科。通过本课程的学习,使学生掌握自然语言(特别是中文语言)处理技术(特别是基于统计的语言处理技术)的基本概念、基本原理和主要方法,了解当前国际国内语言处理技术的发展概貌,接触语言处理技术的前沿课题,具备运用基本原理和主要方法解决科研工作中出现的实际问题的能力。为学生开展相关领域(如网络信息处理、机器翻译、语音识别)的研究奠定基础。 课程主要内容: 本课程全面阐述了自然语言处理技术的基本原理、实用方法和主要应用,在课程内容的安排上,既借鉴了国外学者在计算语言学领域里的最新成就,又阐明了中文语言处理技术的特殊规律,还包括了授课人的实践经验和体会。 1 自然语言处理技术概论(2学时) 自然语言处理技术理性主义和经验主义的技术路线;自然语言处理技术的发展概况及主要困难;本学科主要科目;本课程的重点与难点。 2 自然语言处理技术的数学基础(4学时) 基于统计的自然语言处理技术的数学基础:概率论和信息论的基本概念及其在语言处理技术中的应用。如何处理文本文件和二进制文件,包括如何对文本形式的语料文件进行属性标注;如何处理成批的文件等实践内容 3 自然语言处理技术的语言学基础(4学时) 汉语的基本特点;汉语的语法功能分类体系;汉语句法分析的特殊性;基于规则的语言处理方法。ASCII字符集、ASCII扩展集、汉字字符集、汉字编码等基础知识。 4 分词与频度统计(4学时) 中文分词技术的发展概貌;主要的分词算法;中文分词技术的主要难点:切分歧义的基本概念与处理方法和未登录词的处理方法;中外人名、地名、机构名的自

成果篇 —— 自然语言处理与数据挖掘研究的两个应用成果

自然语言处理与数据挖掘研究的应用 唐杰李涓子 清华大学计算机系知识工程研究室 清华大学计算机系知识工程研究室研究方向为网络环境下的知识工程,研究室融合自然语言处理、社会网络分析与挖掘和语义Web技术,研究Web信息处理的基础理论和关键技术。研究者社会网络挖 掘与搜索系统ArnetMiner II和面向事件的新闻挖掘与搜索系统Newsminer是实验室应用多年的研究 成果建立的在学术研究和新闻领域的应用系统。 一、研究者社会网络的挖掘与搜索系统 ArnetMiner II(简称AMiner, https://www.wendangku.net/doc/c216447061.html,)是通过研究者合作关系建立起来的社会网络挖掘与搜索系统。系统采用自然语言处理和社会网络分析与挖掘技术,提供研究者语义信息抽取、面向话题的专家搜索、权威机构搜索、话题发现和趋势分析、基于话题的社会影响力分析、研究者社会网络关系识别、即时社会关系图搜索、研究者能力图谱、审稿人推荐在内的众多功能,能够为研究者提供更全面的领域知识和更具针对性的研究话题和合作者信息,为科研的更好发展提供服务。 (a) 专家搜索。(b) 会议分析。

搜索数据挖掘领域专家、权威机构和相关学术论文。用户可以个性化的定制搜索结构。近10年国际会议SIGIR引用次数最高的100篇文章在各年的分布,作者国籍(原籍)分布等。 图 1:系统部分功能截图(https://www.wendangku.net/doc/c216447061.html,) 图1举例列举了AMiner系统的两个功能:(a) 专家搜索和 (b) 会议分析。其中在专家搜索中,用户输入查询词(例如:data mining),系统返回该领域专家、重要的国际会议和权威期刊或者权威机构以及相关学术论文。在该搜索中,用户还可以个性化的定制返回结果。在会议分析功能中,用户可以查看指定国际期刊或者国际会议近年引用次数最高的文章在各年的分布、作者国籍(原籍)分布、以及引用次数最高的作者排序情况等。 目前AMiner系统共收录103万研究者、314万篇论文信息和8,046多个会议信息,累积数据规模已经达到2.35 TB,系统在线运行7年多以来,吸引了220个国家2,766,356个独立IP的访问。吸引了218个国家210万个独立IP的访问(>1亿3千460万访问日志),访问量还在以每月平均20%左右的速度增长。并且,系统API还得到全球最大出版社Elsevier和KDD’10-’12, PKDD’11, ICDM’11, WSDM’11, ISWC’10等20余个重要国际会议进行论文-审稿人自动分发和提供语义信息服务。同时,ArnetMiner系统为社会网络挖掘的科学研究提供大量科研数据,已成为学术搜索和社会网络挖掘研究的实验平台。 二、面向事件的新闻挖掘与搜索 NewsMiner(https://www.wendangku.net/doc/c216447061.html,)是一个采用中文信息处理和文本挖掘技术实现的面向事件的新闻挖掘与搜索系统。系统从新闻本身的特点(5W1H)出发,以事件为核心,利用话题分析与知识关 联技术,从事件、话题、实体三个层面组织新闻,为用户提供一个更深入、更便捷的新闻事件理解和 搜索服务。NewsMiner包含4个组件: 1.数据采集:数据采集是从互联网上获取新闻事件相关数据并进行结构化处理的组件,为系统 提供数据保障。新闻相关数据包括新闻专题报道、用户生成内容和大规模知识库,目前主要 从新闻门户专题网站和百度热搜词获取新闻事件报道新闻、从微博和天涯等论坛获得新闻相 关的用户生成内容并抓取百度百科、互动百科和Wiki等公共的大规模知识库。 2.新闻挖掘:新闻挖掘是NewsMiner中核心组件,为系统提供面向事件的新闻分析和挖掘算法。 主要包括实体识别与抽取、事件话题模型与分析、以及知识链接。实体识别与抽取是从新闻 文档识别命名实体(人物、地点、组织机构和时间)的过程,回答Who、Where和When的问 题;话题建模与分析是通过话题模型发现同一事件下的隐含话题,并通过概率分布分析事件、话题和实体之间关系,是发现媒体和用户关注点的过程;知识链接是将新闻事件和实体和外

自然语言处理的应用及发展趋势

自然语言处理的应用及发展趋势 摘要本文主要阐述了自然语言处理的研究内容,以及对目前相关领域的应用加以讨论。自然语言处理的研究内容主要有四大块[1-2]:语言学方向、数据处理方向、人工智能和认知科学方向、语言工程方向。最后对自然语言处理的未来发展趋势做简单的介绍。 关键词自然语言处理应用发展趋势 一.自然语言处理的研究内容 自然语言处理的范围涉及众多方面,如语音的自动识别与合成,机器翻译,自然语言理解,人机对话,信息检索,文本分类,自动文摘,等等。我们认为,这些部门可以归纳为如下四个大的方向: (1)语言学方向 本方向是把自然语言处理作为语言学的分时来研究,它之研究语言及语言处理与计算相关的方面,而不管其在计算机上的具体实现。这个方向最重要的研究领域是语法形式化理论和数学理论。 (2)数据处理方向 是把自然语言处理作为开发语言研究相关程序以及语言数据处理的学科来研究。这一方向早起的研究有属于数据库的建设、各种机器可读的电子词典的开发,近些年来则有大规模的语料库的涌现。 (3)人工智能和认知科学方向 在这个方向中,自然语言处理被作为在计算机上实现自然语言能力的学科来研究,探索自然语言理解的只能机制和认知机制。这一方向的研究与人工智能以及认知科学关系密切。 (4)语言工程方向 主要是把自然语言处理作为面向实践的、工程化的语言软件开发来研究,这一方向的研究一般称为“人类语言技术”或者“语言工程”。 二.自然语言处理的应用 以上所提及的自然语言处理的四大研究方向基本上涵盖了当今自然语言处理研究的内容,更加细致的说,自然语言处理可以进一步细化为以下13项研究内容,也即为自然语言处理的应用方向,这13个应用方向分别是[3]:口语输入、

自然语言处理技术的三个里程碑

自然语言处理技术的三个里程碑 微软亚洲研究院黄昌宁张小凤 摘要要:本文就半个世纪以来自然语言处理(NLP)研究领域中笔者所观察到的要点进行阐述,其中包括两个事实和三大重要成果。近年自然语言处理研究所揭示的两个事实为:(1)对于句法分析来说,基于单一标记的短语结构规则是不充分的;(2)短语结构规则在真实文本中的分布呈现严重扭曲。换言之,有限数目的短语结构规则不能覆盖大规模语料中的语法现象。这与原先人们的预期大相径庭。笔者认为,NLP技术的发展历程在很大程度上受到以上两个事实的影响。从这个意义上来说,在该领域中可以称得上里程碑式的成果有如下三个:(1)复杂特征集和合一语法;(2)语言学研究中的词汇主义;(3)语料库方法和统计语言模型。业内人士普遍认为,大规模语言知识的开发和自动获取是NLP 技术的瓶颈问题。因此,语料库建设和统计学习理论将成为该领域中的关键课题。 关键词词:自然语言处理复杂特征集词汇主义语料库方法统计语言模型 1. 引言 随着高科技的迅速发展,其应用深入人们生活的各个方面。信息输入、检索、人机对话等对自然语言处理(NLP)提出越来越高的要求,使NLP 研究成为本世纪最热门的学科之一。从50年代的机器翻译和人工智能研究算起, NLP 至今至少也有长达半个世纪的历史了。在这个进程中,学术界曾经提出过许多重要的理论和方法,也诞生了丰富的成果。但笔者认为,近二十年年来在这一领域中堪称里程碑式的贡献有如下三个:(1)复杂特征集和合一语法;(2)语言学研究中的词汇主义;(3)语料库方法和统计语言模型。这三个成果将继续对语言学、计算语言学和NLP 的研究产生深远影响。为了更好地理解这些成果的意义,有必要先介绍一下两个与此相关的事实。 2. 两个事实 2.1 事实之一 大家知道,在自然语言处理中为了识别一个输入句子的句法结构,首先要把句子中的词一个一个地切分出来:然后去查词典,给句子中的每个词指派一个合适的词性(part ofspeech);之后再用句法规则把句子里包含的的句法成分,如名词短语、动词短语、小句等,逐个地识别出来。进而,判断每个短语的句法功能,如主语、谓语、宾语等,及其语义角色,最终得到句子的意义表示,如逻辑语义表达式。这就是一个句法分析的全过程。 本文要提到的第一个事实是:短语结构语法(Phrase Structure Grammar,简称PSG)不能有效地描写自然语言。PSG在Chomsky 的语言学理论中占有重要地位,并且在自然语言的句法描写中担当着举足轻重的角色。但是它有一些根本性的弱点,主要表现为它使用的是像词类和短语类那样的单一标记,因此不能有效地指明和解释自然语言中的结构歧义问题。让我们先来看一看汉语中“V+N”组合。假如我们把“打击,委托,调查”等词指派为动词(V);把“力度,方式,盗版,甲方”等词视为名词(N)。而且同意“打击力度”、“委托方式”是名词短语(NP),“打击盗版”、“委托甲方”是动词短语(VP)。那么就会产生如下两条

深度学习在自然语言处理中的应用

电脑编程技巧与维护 自然语言处理的主要目标是让人类语言能够更容易被计算机识别、操作,其主要应用包括信息抽取、机器翻译、摘要、搜索及人机交互等。传统的自然语言处理,不管是英文还是中文,仍然选择分而治之的方法,把应用分解成多个子任务来发展和分析自然语言处理,很少能够发展一个统计的架构,并且为了更好地提高性能,从而导致需要加入大量为特定任务指定的人工信息。从这点来说,大多数系统主要有这样的几个缺点:首先这些系统是浅层结构,并且分类器是线性的;其次为了一个线性分类器有更好的性能,系统必须融入大量为特定任务指定的人工特征;最后这些系统往往丢弃那些从其他任务学来的特征。 从2006年开始,研究者们开始利用深层神经网络在大规模无标注语料上无监督的为每个词学到了一个分布式表示,形式上把每个单词表示成一个固定维数的向量,当作词的底层特征。在此特征基础上,Collobert&Weston完成了词性标注、命名实体识别和语义角色标注等多个任务[4],Richard Socher等人则利用递归神经网络完成了句法分析、情感分析和句子表示等多个任务,这也为语言表示提供了新的思路[6-10]。 主要介绍在自然语言处理领域进行深度学习的基本动机,主要模型和学习算法。首先介绍为什么要在自然语言处理中采用深度学习及主要的神经网络语言模型;在此基础上,如何学习一个单词的表示,并分别阐述深度学习在句法分析和语义分析等相关任务中的主要算法。 1深度学习的基本动机 从生物学角度来说,人类大脑本身就是一个层次结构,就是一个深层结构。例如,通过大脑皮层的充分研究,一个给定的输入信号进行多层次的抽象表示,每个层次对应着不同区域的皮质。层次结构中的每个级别代表在不同的抽象层次的输入,用较低级别的特征进一步定义更抽象的层次结构中的功能。人类感知系统这种明确的层次结构表明,极大地降低了视觉系统处理的数据量,并保留了物体有用的结构信息。对于要提取具有潜在复杂结构规则的自然图像、视频、语音等结构丰富的数据,深度学习能够获取其本质特征。 另外认知过程本身就是一个深层结构。人类按照层次的方式组织观点和概念;人类首先学习比较简单的概念,然后组成更抽象的概念;工程人员按照层次把解决方案分解成多个概念和处理过程。反过来语言表征也同样是一个稀疏表示,把所有的词汇中一部分用于表示相应的概念,例如描述一个场景,只需要极少的一部分词汇,和大脑提取数据的方式是相似的。 受到大脑层次结构的神经启发,神经网络的研究人员花费10多年时间去训练一个多层次的神经网络,但在2006年前的所有尝试都失败了,得到的最好结果只得到了2到3层的结构,即只包含1到2个隐藏层表示,如果继续训练,反而得到一个更差的结果。直到2006年才有了重大突破。多伦多大学的Hiton介绍了深度信念网络以及利用无监督的方法[1],每次训练一层的贪心学习算法。随后基于Auto-encoders的算法被提出[2],并且采取相似的方法,即采用无监督的方法进行中间表示,并且每次训练一层。近年来采取相似的方法的算法越来越多地被提出,但主要的原则均为:(1)每一层采用无监督方法学习表征;(2)在上次训练的基础上,采用无监督的方法每次训练一层,并把训练结果作为下一层的输入; 作者简介:翟剑锋,男,本科,讲师,研究方向:机器学习、自然语言处理及认知计算。 收稿日期:2013-06-11 深度学习在自然语言处理中的应用 翟剑锋 (中国青年政治学院计算机中心,北京100089) 摘要:深度学习是一类新兴的多层神经网络学习算法。介绍自然语言处理中采用深度学习的动机及主要的神经网络语言模型。在此基础上,学习一个单词的分布式表示,并分别阐述深度学习在句法分析和语义分析等相关任务中的主要算法,总结了存在的问题及深度学习在中文信息处理的发展方向。 关键词:深度学习;自然语言处理;分布式表示 Application of Deep Learning in NLP ZHAI Jian-feng (Computer Center,China Youth University for Political Science,Beijing100089,China) Abstract:Deep learning is a new way of training multi-layer neural network.The paper discussed the motivation of deep learning in natural language processing and the major neural network language model,on the base of which,how to learn a distributed representation of word,and introduce the main algorithms of deep learning in syntactic and semantic analysis etc. It concluded the problems remaining and development orientation in Chinese Information Processing Key words:Deep Learning;NLP;Distributed Representation 74 2013.18

相关文档
相关文档 最新文档