文档库 最新最全的文档下载
当前位置:文档库 › 关于汉语语言处理的若干理论思考

关于汉语语言处理的若干理论思考

收稿日期!"##$%#"%#&

作者简介!王建琦’()&#*+,男,山东青岛人,美国俄亥俄州立大学东亚系副教授,语言学博士,主要从事汉语语言学-语言教学法及计算语言学研究.

第/"卷第$期

华中师范大学学报’人文社会科学版+

"##$年01

1111111111111111111111111111111111111111111111111111111111111111月

2345/"635$7389:;43<=>:?9;4=@A :;639B ;4C :A D >9E A ?F ’G 8B ;:A ?A >E ;:HI 3J A ;4I J A >:J >E +K;F "

##$关于汉语语言处理的若干理论思考

王建琦

俄亥俄州立大学东亚系,美国俄亥俄州+摘要!汉语语法检查是汉语语言处理发展中的瓶颈,涉及汉语语言处理的各个方面,与汉字拼写检查-文本切分-词性标注-汉字输入-汉字编码等问题紧密相联.语义理解是语法检查及自然语言处理的制高点.新的发展趋势是研究者越来越注重语义在语言结构和语言表达上的制约作用,试图用统计大规模语料为手段来攻克难关.这种发展趋势对自然语言处理的冲击不在于研究命题的转移,而在于研究方法和论证手段的量化.在汉语的各种制约关系中,可能有一种超越已知句法语义关系的认知心理语法,

它与特定历史时期内人们对物质世界和客观社会文化关系的理解相一致,有可能是自然语言处理的最后一个堡垒.

关键词!汉语语言处理L 语义L 句法L 语法检查L 文本切分L 计算机处理汉语中图分类号!G #M 05"文献标识码!N 文章编号!

(###%"/0&’"##$+#$%#(#$%#0引言汉语语言处理上的难点和弱点

测试最新的汉语语言处理’包括文字处理+的软件即可发现,

汉语语法检查是汉语语言处理发展中的瓶颈.无论是在中文文字处理-机器翻译还是在涉及汉语语义理解更多的人工智能方面都是如此.问题的产生在很大程度上是由于搞计算机科学研究的人和搞语言学研究的人缺乏共同语言造成的.翻开计算语言学方面的一些论集就会发现,有两种人在用两种不同的语言讨论问题,而他们都以为对方能听懂自己在说什么.从计算机科学方面来做汉语语言处理的人,注重的是技术细节和解决具体问题的具体算法.他们仅仅对汉语的表面特征-个别表现有所了解,缺乏对汉语语言-汉字书写系统的本质特性-汉语语法的深层特点的认识.比如就汉字处理来说,他们看到了汉字形式上是图形的特点,

就单纯把它作为图形来处理.忽视了这些图形表意-表音的因素,特别是图形之间的语义联系.这尤其表现在给汉字进行编码的时候.而从语言学方面来进行汉语语言处理的人,受过计算机科学方面的训练不多,缺乏从计算机处理汉语的角度分析问题-解决问题的视角,因而习惯于从传统语言学的角度探讨计算语言学的课题.他们在描画或设想

汉语语言处理的模型的时候,不怎么或根本不考虑所提出的构想如何实施的问题.持传统语言学思维的人,虽然能够从语言处理软件的实际应用中发现问题,

但却不能从语言学的角度提出可以付诸实施的解决办法.比如对汉语词汇进行语义分类的问题,就一直没有突破传统语言学或语言哲学的观点.现行的语义分类体系常常是先把词类一分为二!有生命者和无生命者.有生命者再分为动物和植物,动物再分为人和其他动物,诸如此类.这种所谓汉语词汇的语义分类与生物学意义上的分类又有什么区别呢O 它体现的是一种人对世界的哲学认识或生物学分析,而不是语言学或计算语义学的观察.

它与现行的关于词汇的语法学分类缺乏内在的联系,造成词汇的语义意义与语法意义相割裂的现象.比如有的名词可以用作动词,

有的则不行.但哪些名词可以或者有条件用作动词呢O 从词汇的形式角度无法回答的问题是否可以从词汇的语义角度来回答呢O 而这种回答又如何变成一种计算机可以接受的对词汇的语义及语法功能的分类规则,在实际语言处理中加以应用呢O

"#世纪)

#年代,作者在读博士研究生时曾想设计一套进行汉语语法检查的方案.但是深一步的研究发现,语法检查不是一个单独存在的问题,它

$

#(万方数据

涉及汉语语言处理的各个方面!比如我们不能假定用户输入的汉字全部是正确的"因而在进行语法检查之前需先进行汉字拼写检查"而汉字拼写检查的前提是让电脑知道正确的分词界限在哪里"即应先对文本进行词汇切分!既然进行词汇切分"为什么不同时进行词性标注呢#假如在输入时就进行词性标注和词界标注"标记应该放在什么地方呢#是不是应在编码时就为这些标记留出空间呢#结论是研究汉语语言处理需要一个通盘的考虑!

一$历史

回顾研究自然语言处理的历史过程"即会发现新的发展趋势是注重语义方面的研究"采用统计学的方法进行大规模语料处理!这个发展趋势背后的科学根据一方面是电脑的运算速度越来越快$存储量越来越大"另一方面是计算语言学的研究者越来越清楚地认识到语义理解是自然语言处理的关键!这种发展趋势对自然语言处理的冲击主要不在于研究命题的转移"而在于研究方法和论证手段的量化%!

从机器翻译起步的汉语语言处理"在&’世纪

(’年代的时候"像其他语种一样注重的是句法研究!认为不同语言的词汇有客观的共同指代"所以是对等的"因而翻译中需要调整的只是句法!&’世纪)’年代中期的时候"自然语言处理开始引进语义因素!计算机科学家和语言学家发现了自然语言字符串的主要特点在于语义的渗入"于是开始着眼于语义制约关系的研究!但是语义研究的复杂性导致了最初研究的失败!所以进入&’世纪*’年代中期以后"语义研究变成了对语义的形式逻辑关系的研究!研究者试图从逻辑的角度解决语义的问题!但是逻辑的内涵周严性和外延的局限性不能涵盖语义的复杂性"因而一种更具宽容性的方法在技术条件具备了以后就引进来了!这就是用统计的手段处理大规模语料从而求得规则的做法!由统计演算得出的规则"可能算不上什么语言学的结论"甚至是语言学理论所不能解释的"但却是电脑对自然语言进行处理时可以遵循或运用的!比如"电脑统计中国十二万人名发现"双字名的第一字以+淑,为多"而单字名几乎没有用这个字的-./!

二$实验

汉语是一种靠语义驱动的语言"具有词汇界限模糊$词序变化灵活的特点!汉语语言处理比较其他语言处理需要融入更多的语义因素!古代的中国人没有像西方人那样关注句法研究"也没有归纳总结出一套系统的有关汉语句子结构的理论"或许可以从汉语发展史的角度佐证这一点0!下面的三个实验则是从实证的角度作出的考察1

实验一将一篇报摘汉语文章交给被试"要求他们将所有的词用竖线划分出来!参照的分词标准是经数位汉语研究专业工作者集体讨论通过的!实验结果显示没有一个人的分词法与另一个人相同"每个人与预设标准答案的差距大约在百分之十四左右!这是二十名大学毕业生的受试情况!一名高中毕业生和一名初中毕业生的分词法与标准答案相差约百分之二十三!这一方面说明汉语阅读者在阅读中并没有也不依靠绝对的词汇界限23另一方面说明用汉字写成的文本没有提供足够的信息让读者来百分之百地确定词与词之间的界限!

实验二作为对实验一的补充"我们将一篇英语文本纳入中文书写格式"即删除词与词之间的空格并将大写全变成小写!然后将其交给五名受过高等教育的以英语为母语的被试"要他们把词分出来!以原文作为标准衡量"被试的答案约有百分之十三的差距!有趣的是"这个百分比与实验一中中文文本分词的百分比接近!是否可以说"英语书写的形式因素"比如词与词之间的空格"只是提供了约百分之十五的分词信息"其余的百分之八十五"象汉语一样是由语义提供的#如果这样"语义是如何告诉读者有关词或意义组合之界限的#这种知识又应如何应用于电脑中文处理#是否可以说只需要百分之八十五的分词正确率就能百分之百地理解一篇文本的全部语义蕴涵#

实验三以词为单位"将杜甫4秋兴5中的两句诗+红豆啄余鹦鹉粒"碧梧栖老凤凰枝,用电脑排列并打印出所有的可能组合"然后人工检查每句排列的合法性!结果发现几乎句句可读!又用同样的办法来测试一句日常用语+今天他不在家学习汉语,和67897:;<=:=>8?@A B;7:7C=A9D7=98C?E结果发现在*&’句汉语中有四百多句是可读的"而*&’句英语句子中只有&&’句可读!由于只有作者一人检查"所以误差可能较大!但是F.&1&&’的差距应

F ’.

%

2或许汉语采用的是一种相对于别的语言较为灵活的意组

式组词方式"因而宽容度较大!萧国政$吴振国4汉语法特点和汉民

族心态5一文中对汉语的意合性特点有详细论述"请参阅4华中师

范大学学报5.G H G年第F期第&)IJ&页!

英国等西方国家在中世纪的时候有过专门教授拉丁语的

学校!称为+语法学校,K L M C D D C M:N A99O P!对语法的重视可见一斑!

中国的同时期的语文教育基本上是背诵经典诗文!

人文科学目前对计算机作为有效的研究工具和统计手段

作为有说服力的论证方法还重视不够!等到使用计算机同使用电

视机一样人人即学即会的时候"二者的重要性恐怕会是现在的人

文学者始料不及的!

万方数据

该说明汉语句子的形式限制少!汉语词汇的结构"组合功能强#

结论是!汉语词汇组合"句子结构的结构性制约少而语义制约多$#这个结论与其他学者的研究成果不谋而合#冯志伟统计了现有多个机器翻译和自然语言理解系统的句法规则和语义规则的比例!发现处理不同的语言需要电脑存储不同比例的语义"句法规则#形式限制多的语言需要的句法规则多!而形式限制少的语言需要的语义规则多#具体对比如下%&’(

)*++,-./.01,+23-4-.5+562,.5+5

+7.8-98,9 :5;-.8,9+7.8-98,9

:5;-.8,9

+7.8-98,9

:5;-.8,9

+7.8-98,9

:5;-.8,9

这个结论对汉语语言处理的价值在于(提醒我们汉语处理的主要任务是语义处理!因为它没有提供足够的形式因素可资借鉴#

三"汉语处理的基本问题

汉语处理的基本问题包括编码"输入"分词"语法检查等环节#解决这些问题不应局限于各个环节本身#编码中不仅应考虑字形本身的因素!还应加进语音"语义的因素#输入亦是如此!不仅应顾及输入的速度和准确!而且还应考虑普通人的语言习惯和输入方法的自然性#分词则必须综合考虑词汇"句法"语义等因素!并融进统计规则!将语言学的手段与统计学的手段结合起来!特别是在处理语境敏感的难题时#

现有的内码编码方案几乎完全是一种编形的做法!即把一个汉字当作一个图形来描画!这样做的好处是没有任何一个字和另一个字有重码的现象!坏处是一个字和另一个字没有任何关系#不少学者设计了基于汉字基本部件的组合式输入方法!但很少有人从编码着手考虑组合问题#即以笔划和部首为基础!找出汉字组合的基本部件并对这些部件进行编码#汉字编码因而变成是在部件编码基础上的二级编码#比如<的=应看成是<白=和<勺=的相加而不是第三种独立的实体存在#<的=的内码相应地变成是<白=和<勺=的内码之迭加!再附加上左码右码的指示#比如<白=和<勺=的内码分别是>?和+&!而1用来指示左置!@用来指示右置!那么<的=内码就是>?A+&@!诸如此类#这样做似乎更接近使用汉语的人学习和记忆汉字时的实际情况!因而或许更便于自然语言的计算机处理#

现有的交换码充其量只考虑到了字形和字音两个因素!完全忽略了字义的方面!更遑论语法信息的负载#中国科学院自动化研究所提出的汉字多维编码法!在很大程度上考虑到了字音"字形和字义的问题#但作者认为!除了字音B C D"字形B E D"字义B F D"字的构词能力B3D"和语法类别B G D以外!还应留出一维或几维B比如H!I D的空间!以便在具体语言处理过程中标记即时的语法"语义信息#比如<的=的编码应包括如下信息(B A D读作J5!B&D写作<的=!B?D构词力一级!B K D系结构助词等等#在具体的语言文本处理过程中可能会遇到<的=读作J L 或J M"为名词类B如目的D或副词类B如的确D的情况!这时就要在所留空位中作出相应标记#

这种编码法对汉字键盘输入尤其重要N因为如果汉字码是组合式的!那么汉字的部件组合式输入就容易实现(无非是需要把编码时的有限部件用较为自然的符号代表#此外!预留空位中所存的二级标记可以为下一步的处理提供重要信息#比如遇到标作

B1D O25P;57Q*P5.

程序或者将P认作是误打的字符!而正确的字符串是O2R;R7Q S P T.B这么诱人D#或者将;5认作是误打的!正确的字符串是;T,B这儿没有人D!此时程序应跳出两种组合方式供用户选择#如果用户选的是第一种!那么程序应即时根据所涉及汉字的构词力将<这=的切分标作<后接一=!将<么=的切分标作<前接一=B标记符号可以根据需要设定D!并根据字典将<这么=标作<副词类=!将<诱人=标作<形容词类=#这样一来!任一篇键盘B或别的输入方式D输入的汉字文本中就包含了一般汉字文本书写所缺乏的词汇界限和词类信息!这对后段的文本处理会大有帮助#

如果是由光学扫描器读进来的汉字文本!根本没有包含我们所设想的类似键盘输入时由用户或电脑附加的词汇界限和词类信息!那么就要进行单独的切分和词类标记#通常有两种做法!一种是根

U

@

A $这个结论如何量化为百分比有待进一步研究#首先要做的大概是对不同语言关于词界的把握以及造词规则做出统计分析#词毕竟比句子单纯一些#统计处理的可控性大#

万方数据

据语言学的规则进行切分和标注!一种是根据统计学的规则进行切分和标注!成功的做法是把二者结合起来!首先使用语言学的方法将毫无疑问的词汇界限划出!比如"然#的后面如果不是"后#$"而#或"则#%那它一定是前接的!再比如一些特殊结构%像"乱七八糟#$"乌七八糟#%也可据以确定词汇的界限!根据语言学的规则进行初级切分以后%再根据统计学的算法进行二级切分!这样统计学的算法就有了相当的基础%而且也有了亟待做出统计运算推断的重点句$段和起点$终点%而不至于连最起码的统计运算的起始点都要任意设定&通常的起点一般放在一句话的中点’!反过来%语言学的规则永远不可能穷尽语言现象%因而靠语言学规则的处理法需要统计学算法的帮助才能有效地处理汉字的文本切分和词性标注问题!比如单单是语言学的规则不能解决下列句子的切分问题(

&)’美国会通过人权法案

只有统计学的方法才能基于对一般文本使用

"美国会#的频率和当前文本使用"美国会#的频率统计来确定正确的切分是(*"美+国会#%还是,

"美国+会#!一般文本出现此组合时%,的几率比*要大得多%因而正确的切分是,而非*%"会#的词性亦应标作能愿动词而非名词!假如有位用户就是喜欢使用*的模式%并强行修正程序根据一般文本统计规则所做出的选择%那么程序的内在学习机制就应记下这个模式%并将切分标作*式%把"国会#标作名词!

四$语义的处理和语法检查

现行的语义处理的方法很可能忽视了一种超越句法和语义学规则的认知规则的存在!句法学$语义学和认知语法学的界限模糊%可能是导致这种现象的原因%作者另文论述!但认知的因素如何进入电脑尚待研究%可能语义和认知因素的处理都离不开统计学的帮助!

吉林大学的研究者在统计了十万字的语料之后%发现词组层次上的语义难断点是*,-式%即当存在一个*,-字符串%其中*+,-%*,+-%*+,+-三种组合可能都存在时%这有两种情况%一是三种可能不是并列的%只有一种在实际语言运用中存在!比如%无论何时%当"不平衡#出现时%其正确的读解一定是"不+平衡#%而不是"不平+衡#%尽管"不平#和"衡#都是字典中合法的组合!二是三种可能是并列的%但在句子的层次上即可确定其优先次序!比如%"发展中国家庭手工业#中的"中国家#!尽管"中国+家#和"中+国家#的可能都存在%但如果把

"国家#读为一体%后面的"庭手工业#就无法解读%因此程序必须回头分析$解读.)/&0123’!本文作者提出了第三种情况!即三种可能完全并列%无论在词组层次还是句子层次%都无法确定其优先次序%程序必须依靠上下文或句子以外的其他方面的信息%才能做出判断!例如%

&45’小学+校长+期望+乡人+捐钱!

&46’小学校+长期+望+乡人+捐钱!

没有根据断定&45’一定比&46’可能性更大%尤其是

当这句话是一句报刊标题时!在这种情况下%就要

看上下文是否有类似的切分以资佐证%或者行文中

"校长#和"小学校#的用词频率哪个更高%以及句段层次上的语义主题是什么!

把语义引入语言处理时%应有节有制!必须把

语义理解的范围限制在句法和词汇所给定的意义上%不能超越句法和词汇追求语义!有关对说话者的目的$意图的解读%应当属于认知心理学的范畴而非语义学的范畴!比如%人工智能专家789:;提出的例子(有两只猴子被关在一起%栅栏里面有一棵香蕉树$一棵橡胶树!香蕉树上结着香蕉%橡胶树下有一根棍子!于是发生了猴子甲与猴子乙的对话(

&<’猴子甲(我饿了!

猴于乙(橡胶树下有根棍子!

本文作者认为%在语义学的层面上%程序只是

需要知道猴子甲在申述自己的饥饿状况%猴子乙在

描述一根棍子的所在位置!至于猴子乙如此描述的

意图及其潜意识+意识中所预期的猴子甲所应有的

关于棍子的功能的知识%则属于认知心理学的课

题!作者认为句法学讨论的是句子的形式结构%语

义学讨论的是这种形式结构所代表的意思%亦即是

说所有的语义内容都可以由句法形式导出%没有脱

离句法形式的语义内容%也没有脱离语义内容的句

法形式!如此来界定语义学的范围%可以避免许多

不必要的混乱!比如文字处理$语法检查$机器翻译

不必涉及意图问题!因为像"橡胶树下的棍子可以

用来够香蕉树上的香蕉#这一类隐含的意图%即没

有在字面上或音节上写出来或说出来的意图%需要

信息接收者对其做出反应才能见诸于物质形式的表现%因而只是在人工智能领域才需要处理!

但是当认知理解的因素变成一种结构限制表现在语句的物质形式上时%则必须在文字处理$语法检查$机器翻译中处理!作者认为%在语义规则中存在一种脱离句法形式的束缚$超越语义限制的认

3

=

1

万方数据

知语法规则!其对语句表达形式的制约作用目前尚缺乏必要的研究!比如"

#$%一块石头落向空中!

这是一个句法合理&句义清晰的句子’但却违反了人们认知知觉的意象规律’或者说违反了认知语法的规则!语句所呈现的意象组合’与人们认知心理中对于实体的运行方向的预期形成了矛盾’所以读来让人觉得别扭!人们对(落)这个运行动作的指向性的认识’受限于生活于其中的地球引力系统!

对这种认知语法规则的限制如何进入电脑程序并在自然语言处理中运用’还有许多工作要做!对于语法检查来说’由于句法和词汇组合的合法性是由许多因素决定的’包括语义限制和认知限制’因此’就目前看来’完美的语法检查程序是可望而不可及的!程序设计的第一步只能是限定目的和范围!比如限定被检查的汉字数目’限定所检查的句型数量’限定只检查一定的文体风格’诸如此类!作者认为’语法检查的程序只能就适用范围作单元式规划’目前不可能全盘实现!

文字处理中的语法检查’事实上比机器翻译中的还要困难!因为机器翻译有原语的句法作参照’而原语的文本通常是经过编辑加工过的规范的书写文本!相反’一般文字处理软件的使用者本身的语法基础可能就有问题’再加上各种影响正确输入的因素#包括输入软件的不足%’所以一个语法检查的程序面对一个不合语法的句子时’必须设想许许多多的或许是没有穷尽的可能!

基于以上考虑’作者认为语法检查问题的最终解决’可能是要建立一个合法句子的句库!比如将国标三千六百基本字汇在三十字及以下的所有合法句子的组合列出’由机器和人工共同检查’剔除其中违法的’将合法的存入句库!使用时将被检查的每个句子拿到句库中进行对比!找到相同的就认为合格!否则就列出最接近的让用户自己挑选!遇到句库里没有而用户认为正确的组合’程序就自动记录下来’存入用户的个人句库!目前的个人电脑对存储这样一个句库&执行这样一个程序或许还有困难!但相信不久的将来’科技的发展就会允许这种软件在个人电脑上运行!

*参考文献+

*,+郑家恒’刘开瑛-自动分词系统中姓氏人名的处理策略探讨*.+-计算语言学研究与应用*/+-北京"北京语言学院出版社’,001-

*2+冯志伟-汉语信息处理及语言研究*3+-北京"商务印书馆’,002-

*责任编辑+叶木

4567859:9;<5=><=9?@A B9::85=

C.D E F G H I J K G

#L M N H O P Q M I P R S T H U P M O I.U G H’V I G W M O U G P XR S P Y M Z P H P M R S[Y G R’[Y G R’V-Z-.%

\]:^@

l9mn A@o:"/Y G I M U M‘H I a b H a MN O R c M U U G I a p U X I P H i p U M Q H I P G c U p a O H Q Q H Oc Y M c g M O p P M i PU M a Q M I P H P G R I p c R Q N b P M O N O R c M U U G I a/Y G I M U M

q

r

,万方数据

相关文档
相关文档 最新文档