文档库 最新最全的文档下载
当前位置:文档库 › 双语平行语料库对齐技术述评_黄俊红

双语平行语料库对齐技术述评_黄俊红

双语平行语料库对齐技术述评_黄俊红
双语平行语料库对齐技术述评_黄俊红

语言技术与外语教学研究

*版权所有 文责自负*

双语平行语料库对齐技术述评

黄俊红,范 云,黄 萍

(重庆大学外国语学院,重庆 400044)

摘 要:本文在大量的有关平行语料库文献研究的基础上,阐述了目前平行语料库在段落、句子、从句、词汇级所使用的对齐方法,然后分析了其应用于汉英平行语料库对齐方法的优缺点,旨在为今后本研究所构建小型汉英平行语料库提供一个技术支持。

关键词:平行语料库;对齐技术

中图分类号:H 319.3

文献标识码:A

文章编号:1001-5795(2007)12-0021-0005 对齐的双语语料库在机器翻译、词义消歧和双语词典编撰等领域都非常有用。语料对齐的单位由大到小,有篇章、段落、句子、短语、词等不同的层次。粒度越小,提供的语言信息就越多,应用的价值也就越大。然而平行语料库的自动对齐并非是一件容易的事情。由于语料大都来自人工翻译,句子之间并不都是一对一的翻译模式,还有一对多、多对多的翻译模式。这种复杂性加大了对齐的难度,特别是对更细粒度级别的对齐。由于语言之间存在着差异,找到固定的对应翻译很难,再加上文本预处理工具难以保证处理效果,以及一些电子文本的噪声纷繁复杂,这都增加了对齐的难度。而对于英汉两种差别很大的语言来说,目前的语料库对齐算法并不一定完全适用于汉英语料库的对齐。本文首先回顾了当前国外平行语料库的对齐技术,然后分析了国内在对齐中所使用的技术,旨在为本

研究所O

今后构建小型汉英平行语料库提供一个技术支持。

1 目前平行语料库对齐技术的现状

1.1 句子级对齐技术

在各级对齐研究中,其中最为重要且较为成熟的自动对齐技术是句子一级的对齐。句子级对齐的方法

主要有三种:1基于长度的方法(length -based)(Bro w n

et a,l 1991;Gale &Church ,1991a);o基于词汇的方法(lex ica-l based)(Kay &Roscheisen ,1993);?混合法(co mb i n ation)(Tan &N agao ,1995;W u ,1994)。

基于长度的方法最早是由Bro w n 和Gale 提出,虽然他们的算法都是由源文本中句子长度和译文本中的句子长度有很大的正相关这一观察得出,但其侧重点却不同。Bro w n 的算法以词为单位计算句子的长度,而Ga l e 和Church 则是以字符为单位计算句子的长度。他们分别用各自的算法对加拿大议会会议所录英法双语语料库进行了对齐实验,准确率达96~97%。然而该方法在处理复杂句子的对齐(如2B 1或2B 2的句子对齐,或非直译和省略的句子)以及不同语系的句子对齐时,准确率却并不高,而且此算法一旦出错,便不可能自动纠正。

基于词汇的方法是由K ay 和Roshe isen 提出的。他们认为最佳的句子对是那些使系统词汇对齐数量最大化的句子。基于词汇的算法虽然可以提高对齐的准确性,但却费时;而且目前还没有充分证明这一方法适合于大型语料库。Chen(1993)对Kay 和Rosheisen 的算法进行了改进,这一算法运用词汇信息构建了一对一词汇统计翻译模型,用这样的翻译模型找到语料库

作者简介:黄俊红:讲师。研究方向:专门用途英语及语料库语言学。

范 云:副教授。研究方向:语言学及应用语言学。黄 萍:教授。研究方向:专门用途英语。

收稿日期:2006-01-05

O 该论文获得重庆大学语言认知及信息处理研究所专项研究基金赞助。

#

21#第118期2007年12月

外语电化教学

C AFLE

N o .118D ec . 2007

生成的最大可能性。他用此算法对旧的H ansard语料库进行双语对齐。与Bro w n和Ga le的对齐算法相比,这一算法不仅正确率高,而且在处理大量省略的对齐中能轻易确定省略的位置,且鲁棒性(robust)较好。基于词汇方法的另一种做法是利用同源词(cognate) (Church,1993)。此方法在处理英法和英德语言中的诸如名字、日期、数字、术语等可辨认单位出现比率高的情况下效果更好。

如前所述,基于词汇的方法相对可靠精确,但计算起来相当复杂且速度较慢;而基于长度的算法模型虽然简单,独立于语言知识和外部资源,但鲁棒性不好,极易造成错误蔓延。由于每种方法都有自己的优缺点,人们试图将各种方法混合起来找到问题的解决途径(Tan&N agao,1995;W u,1994;;Co llier,1998; V ron is,1999;M ela m ed,2000)。试验结果表明,混合的方法优于单纯使用其中的任何一种方法。

1.2词汇级对齐技术

与句子对齐相比,词汇对齐的应用价值更加直接。目前词对齐主要有基于统计(也称为基于同现)的方法、基于词典和语言学知识的方法。

基于统计的方法是通过大规模双语语料的统计训练,获得双语对译词的同现概率,以此来获得对齐。一种统计法是基于机器翻译模型的词汇对齐法(Bro w n et a.l,1993,吴尉林,2003)。此法用词汇对齐模型来实现翻译模型并通过E M(expectation-m ax i m izati o n)算法来进行词汇对齐。但是该方法不仅在运行时需要很大的内存空间,而且E M算法本身也缺乏鲁棒性。另一种统计法是基于同现的词汇对齐(Ga l e&Church, 1991b;Zhang Y ing et a.l,2001)。其中,Gale& Church用同现测度函数对译双语词汇,通过统计对译词在双语句对中同现的频率来确定双语词汇之间的对应关系,并为每个双语词对引入一个联列表(Conti n-gency Table)。基于同现的对齐算法简单,鲁棒性也比E M算法好,但是该方法在计算时没有考虑词汇的上下文关系,因此获得的词汇翻译对应存在着间接相关的问题。

基于词典和语言学知识的词汇对齐方法。机读双语词典包含丰富的词汇对译信息,是进行词对齐的重要资源。K er(1997)根据语义类实现词对齐,结果显示该方法在获得很高的准确率的同时,能克服基于统计方法中存在的低覆盖率的问题。H uang(2000)用语言学比较的方法进行词对齐。此外还有用隐马尔可夫模型和最大熵模型(Necip,2006)进行词对齐。1.3多词组合单位对齐

多词组合单位(m u lt-i w ord un it a li g nm ent))) MWU)对齐也就是短语或词的搭配对齐。在自然语言的理解过程中,更多的是通过短语或者固定搭配而非单个的词来传达要表达的意义。在双语平行语料库中许多词并没有直接的翻译对等词。为了理解这些多词单位的意义,不仅要考虑不同语言词之间的相互关系,而且也要考虑同一语言中这些词的搭配。因此,多词组合单位的对齐也是双语语料库对齐工作中的一项重要且富有挑战的任务。许多研究者对此已做了深入的研究,方法主要有n-g ra m、近似字符匹配、有限状态机、双语语法分析树等。其中有些做法最为典型,如Da-gan&Church的Ter m i g ht系统、Sm ad ja et a.l的Cha m-po lli o n系统和M cEnery et a.l(1997)用近似字符串匹配技术AS MT和有限状态自动机从平行语料库中提取术语翻译。但是英语和汉语使用不同的文字系统,所以AS MT不能应用于英汉多词单位的对齐。

1.4从句和段落的对齐

如前所述,与句子和词汇对齐研究相比较,对段落和从句对齐的研究要少的多。其中一个原因就是段落的界限比句子清楚,所以其对齐也简单。Gale& Church(1991a)认为,基于长度对齐的算法可以用于段落的对齐。

尽管从句对齐对于诸如基于实例的翻译、语言教学、对比研究等领域的应用非常有用,但是由于每种语言,尤其是不同语系语言之间存在如何界定从句界限的问题,所以与简单句相比较,从句的对齐更难且容易出错。K it et a.l(2004)用包含双语法律术语表、双语字典的词汇方法和相似性度量法对香港法律文本进行了从句对齐。实验结果表明,这一算法即简单又有效,其准确率达94.6%。

2目前国内英汉平行语料库的对齐研究

英汉属于不同的语系,上述的对齐方法对印欧语系(尤其是英语和法语)效果较好,但对于语法结构相差甚远的印欧与亚洲语系(汉语和日语)来说,效果却不如前者。例如,基于长度方法的同源词法能够提高相近语系语料对齐的准确性,但是,对英汉两个完全不同的语系来说,由于没有拼写、语音或语义相似的同源词,所以这种方法就不适用于英汉双语对齐。如果单纯地使用基于长度的方法,效果也不是很好,因为汉语分词问题很难解决,利用词的个数作为长度单位不但不可靠,而且分词结果也会影响互译信息率的计算。

# 22 #

因此,目前对于汉英句子对齐常用的方法是将基于长度和基于词汇这两种方法进行改进或混合使用。香港大学的W u(1994)通过创建特殊词表对Ga le和Church的基于长度的算法进行了适当的改进,用此算法对香港立法委员会会议记录英汉语料库做了对齐实验。结果表明,在句子对齐中,1:1的匹配的准确率接近90%。Sun(1999)在处理英汉语料库句子对齐时,对基于字符的长度算法进行了改进。这一方法弥补了基于字符长度算法不能处理1:0或0:1的句子对齐(即省略或插入)的不足。它与其它混合法不同的是,其它算法通过动态规划把长度和词汇信息结合起来,而此法是先单独使用,然后再用词汇法进行对齐正误判断,正确的对齐从语料库中抽出,然后对剩余的句子再进行对齐,如此反复,其正确率达到93%。钱丽萍等(2000)提出了基于译文的对齐方法,该方法借助一部翻译较完整的词典,将汉英句子间的对应关系连起来。实验证明,这一方法虽然/从根本上消除了基于长度的对齐方法中由于文本的缺失或局部对错造成的错误蔓延,并且对于一般文本普遍适用0(2000:61),但却无法处理2:2句对的情况。

Chuang et a.l(2005)提出了一种基于标点符号的句子对齐法。他们用此方法对汉-英S MC(Ch i n ese-Eng lish S i n ora m a M agazine Corpus)平行语料库进行对齐。结果显示,基于标点符号的方法胜于基于长度的方法,其准确率超过93%。他们还验证了此方法可以用于其它的双语文本,如日语和英语。

张艳等(2005)使用了一种基于长度的扩展方法。这一方法以长度算法为基础,引入词汇信息,然后采用基于标点符号的方法作为后处理。测试结果证明/这种混合方法可以有效地提高汉英双语句子对齐的正确率,并且对多领域的文本具有很好的移植性0(2005: 36)。

李维刚等(2006)提出一种基于句子长度和位置信息的结合算法。为了验证这一算法的有效性,他们使用了基于长度的算法,基于位置信息以及两者结合的方法对5呼啸山庄6第17章的英汉双语文本进行了测试。三种方法的准确率分别为20.3%、85.2%和92.5%。

对汉-英词汇对齐来说,由于文字系统存在很大的差异,汉语句子不象英语句子那样,词与词之间没有间隔,而且汉语对词的界定很模糊,造成词切分的错误率也就增高,因此英汉语对应词的对齐的难度也相应地增大。尽管有些方法可以直接用于汉英语料库词汇对齐,如W u(1995)用Bro w n的E M算法对英汉词汇对齐进行测试,正确率达91.2%~95.1%,但这不能完全适用于汉英词汇的对齐。Fung and Church(1994)提出了K-vec算法。这一算法的单词对齐不需要在句子对齐的前提下进行,只测试候选词在位置分布上的相似度,但对双语词只能做粗略的估计。吕学强(2004)提出了基于语料库的无双语词典的英汉词对齐模型。该模型几乎不需要任何语言学知识和语言学资源,是语料库方法的独立应用。该方法不仅能对齐高频词、低频词,而且对未登录词和汉语分词错误具有兼容能力。晋薇等(2002)运用了语义相似度和语言学知识进行双语语句词对齐,达到了85%的准确率。为了能得到有效的汉英词汇对齐,目前大多数算法综合运用了基于统计和基于词典对齐的方法(刘小虎,1997;王斌, 1999;吕雅娟,2001;Piao,2001)。其中Piao(2001)把诸如同现量度、词汇分布距离、英语单词的形态还原等结合起来提出一种算法。该算法在英汉平行语料库中进行了试验,准确率达80.63%。王斌(1999)在他的研究中顺次用基于词典、基于语义类、基于翻译位置、基于翻译共现频率等多种算法将词典搜索和无词典统计的方法结合起来,不仅充分有效地利用了现有的有限资源,而且还避免了对大量数据过多的无效统计和训练,节省了运行的空间和时间,提高了词汇对齐的召回率和正确率。但是这些算法都过多的依赖语义词典、大规模句对齐双语语料库和大规模同源词形态分析匹配规则库等语言资源,而高质量的语言资源的建设非常昂贵,由此限制了这些算法的使用范围和效果。张孝飞等(2006)试图通过加强词对齐算法本身的复杂性来减轻对语言资源的依赖性。他们提出了一种基于锚点词对的对齐算法,经过对真实语料的测试,词对齐的准确率达到93%。

对于多词组合对齐,近年来国内也有许多这方面的研究。常宝宝(2002)提出了基于词汇关联度进行多次组合的识别方法,并利用假设)))检验的方法在汉英双语语料库中抽取翻译等价单位。吕雅娟等人(2003)用N-gra m模型获取候选翻译单位,然后根据统计同现计算候选等价对的翻译概率,并用贪心策略实现翻译等价对的自动抽取。刘冬明(2003)将基于长度和基于词典的算法混合进行了名词短语的对齐。测试结果证明,这两种方法在最终结果上可以互补。刘建基(2006)采用了统计关联度加词对齐的方法,先利用关联度获取汉语候选组块,再利用词对齐获取双语候选组块。该方法的优点是能够在一遍扫描语料库的

#

23

#

过程中获取双语组块,但在识别单语组块时有一定的局限性。张春祥等(2006)提出一种基于中心语块扩展的短语对齐,实验结果表明,该方法的对齐正确率达到82.76%。

虽然段落对齐可以象Ga le所说的那样利用句子对齐的方法来解决,但是直接进行段落的自动对齐却具有相当的难度。王斌提出以/分段+对齐0为原则,分段对齐的优点在于不受段落是否已有边界或已有边界是否清晰等的限制,而是以对齐为目的重新组织段落。在分段对齐过程中,/通过匹配分布相似的词汇对,找到可以用于分段的锚点句子,利用这些锚点句子和其他特殊句子对之间的匹配程度对双语文本进行分段对齐,,实验结果表明分段对齐具有相当的可行性0 (1999:47)。目前国内对从句对齐研究非常少,在收集到的文献中只有K it e t a.l(2004)和吕学强等(2003)进行了研究。

综上所述,双语自动对齐问题的研究大多集中在句子和词汇一级上。研究的方法大概有三种:一是基于统计的方法,即先对大量的双语语料进行统计训练,获得双语对译句/词的同现概率,建立句子/词汇对齐的统计模型,用来判断句子/词的对译关系;二是基于词汇/词典的方法;三是把统计手段和词汇/词典结合起来。含有汉语的双语语料库大多采用这种方法。但不是所有的方法都适用于英汉平行语料库的对齐,而要依据语料的特点和语料对齐的目的进行方法的选择。

3结语

本文对国内外平行语料库的对齐方法进行了阐述,分析了各种对齐方法的长处和不足之处并讨论了用于汉-英平行语料库的对齐方法。由于英汉属于不同的语系,不同语言在语序、句子结构和逻辑意义的表达方面都存在着明显差异,以及不同语言本身存在的一些未解决的语言问题,使得语料库对齐的方法也各异。因此,用于欧洲语系的对齐方法不能完全用于汉英平行语料库的对齐。上述的研究将为我们建立小型汉英平行语料库提供一种技术支持。t

参考文献

[1]Bro w n,P.F.,De lla P i e tra,S.A.,D e lla P ietra,V.J.

andM e rcer,R.L.The M athe m atics of Statisti ca lM achi ne

T ransl a ti on:Pa rame ter Esti m ati on[J].Computati onal L i n-

gu i stics,1993,19:2.[2]B rown,P. F.,L a,i H.C.and M ercer,R.L.A lign i ng

sentences i n para llel corpo ra[C].P ro ceedi ngs of t he29th

A nnua lM eeti ng of the A ssoc i a tion f o r Computati onal L i ngu i s-

tics,1991.

[3]Chen,S.A li gn i ng sentences i n b ilingual corpora usi ng l ex-i

ca l i nfor m ation[C].P roceedi ngs of t he31t h Annua lM eeti ng

o f the A ssoc i a ti on for Computati onal L i ngu istics,1993.

[4]Chuang.C.T and K ev in C.A li gni ng Pa ra lle l B ili ngual Cor-

po ra Statisticall y w i th Punctua tion Cr i te ria[J].Com puter

Science and In f o r m ati on Eng i neer i ng,2005,10:1.

[5]Church,L.W.Cha r_a lign:prog ram for ali gning parallel

tex ts at the cha racte r l eve l[C].P ro ceedings o f t he31th A n-

nua lM eeti ng of the A ssoc iati on for Co m putationa l L i ngu i s-

tics,1993.

[6]Co llier,N.,O no,K.,and H iraka w a,H.An Experi m ent

i n H ybr i d D icti onary and Sta ti sti ca l sentence a li gn m ent[C].

Proceed i ng s o f the36th A nnual M eeti ng o f the A sso ciati on

for Co m puta ti ona l L inguisti cs and the17t h In ternati onal Con-

ference on Computati onal L i ngu istics,1998.

[7]Fung,P.and Church,K.W.K-vec:A ne w approach for

a li gni ng para ll e l texts[C].P roceed i ngs o f the15th In terna-

ti ona l Conference on Co m putationa l L inguisti cs1994.

[8]G a l e,W.and Church,K.A progra m f o r ali gning sentences

i n bili ngua l corpora[C].P ro ceedings of the29t h A nnual

M eeti ng of t he A ssoc i a tion for Computati onal L i nguisti cs.

1991(a)

[9]G a l e,W.,Church,K.Identify i ng w ord correspondences i n

para lle l tex ts[C].P roceedi ngs of the4t h DARPA Speech

and N atura l L anguage W orkshop1991(b).

[10]H uang J.X.and Cho i K.S.Ch i nese-K orean word ali gn-

m ent based on li nguistic co m parison[C].P roceed i ngs o f

the38t h A nnua l M eeti ng of the A ssoc i a tion for Computa-

ti onal L i ngu istics.2000.

[11]K ay,M.and R osche isen,M.T ext-translation a li gn m ent

[J].Co m putationa l L i nguisti cs.1993(19:1).

[12]K er,S.J.and Chang J.S.A c lass-based approach to wo rd

ali gn m ent[J].Co m puta ti ona l L i ngu i stics,1997(23:2). [13]K it,C.Y.,W ebster,J.J.,S i n,K.k.,Pan,H.H.and

L,i H.C lause A li gn m ent for B ili ngua l Hong K ong L eg al

T ex ts w ith A vail able Lex ica l R esources[Z].http://per-

sona.l c it https://www.wendangku.net/doc/be4600267.html,.hk/~ctck it/pape rs/iccpol2003-clause-a-

li gn.pd f2004.

[14]M cEnery T.,Jean-M a rc L.,M ichael O.,and Jean V.

T he exp l o itation of mu ltili ngual anno tated corpo ra f o r ter m

ex tracti on[M].i n R og er G arside,G eo ffrey L eech and A n-

thony M cEnery(eds.),Corpus A nnotation)))L i nguistic

Info r ma ti on fro m Com puter T ex t Co rpora:L ongman,1997.

# 24 #

[15]M ela m ed,I. D.M ode ls of T ransna ti ona l Equ i va lence a-

m ong W ords[J].Co m putationa l L inguisti cs,2000,26:2. [16]N ecip F. A.,and Bonnie J. D.A m ax i m u m entropy ap-

proach t o comb i n i ng w ord a li gn m ents[C].P roceedings of

H u m an L anguage T echno l ogy Confe rence of the N orth A-

m er i can Chapter of the ACL2006.

[17]P i ao,S.S.Pa ra lle l corpo ra and ali gn m ent:W ha t i s it?

W ha t do w e a li gn?[Z].https://www.wendangku.net/doc/be4600267.html,ncs.ac/uk/staff/

piaos/research/ali gn m ent/a lignment.h t m,2001.1.

[18]Sun L.,Du L.,Sun,Y.F.and Ji n Y.B.Sentence a-

li gn m ent of Eng lish-Chi nese co m plex b ili ngua l corpora[Z].

http://www.ko rter m.kaist.ac.kr/nl prs99/m a l99-papera/

m a-l109.pd f.1999.

[19]T an,C.L.and N agao,M.A uto m atic a li gn m ent o f Japa-

nese-Chi nese b ilingual texts[J].IEICE T ransacti ons on

Infor m ati on and Syste m s,1995.1.

[20]V ron i s,J.F ro m t he rosetta stone to t he infor m ati on socie-

ty:a survey of para llel tex t processi ng[Z].htt p://www.

up.un i v-m rs.fr/~v eronis/pdf/2000-PTP-chapter1.pdf

1999.

[21]W u, D.A li gn i ng a para lle lEng lish-Chinese corpus statist-i

call y w it h l ex ical crite ria[C].P roceed i ngs of the32th A n-

nualM eeti ng o f t he A ssoc iati on for Co m putationa l L i ngu is-

tics,1994.

[22]W u,D.L arge-scale auto m a ti c ex tracti on o f an Eng lish-Ch-i

nese transl a ti on lex i con[J].M achi ne translati on,1995. [23]Z hang Y.,Bro w n,R. D.and R obert E.F.Adapti ng and

exa m ple-based transl a tion syste m to Ch i nese[C].Proceed-

i ng s o fHLT:F irst Inte rnati onal Conference on H u m an L an-

guage T echno logy R esearch,2001.

[24]常宝宝.基于汉英双语语料库的翻译等价单位自动获取

研究[J].术语标准化与信息技术,2002.[25]晋薇,黄河燕,夏云庆.基于语义相似度并运用语言学

知识进行双语语句词对齐[J].计算机科学,2002.11. [26]李维刚,刘挺,张宇,等.基于长度和位置信息的双

语句子对齐方法[J].哈尔滨工业大学学报,2006.5. [27]刘冬明,赵军,杨尔弘.汉英双语语料库中名词短语的

自动对齐[J].中文信息学报,2003.5.

[28]刘建基.基于关联度和词对齐的双语组块获取研究

[D].南京理工大学硕士论文.2006.

[29]刘小虎,吴葳,李生,等.基于词典和统计的语料库

词汇级对齐算法[J].情报学报,1997.1.

[30]吕学强,李清隐,任飞亮,姚天顺.基于统计的汉英法律

文献亚句子级对齐[J].东北大学学报,2003.1.

[31]吕学强,吴宏林,姚天顺.无双语词典的英汉词对齐[J].

计算机学报,2004.8.

[32]吕雅娟,赵铁军,李生等.统计和词典方法相结合的双语

语料库词对齐[A].自然语言理解与机器翻译[M].北

京:清华大学出版社,2001.

[33]吕雅娟,李生,赵铁军等.基于双语语料库的翻译等价对

自动抽取[J].高技术通讯,2003.5.

[34]钱丽萍,赵铁军,杨沫昀,等.基于译文的英汉双语句子

自动对齐[J].计算机工程与应用,2000.12.

[35]王斌.汉英双语语料库自动对齐研究[D].博士论文.

1999.

[36]吴尉林,屈刚,陆汝占.基于锚词对的英汉双语语段对齐

模型[A].孙茂松,陈群秀主编.语言计算与基于内容的

文本处理[M].北京:清华大学出版社,2003.

[37]张春祥,李生,赵铁军.基于中心语块扩展的短语对齐

[J].计算机研究与发展,2006,9.

[38]张孝飞,陈肇雄,等.基于锚点词对的双语词对齐算法

[J].小型微型计算机系统,2006,2.

[39]张艳,柏冈秀纪.基于长度的扩展方法的汉英句子对

齐[J].中文信息学报,2005,5.

A n O verv i e w of the A li gn m en t o f

B ili ngual Parallel Corpora

H UANG Jun-hong,FAN Yun,H UANG P ing

(Co llege o f Fore i g n Languages,Chongqing Un i v ersity,Chongqi n g400044,China) Abst ract:Based on w i d e literature rev i e w on para llel corpora,this arti c le first carries out t h e research on different algorithm s of alignm ent on the linguistic leve l of paragraph,sen tence,c lause as w ell as words i n para lle l corpora and t h en ana l y ses the ir advantages and d isadvantages;fina ll y it d i s cusses the a l g orithm s of a lignm en twh ich are restricted in align i n g Ch i n ese-English para llel cor pus.It ai m s to pr ov i d e a techn i c al basis for constructi n g s m al-l sca le Ch i n ese-English para lle l corpora for our research i n stitute.

K ey w ords:Parallel Corpora;A lignm en t

#

25

#

语料库术语中英对照

Aboutness 所言之事 Absolute frequency 绝对频数 Alignment (of parallel texts) (平行或对应)语料的对齐 Alphanumeric 字母数字类的 Annotate 标注(动词) Annotation 标注(名词) Annotation scheme 标注方案 ANSI/American National Standards Institute 美国国家标准学会 ASCII/American Standard Code for Information Exchange 美国信息交换标准码Associate (of keywords) (主题词的)联想词 AWL/Academic word list 学术词表 Balanced corpus 平衡语料库 Base list 底表、基础词表 Bigram 二元组、二元序列、二元结构 Bi-hapax 两次词 Bilingual corpus 双语语料库 CA/Contrastive Analysis 对比分析 Case-sensitive 大小写敏感、区分大小写 Chi-square (χ2) test 卡方检验 Chunk 词块 CIA/Contrastive Interlanguage Analysis 中介语对比分析 CLAWS/Constituent Likelihood Automatic Word-tagging System CLAWS词性赋码系统Clean text policy 干净文本原则 Cluster 词簇、词丛 Colligation 类联接、类连接、类联结 Collocate n./v. 搭配词;搭配 Collocability 搭配强度、搭配力 Collocation 搭配、词语搭配 Collocational strength 搭配强度 Collocational framework/frame 搭配框架 Comparable corpora 类比语料库、可比语料库 ConcGram 同现词列、框合结构 Concordance (line) 索引(行) Concordance plot (索引)词图 Concordancer 索引工具 Concordancing 索引生成、索引分析 Context 语境、上下文 Context word 语境词 Contingency table 连列表、联列表、列连表、列联表 Co-occurrence/Co-occurring 共现 Corpora 语料库(复数) Corpus Linguistics 语料库语言学 Corpus 语料库 Corpus-based 基于语料库的

语料库与语料库建设

语料库和语料库建设 一、什么叫语料库 1、定义 语料库,通俗意义上指的是语言材料库。严格意义上的语料库(corpus)是指按照一定的 语言学原则,运用随机抽样方法,收集自然出现的连续的语言运用文本或话语片断而建成的具有一定容量的大型电子文本库。 目前,语言学家对于语料库的定义不尽相同,如辛克莱(Sinclair)认为语料库是“按照明确的语言学标准选择并排序的语言运用材料汇集,旨在用作语言的样本”。阿特金斯等(Atkins & Clear)认为语料库是“按照明确的设计标准,为某一具体目的而集成的大型文本库”。赫努(Renouf)认为语料库是“由大量收集的书面语或口头语构成,并通过计算机储存和处理,用于语言学研究的文本库”。我们看到,以上关于语料库的几种定义相同之处在于都谈到语料库是语言材料的汇集;不同之处在于前两个定义指出语料库的设计是有明确的设计标准的,赫努的定义明确指出语料库“通过计算机储存和处理”这一特点。 语料库不同于电子文档,语料库的建设有特定的研究目的和具体用途,因此在语料抽样范围和文类覆盖方面都力求取得平衡,在收集语料时需要考虑到每一文类、体裁、语域、主题类型等的抽样比例。而大型文档目标在于搜集任何可获得的语言材料或所限定的数种文类语料,其语言材料之间的关系较为松散。 语料库具有以下特征:1、语料库的设计与建设有系统的语言学理论指导,语料库的开发具有明确而又具体的目的;如,布朗语料库用于对20世纪60年代的美国英语的研究,LOB是与布朗语料库对齐的同时期的英国英语语料库,可用以对英国英语进行研究,也可与布朗语料库加以对比进行美国英语和英国英语的对比研究。2、语料库的语料是按照明确的语言学原则采用随机抽样的方法得到的语言运用的自然语料,不是随意的语言材料的堆积,更不是由某个个人杜撰出来的。语料库的容量和语料采用随机抽样方式都保证了语料具有代表性,由此保证基于语料库的语言研究的科学性、客观性。3、语料文本是连续的文本或话语片断,而不是孤立的句子或词汇,可以借以获得语法关系、用法、词语搭配以及语篇信息。4、语料库以当代先进的计算机技术为技术手段,语料库语料通过电子文本形式储存并且是通过计算机处理的,具有资源优势和处理速度优势。5、基于语料库的研究以量化研究为基石,以概率统计为手段,以数据驱动为基本理念。6、语料库既是一种研究方法,又代表着一种新的研究思维。 二、语料库产生的背景及发展历史 对真实语言材料的搜集与研究是语言学研究的优秀传统。尤其是在20世纪50年代中期, 在语言研究中占主导地位的是重语言材料的经验主义。这种学术氛围无疑促进了对语料的重视。1959年夸克(R.Quirk)等人着手进行的“英语用法调查”(Survey of English Usage)通过系统的调查建立了第一个现代英语语料库,在此基础上完成的《现代英语语法》( A Grammar of Contemporary English)和《英语语法大全》(A Comprehensive Grammar of the English Language)对现代英语进行了系统全面的描写,在英语语言学界产生了广泛的影响。但在当时这项浩大的工程是通过手工的方式完成的。

双语对应语料库翻译教学平台的应用初探_王克非

语言技术与外语教学研究 *版权所有 文责自负* 双语对应语料库翻译教学平台的应用初探 王克非1 ,秦洪武2 ,王海霞 2 (1.北京外国语大学中国外语教育研究中心,北京 100089;2.曲阜师范大学外语学院,山东曲阜 273165) 摘 要:本文通过语料呈现实验探讨双语对应语料库翻译教学平台的应用效果。实验显示,学生在观察语料后能够归纳和总结出有意义的翻译技巧,并能据此评估或反思自己的翻译行为。实验表明,在翻译课堂教学中使用语料资源有助于自主学习和发现式翻译教学环境的创建,也有助于学习者形成 稳定的翻译技巧。 关键词:对应语料库;翻译教学;发现式学习;语料呈现中图分类号:H 319.3 文献标识码:A 文章编号:1001-5795(2007)12-0003-0006 近20年来,语料库的创建和应用取得了长足发展。对应语料库大都在上世纪九十年代开始创建,起步较晚,但已展现出广阔的应用前景。在欧美,这类语料库有十多个,涉及近20个语种,如H ansard(法-英对应语料库)和ENPC (英语-挪威语对应语料库)(V ron is 2000:14-15);在中国,有中科院计算所的大规模汉英对应语料库、北京大学的/B ABLE 汉英平行语料库0,以及北京外国语大学的/通用汉英对应语料库0(该库现有可检索语料2千万字/词以上,见王克非2004a),后者是本项研究使用的主要工具。对应语料库的创建有两个主要目的:一是用于语言与翻译研究,二是用于外语教学。用于前者的研究成果丰富,涉及语言对比、双语词典编纂和翻译研究(Lav i o sa 1997;Baker 1999;Serpellet 2000;H unston 2002)。用于后者尤其是用于翻译教学的研究也已取得不少成果,如Zanetti n 1998、Pearson (2003:15-24)和Bernardini (2004b :97-111),但大都研究平行语料为翻译训练提供的可能的资源和手段,还没有研究探讨大型对应语料库在课堂教学中的实际应用问题。 1 研究内容 有关运用语料库提高翻译效率和质量的研究还没有全面展开,而将对应语料库应用于翻译教学的研究则是刚刚开始(Bo w ker 2003;Ber nardi n i 2004b)。从理 论上看,语料库用于教学有利于自主学习环境的创建(Bernardini 2004a :22;秦洪武、王克非2007)。自主性学习主要表现在两个方面:研究性学习和发现式学习(learning as discovery)。前者假定学习者和教师研究兴趣相投、研究能力相当;后者则鼓励学习者自行调节兴趣点,并给他们提供机会来提高自己观察和处理问题的能力,使他们对两种语言的特征和差异有敏锐的觉识。本文认为,研究和发现虽不矛盾,但在以技能培养为核心的翻译教学中,不宜过分强调学生的研究能力,发现式学习这一提法更合适一些。 近年来,国内也有研究关注语料库在翻译教学中的应用问题。有些研究探讨了语料库在翻译教学中的用途(郭红2004;于连江2004;王克非2004b),但还没有研究系统地探讨对应语料在课堂教学中的应用方式和应用效果,也没有研究关注学生对于语料使用的态度。鉴于此,我们以/通用汉英对应语料库0为翻译教学平台,探讨在现有技术条件下翻译语料用于翻译教 作者简介:王克非:男,教授,博士生导师。研究方向:语言学、翻译学。 秦洪武:男,教授,博士。研究方向:语言学、翻译学。王海霞:女,讲师,硕士。研究方向:翻译学。 收稿日期:2007-03-18 基金项目:本文是国家社科基金课题/基于大型英汉对应语料库的翻译研究与翻译教学平台0的阶段性成果(编号05BYY 013),并获得曲阜师范大学科研启动基金资助(编号Bsqd2007022)。 # 3#第118期2007年12月 外语电化教学 C AFLE N o .118D ec . 2007

基于双语平行语料库的翻译教学

基于双语平行语料库的翻译教学 翻译是英语专业高年级学生一门非常重要的课程。传统的翻译教学以教师讲解为中心,以翻译教材为学习载体,学生在上完课之后很难具备一定水平的翻译能力。针对于此,我们把双语平行语料库及相应的检索功能引入到翻译教学当中,以提高翻译教学质量,提升学生的翻译能力。 标签:双语平行语料库;翻译;教学 双语平行语料库是指使用两种语言撰写相互间具有翻译关系的文本的集合平台,与普通的词典相比,这种翻译方法更加准确、便利、快捷,更新速度快,可以提供大量真实的双语对译语料以供学习者查询。 何安平指出,将语料库引入翻译教学,会改变传统的翻译教学模式,使学生可以开展各种学习活动,比如互动式学习、开放式学习和分析归类型学习,这一系列学习可以激发学生的好奇心、求知欲,帮助学生塑造的批判精神和反思精神,为培养学生的创新思维提供了条件。 本文例句所使用的双语平行语料库是指北京外国语大学通用双语平行语料库。 1.基于双语平行语料库的词汇翻译 曾有人提出,平行语料库最典型的应用范围之一是双语词汇教学。无论是英译汉还是汉译英,在很多时候英汉两种语言不存在一一对应的词汇,一词多义的现象很普遍,这就意味着这个词有多种译文;而且,在某些特定的语境中,有的词被赋予固定的意思,这又是新的译文。北京外国语大学王克非教授以汉语“克服”一词为例,在北京外国语大学通用汉语双语平行语料库中检索,发现24处“克服”一词中,有15处翻译为overcome。在学生学习完这24个例子后,他们就会明白,在以后的翻译中,不是所有的“克服”都用overcome翻译,在其他情况下使用cope with,fight down,get rid of 等会更加贴切。 学习者可以借助双语平行语料库的真实语境平台,找到单词在不同语境下的地道翻译,既丰富了词汇量,快速准确地译出对应语,同时可增强语感,提升双语翻译能力。 2.基于双语平行语料库的句式翻译 有时候,学生会感觉无论是英语还是汉语,其中一些句式很难理解,至于翻译更是无从下手。在这种情况下,双语平行语料库为学生们提供了大量的特殊句式翻译例句。我们以英文中“it is said that”为例。这是英语中常用的句式,很多学生张口就翻译为“据说”,好像也没有人怀疑过;包括我本人在接触双语平行语料库之前,见到it is said that也随口就翻译为“据说”。但是,笔者通过双语平行语

关于汉语中介语语料库建设研究报告

汉语中介语语料库建设研究 沈锐1,黄薇2 (1.红河学院教育技术系2.红河学院国际合作与交流处XX蒙自661100) 【摘要】本文探讨母语非汉语学习者的汉语中介语语料库建设的主要思路以及具体实现方法,重点介绍了汉语中介语语料的加工方法以及语料数据库的设计思路,并阐明了该语料库在对外汉语教学和研究中的应用价值。 【关键词】语料库;中介语;汉语教学 语料库是指按一定的语言学原则收集的语言文本或话语片断而建立的电子资料库。本文所述汉语中介语料库是基于语言学中中介语理论设计与实施的。中介语是心理语言学中第二语言习得的一种研究模式,其将语言学习者置于观察中心,去研究他们如何有意识地向目的语的正确形式迁移的各种动态表现。中介语理论自20世纪60年代末出现并发展至今,虽然时间并不长,但越来越受到语言学家以及一线教师的关注。无论是进行中介语研究还是使用中介语理论进行第二语言教学都需要收集分析大量的语料,因而通过信息化手段收集和整理语料变得十分迫切。在对外汉语教学中,通过建设和使用母语非汉语学习者的汉语中介语语料数据库,可以收集不同背景和不同学习阶段外国学生及少数民族学生的汉语书面语和用文字转写的口语语料,并对语料属性、词汇、语法等单位进行计算机处理,以实现对各种条件和要求下的语料数据进行便捷的机器检索和提取,可以为研究母语非汉语学生学习和习得汉语的规律提供大量的各种单项的或综合的资料和信息。因此,我们提出了建设汉语中介语语料库的课题,由于语料库建设是一项浩大的工程,限于人力物力条件,本文讨论的是中

小规模的语料库。 一、需求分析和框架设计 语料库建设不能盲目进行,首先要进行调研,对语料库的应用需求进行分析。半自动化的语料库构建是目前语料库建设的主流技术,目的是在确保语料库质量的前提下,减少人工参与的比例,增加自动化程度,目标是在较短时间内建设一个有一定规模,质量可靠、可扩充、成本低,能够全面、细致地记录母语非汉语学习者在汉语学习过程中的语言表征和研究他们汉语习得过程的语料库。依照软件工程的方法,建立数据库首先需要进行需求分析,在需求分析过程中要注意汉语中介语语料库主要是服务于对外汉语教学的一线教师,以及辅助母语非汉语学生自学,因此主要注重以上二类服务对象的应用需求,确保建成的语料库能够对第二语言教学、研究以及教材的编写提供持续支持。基于以上要求,在对中介语语料库的建设思路及框架做了总体考虑,基本归纳为以下三个方面: 1、中介语语料库为专门用途语料库,主要目的为研究母语非汉语的学生在学习汉语过程中的中介语现象而设计制作的。 2、中介语现象存在于母语非汉语的学生在学习汉语过程中的书面语料及口语语料中,由于口语语料的收集、分析和标注都较为困难,因此在建库的第一阶段只考虑收录书面语料,这有利于语料库的快速建设与使用。 3、语料标注的加工标准使用中科院计算所汉语词性标记集V3.0。 二、语料收集与加工

双语平行语料库对齐技术述评

双语平行语料库对齐技术述评 对齐的双语语料库在机器翻译、词义消歧和双语词典编撰等领域都非常有用。语料对齐的单位由大到小,有篇章、段落、句子、短语、词等不同的层次。粒度越小,提供的语言信息就越多,应用的价值也就越大。然而平行语料库的自动对齐并非是一件容易的事情。由于语料大都来自人工翻译,句子之间并不都是一对一的翻译模式,还有一对多、多对多的翻译模式。这种复杂性加大了对齐的难度,特别是对更细粒度级别的对齐。由于语言之间存在着差异,找到固定的对应翻译很难,再加上文本预处理工具难以保证处理效果,以及一些电子文本的噪声纷繁复杂,这都增加了对齐的难度。而对于英汉两种差别很大的语言来说,目前的语料库对齐算法并不一定完全适用于汉英语料库的对齐。本文首先回顾了当前国外平行语料库的对齐技术,然后分析了国内在对齐中所使用的技术,旨在为本研究所今后构建小型汉英平行语料库提供一个技术支持。 1 目前平行语料库对齐技术的现状 1.1 句子级对齐技术 在各级对齐研究中,其中最为重要且较为成熟的自动对齐技术是句子一级的对齐。句子级对齐的方法主要有三种:①基于长度的方法(length-based)(Brown et al,1991; Gale & Church, 1991a);②基于词汇的方法(lexical-based)(Kay & Roscheisen, 1993);③混合法(combination)(Tan & Nagao, 1995; Wu,1994)。 基于长度的方法最早是由Brown和Gale提出,虽然他们的算法都是由源文本中句子长度和译文本中的句子长度有很大的正相关这一观察得出,但其侧重点却不同。Brown的算法以词为单位计算句子的长度,而Gale和Church则是以字符为单位计算句子的长度。他们分别用各自的算法对加拿大议会会议所录英法双语语料库进行了对齐实验,准确率达96~97%。然而该方法在处理复杂句子的对齐(如2∶1或2∶2的句子对齐,或非直译和省略的句子)以及不同语系的句子对齐时,准确率却并不高,而且此算法一旦出错,便不可能自动纠正。 基于词汇的方法是由Kay和Rosheisen提出的。他们认为最佳的句子对是那些使系统词汇对齐数量最大化的句子。基于词汇的算法虽然可以提高对齐的准确性,但却费时;而且目前还没有充分证明这一方法适合于大型语料库。Chen(1993)对Kay 和 Rosheisen的算法进行了改进,这一算法运用词汇信息构建了一对一词汇统计翻译模型,用这样的翻译模型找到语料库生成的最大可能性。他用此算法对旧的Hansard语料库进行双语对齐。与Brown和Gale的对齐算法相比,这一算法不仅正确率高,而且在处理大量省略的对齐中能轻易确定省略的位置,且鲁棒性(robust)较好。基于词汇方法的另一种做法是利用同源词(cognate)(Church,1993)。此方法在处理英法和英德语言中的诸如名字、日期、数字、术语等可辨认单位出现比率高的情况下效果更好。 如前所述,基于词汇的方法相对可靠精确,但计算起来相当复杂且速度较慢;而基于长度的算法模型虽然简单,独立于语言知识和外部资源,但鲁棒性不好,极易造成错误蔓延。由于每种方法都有自己的优缺点,人们试图将各种方法混合起来找到问题的解决途径(Tan & Nagao, 1995; Wu,1994; ;Collier,1998; Vronis,1999;Melamed,2000)。试验结果表明,混合的方法优于单纯使用其中的任何一种方法。

语料库与语料库建设

语料库与语料库建设 语料库和语料库建设 一、什么叫语料库 1、定义 语料库,通俗意义上指的是语言材料库。严格意义上的语料库(corpus)是 指按照一定的 语言学原则,运用随机抽样方法,收集自然出现的连续的语言运用文本或话语片断而建成的具有一定容量的大型电子文本库。 口前,语言学家对于语料库的定义不尽相同,如辛克莱(Sinclair)认为语料库是“按照明确的语言学标准选择并排序的语言运用材料汇集,旨在用作语言的样本”。阿特金斯等(Atkins & Clear)认为语料库是“按照明确的设计标准,为某一具体目的而集成的大型文本库”。赫努(Renouf)认为语料库是“由大量收集的书面语或口头语构成,并通过计算机储存和处理,用于语言学研究的文本库”。我们看到,以上关于语料库的儿种定义相同之处在于都谈到语料库是语言材料的汇集;不同之处在于前两个定义指出语料库的设讣是有明确的设计标准的,赫努的定义明确指出语料库“通过计算机储存和处理”这一特点。语料库不同于电子文档,语料库的建设有特定的研究LI 的和具体用途,因此在语料抽样范围和文类覆盖方面都力求取得平衡,在收集语料时需要考虑到每一文类、体裁、语域、主题类型等的抽样比例。而大型文档U标在于搜集任何可获得的语言材料或所限定的数种文类语料,其语言材料之间的关系较为松散。 语料库具有以下特征:1、语料库的设讣与建设有系统的语言学理论指导,语料库的开发具有明确而乂具体的U的;如,布朗语料库用于对20世纪60年代的美国英语的研究,LOB是与布朗语料库对齐的同时期的英国英语语料库,可用以对英国英语进行

研究,也可与布朗语料库加以对比进行美国英语和英国英语的对比研究。 2、语料库的语料是按照明确的语言学原则采用随机抽样的方法得到的语言运用的自然语料,不是随意的语言材料的堆积,更不是由某个个人杜撰出来的。语料库的容量和语料采用随机抽样方式都保证了语料具有代表性,山此保证基于语料库的语言研究的科学性、客观性。 3、语料文本是连续的文本或话语片断,而不是孤立的句子或词汇,可以借以获得语法关系、用法、词语搭配以及语篇信息。 4、语料库以当代先进的计算机技术为技术手段,语料库语料通过电子文本形式储存并且是通过讣算机处理的,具有资源优势和处理速度优势。5>基于语料库的研究以量化研究为基石,以概率统汁为手段,以数据驱动为基本理念。6、语料库既是一种研究方法,乂代表着一种新的研究思维。 二、语料库产生的背景及发展历史 对真实语言材料的搜集与研究是语言学研究的优秀传统。尤其是在20世纪 50年代中期, 在语言研究中占主导地位的是重语言材料的经验主义。这种学术氛圉无疑促进了对语料的重视。1939年夸克(R. Quirk)等人着手进行的“英语用法调查” (Survey of English Usage)通过系统的调查建立了笫一个现代英语语料库,在此基础上完成的《现代英语语法》(A Grammar of Contemporary English )和《英语语法大全》(A Comprehensive Grammar of the English Language)对现代英语进行了系统全面的描写,在英语语言学界产生了广泛的影响。但在当时这项浩大的工程是通过手工的方式完成的。 20世纪六十年代后,语言学研究主流从经验主义转向理性主义,乔姆斯基的语言能力说被广泛接受,转换生成语法学派批评语料库研究方法,认为,1、基于语料库的方法有误。乔姆斯基等认为语言学应当以人脑的语言机制即语言能力为研究对象,语料库收集的只是人们的语言运用,语言运用会因超语言因素的影响而发生变化,它并

《双语平行语料库在翻译教学上的用途》评述

攻读博士、硕士学位研究生试卷(作业)封面(2016 至2017 学年度第一学期) 学号 姓名 题目《双语平行语料库在翻译教学上的用途》评述 课程名称语料库语言学 专业英语语言文学 入学年月2016年9月 培养方式 全日制□非全日制

题目:双语平行语料库在翻译教学上的用途。 作者:王克非,曾任北京外国语大学外国语言研究所副所长、中国外语教育研究中心常务副主任,现任《外语教学与研究》杂志主编,博士生导师,研究方向为语言学和翻译研究。 研究问题:本文以北京外国语大学建成的通用汉英平行语料库为例,探讨如何在翻译教学中运用双语平行语料库、如何处理翻译教学与双语平行语料库的关系、双语平行语料库对译者有何帮助、以及译者如何在翻译教学中运用双语对译检索(词语的对译检索、结构的对译检索和语句语篇的对译检索)时找到合适的对译,提高他们的英语语感,掌握正确的翻译方法。 研究方法: 本文根据北京外国语大学中国外语教育研究中心建成的通用汉英平行语料库(3000万字词)为例,探讨它在翻译教学上的用途。首先,本文作者采用了随机抽取的方法对克服(overcome)和找(find)进行了检索,找到了他们不同的翻译方法和用法;然后作者通过举例说明汉语中把字句结构的三种形式如何在英语中翻译;最后作者从台湾大学高建明所建的英汉平行语料库中,以“他心情很低落”为例,从语料库中找到相近的中英文短句、句子,找到了表示“心情低落”的各种不同词汇和方法。 结论:在翻译的教学和实践中,双语平行语料库和检索工具的运用不仅给译者提供了方便,而且使他们掌握了一种科学、多样的翻译方法。同时也能激发学生的兴趣,让学生在不同版本的对译中互相学习。这表明双语平行语料库是翻译教学中的一种重要的学习资源,应当引起

平行语料库制作流程

平行语料库制作流程 说明:在邹颂兵先生、孟令子博士的基础上,由李涛、李晓倩讨论完成,期间胡慧婷也参与讨论,给予了很好的建议。这个流程对于有些老师和同学,实在没有必要这么繁琐,有些步骤可以利用一些软件一次性解决,推荐两款软件试用,文本整理器;PowerGREP。之所以如此繁琐,是想让大家更加详细的了解整个建库流程以及为什么这么做。当然在建库过程中还会遇到更多的问题,大家可以尝试自己去解决。) 1.语料采集(目的不同,方法各异) 2.去噪(Emeditor) (1)消除回车和空行:\n\s*——空(\n表示新行;\s表示空格,*表示0个或多个;之所以加上\s*是为了避免回车键前面有空格。) (2)去空格英文\s+ 替换为空格(\s表示空格,+表示1个或更多。该表达式意思表明如果原来有1个空格,就替换为1个空格,如果多于1个空格,仍然替换为1个空格。之所以如此,是因为英文单词之间是有1个空格存在的。)中文\s*替换为空(\s表示空格,*表示0个或更多。该表达式意思表明如果原来有0个空格,就替换为0个空格,如果多于1个空格,仍然替换为0个空格。之所以如此,是因为汉字之间是有0个空格存在的。) 3.分词 英文Claws 中文ICTCLAS (可以选择二级标准,北大标准) 中文分词校对常见:人名标注为/nr,(如小说《首席》里,人名飘雪被标注为“飘/v雪/n”; 可以统一替换为“飘雪/nr”); 地名/ns; 4.标点符号处理 英语标点符号全部替换成单个标点。(因为Claws标注后的英文标点及其标注显示为“标点_标点”;以问号?为例,即“?_?”;更改后,变为“?”即可。特别注意省略号,因为Claws标注后的省略号及其标注显示为“._.._.._.”其中第一个“._.”和后面两个“._.._.”之间换行了,这样在添加标志是会造成默认三个英语句号标识。两种解决方案:1.替换句号之前查找“._.\n ._.._.”(选择正则表达式一栏),替换成“---”(什么符号都可以,自己知道意思即可,但整个语料库建设里一般会涉及多人,所以大家要统一);2.如果先替换句号,就直接查找“. \n ..”(选择正则表达式一栏),替换成“---”。建议所有查找和替换操作都从文本中复制以免格式不匹配。 中文标点符号全部转成英文状态下的半角格式并去除其词性标注/w。(ICTCLAS标注后的中文标点及其标注显示为“标点/w”;以问号?为例,即“?/w”;更改后,变为“?”即可。特别提醒:一些中文特有的标点符号如“……”;“破折号”;“、”“《》”等,我们认为可以分别替换成“---”(三个);“--”(两个);“/”;“<>”) 问题:(可以专门查找省略号,然后自己判定是否是句子结束标志;也可以忽略,在对齐校对的时候做。)“我……我……我怎么了?”这个时候……并不是一句话的结束。 “啊……”这个时候……是一句话的结束。 4.添加对齐标志(中英文一致) 考虑到有时在对话中句号、问号和叹号加上了引号,即.”、?”、!”,也代表一句话的结束,因此我们建议分三步添加对齐标志:(1)用特定符号,如11111111,替换带引号的句号、问号、叹号,目的在于避免对其标志出现在引号之内。(2)句号、问号和叹号之后添加对齐标志。(3)在11111111之后添加对齐标志。

语料库常用统计方法

3.5语料库常用统计方法 第3章前几节对语料库应用中的几种主要技术做了介绍。通过语料检索、词表和主题词表的生成,可以得到一定数量的句子、词汇或结构。为能更好说明所得到的结果的真正意义,常常需要对它们加以统计学分析。本章主要介绍语料分析中的一些常用统计方法。 3.5.1 语料库与统计方法 介绍相关统计方法之前,首先需要了解为什么语料库应用中需要运用统计方法。在2.1节讲到文本采集时,我们知道文本或会话构成了最终的语料库样本。这些样本是通过一定的抽样方法获得的。研究中,我们需要描述这些样本的出现和分布情况。此外,我们还经常需要观察不同语言项目之间在一定语境中共同出现(简称共现)的概率;以及观察某个(些)语言项目在不同文本之间出现多少的差异性。这些需要借助统计学知识来加以描写和分析。 理论上说,几乎所有统计方法都可以用于语料库分析。本章只择其中一些常用方法做一介绍。我们更注重相关统计方法的实际应用,不过多探讨其统计学原理。这一章我们主要介绍语料分析中的频数标准化(normalization )、频数差异检验和搭配强度的计算方法。 3.5.2 频数标准化 基本原理 通常语料检索、词表生成结果中都会报告频数(frequency, freq 或raw frequency )。那么某词(如many )在某语料库中出现频数为100次说明什么呢?这个词在另一个语料库中出现频数为105次,是否可以说many 在第二个语料库中更常用呢?显然,不能因为105大于100,就认定many 在第二个语料库中更常用。这里大家很容易想到,两个语料库的大小未必相同。按照通常的思维,我们可以算出many 在两个语料库中的出现百分比,这样就可比了。这种情况下,我们是将many 在两个语料库中的出现频数归到一个共同基数100之上,即每100词中出现多少个many 。这里通过百分比得到的频率即是一种标准化频率。有些文献中标准化频率也称归一频率或标称频率,即基于一个统一基准得出的频率。 实例及操作 频数标准化,首先需要用某个(些)检索项的实际观察频数(原始频数,raw frequency )除以总体频数(通常为文本或语料库的总词数),这样得到每一个单词里会出现该检索项多少次。在频数标准化操作中,我们通常会在此基础上乘以1千(1万、1百万)得到平均每千(万、百万)词的出现频率。即: 1000?=总体频数 观测频数标准化频率(每千词) (注:观测频数即检索词项实际出现的次数;总体频数即语料库的大小或总形符数。) 例如,more 在中国学生的作文里出现251次,在英语母语者语料中出现475次。两个语料库的大小分别为37,655词次和174,676词次。我们可以根据上面的公式很容易计算出251和475对应的标准化频率。另外,我们还可以利用Excel 或SPSS 等工具来计算标准化频率。比如,可以将实际观察频数和语料库大小如图3.5.1输入相应的单元格,然后在C1单元格里输入=(A1/B1)*1000即可得到中国学生每千词使用more 约为6.67次。要得到母语

中国英汉平行语料库的设计与研制

中国英汉平行语料库的设计与研制 王克非北京外国语大学中国外语教育研究中心提要:本文论述超大型双语平行语料库的设计与研制问题。在综合述介国内外双语语料库建设情况之后,作者着重论述了中国英汉平行语料库这一超大型双语平行语料库的设计特点(主要有分类架构、历时处理、语料平衡以及通用的和各种专门语料的采集)和研制方法(主要讲述语料的加工标注、检索平台以及各个专门语料库、历时语料库和口译语料库的构建)。其设计与研制对于其他大型语料库的建设具有借鉴意义。 关键词:中国英汉平行语料库;设计;研制 Abstract:The paper deals with the design and construction of asuper-large-scale bilingual parallel corpus.After an overview of parallelcorpora constructions and applications both in China and abroad, the designfeatures(including classification and composition,diachronical arrangement,balance of textual materials,and collection of texts for general or specificpurposes)and the construction methods (including tagging,concordanceplatform,and the construction of specialized corpora,diachronical corpora andinterpreting corpora)of the super-large-scale China English-Chinese ParallelCorpus(CECPC)are focused on.The design and construction discussed areapplicable to the compiling of other large-scale corpora. Keywords:China English-Chinese Parallel Corpus (CECPC);design;construction 1、中国英汉平行语料库的研制意义 在全球化、信息化的当今世界,翻译已成为了解全球信息、扩大对外宣传、获取国际资源的重要手段。同计算机技术结合而兴起的双语平行语料库建设,则为语言研究、翻译研究、外语教学、词典编纂和跨语言信息检索等提供了最好的平台,同时还可用来考察和验证基于单语语料库或者基于直觉提出的假设,具有广阔的应用前景。

一带一路视角下中英语料库建设项目报告

一带一路视角下的中英语料库建设项目报告 随着“一带一路”战略的提出,中外文化交流日益频繁,这种现象对翻译行业提出了更高的要求。因此,采取有效措施培养优秀翻译人才、提高译员翻译质量刻不容缓。基于此,本项目决定建设一带一路视角下中英语料库以提高翻译质量。本文将着重报告本项目中英语料库建设的背景目的、过程及其作用。 一、一带一路视角下的中英语料库建设背景及目的 “一带一路”战略的提出为本项目的开展提供了时代背景。“一带一路”是“丝绸之路经济带”和“21世纪海上丝绸之路”的简称。从古至今,“一带一路”一直是连接东西方文化的重要纽带,尤其是在新的历史时期,“一带一路”战略促进了区域间的人际交往和文化交流。全国政协委员、中国翻译协会常务副会长黄友义在接受专访时曾表示,经济和文化的走出去导致了中译外工作量的增加,但目前中译外人才十分紧缺。而作为覆盖范围及应用领域日益广泛的语料库在提高翻译教学质量、培养优秀译员及促进计算机辅助翻译中发挥着日益重要的作用。目前国内外都已有大量已建成的语料库,如BNC英国国家语料库、美国当代英语语料库、中国学习者英语语料库及中国英语学习者口语语料库等,但针对于“一带一路”战略的语料库较为稀少。本项目的开展旨在抓住“一带一路”战略所带来的发展契机,建设“一带一路视角下的中英语料库”,为“一带一路”战略中相关政策的英译提供便利,从而加强中外交流。 青岛农业大学翻译中心的成立及其已承接的翻译活动为本项目的开展提供了专业背景。近年来,翻译中心承接了大量专利翻译、影视字幕翻译等翻译活动,在此过程中,翻译人员遇到了一些问题:如对专利特有名词和英美俗语不够熟悉等。本项目的旨在将翻译学理论、语言学理论及现代计算机技术相结合,通过对大量真实语言数据的研究,将众多科技名词、英语俗语和习语及与英美文化相关的词语收录进语料库当中,将中英双语语料库作为教学手段,方便译者查询、理解及使用相关名词,切实提高其翻译质量。另外,该项目的开展由具有多年翻译经验和教学经验的纪卫宁老师亲自指导,这为本项目的顺利开展提供了重要保障。 二、一带一路视角下中英语料库建设过程 (1)语料库建设前期准备

旅游汉英双语平行语料库的建设与应用

第33卷第10期湖南科技学院学报 V ol.33 No.10 2012年10月 Journal of Hunan University of Science and Engineering Oct.2012 旅游汉英双语平行语料库的建设与应用 肖庚生 陈欣 (南华大学 外国语学院,湖南 衡阳 421001) 摘 要:文章在综述现有旅游语料库的基础上,介绍了自建的衡阳旅游汉英平行语料库的建库步骤,即语料的取样、英译、标注与对齐,并阐述了该库在旅游文本语言特征、旅游翻译、旅游英语及旅游翻译教学研究中的应用价值。该库的建设与应用既能充分满足研究需要,亦能促进导游、翻译等英语人才的培养,进而推动当地旅游产业的发展及跨文化传播。 关键词:旅游语料库;双语平行语料库;旅游英语 中图分类号:H030文献标识码:A 文章编号:1673-2219(2012)10-0163-03 近30年来,语料库及语料库语言学从无到有、蓬勃发展。基于语料库的语言学及应用语言学研究应运而生,语料库这一研究工具与方法业已广泛应用于词汇、句法、语义、语言对比、词典编撰、二语习得、翻译等领域的研究之中, 并取得了累累硕果。[1]为了研究或应用的需要,国内外先后创建了跨学科、多语言、内容迥异、库容不一的众多语料库。近年来,双语平行语料库由于其独特的优势备受关注,其建设与应用正如火如荼地进行。不过,迄今为止,国内外高校与研究机构所研制的平行语料库主要是通用型的双语平行语料库以及文学翻译类型的平行语料库,以某一专门用途为导向的平行语料库仍较为鲜见。此外,基于平行语料库的相关研究主要侧重于对个别语言或翻译现象的探讨。鉴于这一研究现状,我们拟以课题研究为契机,建设衡阳旅游汉英双语平行语料库,在此基础上,力图摸索其在汉语与英语的旅游文本语言特征、旅游汉英翻译、旅游英语与旅游翻译教学研究中的应用。 一双语语料库与旅游语料库综述 双语语料库最早创建于上世纪90年代中后期,迄今为 收稿日期:2012-08-26 基金项目:衡阳市社科基金项目“顺应论视阈下衡阳旅游汉英双语平行语料库的建设与应用研究”(项目编号2011C011);全国教育科学规划课题“基于语料库的大学英语教学平台建设与研究”(项目编号GPA105029)阶段性成果。 作者简介:肖庚生(1980-),男,湖南衡阳人,讲师,应用语言学博士生,主要研究方向为语料库语言学。陈欣(1983-),女,湖南郴州人,讲师,语言学硕士,主要研究方向为翻译理论与实践。止国内外业已建立多种类型的双语平行语料库。早在1995年,曼彻斯特大学研制了世界上首个翻译语料库,主要收集从各国语言翻译成为英文的文本,如今库容已达千万词。但是它并非严格意义上的双语平行语料库,因为它并没有实现双语对齐,只能称其为对比语料库。目前国际上比较知名的平行语料库有挪威的“英语-挪威语平行语料库”、英国的“德语-英语文学文本平行语料库”等等。而由北京外国语大学中国外语教育研究中心于2004年启动创建的“新型双语对应语料库”(含汉英、汉日两个双语平行语料库),库容为3000万词次。其中,汉英双语平行语料库的文本类型主要涵盖人文类、社科类和科技类。该语料库的建设得到了国家社科基金重大规划课题的资助,目前正为1亿词次的超大库容做进一步的扩容努力。此外,国内比较知名的双语平行语料库还包括:李德俊以汉英词典研编为主要目的,主持建设2000万词次的英汉平行语料库;卫乃兴以研究探讨英汉对等表达为目的,主持建设900万词次的英汉平行语料库;哈尔滨工业大学所创建的库容为40万对的英汉双语平行语料库;绍兴文理学院创建的中国古典文学英译双语平行语料库等等。上述双语平行语料库多数以文学文本为主,抑或以收集百科文本(含文学与非文学作品)为特色,而针对某一特定文类或某一地域特色而专门建构的专门用途双语平行语料库仍较为鲜见。 近年来,随着交通与通讯技术的日新月异,世界各地人们之间的科技、文化、商务交流、合作与往来日益频繁。更为重要的是,各国人们纷纷走出国门,畅游世界,体验世界各地的异域风情,许多国家的旅游产业获得了飞速发展。为更好地发展旅游产业、传播旅游资讯、吸引外国游客,同时亦为了满足语言学及应用语言学研究需要,旅游专门语料库应运而生。 163

语料库

Background Information 语料库的概念 语料库是指按照一定的语言学规则,利用随机抽样的方法收集的有代表性的语言材料的总汇,它是语言材料的样本。 语料库通常指为语言研究机构收集的,具有一定容量的大型电子文本语料库。它是由口语语料和书面语的样本汇集而成,用来代表特定的语言或语言变体,或经过加工后带有语言学信息标注的文本的集合。 语料库的分类 按照语料库所涉及的语言种类,语料库课分为单语语料库,双语平行语料库(parallel corpus)和多语语料库(multilingual corpus); 按照语言涉及的题材,语料库可分为普通语料库(general corpus)和专门用途语料库(specialized corpus); 按语料的来源,又可分为口语语料库和书面语语料库; 按语料库是否被标注,语料库可分为生语料库或原始语料库(raw corpus)和熟语料库或标注语料库(annotated corpus) In linguistics, a corpus (plural corpora) or text corpus is a large and structured set of texts (now usually electronically stored and processed). They are used to do statistical analysis and hypothesis testing, checking occurrences or validating linguistic rules on a specific universe. A corpus may contain texts in a single language (monolingual corpus) or text data in multiple languages (multilingual corpus). Multilingual corpora that have been specially formatted for side-by-side comparison are called aligned parallel corpora. In order to make the corpora more useful for doing linguistic research, they are often subjected to a process known as annotation. An example of annotating a corpus is

英汉双语平行语料库人工对齐方法说明

英汉双语平行语料库人工对齐方法说明 1.概述 半自动英汉双语平行语料库的对齐分为两个过程: 第一个过程是先将两种语言的文本分成句子,每个句子占一行。句子定义为:以句号、问号、感叹号、分号结尾的一串字符,或以句号+引号、问号+引号、感叹号+引号等结尾的一串字符。“行”的概念是一串以回车换行符结尾的字符。这个过程可以采用任何一种具有“查找”和“替换”功能的文字处理软件来完成,也可以编程由计算机自动完成。 第二个过程是在第一个过程产生的结果的基础上以手工方式将两种语言的文本在句子水平上对齐。这一过程要采用UltraEdit软件来辅助完成。 在句子水平上对齐两种语言的文本,除了要注意以上对“句子”和“行”的定义以外,还应遵循一个重要的原则,即:如果两种语言的文本在句子的切分上有差异,应尽量保持原文句子不动,调整译文以适应原文。 为了能从双语平行语料库中获取更多的信息,还需要在对齐过程中插入少量的标记,例如:分译标记、合译标记、混译标记和移动标记等。此外,为了便于以后的检索,对于过长的句子还要在适当的地方将长句截短成两个或更多的小句。 2.人工对齐的方法 2.1打开文件 先用UltraEdit软件将两个已经分为句子的文本文件打开,在该软件的工具栏的“窗口”下拉菜单中点“水平平铺”选项,使两个打开的文本同时显示在屏幕上。为了操作方便,一般把原文放在上半屏,把译文放在下半屏。(见图1) 2.2 上下移动文本 为了能够对齐两种语言的文本,在操作过程中需要不断地上下移动文本。移动文本可以用鼠标移动窗口右边的滑块来完成。也可以将光标放在某一行,然后用鼠标的中间滚轮来上下移动。 2.3 同步移动上下两个窗口中的文本 在“窗口”下拉菜单中选“同步”选项,就可以同步移动上下两个窗口中文本,极大地方便人工对齐的操作。

相关文档