当前位置：文档库 › 兰卡斯特汉语语料库

兰卡斯特汉语语料库

“兰卡斯特汉语语料库”介绍1

许家金

（北京外国语大学中国外语教育研究中心，北京 100089，北京）

提要：本文介绍“兰卡斯特汉语语料库”（简称LCMC）的取样方案、文本构成、标注体系和应用方面的概况。该语料库是依照英国英语语料库FLOB的取样方案和规模创建的可比汉语语料库，适合开展英、汉语对比研究，同时也适合汉语研究。

关键词：汉语语料库；LCMC；对比研究

1.0 前言

“兰卡斯特汉语语料库”（The Lancaster Corpus of Mandarin Chinese，简称LCMC）系旅英学者肖忠华博士创建的现代汉语平衡语料库。该语料库严格按照FLOB （Freiburg-LOB Corpus of British English）模式编制，它的建成有助于开展基于语料库的汉语单语或汉英（英汉）双语对比研究及汉语研究。

2.0 LCMC语料库概况

LCMC语料库是一个100万词次（按每1.6个汉字对应一个英文单词折算）的现代汉语书面语通用型平衡语料库。起先建立时，它是作为英国经社研究委员会资助项目Contrasting Tense and Aspect in English and Chinese的部分成果。肖忠华最初的设想是要将其建成同FLOB和FROWN对应的现代汉语语料库。筹建这样的一个语料库的另一个动因是：尽管已经有很多汉语语料库存在，但却没有一个完全免费对公众开放的平衡的汉语语料库2。

2.1 取样模式与文本收集

考虑到LCMC主要做对比研究之用，肖忠华创建语料库之初就确定了对比的对象。一方面，在短期内想要建成像BNC那样的逾亿词次的语料库并不现实。另一方面，要建立同LOB和Brown平行的语料库的问题在于很难找到1961年前后材料的电子文本。于是，最后对比目标被锁定在语料出版年份主要是1991、1992年的100万词次的FLOB上。鉴于同时还有与FLOB对应的美国英语语料库Frown的存在，LCMC建成以后也可与美国英语进行比较。最后，确定下来的方案是按FLOB的构建模式，从15个文体类型（见表1）中选取500篇2,000词左右的样本。样本的出版日期基本在1991年前后。

LCMC的筹建基本上是严格按照FLOB的取样模式进行，只在两个方面做了微调。

第一、FLOB的取样范畴中，肖忠华将FLOB中第N类样本的“西部和历险小说”改成“武侠小说”。一方面由于中国没有所谓的“西部小说”，另一方面，“武侠小说”和“西部和历险小说”从内容性质上同属一类，且在中国这一类小说中数量众多，因此有充足理由将其收入LCMC 中。

表1：LCMC取样范畴表

代码取样类型代码取样类型

A 新闻报道J 学术、科技

B 社论K 一般小说

C 新闻评论L 侦探小说

D 宗教M 科幻小说

E 技术、商贸N 武侠小说

F 通俗社会生活P 爱情小说

G 传记和杂文R 幽默

H 其他：报告和公文等

第二、由于受到文本来源的制约，肖忠华将样本的出版年代扩大至1991年前后各两年（即1989到1993年）的跨度范围（详见表2）。他认为前后两年的幅度并不会影响整个语料的同质性。为保证取样内容的同质性，LCMC中选取的都是中国大陆的出版物。该语料库是书面语语料库，选取文本时碰到图表一般使用替代。为了保证所选文字是原汁原味的汉语，如果在选文中遇到较长的译文或不是1989到1992年期间的引文，也采用来替代，以避免翻译腔和时间跨度上的不一致。LCMC中的电子文本除了部分取自互联网，其他大部分语料取自超星图书馆（https://www.wendangku.net/doc/d011024838.html,）。肖忠华将超星图书馆提供的PDG格式的电子文本经过OCR识别后转换成文本文件，由此产生的1-3%的识别错误率再加以人工校对。超星图书馆是一个巨大的数字图书馆，但少有新闻报刊，因此，LCMC 中新闻文体有三分之一的内容用的是新华社新闻（取自Guo Jin编写的PH3语料库）。

表2：LCMC的取样时间跨度

取样类型19891990199119921993

A ——22.7%72.7% 2.3% 2.3%

B 7.4%14.8%51.9% 3.70%22.2%

C —— 5.9%88.2% 5.9%——

D 5.9%17.6%41.2%11.8%23.5%

E ——23.7%44.7%10.5%21.1%

13.6%25%

F 6.8%25%29.5

G 1.3%10.4%64.9%16.9% 6.5%

H ————100%————

J 1.2%7.5%72.5%17.5% 1.3%

K ————79.3%13.8% 6.9%

L ——8.3%62.5%16.7%12.5%

M ————100%————

N 3.4%13.8%48.3%31.1% 3.4%

P 10.3% 6.9%55.2%20.7% 6.9%

R ————44.4%22.2%33.3%

在计算LCMC语料库的规模时，经测算，采用了1汉字：1英文单词 =1:1.6的计算方法。于是将FLOB的2,000字的样本大小折合成每个文本3,200个汉字。当所选文本长度不足3,200汉字时，则选取同一类型的其他文本补足。如果超过3,200字（比如一本书）则选取开头、中间、结尾凑足3,200字。在样本的最末处，为保证句子的完整而不将句子人为切断，因而样本会比3,200字略多或略少。

2.2 编码和标注（mark-up）方式

LCMC采用Unicode (UTF-8)而没有采用简体中文的GB2312和繁体中文的Big5编码，原因有二：1、为保证与非中文操作系统和其他中文编码形式的兼容性；2、这样的话语料可以为一些通用索引软件（像Xaira、WordSmith Tools4、AntConc等）读取。为了给非英语操作系统用户避免读取困难，肖忠华特意制作了完整的拼音版LCMC（也采取UTF-8编码），与汉字版LCMC同时推出。

汉字版和拼音版的LCMC中的15个文本类型分别存为一个单独的文件并采取XML格式存储。每个文件包括一个头文件和文本本身。文本采取了五重标注。见表3。

表3：文本的XML标注

标注层代码代码意义属性含义

TYPE根据表1的取样范畴

1 text 文本类型

ID 根据表1的取样代码

2 file

语料库中的位置ID 取样代码加上文本编号（从01开始）

3 p 段落————

4 s 句子n 从0001算起

w 单词

c 标点或其他符号POS依据LCMC标注集的语法标注

gap 省略————

这样分层标注以后，非常有利于用户在检索时选择整个语料库或者一个子库甚至某个文件进行分析。词性标注（POS tagging）可以帮助检索某些汉字的特定词性的使用情况。利用词性代码的组合还可以检索特定的语法结构，比如动宾结构。

2.3 语料深加工

对于LCMC语料库，肖忠华还做了两重处理：即所有样本文句都依词断开（tokenization，这是成熟汉语语料库必需的工作）并标注词性（见图1）。对于汉语文本来说切分至关重要，因为汉语没有类似英文的空格作为单词分隔符。LCMC所采用的自动切分工具是由中科院计算所开发的“汉语词汇分析系统”（ICTCLAS）。这一系统的核心是由一个有词性和词频信息的8万字的词库。这一系统是基于最大匹配的计算方法，包含汉字切分、词性标注和未登录词的识别等模块。切分正确率可以达到97.58%。但这一系统对词性的标注却不够精准。比如说它无法区分介词“在”和表示体态的“在”。于是最后肖忠华对语料进行了大量的手工校对，词性标注正确率基本可以达到98%以上。因为要研究汉语并对比汉英的时体标记，肖忠华对“了”、“过”、“着”、“在”进行了细致的校对。最后完成的语料全部保存为XML格式文件。

~~淡泊洒脱：笑~~

~~对人生便是淡泊的表现，淡泊洒脱能拓展一片宽松美好的天地，使人在~~

~~开放的田园里找准自己的位~~

~~置，使自己与同事愉快相处。~~

图1： LCMC段落标注示例

LCMC语料库要求用户有可读取XML的检索工具像Xaira。在WordSmith Tools 4.0/5.0和AntConc隐藏或忽略标注码也可用于检索LCMC。该语料库完全免费提供，在线检索网址为：https://www.wendangku.net/doc/d011024838.html,/corplang/cgi-bin/conc.pl。网站上提供了全库检索和分语体检索方式。后者可用于进行语体变异的对比研究。

3.0 相关研究成果

自从语料库建成以来，利用LCMC进行的研究产出了一系列研究成果，包括肖忠华本人进行的汉语单语研究，如Xiao & McEnery（2004）有关汉语体标记的研究。和英汉对比

研究，如英汉体标记对比研究（McEnery, Xiao & Mo 2003；Xiao 2003），以及英汉否定对比研究（Xiao, McEnery & Qian 2006）。其他学者将LCMC作为汉语书面语参照语料的研究有胡显耀（2007）和许家金（2008）等。

4.0 语料的局限

LCMC的语料规模和取样方法属于百万词级的“布朗家族”（Brown family），现在看来规模仍然太小。对研究汉语中的高频语言现象（比如，“的”字结构、时体标记、否定词、指示词等）尚能适用；对相对不常见的语言现象（如汉语中动结构）则几乎检索不到结果。另外，就LCMC中语料产生的时间来看，都在1991年前后，距今已过去16年多，很多新词（短信、博客等）及新的用法其中也无法查到。因此在开展研究之前我们应当认识到语料自身的局限。

参考文献

[1] McEnery, A. & Z. Xiao. Lancaster Corpus of Mandarin Chinese. Published by the European

Language Resources Association (Catalogue No. W0039) and the Oxford Text Archive (Catalogue No. 2474) [DB/OL], 2003.

[2] McEnery, A., Z. Xiao & L. Mo. Aspect marking in English and Chinese: Using the Lancaster Corpus

of Mandarin Chinese for contrastive language study [J]. Literary and Linguistic Computing, 2003(4): 361-378.

[3] Xiao, Z. Use of parallel and comparable corpora in language study [J/OL]. English Education in

China, 2003,(1).

[4] Xiao, Z. & A. McEnery. Aspect in Mandarin Chinese: A Corpus-based Study [M]. Amsterdam: John

Benjamins, 2004.

[5] Xiao, Z., A. McEnery & Y. Qian. Passive constructions in English and Chinese: A corpus-based

contrastive study [J]. Languages in Contrast, 2006,(1): 109-149.

[6] 胡显耀. 基于语料库的汉语翻译小说词语特征研究 [J]. 外语教学与研究，2007，38 (3): 214-220.

[7] 许家金. 汉语自然会话中话语标记“那（个）”的功能分析 [J]. 语言科学，2008（待刊）.

Introducing the Lancaster Corpus of Mandarin Chinese (LCMC)

XU Jiajin

(National Research Center for Foreign Language Education, Beijing Foreign Studies University, Beijing

100089, China)

收稿日期：2006-07-23; 本刊修订稿：2007-11-21

作者简介：

许家金：博士，北京外国语大学中国外语教育研究中心讲师。研究方向：应用语言学、话语分析、语用学、语料库语言学。

1本研究为北京外国语大学校级课题（06012）“基于语料库的话语研究”的部分成果。感谢肖忠华博士提供LCMC语料库及相关资料。

2“国家语委语料库（http://219.238.40.213:8080/CpsQrySv.srf）”虽说是通用型平衡语料库，但不能完全免费使用；北京语言大学的汉语语料库（http://202.112.195.8）语料产出时间较早，且不能完全免费使用；北京大学汉语语言学研究中心语料库（现代汉语子库）”（https://www.wendangku.net/doc/d011024838.html,/YuLiao_Contents.Asp）规模最大，逾亿字，但取样极不均衡，多半为文学作品；台湾“中央研究院”Sinica Corpus也是可免费使用的平衡汉语语料库。但是它只能代表台湾地区的汉语，无法反映中国大陆的汉语状况。详情可访问Sinica Corpus

官方网站https://www.wendangku.net/doc/d011024838.html,.tw/ftms-bin/kiwi.sh。

3 PH语料库包含的是1990年1月至1991年3月新华社出版的新闻。该语料库规模为3,260,416字。通过ftp://https://www.wendangku.net/doc/d011024838.html,/pub/chinese/可获得该语料库。

4使用时需转换成UTF-16。

语料库研究的优势及问题的理论解析

语料库语言学的理论解析摘要：本文试图剖析有关语料库语言学的几个理论问题，以期揭示语料库语言学的本质。第一：语料库语言学是不是独立的新兴学科？第二：语料库提供的数据到底可以给语言学家带来什么？第三：语料库语言学的真正任务是什么，它应该成为怎样一项研究？回答好这几个问题实际上也就回答了语料库语言学的性质和理论地位，以及这项研究向何处去的问题。这将有助于我们更好地从事基于语料库的语言研究和实践。关键词：语料库语言学；基于语料库的研究方法；理论架构；语料库数据；发展前景 Abstract: This paper attempts to answer some theoretical questions of corpus-based language studies. Three theoretical considerations are addressed to capture the nature of corpus linguistics. 1) Is Corpus Linguistics an independent branch under the umbrella of linguistics? 2) What can corpus data offer to linguists? and 3) What kind of research that Corpus Linguistics should be? Answers to the three theoretical questions will conduce to a fuller understanding of the nature of corpus-based language studies and their development. Key words: Corpus linguistics; corpus-based approach; theoretical construct; corpus data; future directions 1.0 导言目前利用语料库从事研究的学者主要有两类。一类是计算语言学家。他们主要从事自然语言处理（NLP）的研究，诸如语音合成、语音识别和机器翻译等等。他们的终极目标并非要揭示语言的本质，而是注重技术层面的研究，比方如何改进算法，如何完善词库的建设以实现技术上的突破。另一类就是语言学家，他们则希望借助这一强大的工具去揭示语言的本质这一学科目标，这正是本文所要关注的。本文缘起于语言研究者中的一种争论，即“语料库语言学”是否配得上这个名称，它是一种新兴的理论视角还是“暴发户造谱牒”？而本文要探讨的正是有关于语料库语言学研究的理论意义。或者说，语言学家从语料库所提供的信息中到底可以获得什么？这是本文试图解决的核心问题。语料库建设、开发和利用在国内外语言学界日渐兴起，在国内也有相当数量介绍性和综述性文献涌现，为语料库语言学在我国的发展奠定了一定的理论基础。此外，一些语言学者和语言教师（包括外语教师和对外汉语教师）也设计、建立了一些自己的语料库以服务于教学科研。然而真正对语料库的理论问题进行深入探讨的著述却为数不多。本文将试图剖析语料库语言学的几个理论问题，以期对语料库语言学的优势和不足有进一步的认识。第一：语料库语言学是不是独立的新兴学科？第二：语料库提供的数据到底可以给语言学家带来什么？第三：语料库语言学的真正任务是什么，它应该成为怎样一项研究？回答好这几个问题实际上也就回答了语料库语言学的性质和理论地位，以及这项研究向何处去的问题。这将有助于我们更好地从事基于语料库的语言研究和实践。 2.0 语料库语言学是不是独立的新兴学科？ 2.1 语料库语言学是一种理论架构完全赞成语料库语言学是一种理论架构的几乎没有。只是某些学者比较强调语料库语言学的理论意义。比如，Halliday（1991；1992；1993）指出，语料库语言学作为一种理论架构（theoretical construct），将语料收集和理论概括统一了起来，从而使我们对语言的理解产生一种质变。这种新的理论架构有助于考察同时作为系统和实例（instance）的语言的本质。因为在Halliday的语言学思想当中，实际话语是语言系统的实例再现（instantiation）。而语言系统，或者说是语法体系是一种统计概率上（probabilistic）的自然结果。这一思想与所谓

现代汉语常用词表

现代汉语常用词表（草案） 1．范围本规范（草案）提出了现当代社会生活中比较稳定的、使用频率较高的汉语普通话常用词语 56 008 个，形成《现代汉语常用词表》，给出了词语的词形。本规范（草案）可供中小学语文教学、扫盲教育、汉语教育、中文信息处理和辞书编纂等方面参考、采用。 2．术语和定义 2.1 常用词现代汉语普通话范畴中使用频率高、适用范围广的词语。 2.2 词形本规范（草案）指词语的书写形式。 2.3 词频在一定数量的语料中同一个词语出现的频度，一般用词语的出现次数或覆盖率来表示。本规范（草案）指词语的出现次数。 2.4 频级同一语料调查范围中词频数相同的为一个频级。本词表频级统计分两步：第步形成不同类型语料库的频级，即原始频级。第二步形成总语料的频级，就是将几个原始频级之和再除以不同类型语料库的数目。 3．研制原则 3.1 词和语兼顾原则本规范（草案）的词语收录，以单音节词和双音节词为主。同时，根据语言使用的实际情况，也收录一些常用的缩略语、成语、惯用语等熟语，以及表达整体概念名称的其他固定短语。 3.2 系统性和实用性兼顾原则本规范（草案）的词语收录，既注意词语的系统性，又注意词语在语用中的实用性。如以表示季节为根词的一些词，全部收录它的加缀词“初春”“初冬”“初

秋”“初夏”，但对于“‘晚'＋季节”的词语，只收录“晚春”“晚秋”，未收录“晚冬”“晚夏”；对于“‘残'＋季节”的词语，只收录“残冬”未收录“残春”“残秋”“残夏”。 4．《现代汉语常用词表》（草案）说明 4.1 本表研制过程中，收集词语同国家语委“现代汉语通用语料库”核心语料库、厦门大学的新词语语料库、《现代汉语规范词典》、《现代汉语词典》、《新华词典》等所收词语进行了比对，并查验了该词在人民网《人民日报》报系网页以及 Google 网简体中文网页、百度网等常用网页上的使用情况。 4.2 本表用来检测词频的语料库有：国家语委“现代汉语通用语料库”中经分词标注的4 500万字语料、《人民日报》2001年?2005年约1.35亿字的分词标注语料和厦门大学的现当代文学作品语料库约 7 000 万字的语料。总共 2.5 亿字。 4.3 本表共收录常用词语56 008个，包括单音节词3 181 个，双音节词语40 351 个，三音节词语 6 459个，四音节词语 5 855个，五音节和五音节以上词语 162个。表内条目按频级升序排列，频级相同的按汉语拼音音序排列。 4.4 本规范（草案）提供了《现代汉语常用词表》的音序索引，按汉语拼音音序排列，同音的条目按笔画数由少到多排列。其中，词语的读音只供检索使用，不代表词语的读音规范。

现代汉语“他”(CCL语料库)

现代汉语“他”(CCL语料库) 13、14世纪、、、轻一代的健康发展，教育必须从年轻一代身心发展的实际出发，符合他们身心发展的规律。有生产性的。教育还通过培养一定社会政治、经济所需要的人才，使他人具有当时社会要求的思想品德、知识技能，用以巩固和发展一定社会、、、进行政治理论、思想品德等的教育；人们无论进行何种生产劳动或其他种种活动，都需要强健的体力，这就要求增强学生的体质。处理好教育、、、无论是在中国还是在外国，古代思想家、教育家的教育思想，只是他们的哲学思想或政治思想的组成部分，没有形成一门独立的学科。纪捷克教育家夸美纽斯的《大教学论》（1632年）问世为标志。他号召把一切事物教给一切人，提出统一学校制度，主张采用班级授课制、、、主张采用班级授课制，扩大学科的门类和内容，普及初等教育。他从适应自然秩序的原则和感觉论出发，提出一系列教学原则，如直观性、、、、、、、自觉性积极性原则、系统性原则、循序渐进原则、量力性原则等。他认为人总是首先通过观察事物本身、从事物来源去获得知识，所以教学、、、、、、儿》、裴斯泰洛齐的《林哈德与葛笃德》、斯宾塞的《教育论》等。他们对教育学的发展都作出了重大的贡献。而教育学成为一门学科在大学、、、9、2、、、献。而教育学成为一门学科在大学里讲授，则始于德国哲学家康德。他于1776年在德国柯尼斯堡大学哲学讲座中开讲

教育学。最早以教育、、、、、、06年）。赫尔巴特以伦理学和心理学为基础建立了教育学的体系。他提出教育的目的在于培养"完美德性"，强调运用严厉的方法管理儿童、、、、、、严厉的方法管理儿童，以建立秩序和纪律，保证教育过程顺利进行。他提出教学的教育性原则，认为教学是教育的主要手段，教育是教学目的、、、、、、教学是教育的主要手段，教育是教学目的。根据统觉主理学的原理，他将教学过程分为明了、联想、系统和方法四个阶段，后来被他的学生发、、、、、、原理，他将教学过程分为明了、联想、系统和方法四个阶段，后来被他的学生发展为"五段教学法"。赫尔巴特的《普通教育学》被西方教育、、、、、、校旧教育，明确提出在社会主义社会，教育要为无产阶级政治服务。他提出，要用共产主义精神教育青年一长，使他们成为真正的共产主义者、、、、、、为无产阶级政治服务。他提出，要用共产主义精神教育青年一长，使他们成为真正的共产主义者；青年要成为真正共产主义者，必须要用人类、、、、、、点阐述这教育基本理论问题的教育家。其代表作是《新教育大纲》。他认为：教育是上层建筑，同经济基础有依存关系；教育既受生产方式也、、、、、、师。这是因为教育对象是活生生的人，每个人都有自己的个性特点，他们的志趣、爱好、性格、才能千差万别。教师在进行教育工作时，既要、、、教育现象分复杂，与其他社会现象、自然现象有着密切的联系。同时，教育学又是在不断地综合、、、、、、现象、自然现象有

哪里有可以免费使用的大型英语语料库资源-外语教学与研究出版社

语料库相关资源 David Lee语料库研究书签 Bookmarks for Corpus-based Linguists (David Lee) https://www.wendangku.net/doc/d011024838.html,.au/~dlee/CBLLinks.htm (https://www.wendangku.net/doc/d011024838.html,/corpora) 常用语料库资源链接汇集（语料天涯） https://www.wendangku.net/doc/d011024838.html,/corpus/ 互动平台 https://www.wendangku.net/doc/d011024838.html,/forum/ 入门读物专著梁茂成、李文中、许家金，2010，《语料库应用教程》。北京：外语教学与研究出版社。Hunston, Susan. 2002. Corpora in Applied Linguistics. Cambridge: Cambridge. University Press. （世界图书出版社引进） Kennedy, Graeme. 1998. An Introduction to Corpus Linguistics. London: Longman. （外研社引进）期刊论文中国期刊网 EBSCO英文期刊数据库书店可以买到的语料库相关书籍 Aijmer, K. & B. Altenberg (Eds.). 2004. Advances in Corpus Linguistics. Papers from the 23rd International Conference on English Language Research on Computerized Corpora (ICAME 23). Amsterdam: Rodopi. （世界图书出版社引进） Austermühl, F. 2001. Electronic Tools for Translators《译者的电子工具》. Manchester: St. Jerome Publishing. （外研社引进） Biber, Douglas, Stig Johansson, Geoffrey Leech, Susan Conrad & Edward Finegan. 1999. Longman Grammar of Spoken and Written English. Longman Publications Group. （外研社引进） Biber, Douglas, Susan Conrad & Randi Reppen. 1998. Corpus Linguistics. Cambridge: Cambridge University Press. （外研社引进） Connor, U & T. Upton (Eds.). 2004. Applied Corpus Linguistics: A Multidimensional Perspective. Amsterdam: Rodopi. （世界图书出版社引进）

国内语料库翻译学20年述评_1993_2012_宋庆伟(DOC)

上海翻译Shanghai Journal of Translators2013 No． 2 国内语料库翻译学20年述评( 1993—2012) 宋庆伟匡华吴建平( 厦门大学外文学院，福建厦门 361005;济南大学外国语学院，山东济南 250022) ( 山东大学外国语学院，山东济南250061) ( 厦门大学外文学院，福建厦门361005) ［摘要］本文以中国知网( CNKI) 1993-2012年外语核心期刊中关于语料库翻译学的学术论文为样本，从翻译语言特征、译者风格和应用研究等六个方面对国内近20年语料库翻译学的发展历史进行钩沉，梳理其主要研究脉络和现状，总结语料库翻译学研究的成就、问题与趋势，以期能为该领域研究提供全景式的概况。作者认为，当前研究还存在诸如研究内容与视角比较狭窄，跨学科性研究不足，定量研究层次不高和语料库( 特别是口译语料库) 建设和研究相对滞后等问题，亟待有针对性的改进与完善。［关键词］语料库翻译学; 翻译共性; 译者风格; 口译［中图分类号］H059 ［文献标识码］ A ［文章编号］1672-9358( 2013) 02-0025-06 1 引言到翻译研究当中，使语料库翻译研究迅速发展，逐步近几年，语料库翻译学随着语料库语言学和描成为描述翻译研究中的一种新范式( Laviosa，1998: 写翻译理论的发展和融合迅速成长起来。从发展历474; 2002: 22)。基于语料库的研究为翻译学提供程来看，她还非常年轻，从1993年Mona Baker发表了新的方法和思路，现在学界形成的共识是利用语语料库翻译学的开山之作《语料库语言学与翻译研料库进行翻译研究是一种不可或缺且可靠的手段。究: 启示和应用》至2012年，刚刚走过了短短的20 从一定程度上来讲，语料库翻译学即语料库语言学年。国内语料库翻译研究几乎与国外同步，肇始于和描写性翻译研究的相加，二者的结合可以说是相1993 年，代表作为杨惠中《语料库语言学与机器翻得益彰，在当今翻译研究注重描写和实证的趋势下，译》一文。如今，国内语料库翻译研究已初具规模，语料库翻译学应运而生。语料库翻译学以翻译本体在翻译共性、译者风格和语料库建设等诸方面都取为研究对象，从大规模翻译文本或翻译语言整体入得了可喜的进步，Tymoczko( 1998: 652) 曾大胆预言手，采用语内对比与语际对比相结合的模式，对翻译基于语料库的翻译研究将是翻译研究的重中之重。现象进行描写和解释，探索翻译的本质。( 王克非、近20年，特别是近几年涌现出一大批语料库翻译学黄立波，2008: 9-14) 的专著和论文，国家社科基金和教育部人文社科基金对该领域的研究也进行了倾斜。鉴于此，笔者认 3 数据采集为极有必要对其发展脉络进行梳理和分析，以期为近几年，国内基于语料库的翻译研究发展迅速，今后的研究提供借鉴和参考。本文以中国知网研究的深度和广度也不断拓展，发表文章数量逐年( CNKI) 近20年来外语核心期刊中收录的有关语料增加。为了更好地说明这种趋势，笔者统计了近20 库翻译学的学术论文为基础，借以梳理其研究现状、年( 1993-2012) 中国知网收录的外语核心期刊中关分析成就和问题并展望发展趋势。于语料库翻译学的文章，该统计涉及2012-2013年版CSSCI外语类来源期刊( 包括扩展版) 共15种，2 语料库翻译学基本原理收集有关文章共97篇，具体数据如下表所示: Mona Baker( 1993)开创性地把语料库方法应用［基金项目］本文是上海市科委课题“英汉双语平行句对应语料库建设”( 编号: 08dz1501100) 的阶段性成果。论文在写作过程中，得到秦洪武教授的悉心指点，谨致谢忱! ［收稿日期］2013-02-20 ［作者简介］宋庆伟，厦门大学博士生，济南大学外国语学院讲师，研究方向: 语料库翻译学、双语词典编纂与翻译; 匡华，山东大学外国语学院讲师，研究方向: 语料库语言学与英语教学; 吴建平，厦门大学外文学院教授，博士生导师，研究方向: 翻译学与双语词典学。

基于语料库的中国大学生英语口语表达中的“中式英语” 探究

基于语料库的中国大学生英语口语表达中的“中式英语” 探究摘要：本文利用大学学习者英语口语语料库，选取全国大学英语考试口语考试部分27名考生的口语语料库作为研究对象，对其中出现的中式英语进行标注和分类。作者根据统计结果，从词法和句法两个层面分析我国大学生英语口语中出现的中式英语现象，探讨汉语母语作为中式英语出现的主要原因及对英语口语的影响，最后对中国大学生的英语日常学习及口语水平的提高提出相关建议，为广大高校师生提供借鉴意义。关键词：中式英语中国大学生口语语料库 1.引言中国大学生在他们的年纪已经获得用汉语思考和表达的能力，形成用汉语思考和表达的习惯。绝大部分中国人都是在掌握了母语之后才开始学习英语的，所以在学英语的过程中，总是从中国人的思维角度思考，不顾西方的语言习惯，这就造成中式英语的大量存在。由于不符合英语的表达习惯，中式英语在人际交流中有时会引起误解和困惑。因此，它作为一种特殊的语言现象，应该引起人们的注意。在中国，高校在校学生占英语学习者的很大一部分，他们毕业之后就

由英语学习者转变为英语使用者，所以他们在学校学得如何，直接影响他们在工作岗位上用得如何。从现状看，我国大学毕业生的平均英语水平不能满足各行各业越来越高的需求，尤其是在口语表达和人际交流方面。在现行教育体制下，高校英语教学过于强调语法和词汇的讲解，而对学生语言能力的培养和英语文化的教授则有所忽略。其结果就是许多中国大学生在学了十多年英语之后，只是善于记忆单词和语法规则;他们能在笔试中得高分，但是一张嘴就是中式英语。《牛津英语词典》对中式英语作了如下定义：中式英语是一种汉语和英语的混合体;尤其是汉语使用者使用的或中英双语语境中的一种英语变体，典型地夹杂一些汉语的词汇和结构，或是汉语语境中特有的英语术语。总的说来，中式英语是指一种不符合英语文化习惯的畸形英语，由某些受汉语思维方式和文化背景影响而将母语的语言规则运用到英语中的中国人说出或写出。 2.研究方法 2.1研究对象和数据收集 “大学学习者口语语料库”由上海交通大学的杨惠中教授主持完成。该语料库容量达70万字，来源是全国大学英语考试口语考试部分的真实音视频材料。它按照考试来源地、专业、考试成绩和对话题目，采取随机抽样的方法组

语料库

Background Information 语料库的概念语料库是指按照一定的语言学规则，利用随机抽样的方法收集的有代表性的语言材料的总汇，它是语言材料的样本。语料库通常指为语言研究机构收集的，具有一定容量的大型电子文本语料库。它是由口语语料和书面语的样本汇集而成，用来代表特定的语言或语言变体，或经过加工后带有语言学信息标注的文本的集合。语料库的分类按照语料库所涉及的语言种类，语料库课分为单语语料库，双语平行语料库(parallel corpus)和多语语料库(multilingual corpus)；按照语言涉及的题材，语料库可分为普通语料库(general corpus)和专门用途语料库(specialized corpus)；按语料的来源，又可分为口语语料库和书面语语料库；按语料库是否被标注，语料库可分为生语料库或原始语料库(raw corpus)和熟语料库或标注语料库(annotated corpus) In linguistics, a corpus (plural corpora) or text corpus is a large and structured set of texts (now usually electronically stored and processed). They are used to do statistical analysis and hypothesis testing, checking occurrences or validating linguistic rules on a specific universe. A corpus may contain texts in a single language (monolingual corpus) or text data in multiple languages (multilingual corpus). Multilingual corpora that have been specially formatted for side-by-side comparison are called aligned parallel corpora. In order to make the corpora more useful for doing linguistic research, they are often subjected to a process known as annotation. An example of annotating a corpus is

语料库语言学的发展及研究现状

当代语言学(试刊)1998年第1期4-12页,北京语料库语言学的发展及研究现状丁信善 1.0引言语料库语言学已经成为语言研究的主流。基于语料库的研究不再是计算机专家的独有领域,它正在对语言研究的许多领域产生愈来愈大的影响。这是J.Thomas等人1996年为祝贺语料库语言学的主要奠基人和倡导者G.Leech六十诞辰而出的语料库语言学研究论集的开场白。近年来,对语料库语言学类似的评说频频见于导论和方法论的书及教科书中,它不仅仅是语料库语言学家们的自誉,而正在成为整个语言学界的共识。 2.0语料库语言学的定义关于语料库语言学的定义,现引述三例: a. 根据篇章材料对语言的研究称为语料库语言学。 (K.Aijmer&B.Aitenberg,1991,p.1) b. 基于现实生活中语言运用的实例进行的语言研究称为语料库语言学。 (T.M c Enery&A. Wilson,1996,p.1) c. 以语料为语言描写的起点或以语料为验证有关语言的假说的方法称为语料库语言学。 (D. Crystal,1991,p.86) 由上述几个定义可见,语料库语言学不是研究语言自身某个方面,而是一种以语料库为基础的语言研究方法。它实际上包括两个方面:一是对自然语料进行标注,二是对已经标注的语料的研究和利用的方法。从方法论的角度,它不仅可以用于研究语言系统的各个层面,而且可以应用于语言学之外的其他领域。 3.0语料库语言学的历史发展语料库语言学作为一种研究语言的方法,可以追溯到上个世纪,甚至更为久远。现在一般以乔姆斯基转换生成语法的兴衰时间为参照,将其发展大致分为以下几个阶段: 3.1语料库语言学的早期发展早期的语料库语言学指的是本世纪五十年代中期以前,即乔姆斯基提出转换生成语法理论之前的所有基于语言材料的语言研究。此类研究主要集中在以下几个方面: (1)语言习得是应用语料研究方法较早且较普遍的领域。19世纪70年代在欧洲兴起了儿童语言习得研究的第一个热潮,当时的许多研究就是基于父母详细记载其子女话语发展的大量日记的。据悉,这些日记作为原始材料,不仅是当时W.Preyer和W.Stern等人的理论假说的依据,而且时至今日仍是许多学者的研究语料之一。自本世纪30年代以来,语言学家和心理语言学家提出了众多关于儿童在不同年龄段的语言发展模式。这些模式大都是建立在对儿童自然话语大量材料的研究分析上的。 (2)利用自然语料开展音系研究,在西方当首推美国早期的结构主义语言学家,如F.Boas和 E.Sapir等人。他们注重野外工作 ,强调语料获取的自然性和语料分析的客观性。这些都为后来的语料语言学所继承和发展。本文承蒙哥本哈根大学翻译与词典学研究中心主任C.Dollerup博士提供有关欧洲语料库网络的材料,特此致谢。

可以免费使用的大型英语语料库资源

可以免费使用的大型英语语料库资源 https://www.wendangku.net/doc/d011024838.html,/time/ http://www.lextutor.ca/concordancers/concord_e.html 常用语料库资源链接汇集（语料天涯） http://202.204.128.82/sweccl/Corpus/ https://www.wendangku.net/doc/d011024838.html,/netprints/Corporalink/Corporalink.htm 1. BNC-World Simple Search ☆☆☆ https://www.wendangku.net/doc/d011024838.html,/lookup.html But no more than 50 hits will be displayed, with a fixed amount of context. 2. Brown, LOB, BNC sampler ☆☆☆ Here are a few links for searching corpora online, including monolingual corpora like Brown, LOB, and BNC sampler and also some parallel English-Chinese corpora. English: https://www.wendangku.net/doc/d011024838.html,/concordance/WWWConcappE.htm English: http://www.lextutor.ca/concordancers/concord_e.html Parallel: https://www.wendangku.net/doc/d011024838.html,/concordance/paralleltexts/ 3. Collins Cobuild Corpus Concordance Sampler☆☆☆☆☆ https://www.wendangku.net/doc/d011024838.html,/Corpus/CorpusSearch.aspx The Collins WordbanksOnline English corpus is composed of 56 million words of contemporary written and spoken text. 4. New BNC interface - VIEW: ☆☆☆☆☆ https://www.wendangku.net/doc/d011024838.html,/ 5. Samples (about 2 million words) from the British National Corpus: both written and spoken ☆☆☆ The Brown Corpus and many others - native, learner... Go to http://www.lextutor.ca/concordancers/concord_e.html 6. MICASE ☆☆☆☆ https://www.wendangku.net/doc/d011024838.html,/m/micase/ There are currently 152 transcripts (totaling 1,848,364 words) available at the site. 7. CLEC online concordancing ☆☆☆☆ https://www.wendangku.net/doc/d011024838.html,/corpus/EngSearchEngine.aspx CLEC收集了包括中学生、大学英语4级和6级、专业英语低年级和高年级在内的5种学生的语料一百多万词，并对言语失误进行标注。For an introduction of the corpus, its error tagset and some statistics, see https://www.wendangku.net/doc/d011024838.html,/baseinfo/achievement/Achievement1.htm 8. Business Letter Corpus Online KWIC Concordancer ☆☆☆

浅析语料库对于翻译研究的意义

浅析语料库对于翻译研究的意义【摘要】基于语料库的翻译研究在当今已进入一个全新模式，多种语料库被开发应用在人工翻译和机器翻译等实践领域当中。本文对语料库的概念以及某些种类语料库在翻译活动中具体实用情况做出分析，揭示语料库对于翻译研究的意义。【关键词】语料库；翻译；双语语料库；平行/对应语料库 An Analysis on the Significance of Corpus to Translating Research CHEN Dan （Eastern Liaoning University，Dandong Liaoning 118000，China）【Abstract】Translating research based on corpus has stepped into a new mode today，and many kinds of corpora are developed and applied in practical fields of manual translation and machine translation. The thesis analyzes the concept corpus and the application of some corpora in translating，which exemplify the significance of corpus to translating research. 【Key words】Corpus；Translating；bilingual corpus；Parallel corpus “语料库”的英语单词corpus来源于拉丁语，意思是body，有“全集”的含义，即“语料的集合”。有的学者认为语料库是基于形式和目的的存储于电子数据库中的文本集合，是描述自然发生语言的集合；也有人认为它是按照明确的语言学标准选择并排序的语言运用材料的汇集，旨在用作语言的样本。国内语料库学者杨惠中对语料库的定义做了较为详细的界定。他指出，“语料库是指按照一定的语言学原则，运用随机抽样方法，收集自然出现的连续的语言运用文本或话语片段而建成的具有一定容量的大型电子文库”。语料库所收集的语料是真实、自然的语言。不同于普通的文本数据库，它的设计和建设是以系统的理论语言学原则为依据，并且具有明确的目的性。语料库的结构严格依照既定程序设定，以一定研究目的为基础，按学科或语篇类型分类存储。语料库中的语料必须符合科学的语言研究，语料可以随机抽取或按统计学方法采集。语料库的类型和分类标准很多。按用途分，语料库可分为通用语料库（general corpus）和专用语料库（specialized corpus）；按语料选取时间，语料库可分为历时语料库（diachronic corpus）和共时语料库（synchronic corpus）；按不同结构，语料库可分为平衡语料库（balanced corpus）和自然随机结构语料库（random structure corpus）；按语料库的性质，语料库可分为原始语料库（raw corpus）和标注语料库（annotated corpus）；按语言种类，语料库可分为单语语料库

国家语委十五科研重大项目-现代汉语语料库的建设及深加

国家语委十五科研重大项目－现代汉语语料库的建设及深加工国家语委语料库科研成果简介教育部语言文字应用研究所计算语言学研究室一、国家语委现代汉语语料库介绍语料库是存储于计算机中并可利用计算机进行检索、查询、分析的语言素材的总体。基于语料库的分析方法是对传统的基于规则的分析语言的方法的一个重要补充。语料库具有“大规模”和“真实”这两个特点，因此是最理想的语言知识资源，是直接服务于语言文字信息处理等领域的基础工程。近十几年来，美、英、法、德、日等国家都投入巨资，相继建立了大规模的语料库，如英国国家语料库BNC等。我国从1990年开始由国家语言文字工作委员会主持，组织了语言学界和计算机界的专家学者共同建立了大型的国家级语料库，即国家语委现代汉语语料库。国家语委现代汉语语料库是一个大型的通用的语料库，以语言文字的信息处理、语言文字规范和标准的制定、语言文字的学术研究、语文教育和语言文字的社会应用为主要服务目标。国家语委现代汉语语料库作为国家级语料库，在汉语语料库系统开发技术上具有国际领先水平，在语料可靠、标注准确等方面具有权威性。国家语委现代汉语语料库面向国内外的长远需要，选材有足够的时间跨度，语料抽样合理、分布均匀、比例适当，能够比较科学地反映现代汉语全貌。国家语委现代汉语语料库由人文与社会科学、自然科学及综合三个大类约40个小类组成。具体类别如下： 1.人文与社会科学类划分为8个大类和30个小类：（1）政法：哲学、政治、宗教、法律；（2）历史：历史、考古、民族；（3）社会：社会学、心理、语言文字、教育、文艺理论、新闻、民俗；（4）经济：工业经济、农业经济、政治经济、财贸经济；（5）艺术：音乐、美术、舞蹈、戏剧；（6）文学：小说、散文、传记、报告文学、科幻、口语；（7）军体：军事、体育；（8）生活。

当汉语语料库文本分词规范草案

973当代汉语文本语料库分词、词性标注加工规范（草案）山西大学从1988年开始进行汉语语料库的深加工研究，首先是对原始语料进行切分和词性标注，1992年制定了《信息处理用现代汉语文本分词规范》。经过多年研究和修改，2000年又制定出《现代汉语语料库文本分词规范》和《现代汉语语料库文本词性体系》。这次承担973任务后制定出本规范。本规范主要吸收了语言学家的研究成果，并兼顾各家的词性分类体系，是一套从信息处理的实际要求出发的当代汉语文本加工规范。本加工规范适用于汉语信息处理领域，具有开放性和灵活性，以便适用于不同的中文信息处理系统。《973当代汉语文本语料库分词、词性标注加工规范》是根据以下资料提出的。 1．《信息处理用现代汉语分词规范》，中国国家标准GB13715，1992年 2．《信息处理用现代汉语词类标记规范》，中华人民共和国教育部、国家语言文字工作委员会2003年发布 3．《现代汉语语料库文本分词规范》（Ver 3．0），1998年北京语言文化大学语言信息处理研究所清华大学计算机科学与技术系4．《现代汉语语料库加工规范——词语切分与词性标注》，1999年北京大学计算语言学研究所 5．《信息处理用现代汉语词类标记规范》，2002年，教育部语言文字应用研究所计算语言学研究室 6．《现代汉语语料库文本分词规范说明》，2000年山西大学计算机科学系山西大学计算机应用研究所 7．《資讯处理用中文分词标准》，1996年，台湾计算语言学学会一、分词总则 1．词语的切分规范尽可能同中国国家标准GB13715《信息处理用现代汉语分词规范》（以下简称为“分词规范”）保持一致。本规范规定了对现代汉语真实文本（语料库）进行分词的原则及规则。追求分词后语料的一致性（consistency）是本规范的目标之一。 2．本规范中的“分词单位”主要是词，也包括了一部分结合紧密、使用稳定的词组以及在某些特殊情况下可能出现在切分序列中的孤立的语素或非语素字。本文中仍用“词”来称谓“分词单位”。 3．分词中充分考虑形式与意义的统一。形式上要看一个结构体的组成成分能否单用，结构体能否扩展，组成成分的结构关系，以及结构体的音节结构；意义上要看结构体的整体意义是否具有组合性。 4. 本规范规定的分词原则及规则，既要适应语言信息处理与语料库语言学研究的需要，又力求与传统的语言学研究成果保持一致；既要适合计算机自动处理，又要便于人工校对。 5．分词时遵循从大到小的原则逐层顺序切分。一时难以判定是否切分的结构体，暂不切分。二、词性标注总则信息处理用现代汉语词性标注主要原则有三个： (1)语法功能原则。语法功能是词类划分的主要依据。词的意义不作为划分词类的主要依据，

国际儿童口语语料库录写系统的赋码原则初探

国际儿童口语语料库录写系统的赋码原则初探* 王立非1，刘斌2 （1．南京大学, 江苏南京 210093； 2．解放军国际关系学院，江苏南京 210039）摘要：国际儿童口语语料库是目前世界上最完整的口语语料库之一，对开展口语语料库研究和语言习得研究具有重要价值，本文探讨该语料库的录写系统的赋码原则与具体操作问题，对促进我国英语口语语料库的建立和研究具有借鉴作用和启示意义。关键词：国际儿童口语语料库；英语口语语料；语料库语言学中图分类号：文献标识码：文章编号：The CHILDES Corpus: Coding and Operation of the CHAT Tool WANG Lifei1, LIU Bin2 (1. Nanjing University Nanjing, Jiangsu Prov., 210093； 2. PLA International Studies University, Nanjing, Jiangsu Prov., 210039, China) Abstract: This paper describes the basic coding and operating principles of CHAT for the CHILDES talk-bank, a very valuable corpus for studies on spoken English and language acquisition. It aims to promote the development and use of the CHILDES as a reference for constructing the EFL spoken corpus in China. Key words: CHILDES；English spoken corpus；corpus linguistics 1．引言新世纪的语言学研究已进入计算机时代，基于语料库的研究成果不断涌现，国际儿童口语语料库CHILDES（Child Language Data Exchange System）就是众多语料库中的一员，已有一千项基于这个语料库的研究成果发表。该语料库由美国麦克阿瑟基金会资助，于1984年开始筹建，经过近20年的建设，已成为目前世界上最大的儿童口语语料库。到目前为止，该语料库已收集了包括英语、汉语在内的25种语言。用户可直接从网上免费登录、使用或下载(https://www.wendangku.net/doc/d011024838.html,/CHA T.html)语料。CHILDES语料库由三部分组成，第一部分是儿童英语口语语料库（DATA-BASE），第二部分为文本赋码系统（CHAT），第三部分为语料分析程序（CLAN），均可在网上免费下载。本文探讨该语料库的录写系统的文本赋码原则和操作，目的是对我国建设英语口语语料库提供借鉴与启示。 2．录写赋码系统的途径与原则

可以免费使用的英语语料库资源

可以免费使用的大型英语语料库资源常用语料库资源链接汇集（语料天涯） http://202.204.128.82/sweccl/Corpus/ https://www.wendangku.net/doc/d011024838.html,/netprints/Corporalink/Corporalink.htm 1. BNC-World Simple Search ☆☆☆ https://www.wendangku.net/doc/d011024838.html,/lookup.html But no more than 50 hits will be displayed, with a fixed amount of context. 2. Brown, LOB, BNC sampler ☆☆☆ Here are a few links for searching corpora online, including monolingual corpora like Brown, LOB, and BNC sampler and also some parallel English-Chinese corpora. English: https://www.wendangku.net/doc/d011024838.html,/concordance/WWWConcappE.htm English: http://www.lextutor.ca/concordancers/concord_e.html Parallel: https://www.wendangku.net/doc/d011024838.html,/concordance/paralleltexts/ 3. Collins Cobuild Corpus Concordance Sampler☆☆☆☆☆ https://www.wendangku.net/doc/d011024838.html,/Corpus/CorpusSearch.aspx The Collins WordbanksOnline English corpus is composed of 56 million words of contemporary written and spoken text. 4. New BNC interface - VIEW: ☆☆☆☆☆ https://www.wendangku.net/doc/d011024838.html,/ 5. Samples (about 2 million words) from the British National Corpus: both written and spoken ☆☆☆ The Brown Corpus and many others - native, learner... Go to http://www.lextutor.ca/concordancers/concord_e.html 6. MICASE ☆☆☆☆ https://www.wendangku.net/doc/d011024838.html,/m/micase/ There are currently 152 transcripts (totaling 1,848,364 words) available at the site. 7. CLEC online concordancing ☆☆☆☆ https://www.wendangku.net/doc/d011024838.html,/corpus/EngSearchEngine.aspx CLEC收集了包括中学生、大学英语4级和6级、专业英语低年级和高年级在内的5种学生的语料一百多万词，并对言语失误进行标注。For an introduction of the corpus, its error tagset and some statistics, see https://www.wendangku.net/doc/d011024838.html,/baseinfo/achievement/Achievement1.htm 8. Business Letter Corpus Online KWIC Concordancer ☆☆☆