当前位置：文档库 › 基于语料库1

基于语料库1

基于语料库的《麦田的守望者》检索分析

20 世纪80 年代以来,随着计算机的广泛应用,语料库语言学得到了蓬勃的发展。它为语言学研究提供了一套全新的研究思路和方法,广泛应用于语言研究的各个层面。由于计算机技术和因特网络的普及和发展,人们开始使用各种各样的语料库索引软件来作词汇搭配、翻译以及中介语的描述和分析。文本索引作为一种强有力的文本分析工具,不仅被广泛地应用在应用语言学的领域中,而且近年来在文学作品的研究中也开始发挥它们的独特作用。由于不少索引软件开发的最初目的是用来进行文学作品分析的(如Wordsmith Tools、TACT、Concordance 等) ,因此,在文学作品研究中,我们可以对某个作家的一部或多部作品进行分析和对比研究,这种分析对研究作家某种语体风格的形成或主题的表达提供了可靠的量化依据[1 ]165 。本文通过使用Wordsmith Tools 语料库索引软件对艾米莉·勃朗特的代表作《呼啸山庄》进行文本主旨、人物塑造与剧情发展等方面的分析

一、文本的总体统计特征及分析

基于语料库的语言研究一般采取定性与定量相结合的研究方法。要进行定量研究就要涉及文把《麦田的守望者》的文本用Wordsmith Tools 软件的wordlist 功能进行统计。它提供了有关这个文本的一些简略统计数字,如:字节数(bytes) 、形符数( tokens ,指文本一共有多少个词) 、类符数(types ,指文本一共有多少个不同的词形) 、类符形符比( type/ token ratio ,指形符与类符的比率, 即用词的变化性) 、标准化类符形符比( Standardised Type/ Token) 、平均词长、句子数等[1 ]153 。如表1 所示在这个文本中,从其字节数、形符数和句子数可以推断出这是一个较长的文本。因为单纯的形符数和类符数不能反映语篇的本质特征,如本文的类符形符比只有 3.39,但按一定的长度分批计算文本的类符形符比求平均值就可以得出标准类符形符比。它在一定程度上反映了语篇的某种本质特征,即用词的变化性。通过观察本文的标准类符形符比数35.18,可以推断此文本的词汇变化量为中低等程度。整个文章的句长为11.68,与平均句长14. 44 相比,意味着它比一些简易文本的句子要短。

二、主题和情节的检索与分析

通过使用WordSmith Tools 语料库检索软件中的wordlist 和plotting 功能,对小说文本的情节进行统计分析。首先用Wordsmith Tools 对文本进行统计,得到一个主题词表(省略) ,从而得到该文本中出现频率最高的实义词。其中I出现4281 次排在6 位,He 和She排在4、位,出现频率也相对较高,由此可以确定作品是以第一人称张开叙述的,。然而,对这些词的初步分析仅可以让我们对本文内容的大致信息有所了解,但是无法进一步确定哪些信息重要,哪些信息不重要。因此,作者又选取了Brown 语料库作为参照语料库,按照关键值( Keyness Value) 生成关键词词表( keyword list) ,

从图中我们可以得出一些信息：

（1）作者是以一人称的口吻进行叙述的，以一个青少年的口吻叙述了自己的所思所想、所见所闻和行为举止。

（2）整个故事发生的地点在美国而且是在二战时期，二战后美国在社会异化、政治高压和保守文化三股力量的高压下，人们的心里与价值观都产生了变化（3）文章的风格也很新颖，在语言的运用上，本书也独创一格。全书用青少年的口吻平铺直叙，不避琐碎，不讳隐私，使用了大量的口语和俚语，生动活泼，平易近人，达到了如闻其声、如见其人的效果，增加了作品的感染力，使读者更能激起共鸣和思索，激起联想和反响

笔者又利用Wordsmith Tools 的plotting 功能作出主题词图(图2) ,通过观察主题词在文本中的位置分布,全方位地分析小说情节,梳理情节进展的脉络

you

parent

thinik

goddamn

三、人物刻画的检索与分析

通过利用语料库软件的语境共现(concord)

键词即( KWIC[6 ] ) 检索,列出所有人物出现时的功能,输入关键词(如故事人物) 进行带语境的关上下文,能够检索出对于重要人物的描写,这对研究人物性格以及作者对人物的刻画,都有不可或缺的重要性。下面,笔者将结合Wordsmith Tools语料库软件的统计结果,就小说主人公I 进行语料库分析

本书以主人公霍尔顿自叙的语气讲述自己被学校开除后在纽约城游荡将近两昼夜的经历和心灵感受。它不仅生动细致地描绘了一个不安现状的中产阶级子弟的苦闷仿徨、孤独愤世的精神世界，一个青春期少年矛盾百出的心理特征，也批判了成人社会的虚伪和做作。霍尔顿是个性格复杂而又矛盾的青少年的典型。他有一颗纯洁善良、追求美好生活和崇高理想的童心。他对那些热衷于谈女人和酒的人十分反感，对校长的虚伪势利非常厌恶，看到墙上的下流字眼便愤愤擦去，遇到修女为受难者募捐就慷慨解囊。他对妹妹菲芯真诚爱护，百般照顾。为了保护孩子，不让他们掉下悬崖，他还渴望终生做一个“麦田里的守望者”，发出“救救孩子”般的呼声。可是，愤世嫉俗思想引起的消极反抗，还有那敏感、好奇、焦躁、不安，想发泄、易冲动的青春期心理，又使得他不肯读书，不求上进，追求刺激，玩世不恭；他抽烟、酗酒、打架、调情，甚至找妓女玩。他觉得老师、父母要他读书上进，无非是要他“出人头地……以便将来可以买辆混帐凯迪拉克”。他认为成人社会里没有一个人可信，全是“假仁假义的伪君子”，连他敬佩的唯一的一位老师，后来也发现可能是个同性恋者，而且还用“一个不成熟男子的标志是他愿意为某种事业英勇地死去，一个成熟男子的标志是他愿意为某种事业卑贱地活着”那一套来教导他。他看不惯现实社会中的那种世态人情，他渴望的是朴实和真诚，但遇到的全是虚伪和欺骗，而他又无力改变这种现状，只好苦闷、彷徨、放纵，最后甚至想逃离这个现实世界，到穷乡僻壤去装成一个又聋又哑的人

四、结语

基于语料库的文学作品分析方法“虽然在语言特征判断方面无重大突破,但实施起来却快捷、准确,省时省力,而且证据充实, 令人信服。”[从第二次世界大战结束到今天的当代美国文学中，有两部小说经过三十多年时间的考验，已被认为是“现代经典”：一部是黑人作家拉尔夫·艾里森（Ralph Elli。， 1914一）的《无形人》（The Invisible Man，1952），一部就是本书。

本书篇幅不大，只十几万字。作者除发表过一些短篇小说外，迄今只写过这一部长篇小说，却在美国社会和文学界产生了巨大的影响。

参考文献:：

[ 1 ] 杨惠中. 语料库语言学导论[M] . 上海:上海外语教育出版

社, 2002.

[ 2 ] 肖普勤,黄凤枝. 基于语料库的文学作品分析方法初探[J ] .

美中外语, 2005 (8) :41 - 43.

[ 3 ]《three days to see>> 海伦.凯特中国城市出版社

[ 4]《麦田的守望者》杰罗姆·大卫·塞林格

[ 7 ] 何安平. 《用语料库研究语言》导读[ C] ∥Thomas J , Short

M. Using Corpora for Language Research. 北京:外语教学与

研究出版社, 2001 :28.

。

语料库术语中英对照

Aboutness 所言之事 Absolute frequency 绝对频数 Alignment (of parallel texts) （平行或对应）语料的对齐 Alphanumeric 字母数字类的 Annotate 标注（动词） Annotation 标注（名词） Annotation scheme 标注方案 ANSI/American National Standards Institute 美国国家标准学会 ASCII/American Standard Code for Information Exchange 美国信息交换标准码Associate (of keywords) （主题词的）联想词 AWL/Academic word list 学术词表 Balanced corpus 平衡语料库 Base list 底表、基础词表 Bigram 二元组、二元序列、二元结构 Bi-hapax 两次词 Bilingual corpus 双语语料库 CA/Contrastive Analysis 对比分析 Case-sensitive 大小写敏感、区分大小写 Chi-square (χ2) test 卡方检验 Chunk 词块 CIA/Contrastive Interlanguage Analysis 中介语对比分析 CLAWS/Constituent Likelihood Automatic Word-tagging System CLAWS词性赋码系统Clean text policy 干净文本原则 Cluster 词簇、词丛 Colligation 类联接、类连接、类联结 Collocate n./v. 搭配词；搭配 Collocability 搭配强度、搭配力 Collocation 搭配、词语搭配 Collocational strength 搭配强度 Collocational framework/frame 搭配框架 Comparable corpora 类比语料库、可比语料库 ConcGram 同现词列、框合结构 Concordance (line) 索引（行） Concordance plot （索引）词图 Concordancer 索引工具 Concordancing 索引生成、索引分析 Context 语境、上下文 Context word 语境词 Contingency table 连列表、联列表、列连表、列联表 Co-occurrence/Co-occurring 共现 Corpora 语料库（复数） Corpus Linguistics 语料库语言学 Corpus 语料库 Corpus-based 基于语料库的

语料库与语料库建设

语料库和语料库建设一、什么叫语料库 1、定义语料库，通俗意义上指的是语言材料库。严格意义上的语料库（corpus）是指按照一定的语言学原则，运用随机抽样方法，收集自然出现的连续的语言运用文本或话语片断而建成的具有一定容量的大型电子文本库。目前，语言学家对于语料库的定义不尽相同，如辛克莱（Sinclair）认为语料库是“按照明确的语言学标准选择并排序的语言运用材料汇集，旨在用作语言的样本”。阿特金斯等（Atkins & Clear）认为语料库是“按照明确的设计标准，为某一具体目的而集成的大型文本库”。赫努（Renouf）认为语料库是“由大量收集的书面语或口头语构成，并通过计算机储存和处理，用于语言学研究的文本库”。我们看到，以上关于语料库的几种定义相同之处在于都谈到语料库是语言材料的汇集；不同之处在于前两个定义指出语料库的设计是有明确的设计标准的，赫努的定义明确指出语料库“通过计算机储存和处理”这一特点。语料库不同于电子文档，语料库的建设有特定的研究目的和具体用途，因此在语料抽样范围和文类覆盖方面都力求取得平衡，在收集语料时需要考虑到每一文类、体裁、语域、主题类型等的抽样比例。而大型文档目标在于搜集任何可获得的语言材料或所限定的数种文类语料，其语言材料之间的关系较为松散。语料库具有以下特征：1、语料库的设计与建设有系统的语言学理论指导，语料库的开发具有明确而又具体的目的；如，布朗语料库用于对20世纪60年代的美国英语的研究，LOB是与布朗语料库对齐的同时期的英国英语语料库，可用以对英国英语进行研究，也可与布朗语料库加以对比进行美国英语和英国英语的对比研究。2、语料库的语料是按照明确的语言学原则采用随机抽样的方法得到的语言运用的自然语料，不是随意的语言材料的堆积，更不是由某个个人杜撰出来的。语料库的容量和语料采用随机抽样方式都保证了语料具有代表性，由此保证基于语料库的语言研究的科学性、客观性。3、语料文本是连续的文本或话语片断，而不是孤立的句子或词汇，可以借以获得语法关系、用法、词语搭配以及语篇信息。4、语料库以当代先进的计算机技术为技术手段，语料库语料通过电子文本形式储存并且是通过计算机处理的，具有资源优势和处理速度优势。5、基于语料库的研究以量化研究为基石，以概率统计为手段，以数据驱动为基本理念。6、语料库既是一种研究方法，又代表着一种新的研究思维。二、语料库产生的背景及发展历史对真实语言材料的搜集与研究是语言学研究的优秀传统。尤其是在20世纪50年代中期，在语言研究中占主导地位的是重语言材料的经验主义。这种学术氛围无疑促进了对语料的重视。1959年夸克（R.Quirk）等人着手进行的“英语用法调查”(Survey of English Usage)通过系统的调查建立了第一个现代英语语料库，在此基础上完成的《现代英语语法》（ A Grammar of Contemporary English）和《英语语法大全》（A Comprehensive Grammar of the English Language）对现代英语进行了系统全面的描写，在英语语言学界产生了广泛的影响。但在当时这项浩大的工程是通过手工的方式完成的。

关于汉语中介语语料库建设研究报告

汉语中介语语料库建设研究沈锐1，黄薇2 (1.红河学院教育技术系2.红河学院国际合作与交流处XX蒙自661100) 【摘要】本文探讨母语非汉语学习者的汉语中介语语料库建设的主要思路以及具体实现方法，重点介绍了汉语中介语语料的加工方法以及语料数据库的设计思路，并阐明了该语料库在对外汉语教学和研究中的应用价值。【关键词】语料库;中介语;汉语教学语料库是指按一定的语言学原则收集的语言文本或话语片断而建立的电子资料库。本文所述汉语中介语料库是基于语言学中中介语理论设计与实施的。中介语是心理语言学中第二语言习得的一种研究模式，其将语言学习者置于观察中心，去研究他们如何有意识地向目的语的正确形式迁移的各种动态表现。中介语理论自20世纪60年代末出现并发展至今，虽然时间并不长，但越来越受到语言学家以及一线教师的关注。无论是进行中介语研究还是使用中介语理论进行第二语言教学都需要收集分析大量的语料，因而通过信息化手段收集和整理语料变得十分迫切。在对外汉语教学中，通过建设和使用母语非汉语学习者的汉语中介语语料数据库，可以收集不同背景和不同学习阶段外国学生及少数民族学生的汉语书面语和用文字转写的口语语料，并对语料属性、词汇、语法等单位进行计算机处理，以实现对各种条件和要求下的语料数据进行便捷的机器检索和提取，可以为研究母语非汉语学生学习和习得汉语的规律提供大量的各种单项的或综合的资料和信息。因此，我们提出了建设汉语中介语语料库的课题，由于语料库建设是一项浩大的工程，限于人力物力条件，本文讨论的是中

小规模的语料库。一、需求分析和框架设计语料库建设不能盲目进行，首先要进行调研，对语料库的应用需求进行分析。半自动化的语料库构建是目前语料库建设的主流技术，目的是在确保语料库质量的前提下，减少人工参与的比例，增加自动化程度，目标是在较短时间内建设一个有一定规模，质量可靠、可扩充、成本低，能够全面、细致地记录母语非汉语学习者在汉语学习过程中的语言表征和研究他们汉语习得过程的语料库。依照软件工程的方法，建立数据库首先需要进行需求分析，在需求分析过程中要注意汉语中介语语料库主要是服务于对外汉语教学的一线教师，以及辅助母语非汉语学生自学，因此主要注重以上二类服务对象的应用需求，确保建成的语料库能够对第二语言教学、研究以及教材的编写提供持续支持。基于以上要求，在对中介语语料库的建设思路及框架做了总体考虑，基本归纳为以下三个方面： 1、中介语语料库为专门用途语料库，主要目的为研究母语非汉语的学生在学习汉语过程中的中介语现象而设计制作的。 2、中介语现象存在于母语非汉语的学生在学习汉语过程中的书面语料及口语语料中，由于口语语料的收集、分析和标注都较为困难，因此在建库的第一阶段只考虑收录书面语料，这有利于语料库的快速建设与使用。 3、语料标注的加工标准使用中科院计算所汉语词性标记集V3.0。二、语料收集与加工

语料库与语料库建设

语料库与语料库建设语料库和语料库建设一、什么叫语料库 1、定义语料库，通俗意义上指的是语言材料库。严格意义上的语料库(corpus)是指按照一定的语言学原则，运用随机抽样方法，收集自然出现的连续的语言运用文本或话语片断而建成的具有一定容量的大型电子文本库。口前，语言学家对于语料库的定义不尽相同，如辛克莱(Sinclair)认为语料库是“按照明确的语言学标准选择并排序的语言运用材料汇集，旨在用作语言的样本”。阿特金斯等(Atkins & Clear)认为语料库是“按照明确的设计标准，为某一具体目的而集成的大型文本库”。赫努(Renouf)认为语料库是“由大量收集的书面语或口头语构成，并通过计算机储存和处理，用于语言学研究的文本库”。我们看到，以上关于语料库的儿种定义相同之处在于都谈到语料库是语言材料的汇集;不同之处在于前两个定义指出语料库的设讣是有明确的设计标准的，赫努的定义明确指出语料库“通过计算机储存和处理”这一特点。语料库不同于电子文档，语料库的建设有特定的研究LI 的和具体用途，因此在语料抽样范围和文类覆盖方面都力求取得平衡，在收集语料时需要考虑到每一文类、体裁、语域、主题类型等的抽样比例。而大型文档U标在于搜集任何可获得的语言材料或所限定的数种文类语料，其语言材料之间的关系较为松散。语料库具有以下特征：1、语料库的设讣与建设有系统的语言学理论指导，语料库的开发具有明确而乂具体的U的；如，布朗语料库用于对20世纪60年代的美国英语的研究，LOB是与布朗语料库对齐的同时期的英国英语语料库，可用以对英国英语进行

研究，也可与布朗语料库加以对比进行美国英语和英国英语的对比研究。 2、语料库的语料是按照明确的语言学原则采用随机抽样的方法得到的语言运用的自然语料，不是随意的语言材料的堆积，更不是由某个个人杜撰出来的。语料库的容量和语料采用随机抽样方式都保证了语料具有代表性，山此保证基于语料库的语言研究的科学性、客观性。 3、语料文本是连续的文本或话语片断，而不是孤立的句子或词汇，可以借以获得语法关系、用法、词语搭配以及语篇信息。 4、语料库以当代先进的计算机技术为技术手段，语料库语料通过电子文本形式储存并且是通过讣算机处理的，具有资源优势和处理速度优势。5＞基于语料库的研究以量化研究为基石，以概率统汁为手段，以数据驱动为基本理念。6、语料库既是一种研究方法，乂代表着一种新的研究思维。二、语料库产生的背景及发展历史对真实语言材料的搜集与研究是语言学研究的优秀传统。尤其是在20世纪 50年代中期，在语言研究中占主导地位的是重语言材料的经验主义。这种学术氛圉无疑促进了对语料的重视。1939年夸克(R. Quirk)等人着手进行的“英语用法调查” (Survey of English Usage)通过系统的调查建立了笫一个现代英语语料库，在此基础上完成的《现代英语语法》(A Grammar of Contemporary English )和《英语语法大全》(A Comprehensive Grammar of the English Language)对现代英语进行了系统全面的描写，在英语语言学界产生了广泛的影响。但在当时这项浩大的工程是通过手工的方式完成的。 20世纪六十年代后，语言学研究主流从经验主义转向理性主义，乔姆斯基的语言能力说被广泛接受，转换生成语法学派批评语料库研究方法，认为，1、基于语料库的方法有误。乔姆斯基等认为语言学应当以人脑的语言机制即语言能力为研究对象，语料库收集的只是人们的语言运用，语言运用会因超语言因素的影响而发生变化，它并

国际儿童口语语料库录写系统的赋码原则初探

国际儿童口语语料库录写系统的赋码原则初探* 王立非1，刘斌2 （1．南京大学, 江苏南京 210093； 2．解放军国际关系学院，江苏南京 210039）摘要：国际儿童口语语料库是目前世界上最完整的口语语料库之一，对开展口语语料库研究和语言习得研究具有重要价值，本文探讨该语料库的录写系统的赋码原则与具体操作问题，对促进我国英语口语语料库的建立和研究具有借鉴作用和启示意义。关键词：国际儿童口语语料库；英语口语语料；语料库语言学中图分类号：文献标识码：文章编号：The CHILDES Corpus: Coding and Operation of the CHAT Tool WANG Lifei1, LIU Bin2 (1. Nanjing University Nanjing, Jiangsu Prov., 210093； 2. PLA International Studies University, Nanjing, Jiangsu Prov., 210039, China) Abstract: This paper describes the basic coding and operating principles of CHAT for the CHILDES talk-bank, a very valuable corpus for studies on spoken English and language acquisition. It aims to promote the development and use of the CHILDES as a reference for constructing the EFL spoken corpus in China. Key words: CHILDES；English spoken corpus；corpus linguistics 1．引言新世纪的语言学研究已进入计算机时代，基于语料库的研究成果不断涌现，国际儿童口语语料库CHILDES（Child Language Data Exchange System）就是众多语料库中的一员，已有一千项基于这个语料库的研究成果发表。该语料库由美国麦克阿瑟基金会资助，于1984年开始筹建，经过近20年的建设，已成为目前世界上最大的儿童口语语料库。到目前为止，该语料库已收集了包括英语、汉语在内的25种语言。用户可直接从网上免费登录、使用或下载(https://www.wendangku.net/doc/5c15837613.html,/CHA T.html)语料。CHILDES语料库由三部分组成，第一部分是儿童英语口语语料库（DATA-BASE），第二部分为文本赋码系统（CHAT），第三部分为语料分析程序（CLAN），均可在网上免费下载。本文探讨该语料库的录写系统的文本赋码原则和操作，目的是对我国建设英语口语语料库提供借鉴与启示。 2．录写赋码系统的途径与原则

语料库常用统计方法

3.5语料库常用统计方法第3章前几节对语料库应用中的几种主要技术做了介绍。通过语料检索、词表和主题词表的生成，可以得到一定数量的句子、词汇或结构。为能更好说明所得到的结果的真正意义，常常需要对它们加以统计学分析。本章主要介绍语料分析中的一些常用统计方法。 3.5.1 语料库与统计方法介绍相关统计方法之前，首先需要了解为什么语料库应用中需要运用统计方法。在2.1节讲到文本采集时，我们知道文本或会话构成了最终的语料库样本。这些样本是通过一定的抽样方法获得的。研究中，我们需要描述这些样本的出现和分布情况。此外，我们还经常需要观察不同语言项目之间在一定语境中共同出现（简称共现）的概率；以及观察某个（些）语言项目在不同文本之间出现多少的差异性。这些需要借助统计学知识来加以描写和分析。理论上说，几乎所有统计方法都可以用于语料库分析。本章只择其中一些常用方法做一介绍。我们更注重相关统计方法的实际应用，不过多探讨其统计学原理。这一章我们主要介绍语料分析中的频数标准化（normalization ）、频数差异检验和搭配强度的计算方法。 3.5.2 频数标准化基本原理通常语料检索、词表生成结果中都会报告频数（frequency, freq 或raw frequency ）。那么某词（如many ）在某语料库中出现频数为100次说明什么呢？这个词在另一个语料库中出现频数为105次，是否可以说many 在第二个语料库中更常用呢？显然，不能因为105大于100，就认定many 在第二个语料库中更常用。这里大家很容易想到，两个语料库的大小未必相同。按照通常的思维，我们可以算出many 在两个语料库中的出现百分比，这样就可比了。这种情况下，我们是将many 在两个语料库中的出现频数归到一个共同基数100之上，即每100词中出现多少个many 。这里通过百分比得到的频率即是一种标准化频率。有些文献中标准化频率也称归一频率或标称频率，即基于一个统一基准得出的频率。实例及操作频数标准化，首先需要用某个（些）检索项的实际观察频数（原始频数，raw frequency ）除以总体频数（通常为文本或语料库的总词数），这样得到每一个单词里会出现该检索项多少次。在频数标准化操作中，我们通常会在此基础上乘以1千（1万、1百万）得到平均每千（万、百万）词的出现频率。即： 1000?=总体频数观测频数标准化频率（每千词）（注：观测频数即检索词项实际出现的次数；总体频数即语料库的大小或总形符数。）例如，more 在中国学生的作文里出现251次，在英语母语者语料中出现475次。两个语料库的大小分别为37,655词次和174,676词次。我们可以根据上面的公式很容易计算出251和475对应的标准化频率。另外，我们还可以利用Excel 或SPSS 等工具来计算标准化频率。比如，可以将实际观察频数和语料库大小如图3.5.1输入相应的单元格，然后在C1单元格里输入=(A1/B1)*1000即可得到中国学生每千词使用more 约为6.67次。要得到母语

一带一路视角下中英语料库建设项目报告

一带一路视角下的中英语料库建设项目报告随着“一带一路”战略的提出，中外文化交流日益频繁，这种现象对翻译行业提出了更高的要求。因此，采取有效措施培养优秀翻译人才、提高译员翻译质量刻不容缓。基于此，本项目决定建设一带一路视角下中英语料库以提高翻译质量。本文将着重报告本项目中英语料库建设的背景目的、过程及其作用。一、一带一路视角下的中英语料库建设背景及目的 “一带一路”战略的提出为本项目的开展提供了时代背景。“一带一路”是“丝绸之路经济带”和“21世纪海上丝绸之路”的简称。从古至今，“一带一路”一直是连接东西方文化的重要纽带，尤其是在新的历史时期，“一带一路”战略促进了区域间的人际交往和文化交流。全国政协委员、中国翻译协会常务副会长黄友义在接受专访时曾表示，经济和文化的走出去导致了中译外工作量的增加，但目前中译外人才十分紧缺。而作为覆盖范围及应用领域日益广泛的语料库在提高翻译教学质量、培养优秀译员及促进计算机辅助翻译中发挥着日益重要的作用。目前国内外都已有大量已建成的语料库，如BNC英国国家语料库、美国当代英语语料库、中国学习者英语语料库及中国英语学习者口语语料库等，但针对于“一带一路”战略的语料库较为稀少。本项目的开展旨在抓住“一带一路”战略所带来的发展契机，建设“一带一路视角下的中英语料库”，为“一带一路”战略中相关政策的英译提供便利，从而加强中外交流。青岛农业大学翻译中心的成立及其已承接的翻译活动为本项目的开展提供了专业背景。近年来，翻译中心承接了大量专利翻译、影视字幕翻译等翻译活动，在此过程中，翻译人员遇到了一些问题：如对专利特有名词和英美俗语不够熟悉等。本项目的旨在将翻译学理论、语言学理论及现代计算机技术相结合，通过对大量真实语言数据的研究，将众多科技名词、英语俗语和习语及与英美文化相关的词语收录进语料库当中，将中英双语语料库作为教学手段，方便译者查询、理解及使用相关名词，切实提高其翻译质量。另外，该项目的开展由具有多年翻译经验和教学经验的纪卫宁老师亲自指导，这为本项目的顺利开展提供了重要保障。二、一带一路视角下中英语料库建设过程 (1)语料库建设前期准备

语料库

Background Information 语料库的概念语料库是指按照一定的语言学规则，利用随机抽样的方法收集的有代表性的语言材料的总汇，它是语言材料的样本。语料库通常指为语言研究机构收集的，具有一定容量的大型电子文本语料库。它是由口语语料和书面语的样本汇集而成，用来代表特定的语言或语言变体，或经过加工后带有语言学信息标注的文本的集合。语料库的分类按照语料库所涉及的语言种类，语料库课分为单语语料库，双语平行语料库(parallel corpus)和多语语料库(multilingual corpus)；按照语言涉及的题材，语料库可分为普通语料库(general corpus)和专门用途语料库(specialized corpus)；按语料的来源，又可分为口语语料库和书面语语料库；按语料库是否被标注，语料库可分为生语料库或原始语料库(raw corpus)和熟语料库或标注语料库(annotated corpus) In linguistics, a corpus (plural corpora) or text corpus is a large and structured set of texts (now usually electronically stored and processed). They are used to do statistical analysis and hypothesis testing, checking occurrences or validating linguistic rules on a specific universe. A corpus may contain texts in a single language (monolingual corpus) or text data in multiple languages (multilingual corpus). Multilingual corpora that have been specially formatted for side-by-side comparison are called aligned parallel corpora. In order to make the corpora more useful for doing linguistic research, they are often subjected to a process known as annotation. An example of annotating a corpus is

中国语料库研究的历史与现状

中国语料库研究的历史与现状语言学的研究必须以语言事实作为根据，必须详尽地、大量地占有材料，才有可能在理论上得出比较可靠的结论。传统的语言材料的搜集、整理和加工完全是靠手工进行的，这是一种枯燥无味、费力费时的工作。计算机出现后，人们可以把这些工作交给计算机去作，大大地减轻了人们的劳动。后来，在这种工作中逐渐创造了一整套完整的理论和方法，形成了一门新的学科——语料库语言学（corpus linguistics），并成为了自然语言处理的一个分支学科。语料库语言学主要研究机器可读自然语言文本的采集、存储、检索、统计、语法标注、句法语义分析，以及具有上述功能的语料库在语言定量分析、词典编纂、作品风格分析、自然语言理解和机器翻译等领域中的应用。多年来，机器翻译和自然语言理解的研究中, 分析语言的主要方法是句法语义分析。因此，在很长一段时间内，许多系统都是基于规则的，而根据当前计算机的理论和技术的水平很难把语言学的各种事实和理解语言所需的广泛的背景知识用规则的形式充分地表达出来，这样，这些基于规则的机器翻译和自然语言理解系统只能在极其受限的某些子语言（sub- language）中获得一定的成功。为了摆脱困境，自然语言处理的研究者者们开始对大规模的非受限的自然语言进行调查和统计，以便采用一种基于统计的模型来处理大量的非受限语言。不言而喻，语料库语言学将有可能在大量语言材料的基础上来检验传统的理论语言学基于手工搜集材料的方法所得出的各种结论，从而使我们对于自然语言的各种复杂现象获得更为深刻全面的认识。本文首先简要介绍国外语料库的发展情况，然后，比较详细地介绍中国语料库的发展情况和主要的成绩，使我们对于语料库研究得到一个鸟瞰式的认识。一、国外语料库概况现在，美国Brown大学建立了BROWN语料库（布朗语料库），英国Lancaster大学与挪威Oslo大学与Bergen大学联合建立了 LOB 语料库。欧美各国学者利用这两个语料库开展了大规模的研究，其中最引人注目的是对语料库进行语法标注的研究。他们设计了基于规则的自动标注系统 TAGGIT 来给布朗语料库的 100 万词的语料作自动标注，正确率为77%. 他们还设计了 CLAWS 系统来给 LOB 语料库的100万词的语料作自动标注，根据统计信息来建立算法，自动标注正确率达 96%, 比基于规则的 TAGGIT 系统提高了将近 20%. 最近他们同时考察三个相邻标记的同现频率，使自动语法标注的正确率达到 99.5%。这个指标已经超过了人工标注所能达到的最高正确率。

CCL语料库与检索系统方案

一关于CCL语料库及其检索系统（如果时间紧张，可直接跳到最后的举例部分！） 1.1 CCL语料库及其检索系统为纯学术非盈利性的。不得将本系统及其产生的检索结果用于任何商业目的。CCL不承担由此产生的一切后果。 1.2 本语料库仅供语言研究参考之用。语料本身的正确性需要您自己加以核实。 1.3 语料库中所含语料的基本内容信息可以在“高级搜索”页面上，点击相应的链接查看。比如： “作者列表”：列出语料库中所包含的文件的作者 “篇名列表”：列出语料库中所包含的篇目名 “类型列表”：列出语料库中文章的分类信息 “路径列表”：列出语料库中各文件在计算机中存放的目录 “模式列表”：列出语料库中可以查询的模式 1.4 语料库中的中文文本未经分词处理。 1.5 检索系统以汉字为基本单位。 1.6 主要功能特色： ?支持复杂检索表达式（比如不相邻关键字查询，指定距离查询，等等）； ?支持对标点符号的查询（比如查询“？”可以检索语料库中所有疑问句）； ?支持在“结果集”中继续检索； ?用户可定制查询结果的显示方式（如左右长度，排序等）； ?用户可从网页上下载查询结果(text文件)；二关于查询表达式本节对CCL语料库检索系统目前支持的查询表达式加以说明。 2.1 特殊符号查询表达式中可以使用的特殊符号包括8个： | $ # + - ~ ! : 这些符号分为四组： Operator1: | Operator2: $ # + - ~ Operaotr3: !

Delimiter: : 符号的含义如下：（一） Operator1: Operator1是二元操作符，它的两边可以出现“基本项”（关于“基本项”的定义见2.2）（1） | 相当于逻辑中的“或”关系。（二） Operator2：Operator2是二元操作符，它的两边可以出现“简单项”（关于“简单项”的定义见2.3）（2） $ 表示它两边的“简单项”按照左边在前、右边在后的次序出现于同一句中。两个“简单项”之间相隔字数小于或等于Number （3） # 表示它两边的“简单项”出现于同一句中，不考虑前后次序。两个“简单项”之间相隔字数小于或等于Number （4） + 表示它两边的“简单项”按照左边在前、右边在后的次序出现于同一句中。两个“简单项”之间相隔字数刚好等于Number （5） - 表示它左边的“简单项”出现于句子中，并且，在右边相隔Number个字的范围内，-号右边的“简单项”不出现。（6） ~ 表示它左边的“简单项”出现于句子中，并且，在左边相隔Number个字的范围内，~号右边的“简单项”不出现。（三）Operator3：Operator3是一元操作符。（7） ! 表示它后面的“简单项”是本次查询的主关键字符串，显示查询结果时以该“简单项”作为中心来进行定位。注意： Operator2后面的Number是必须的，不能省略。Number=0表示相邻,Number=1表示间隔1个单位，其余依此类推。（四）Delimiter：西文冒号 : 是分隔符（8） : 跟在 path，author，name，type，pattern 等关键字后面，用于分隔关键字和它们的取值。这样形成的查询式我们称之为“过滤项”（见下面2.5）注意：上述特殊字符不能作为基本项在语料库中进行检索。path，author等关键字可以作为基本项进行检索。 2.2 基本项指不包含特殊符号和空格的连续字符串

语料库

关于语料库的三点基本认识：语料库中存放的是在语言的实际使用中真实出现过的语言材料;语料库是以电子计算机为载体承载语言知识的基础资源;真实语料需要经过加工(分析和处理),才能成为有用的资源; 在语言学中，语料库（Corpus）指大量文本的集合，库中的文本（称为语料）通常经过整理，具有既定的格式与标记，特指计算机存储的数字化语料库。语料库是语料库语言学研究的基础资源，也是经验主义语言研究方法的主要资源。应用于词典编纂，语言教学，传统语言研究，自然语言处理中基于统计或实例的研究等方面。分类语料库有多种类型，确定类型的主要依据是它的研究目的和用途，这一点往往能够体现在语料采集的原则和方式上。有人曾经把语料库分成四种类型：（1）异质的（Heterogeneous）：没有特定的语料收集原则，广泛收集并原样存储各种语料；（2）同质的（Homogeneous）：只收集同一类内容的语料；（3）系统的（Systematic）：根据预先确定的原则和比例收集语料，使语料具有平衡性和系统性，能够代表某一范围内的语言事实；（4）专用的（Specialized）：只收集用于某一特定用途的语料。除此之外，按照语料的语种，语料库也可以分成单语的（Monolingual）、双语的（Bilingual）和多语的（Multilingual）。按照语料的采集单位，语料库又可以分为语篇的、语句的、短语的。双语和多语语料库按照语料的组织形式，还可以分为平行（对齐）语料库和比较语料库，前者的语料构成译文关系，多用于机器翻译、双语词典编撰等应用领域，后者将表述同样内容的不同语言文本收集到一起，多用于语言对比研究。目前已经累积了大量各种类型的语料库，如：葡萄牙语种树库、面向文本分类研究的中英文新闻分类语料库、路透社文本分类训练语料库、中文文本分类语料库、大开放字幕库OpenSubtitles的多语言平行语料数据(OpenSubtitles Corpus)、《圣经》双语语料库("Bible" bilingual corpus)、Short messages service(SMS ) corpus(短消息服务（SMS）语料)等。特征语料库有三点特征 1.语料库中存放的是在语言的实际使用中真实出现过的语言材料，因此例句库通常不应算作语料库； 2.语料库是承载语言知识的基础资源，但并不等于语言知识；

国外个主流语料库使用

1. The Complete Lexical Tutor http://www.lextutor.ca/ 参考期刊网上刘玉山，胡志军的介绍。是一个语料库中心词索引软件（concordancer）,加拿大魁北克大学Tom Cobb the University of Quebec at Montreal (UQAM), 开发三部分：learners, researchers, teachers自我学习，研究，教师命题。特别是concordance中有13个语料库为检索对象。还可以用来对学生作文中的用词分析。http://www.lextutor.ca/concordancers/concord_e.html 可以同时提供多个语料库的在线搜索，但缺点是每次只能对一个文本加工。 2.BNC 2014年开始，免费获得，通过BYU的申请。 British National Corpus 一亿词，书面语90%，口语10%，共4124篇文本，从1980到1993年的语料英国牛津出版社﹑朗文出版公司﹑钱伯斯—哈洛普出版公司﹑牛津大学计算机服务中心、兰卡斯特大学英语计算机中心以及大英图书馆等联合开发建立的大型语料库共有七类口语spoken,小说fiction，流行杂志magazine，报纸newspaper和学术期刊academic 还有COCA分类中没有的两类non-academic, miscellaneous second edition BNC World (2001) third edition BNC XML Edition (2007) extracts from regional and national newspapers, specialist periodicals and journals for all ages and interests, academic books and popular fiction, published and unpublished letters and memoranda, school and university essays, among many other kinds of text 通常可进入的那个链接是BYU, 美国杨百翰大学提供的 BYU大学在2012年对语料库经行了重新附码，用的CLAWS 7 3. COCA: the corpus of contemporary American English Brigham Young University 美国犹他州杨百翰大学 Doctor Mark Davies 3.6亿，1990-2007年间，美国国内各种语料口语spoken,小说fiction，流行杂志magazine，报纸newspaper和学术期刊academic共五类语料来源且持续更新中，每年以2000万词递增，目前到1990-2012，共4.5亿词 Display:显示方式，compare选项可以用来比较两个词的搭配区别，排列方式选择relevance 相关度标记了语料的时间，便于研究语言历时与共时的变化教学中相关用法查找同义词，如[=scold].[V*]表示查找所有scold的同义词

商务英语语料库的建设及应用初探

商务英语语料库的建设及应用初探【摘要】语料库语言学作为一门新兴的语言学分支，其影响已遍及语言学研究的各领域。将语料库的方法应用于商务英语词汇教学中，发挥其语料真实丰富、计算机程序强大的重新组织语言数据的能力，既能提高学生商务词汇学习的效率和积极性，也能提高商务英语教学质量。本文从商务英语语料库的建设及其应用价值入手，以期语料库语言学为商务英语教学带来更多成果。【关键词】商务英语语料库地方课程商务英语（Business English）是指商务场景下所应用到的英语，作为特殊目的英语（English for Specific Purpose）具有很强的专业性。商务英语跟普通英语（English for General Purpose）最大区别之一就是专业词汇的大量使用，因此，词汇教学在商务英语教学中的作用不容忽视。语料库（Corpus）是语言素材的集合体，能快速准确地提供诸如构词、搭配、语境等多方面的语料及信息。在外语学习中，语料库能够缩小课堂语言与真实语言的差距、培养学习者的语感和学习能力及研究能力，所以用语料库的方法来学习商务英语词汇既可以刺激学生的学习积极性，也可以更加准确、更加有效地掌握商务英语中专业特点较强的词汇。 1 语料库及其发展语料库可以概述为运用随机抽样的方法，收集自然出现的连续的语言，运用文本或话语片断，并按照一定的语言学原则建成的具有一定容量的语料体系。语料库的发展大致经历了三个阶段：第一代语料库以20世纪60年代的Brown Corpus以及LOB Corpus为代表，由于是语料库发展的最初时期，所以规模都比较小，这个时期的语料库只能用来考查常用语言现象的频率，无法展现语言的全貌。第二阶段以20世纪80年代的Birmingham Collection of English Language Text以及Longman/Lancaster English为代表，这一时期的语料库建设以电子语料库的兴起为主要特征，语料库的容量不断扩大，种类不断增多。第三阶段从20世纪90年代至今，是语料库建设、研究与应用的迅猛发展阶段，功能更为强大的计算机系统软件的开发与应用致使第二代超大型计算机语料库开始出现，语料库进入了发展的黄金年代。 2 商务英语词汇及其特征商务英语源于普通英语，并基于普通英语的基本语法、句法结构和词汇语，有普通英语的一些语言学特征。与此同时，作为应用在商务场合的英语，商务英语又是英语语言知识和商务专业知识的综合，因而又具有独有的专业特征。 2.1 在文体风格上，商务英语词汇属于庄重文体（frozen style）。庄重文体，即各体英语中正式程度最高的一种。这种“正式”一是为了在表达上追求准确、专业、标准化的效果，二是为了在思维上追求清晰和条理。许多商务词汇都表现出这一特性。 2.2 商务英语大量使用表意清楚的专业词汇和专业术语。专业词汇和专业术语是在专业领域用以代表部分专业知识的词汇，商务英语是英语在商务场合中的应用，内容的高度专业化势必导致专业词汇的大量使用。 2.3 商务英语具有古体特点，这种古体特点的一个主要标志是古体词语的使用。古体词是一种具有鲜明文体色彩的词汇成分，尽管古体词在现代英语口语和一般书面语中极少使用，但在商务英语文本中，古体词却大量出现，充分体现出其庄重严肃的文体风格。

双语对应语料库翻译教学平台的应用初探_王克非

语言技术与外语教学研究 *版权所有文责自负* 双语对应语料库翻译教学平台的应用初探王克非1 ,秦洪武2 ,王海霞 2 (1.北京外国语大学中国外语教育研究中心,北京 100089;2.曲阜师范大学外语学院,山东曲阜 273165) 摘要:本文通过语料呈现实验探讨双语对应语料库翻译教学平台的应用效果。实验显示,学生在观察语料后能够归纳和总结出有意义的翻译技巧,并能据此评估或反思自己的翻译行为。实验表明,在翻译课堂教学中使用语料资源有助于自主学习和发现式翻译教学环境的创建,也有助于学习者形成稳定的翻译技巧。关键词:对应语料库;翻译教学;发现式学习;语料呈现中图分类号:H 319.3 文献标识码:A 文章编号:1001-5795(2007)12-0003-0006 近20年来,语料库的创建和应用取得了长足发展。对应语料库大都在上世纪九十年代开始创建,起步较晚,但已展现出广阔的应用前景。在欧美,这类语料库有十多个,涉及近20个语种,如H ansard(法-英对应语料库)和ENPC (英语-挪威语对应语料库)(V ron is 2000:14-15);在中国,有中科院计算所的大规模汉英对应语料库、北京大学的/B ABLE 汉英平行语料库0,以及北京外国语大学的/通用汉英对应语料库0(该库现有可检索语料2千万字/词以上,见王克非2004a),后者是本项研究使用的主要工具。对应语料库的创建有两个主要目的:一是用于语言与翻译研究,二是用于外语教学。用于前者的研究成果丰富,涉及语言对比、双语词典编纂和翻译研究(Lav i o sa 1997;Baker 1999;Serpellet 2000;H unston 2002)。用于后者尤其是用于翻译教学的研究也已取得不少成果,如Zanetti n 1998、Pearson (2003:15-24)和Bernardini (2004b :97-111),但大都研究平行语料为翻译训练提供的可能的资源和手段,还没有研究探讨大型对应语料库在课堂教学中的实际应用问题。 1 研究内容有关运用语料库提高翻译效率和质量的研究还没有全面展开,而将对应语料库应用于翻译教学的研究则是刚刚开始(Bo w ker 2003;Ber nardi n i 2004b)。从理论上看,语料库用于教学有利于自主学习环境的创建(Bernardini 2004a :22;秦洪武、王克非2007)。自主性学习主要表现在两个方面:研究性学习和发现式学习(learning as discovery)。前者假定学习者和教师研究兴趣相投、研究能力相当;后者则鼓励学习者自行调节兴趣点,并给他们提供机会来提高自己观察和处理问题的能力,使他们对两种语言的特征和差异有敏锐的觉识。本文认为,研究和发现虽不矛盾,但在以技能培养为核心的翻译教学中,不宜过分强调学生的研究能力,发现式学习这一提法更合适一些。近年来,国内也有研究关注语料库在翻译教学中的应用问题。有些研究探讨了语料库在翻译教学中的用途(郭红2004;于连江2004;王克非2004b),但还没有研究系统地探讨对应语料在课堂教学中的应用方式和应用效果,也没有研究关注学生对于语料使用的态度。鉴于此,我们以/通用汉英对应语料库0为翻译教学平台,探讨在现有技术条件下翻译语料用于翻译教作者简介:王克非:男,教授,博士生导师。研究方向:语言学、翻译学。秦洪武:男,教授,博士。研究方向:语言学、翻译学。王海霞:女,讲师,硕士。研究方向:翻译学。收稿日期:2007-03-18 基金项目:本文是国家社科基金课题/基于大型英汉对应语料库的翻译研究与翻译教学平台0的阶段性成果(编号05BYY 013),并获得曲阜师范大学科研启动基金资助(编号Bsqd2007022)。 # 3#第118期2007年12月外语电化教学 C AFLE N o .118D ec . 2007

语料库建设及使用专题研修班

语料库建设及使用专题研修班时间：2014年11月8-9日地点：上海海事大学2C305（计算机实验室）主讲人：北京外国语大学中国外语教育中心梁茂成李文中许家金一、基本概念 1.为什么欧洲对语料库语言学会有如此大的兴趣呢？在美国占统治地位的 Chomsky语言学的研究焦点是句法，它感兴趣的是哪些句子是可能的（What is possible?），追求的是语言理论的“解释力”，例如Colorless green ideas sleep furiously、The rat the cat the dog chased ate died都是可能的，但语料库语言学对此却没有兴趣。因为实际上没有人会这样说。语料库语言学感兴趣的是哪些语言现象在实际使用上是很有可能的（What is probable?），这和统计学中的概率有关，不是可否的问题，而是多少的问题，也就是语言的使用问题。 2.一个小型文本集并不是真正意义上的语料库。真正意义上的语料库是一个按照一定的采样标准采集而来的、能够代表一种语言或者某语言的一种变体或文类的电子文本集。可以说，一个语料库由若干个电子文本构成，而这些电子文本作为一个整体可以代表某语言或者某语言的某种变体或文类。语料库语言学以大量精心采集而来的真实文本（authentic texts）为研究素材，主要通过概率统计的方法得出结论，因此语料库语言学从本质上讲是实证性的（empirical）。 3.文本：文本可以保存生（raw）语料，即未经任何标注的语料，称为生文本（raw text）。文本中也可以保存经过人工或自动标注的语料，这种文本称为标注文本（annotated text）。文本中的标注信息可以标示语料的来源、文本的内部结构、文本中的语言单位等多种语言信息和非语言信息。 4.经人工或自动处理后，原来的生文本获得了“增值”（Leech 1991），文本中所包