文档库 最新最全的文档下载
当前位置:文档库 › 构建大规模的汉语语块库

构建大规模的汉语语块库

构建大规模的汉语语块库
构建大规模的汉语语块库

构建大规模的汉语语块库

周强詹卫东任海波

清华大学计算机系

智能技术与系统国家重点实验室

北京100084

zhouq@https://www.wendangku.net/doc/2517122830.html, 北京大学中文系

北京100871

zwd@https://www.wendangku.net/doc/2517122830.html,

上海师范大学

国际文化交流学院

上海200234

renhb@https://www.wendangku.net/doc/2517122830.html,

摘要:本文介绍了构建200万字的汉语语块库的主要工作,包括设计语块标注体系、总结语块标注规范和协调语块加工流程等,分析了我们的标注体系与英语的CONLL-2000语块任务的主要差异,并提出了对现有标注体系的进一步理论思考和在现有语块库上的一些应用设想。

关键词:语块,语块库,语料库标注

Build a large scale Chinese Functional Chunk Bank

ZHOU Qiang ZHANG Weidong REN Haibo

State Key Laboratory of Intelligent

Technology and Systems, Dept. of Computer Science, Tsinghua.University

Beijing 100084

Department of Chinese

Language & Literature

Peking University, Beijing,

100871

International Cultural Exchange

College

Shanghai Teachers University

Shanghai 200234

ABSTRACT: In this paper, we firstly introduce some essential issues in the construction of a chunk bank with 2,000,000 Chinese characters, including functional chunk annotation schema, tagging specification and processing procedure. Then, we analyze the main difference of our annotation schema with CONLL-2000 shared chunking task, and propose some further theoretical thoughts of the current annotation schema and some application tentative based on the current chunk bank.

KEYWORDS: Functional chunk, chunk bank, corpus annotating

1 引言

构建大规模标注语料库是语料库语言学发展的重要基础。在英语方面,百万词次规模的词性标注语料库——Brown语料库的建成,直接促使了基于统计的词性标注模型和自动标注算法的提出和完善。大规模的句法树标注语料库——Penn树库的建立,则为许多基于统计的自动句法分析模型提供了统一的训练和测试平台。近几年来,随着部分分析技术的不断发展和应用范围的不断扩大,对处于中间层次的语块(chunk)标注语料库的开发也越来越受到重视,出现了一些较大规模的语块标注语料库,如CONLL-2000的语块库[1]等。

在汉语方面,经过近几年的研究,已经建立了几个较大规模的切分和词性标注语料库,包括清华大学的200万字的平衡语料库和北京大学与富士通合作开发的人民日报语料库。在树库构建方面,也已取得一些成果,包括清华大学的汉语测试树库[2]、美国宾州大学的UPenn树库[3]和台湾中研院的树库项目[4]。但对语块标注和部分分析的研究还比较少。

本文介绍了我们在汉语语块标注体系设计和大规模语块库构建方面进行的一些初步探索。下面的第2节比较详细地介绍了我们的语块描述体系。第3节介绍了我们的语块库构建工作。第4节进一步分析了语块与论元结构的关系以及语块与韵律结构的关系等。最后的第5节展望了在现有的语块库上可以进一步进行的一些句法分析和知识获取研究设想。

2 语块描述体系

Abney(1991)最早提出了一个完整的语块描述体系[5]。他把语块定义为句子中一组相邻的属于同一个s-投射(s-projection )的词语的集合,建立了语块与管辖约束(GB )理论的X-bar 系统的内在联系,从而奠定了这个语块描述体系的比较坚实的理论基础。在此前后,一些应用系统的研究重点则主要集中在名词短语的识别上,其中包括基本名词短语(BaseNP )([6], [7])和最长名词短语(MNP )([8], [9])。在其他语块或基本短语方面的研究则比较少。最近比较完整的工作是Buchholz & al.(1999)。他们探索了NP, VP, PP 和ADJP 等基本短语的自动识别方法。另外,Veenstra(1999)也识别了NP, VP 和PP 块。他们的研究为CONLL-2000提出的语块共享研究计划打下了基础。

去年举行的自然语言学习国际会议(CONLL-2000)提出的语块共享任务(Chunking Shared Task )旨在开发出一个大规模的英语语块库,为基于统计的不同部分分析方法的探索提供统一的训练和测试库。他们采用了Abney 的语块描述框架,并对一些语块进行了分解和细化语料则取自Penn 树库的华尔街日报(WSJ )部分。利用自动程序将分析树标注文本直接映射成不相交、无嵌套的语块标注文本,并保留了原来的大部分句法成分标记。目前抽取的语料规模约为30万词,平均每个语块包含2个词。表 2 列出了其中最常见的几个语块的信息描述,有关的详细资料可参阅[1]。

我们从2000年3月起,开始进行大规模汉语语料库的语块标注研究。最初的设想是通过语块划分和标注,描述一个句子的基本结构骨架,从而为进一步构建汉语树库,进行深层的句法分析和知识获取打下基础。遵循以下两条原则:

z 穷尽性——在完成语块标注的句子中,任何一个词都必须无遗漏地进入某个语块。 z 线性——在完成语块标注的句子中,全部语块将形成一个线性序列,即没有嵌套。 我们设计了包含8个标记的语块标记集(详见表 1)。下面是一个具体标注实例:

[D 自/p 古/t 以来/f ,/,[S 人类/n [D 就/d [P 重视/v [O 档案/n 的/u 保存/vN 和/c 利用/vN ,/,[P 设置/v [O 馆库/n 、/、[P 选派/v [O 专人/n [P 进行/v [O 管理/v 。/。 从语块描述内容上看,两个语块库的差异还是很明显的。CONLL 的语块强调对局部的句法相关词语的描述,侧重于从底向上地把句子分隔成不同的基本短语;我们的语块则强调对句子整体功能块的描述,侧重于自顶向下地描述句子的基本骨架。这种差别使得CONLL 的语块一般比较简单,平均每个块只包含1-2个词语,而我们的语块则比较复杂,有的语块甚至包含10-20个词语。但两者具有很好的信息互补性。在适当的条件下,将两者的描述信息进行合并,形成分层次的语块描述体系,并构建相应的语块库,将是很有意义的研究课题。

表 1 我们的语块标记集 语块标记语块描述 S 主语短语 P 述语短语 O 宾语语块 J 兼语语块 D 状语语块 C 补语语块 T 独立语块 Y 语气块 表 2 CONLL-2000的常见语块描述

语块标记

语块描述 NP

名词短语 VP

动词短语 PP 介词短语(大部分情况下只包含一

个介词)

ADVP 副词短语

SBAR 小句(subordinated clause )(大部

分情况下只包含一个从属连词)

ADJP 形容词短语

3 语块库构建

3.1 基础语料库 我们的语块加工对象是清华大学的200万汉字的平衡语料库(ThCorp )。它的主要语料来源是90年代的现代汉语书面语以及准口语(包括剧本、谈话录、演讲录等)的真实文本,按文体分为文学、新闻、学术、应用四

类。经过自动切词、词性标注和

人工校对,已经形成了准确度很高的切分和词性标注精加工文本,为进一步进行语块信息标注打下了很好的基础。表 3 列出了ThCorp 的一些基本统计数据,其中‘词项数’包括汉语词和标点符号,‘汉字数’包括汉字和汉字标点。

3.2 语块标注规范

大规模语料库的标注是一个庞大的语言工程项目,需要投入大量的人力和物力。因此,预先制定一部比较完善的语料标注规范,对保证标注结果的规范性和一致性将起到重要作用。但真实文本中涉及到的语言现象又是非常复杂的,不可能通过一部规范就能完全包括。因此,比较好的处理思路是在标注过程中不断发现新问题,对现有规范进行补充和修订,使之能更好地符合新的语言事实。经过不断摸索,我们已初步形成了一套比较完善的汉语语块标注规范,基本上覆盖了目前语料库中遇到的各种语言现象。有关的详细资料,可参阅[12]。

3.3 语块加工流程

目前的所有语块信息都是由人工标注的。利用WORD 编辑器中的宏命令定义不同的快捷键,可以做到每个语块通过一键输入,大大提高了标注效率。初步统计显示,最初的标注速度约为每小时处理1200个词。随着对标注规范和加工过程的不断熟悉,标注速度不断提高,1至2月后基本上可以达到每小时处理2400个词。

为了保证标注结果的质量,我们设计了两级检查机制。首先,依据语块标注规范,开发自动检查程序,发现大部分不合规范的标注语块,提供标注者进一步确认或修改。这个过程重复数次后,可以大大减少标注“硬伤”。然后,对标注结果进行随机抽样检查,发现并改正遗留的标注错误,直至最终标注质量达到要求为止。

3.4 语块库基本统计

表 4 列出了现有语块库的基本统计数据,包括不同语块总数及语块中的词语分布。表 5 进一步计算了具有不同数目的词语的语块的分布特征,以5为界分为4个区间:1) 词数<5, 2) 5<=词数<10, 3) 10<=词数<15, 4) 15<=词数。从中可以看出不同语块的分布特点:

z 语气块定义为句尾的一个或多个语气词。由于汉语里多个语气词连用的情况很少,

因此其平均词长最小,为1.01。

表 3 ThCorp 切分和词性标注语料库的基本统计数据 文体 文件数句子数词项数 汉字数 学术 29 9846 273017 447288 新闻 376 16921 427649 674566 应用 258 4302 88452 144027 文学 295 38258 740445 1018839 合计 958 69327 1529563 2284720

z 汉语句子的述语块大多由谓词性成分充当,在我们的标注规范中对它们进行了严

格规定,其词语数都不超过5个。这些分布特点在两个表中都有很好的体现(词数<5的语块占99%以上,平均词长为1.31)。

z 状语块和补语块的平均词长约为2,90%以上的语块中的词数都小于5,表明汉语

真实文本中复杂状语和补语出现的频度不是很高。由于它们一般都有明显的边界标志(介词、方位词、助词‘地’、助词‘得’等),因此自动识别难度不太大。 z 兼语块、主语块和宾语块得平均词长较大,特别是宾语块更达到4.13。主要原因

是其中往往包含了复杂的定语。它们是自动识别的难点所在。

z 在我们的标注体系中,独立语块的内容比较杂,包括句子中的插入语、应答语、

呼语、同位性插入成分、句中的补充说明部分(一般在括号内)、句首的序号等,因此分布比较特殊。如何对其中的不同情况进行分化处理,将是以后的一个研究课题。

表 4 不同语块的词语分布统计 语块类别

语块总数 词语总数 平均词长 主语

99121 251041 2.53 述语

179605 236104 1.31 宾语

109362 452211 4.13 兼语

5715 12338 2.16 状语

156000 321254 2.06 补语

3113 6431 2.07 独立

5649 14414 2.55 语气

12111 12225 1.01 合计 570676 1306018 2.29

表 5 具有不同长度词语的语块的分布统计 语块

类别

语块 总数 词数 [0,5) 比率(%) 词数 [5,10)比率(%) 词数 [10,15)比率(%) 词数 [15,∞) 比率(%) 主语

99121 85208 85.96 1102311.121939 1.96 951 0.96 述语

179605 178545 99.41 862 0.48 144 0.08 54 0.03 宾语

109362 75745 69.26 2456922.475888 5.38 3160 2.89 兼语

5715 5134 89.83 482 8.43 70 1.22 29 0.51 状语

156000 141060 90.42 118637.60 2151 1.38 926 0.60 补语

3113 2857 91.78 219 7.04 31 1.00 6 0.19 独立

5649 4984 88.23 388 6.87 136 2.41 141 2.49 语气

12111 12111 100.000 0.00 0 0.00 0 0.00 合计 570676 505644 88.60 494068.66 10359 1.82 5267 0.92 4 语块标注的进一步思考

语法分析的主要内容是语句的结构问题,需要弄清整体中各组成部分之间的关系。语法分析包括以下两个步骤:1)切分分析,即如何把一个语言结构体,如句子、短语等切分为若干组成成分;2)关系分析,即如何分析、整理各成分之间的关系。无论是切分分析还

是关系分析,都有许许多多的可能性供我们选择。我们目前进行的语块标注探索,就是希

望从中选出一种客观上能较好地反映语言结构的本质,主观上又比较容易被人理解和掌握

的句子结构分析和描述方法。从目前的大规模语块库构建实践看,基本上达到了预期目标。

在此基础上,我们希望进一步探索语块与论元结构(argument structure)和韵律结构(prosodic structure)之间的内在联系,从而以语块描述体系作为出发点,建立汉语的句法、语义、语音分析的紧密结合体。

论元结构是指词项及其所属的子语类所构成的介于词汇语义和句法之间的一种结构关

系,通常在文献中讨论最多的是作述语的动词和论元之间的结构关系。Alsina(1996)对上述

结构关系进行概括和抽象[13],并与词汇功能语法(LFG)[14]中的功能结构(f-structure)

和成分结构(c-structure)相结合,形成了图 1 所示的结构关系图。每个不同的结构层次

通过对应原则(correspondence principles)建立联

我们目前语块描述的信息基本上相当于图 1

中的功能结构层次。这样,如果能从现有语块库

出发,深入分析不同功能语块与句子核心谓词的

论元之间的对应关系,就有可能在从句法到语义

的分析过程中大大前进一步,从而为进一步进行

基于句子(或段落、篇章)的语义分析和知识推

理打下很好的基础。

自然语音中的韵律结构是包含有不同韵律信

息的层次结构,主要包括:1)韵律词一级的韵律

信息,如多音字、变调、词重音等;2)短语语音

间隔;3)句子重音等。它们的正确识别对提高文

语转换系统的性能有重要作用。Abney(1992)的研

究结果表明,他所定义的语块与英语韵律结构的

φ-短语之间可以建立了很好的一一对应关系[15]。

而我们的语块划分由于从句法功能出发,可能与

一般的韵律描述有较大差异。但许多研究成果也显示出,韵律结构和句法功能之间有千丝

万缕的联系。因此,按照韵律结构分布特点,对现有语块库进行适当改造,合并较小的功

能块,分解较大的功能块,可望形成与韵律结构分布基本一致的韵律语块库,从而为基于

统计的韵律结构自动识别模型,提供大量有用的训练数据。

5 结语

利用人工标注和机器检查相结合的方法,在现有的切分和词性标注语料库的基础上,

我们加工完成了200万字规模的汉语语块库。本文简要介绍了在这一过程中的一些初步研

究成果,包括汉语功能语块标注体系和经过不断完善的语块标注规范。并通过与英语的CONLL-2000共享语块任务的比较,突出了我们工作的特色所在。目前,我们正在此语块库上进行一些新的句法分析和知识获取探索:

z汉语语块的自动识别:利用机器学习技术,提取有用的识别特征,训练形成有效的语块自动识别模型。

z动词搭配知识的自动发现:利用语块标注信息,自动学习有用的知识,形成高效的汉语动词语法搭配和词汇搭配自动发现工具。

z基于语块描述的句法分析器:利用句法分析器,从语块标注串出发,向下分析复

杂语块的内部结构,向上形成句子的整体结构,完成对句子的完整层次结构分析。

这些工作继续贯彻了我们最初制定的“标注语料库、自动分析器和语言知识自动发现工具三位一体,同步发展,相互促进,共同提高”的总体研究思路。随着研究工作的不断深入,希望能逐步建立起基于大规模真实文本语料库的汉语句法语义计算平台。这将是我们的长期研究目标。

6 致谢

黄昌宁教授最初提出了语块标注的设想,并亲自标注了大量真实文本例句,积累了宝贵的经验。靳光谨博士和周明博士对语块标注规范提出了许多建设性意见。下列同学参加了语块库的人工标注和校对工作:清华大学的祝安顺、杨晓明、黄光斌、罗萍、刘淑菊,北京大学的姚静仪、孟贵贤、崔玉珍、黄晖菁、宋作彦、陈园媛、姜南、杜轶、王皓冰、曾汀燕,上海师范大学的王爱红、由丽萍、许娟、祁峰、吴凌云和唐正大。这里一并表示感谢。本项研究得到国家自然科学基金(项目号:69903007)、国家973基金(项目号:G1998030507-2)和清华大学骨干教师基金资助。

参考文献

[1] Erik F. Tjong Kim Sang and Sabine Buchholz. (2000). “Introduction to CoNLL-200 Shared Task: Chunking”.

Proceedings of CoNLL-2000 and LLL-2000. Lisbon, Portugal. 127-132.

[2] Qiang Zhou, Maosong Sun. (1999). “Build a Chinese Treebank as the test suite for Chinese parser”,

Proceedings of the workshop MAL’99(Multi-lingual Information Processing and Asian Language Processing), Beijing, China. p32-36.

[3] Xia, Fei, Martha Palmer, & al. (2000) “Developing Guidelines and Ensuring Consistency for Chinese Text

Annotation”. In Proceedings of the second International Conference on Language Resources and Evaluation (LREC-2000), Athens, Greece.

[4] Chu-Ren Huang, Feng-Yi Chen, Keh-Jiann Chen, & al.(2000). “Sinica Treebank: Design Criteria, Annotation

Guidelines, and On-line Interface”, Proceedings of the Second Chinese Language Processing Workshop, HongKong. 29-37.

[5] Steven Abney(1991). “Parsing by Chunks”, In Robert Berwick, Steven Abney and Carol Tenny (eds.)

Principle-Based Parsing, Kluwer Academic Publishers.

[6] Kenneth Church(1988). “A Stochastic Parts Program and Noun Phrase Parser for Unrestricted Text.” In:

Proceedings of Second Conference on Applied Natural Language Processing, Austin, Texas, 136-143.

[7] Lance A. Ramshaw and Mitchell P. Marcus. (1995). “Text chunking using transformation-based learning”, In

Proceedings of Third ACL Workshop on Very Large Corpora, Association for Computational Linguistics. [8] 李文捷,周明等(1995).“基于语料库的中文最长名词短语的自动提取”,陈力为、袁琦主编,《计算

语言学进展与应用》,北京:清华大学出版社,119-124.

[9] 周强,孙茂松, 黄昌宁 (2000). “汉语最长名词短语的自动识别”,《软件学报》 11(2), 195-201.

[10] Sabine Buchholz, Jorn Veenstra and Walter Daelemans (1999). “Cascaded grammatical relation assignment”,

In Proceedings of EMNLP/VLC-99, Association for Computational Linguistics.

[11] Jorn Veenstra (1999). “Memory-based text chunking”, In Nikos Fakotakis (ed.) Machine Learing in human

language technology. workshop at ACAL 99.

[12] “汉语句子的语块标注规范”,清华大学计算机系智能技术与系统国家重点实验室,技术资料,2000

年6月。

[13] Alex Alsina (1996). The Role of Argument Structure in Grammar: Evidence from Romance. CSLI Lecture

Notes No. 62, CSLI Publications: Stanford, California, USA.

[14] Ronald Kaplan and Joan Bresnan (1982). “Lexical-Functional Grammar: A Formal System of

Representation”, In Joan Bresnan (ed.) The Mental Representation of Grammatical Relations. 173-281. MIT Press, Cambridge, Mass.

[15] Steven Abney(1992). “Prosodic Structure, Performance Structure and Phrase Structure”, Proceedings of

Speech and Natural Language Workshop, pp. 425-428. Morgan Kaufmann Publishers, San Mateo, CA.

语料库研究的优势及问题的理论解析

语料库语言学的理论解析 摘要:本文试图剖析有关语料库语言学的几个理论问题,以期揭示语料库语言学的本质。第一:语料库语言学是不是独立的新兴学科?第二:语料库提供的数据到底可以给语言学家带来什么?第三:语料库语言学的真正任务是什么,它应该成为怎样一项研究?回答好这几个问题实际上也就回答了语料库语言学的性质和理论地位,以及这项研究向何处去的问题。这将有助于我们更好地从事基于语料库的语言研究和实践。 关键词:语料库语言学;基于语料库的研究方法;理论架构;语料库数据;发展前景 Abstract: This paper attempts to answer some theoretical questions of corpus-based language studies. Three theoretical considerations are addressed to capture the nature of corpus linguistics. 1) Is Corpus Linguistics an independent branch under the umbrella of linguistics? 2) What can corpus data offer to linguists? and 3) What kind of research that Corpus Linguistics should be? Answers to the three theoretical questions will conduce to a fuller understanding of the nature of corpus-based language studies and their development. Key words: Corpus linguistics; corpus-based approach; theoretical construct; corpus data; future directions 1.0 导言 目前利用语料库从事研究的学者主要有两类。一类是计算语言学家。他们主要从事自然语言处理(NLP)的研究,诸如语音合成、语音识别和机器翻译等等。他们的终极目标并非要揭示语言的本质,而是注重技术层面的研究,比方如何改进算法,如何完善词库的建设以实现技术上的突破。另一类就是语言学家,他们则希望借助这一强大的工具去揭示语言的本质这一学科目标,这正是本文所要关注的。 本文缘起于语言研究者中的一种争论,即“语料库语言学”是否配得上这个名称,它是一种新兴的理论视角还是“暴发户造谱牒”?而本文要探讨的正是有关于语料库语言学研究的理论意义。或者说,语言学家从语料库所提供的信息中到底可以获得什么?这是本文试图解决的核心问题。语料库建设、开发和利用在国内外语言学界日渐兴起,在国内也有相当数量介绍性和综述性文献涌现,为语料库语言学在我国的发展奠定了一定的理论基础。此外,一些语言学者和语言教师(包括外语教师和对外汉语教师)也设计、建立了一些自己的语料库以服务于教学科研。 然而真正对语料库的理论问题进行深入探讨的著述却为数不多。本文将试图剖析语料库语言学的几个理论问题,以期对语料库语言学的优势和不足有进一步的认识。第一:语料库语言学是不是独立的新兴学科?第二:语料库提供的数据到底可以给语言学家带来什么?第三:语料库语言学的真正任务是什么,它应该成为怎样一项研究?回答好这几个问题实际上也就回答了语料库语言学的性质和理论地位,以及这项研究向何处去的问题。这将有助于我们更好地从事基于语料库的语言研究和实践。 2.0 语料库语言学是不是独立的新兴学科? 2.1 语料库语言学是一种理论架构 完全赞成语料库语言学是一种理论架构的几乎没有。只是某些学者比较强调语料库语言学的理论意义。比如,Halliday(1991;1992;1993)指出,语料库语言学作为一种理论架构(theoretical construct),将语料收集和理论概括统一了起来,从而使我们对语言的理解产生一种质变。这种新的理论架构有助于考察同时作为系统和实例(instance)的语言的本质。因为在Halliday的语言学思想当中,实际话语是语言系统的实例再现(instantiation)。而语言系统,或者说是语法体系是一种统计概率上(probabilistic)的自然结果。这一思想与所谓

现代汉语答案及试卷

现代汉语试题及答案

3.不及物动词都不能带宾语。() 4.说话和写作中积极调整语言的行动属于修辞活动。() 5.连动短语也可以由动词和形容词构成。() 6.好的修辞可以创造适合的语言环境。() 7.联合复句呈雁行式排列,顺承复句呈鱼贯式排列。() 8.“上得来”中的“得”是补语的标志。() 9.修辞充分利用语言的审美价值来满足人们的美感需求,审美原则是修辞的基本原则。()10.“她未必知道她的悲哀经大家咀嚼赏鉴了许多天,早已成为渣滓,只值得烦厌和唾弃;但从人们的笑影上,也仿佛觉得这又冷又尖,自己再也没有开口的必要了。”这一复句中共有4个分句。() 11.定语中心语有时可以由动词和形容词充当。() 12.“今天路上死了两条狗。”属于存现句。() 13.根据前后分句意思相反、相对程度的强弱,转折关系分重转和轻转两类。() 14.同印欧语相比,汉语缺少严格意义的形态变化。() 15.长句化短的办法只有一种,那就是把其中的修饰成分抽出来。() 16.大部分副词都可以充当补语。() 17.“作为精神食粮,散文是谷类,作为战斗武器,散文是步枪,我们生活里常用散文.在文艺园地里,散文也应当是万紫千红中繁茂的花枝。”这个句子的辞格是借代。() 18.主谓短语充当谓语时,这个主谓短语的谓语同时也是整个句子谓语。() 19.“谢惠敏的两撇眉毛险些飞出脑门,她瞪圆了双眼望着张老师。”的辞格是夸张。()20.关联词语“不是……而是”表示的是选择关系。() 三、选择题(共20题,每题1分,共20分) 1.“我就不明白你怎么连什么也没学会。”中的“什么”表示的是() A、表疑问的代词 B、表示任指的代词

现代汉语试题及答案

作业 1.(单选题) 下列各组字,都是形声字的一组是( )(本题 2.0分) A、條倍脩休 B、特牧福祈 C、盆簋益孟 D、颖颍顿颈 学生答案:A 标准答案:A 解析: 得分:2 2.(单选题) 下列各组字属于通假字的一组是( )(本题2.0分) A、说——悦 B、矜——鳏 C、歌——謌 D、昏——婚 学生答案:B 标准答案:D 解析: 得分:0 3.(单选题) 下列各组字属于异体字的一组是( )(本题2.0分) A、遁——遯 B、脩——修 C、辟——避 D、罢——疲 学生答案:A 标准答案:A 解析: 得分:2 4.(单选题) 下列句子,有疑问代词做介词宾语而前置的一句是( )(本题2.0分) A、姜氏何厌之有? B、敢问何谓也? C、谁为为之?孰令听之? D、四体不勤,五谷不分,孰为夫子? 学生答案:C 标准答案:C 解析: 得分:2 5.(单选题) 下列句子,具有动词用作使动用法的一句是( )(本题2.0分) A、诸侯之币重,郑人病之。 B、上帝临女,无贰尔心。 C、若阙地及泉,隧而相见,其谁曰不然? D、故远人不服,则修文德以来之。

标准答案:D 解析: 得分:2 6.(单选题) 下列句子,具有名词活用为一般动词的一句是( )(本题2.0分) A、老者安之,朋友信之,少者怀之。 B、从左右,皆肘之。 C、乃幽武,置大窖,绝不饮食。 D、使民重死而不远徙。 学生答案:B 标准答案:A 解析: 得分:0 7.(单选题) 下列句子,属于双宾语句的一句是( )(本题2.0分) A、止子路宿,杀鸡为黍而食之。 B、今不取,后世必为子孙忧。 C、君子疾夫舍曰欲之而必为之辞。 D、盍各言尔志? 学生答案:C 标准答案:B 解析: 得分:0 8.(单选题) 下列句子,“于”为介词引进行为主动者的一句是( )(本题2.0分) A、小子识之,苛政猛于虎也。 B、卻克伤于矢,流血及屦。 C、克于先大夫,无能为役。 D、百里奚举于市。 学生答案:B 标准答案:B 解析: 得分:2 9.(单选题) 下列句子为判断句的一句是( )(本题2.0分) A、颍考叔为颍谷封人。 B、是非君子之言也。 C、如今人方为刀俎,我为鱼肉。 D、四体不勤,五谷不分,孰为夫子? 学生答案:B 标准答案:D 解析: 得分:0 10.(单选题) 下列句子,属于名词用作状语表示工具的一句是( )(本题2.0分) A、惠等哭,舆归营。 B、顺流而东行,至于北海。 C、假舟楫者,非能水也,而绝江河。 D、君为我呼入,吾将兄事之。 学生答案:A

哪里有可以免费使用的大型英语语料库资源-外语教学与研究出版社

语料库相关资源 David Lee语料库研究书签 Bookmarks for Corpus-based Linguists (David Lee) https://www.wendangku.net/doc/2517122830.html,.au/~dlee/CBLLinks.htm (https://www.wendangku.net/doc/2517122830.html,/corpora) 常用语料库资源链接汇集(语料天涯) https://www.wendangku.net/doc/2517122830.html,/corpus/ 互动平台 https://www.wendangku.net/doc/2517122830.html,/forum/ 入门读物 专著 梁茂成、李文中、许家金,2010,《语料库应用教程》。北京:外语教学与研究出版社。Hunston, Susan. 2002. Corpora in Applied Linguistics. Cambridge: Cambridge. University Press. (世界图书出版社引进) Kennedy, Graeme. 1998. An Introduction to Corpus Linguistics. London: Longman. (外研社引进) 期刊论文 中国期刊网 EBSCO英文期刊数据库 书店可以买到的语料库相关书籍 Aijmer, K. & B. Altenberg (Eds.). 2004. Advances in Corpus Linguistics. Papers from the 23rd International Conference on English Language Research on Computerized Corpora (ICAME 23). Amsterdam: Rodopi. (世界图书出版社引进) Austermühl, F. 2001. Electronic Tools for Translators《译者的电子工具》. Manchester: St. Jerome Publishing. (外研社引进) Biber, Douglas, Stig Johansson, Geoffrey Leech, Susan Conrad & Edward Finegan. 1999. Longman Grammar of Spoken and Written English. Longman Publications Group. (外研社引进) Biber, Douglas, Susan Conrad & Randi Reppen. 1998. Corpus Linguistics. Cambridge: Cambridge University Press. (外研社引进) Connor, U & T. Upton (Eds.). 2004. Applied Corpus Linguistics: A Multidimensional Perspective. Amsterdam: Rodopi. (世界图书出版社引进)

国内语料库翻译学20年述评_1993_2012_宋庆伟(DOC)

上海翻译Shanghai Journal of Translators2013 No. 2 国内语料库翻译学20年述评( 1993—2012) 宋庆伟匡华吴建平( 厦门大学外文学院,福建厦门 361005;济南大学外国语学院,山东济南 250022) ( 山东大学外国语学院,山东济南250061) ( 厦门大学外文学院,福建厦门361005) [摘要]本文以中国知网( CNKI) 1993-2012年外语核心期刊中关于语料库翻译学的学术论文为样本,从翻译语言特征、译者风格和应用研究等六个方面对国内近20年语料库翻译学的发展历史进行钩沉,梳理其主要研究脉络和现状,总结语料库翻译学研究的成就、问题与趋势,以期能为该领域研究提供全景式的概况。作者认为,当前研究还存在诸如研究内容与视角比较狭窄,跨学科性研究不足,定量研究层次不高和语料库( 特别是口译语料库) 建设和研究相对滞后等问 题,亟待有针对性的改进与完善。 [关键词]语料库翻译学; 翻译共性; 译者风格; 口译 [中图分类号]H059 [文献标识码] A [文章编号]1672-9358( 2013) 02-0025-06 1 引言到翻译研究当中,使语料库翻译研究迅速发展,逐步 近几年,语料库翻译学随着语料库语言学和描成为描述翻译研究中的一种新范式( Laviosa,1998: 写翻译理论的发展和融合迅速成长起来。从发展历474; 2002: 22)。基于语料库的研究为翻译学提供程来看,她还非常年轻,从1993年Mona Baker发表了新的方法和思路,现在学界形成的共识是利用语语料库翻译学的开山之作《语料库语言学与翻译研料库进行翻译研究是一种不可或缺且可靠的手段。究: 启示和应用》至2012年,刚刚走过了短短的20 从一定程度上来讲,语料库翻译学即语料库语言学年。国内语料库翻译研究几乎与国外同步,肇始于和描写性翻译研究的相加,二者的结合可以说是相1993 年,代表作为杨惠中《语料库语言学与机器翻得益彰,在当今翻译研究注重描写和实证的趋势下,译》一文。如今,国内语料库翻译研究已初具规模,语料库翻译学应运而生。语料库翻译学以翻译本体在翻译共性、译者风格和语料库建设等诸方面都取为研究对象,从大规模翻译文本或翻译语言整体入得了可喜的进步,Tymoczko( 1998: 652) 曾大胆预言手,采用语内对比与语际对比相结合的模式,对翻译基于语料库的翻译研究将是翻译研究的重中之重。现象进行描写和解释,探索翻译的本质。( 王克非、近20年,特别是近几年涌现出一大批语料库翻译学黄立波,2008: 9-14) 的专著和论文,国家社科基金和教育部人文社科基 金对该领域的研究也进行了倾斜。鉴于此,笔者认 3 数据采集 为极有必要对其发展脉络进行梳理和分析,以期为近几年,国内基于语料库的翻译研究发展迅速,今后的研究提供借鉴和参考。本文以中国知网研究的深度和广度也不断拓展,发表文章数量逐年( CNKI) 近20年来外语核心期刊中收录的有关语料增加。为了更好地说明这种趋势,笔者统计了近20 库翻译学的学术论文为基础,借以梳理其研究现状、年( 1993-2012) 中国知网收录的外语核心期刊中关分析成就和问题并展望发展趋势。于语料库翻译学的文章,该统计涉及2012-2013年 版CSSCI外语类来源期刊( 包括扩展版) 共15种,2 语料库翻译学基本原理收集有关文章共97篇,具体数据如下表所示: Mona Baker( 1993)开创性地把语料库方法应用 [基金项目]本文是上海市科委课题“英汉双语平行句对应语料库建设”( 编号: 08dz1501100) 的阶段性成果。论文在写作过程中,得到秦洪武 教授的悉心指点,谨致谢忱! [收稿日期]2013-02-20 [作者简介]宋庆伟,厦门大学博士生,济南大学外国语学院讲师,研究方向: 语料库翻译学、双语词典编纂与翻译; 匡华,山东大学外 国语学院讲师,研究方向: 语料库语言学与英语教学; 吴建平,厦门大学外文学院教授,博士生导师,研究方向: 翻译学与双语词典学。

现代汉语完整版试题及答案

现代汉语试题 课程代码:00535 第一部分选择题 一、单项选择题(本大题共20小题,每小题1分,共20分)在每小题列出的四个选项中只有一个选项是符合题目要求的,请将正确选项前的字母填在题后的括号内。 1.下列方言中属于非官话区方言的是( ) A.南京话 B.兰州话 C.南昌话 D.昆明话 2.属于舌面音的声母是( ) A.dtnl B.zcs C.bdg D.jqx 3.声韵相同调不同的一组字是( ) A.悔—诲 B.包—褒 C.绩—寂 D.袭—媳 4.下列各项中,“处”都读作“chù”的是( ) A.处分、设身处地 B.处方、泰然处之 C.处所、绝处逢生 D.处理、养尊处优 5.下列汉字中,由四个音素组成的音节是( ) A.端 B.有 C.扬 D.远 6.汉语拼音全都正确的一组是( ) A.诗人sīrén私人sìrén B.主力zhǔlì阻力zhǔlì C.商业shāngyè桑叶sāng yè D.女客nǔkè旅客lǚkè 7.从形音义的关系上看,“朝”这个字属于( ) A.一形多音一义 B.一形多音多义 C.多形一音义 D.多形一音多义 8.“姨”字的笔画共有( ) 画画画画 9.下列各组中,每个成员都带有定位语素的是( ) A.舌头、对头、想头 B.老鼠、老爷、老家 C.变化、西化、简化 D.健儿、孩子、女儿 10.下列各组中,每个成员都与合成词“理事”的结构方式相同的是( ) A.革新、平反、凝目 B.伤心、防范、走路 C.革命、突破、齐心 D.埋头、起草、隔行 11.下列各组中,属于同音词的一组是( ) A.仪表(他的仪表端庄)—仪表(机器的仪表坏了) B.工作(他找到工作了)—工作(他正在工作) C.关节(腕关节)—关节(找人打通关节) D.问题(老师提出问题)—问题(设计遇到了问题) 12.下列各组成语中,加点的词读音相同的是( ) A.秦晋之好、好为人师 B.自怨自艾、方兴未艾 C.度德量力、度日如年 D.一知半解、庖丁解牛 13.下列各组动词中,不能带宾语的是( ) A.游行、结婚、示威 B.害怕、明白、喜欢 C.知道、觉得、感到 D.进来、出去、离开 14.下列各项中都属于副词的是( )

现代汉语试题库(含答案)

现代汉语试题库 第一章绪论 一、名词解释: 1.现代汉语 2.现代汉语规范化 3.文学语言 4.方言 5.基础方言 二、填空题: 1.“现代汉语”通常有两种解释,狭义的解释指的是现代汉民族共同语——,广义的解释还兼指现代汉民族使用的和。 2.汉语做为一种语言,具有一切语言共有的性质。即从结构上说,它是一种;从功能上说,它是。 3.现代汉语民族共同语又叫,它是以为,以 为,以为的。 6.现代汉民族共同语是在的基础上形成的。在形成过程中,有着特殊的地位。 7.汉语方言可以分为七大方言区,、、、、、和。 8.现代汉语的特点:语音方面(1)(2)(3);词汇方面(1)(2)(3);语法方面(1)(2)(3)(4)。 10.现代汉语规范化的标准是:语音方面以为,词汇方面以 为,语法方面以为 三、判断题:(在题后括号里用“√”表示正确,用“×”表示不正确) 1.普通话就是过去所说的“白话”或“官话”。() 2.某种语言的书面形式是它的口语发展的必然产物。() 3.文学语言是经过加工、规范的书面语。() 4.口语和书面语在表达形式上是完全一样的。() 5.北方方言区指长江以北的汉民族居住地区。() 6.粤方言等于广东话。()

7.民族共同语既然是在一种方言的基础上形成的,它就应该排斥其他方言中的成分。() 8.推广普通话意味着人为地消灭方言。() 9.普通话语音规范是“以北京语音为标准音”,因此北京话中的语音成分都是标准音。() 10.普通话词汇规范是“以北方话为基础方言”,但并不排除其他方言中有用的词汇进入普通话。() 11.普通话的语法规范是指典范的白话文作品中的所有用例。() 12.《水浒传》、《西游记》、《纪楼梦》等都是现代汉语语法规范的典型著作。() 13民族共同语的形成,普通话的推广、并不以方言的消亡作为前提。() 四、简答题: 4.现代汉语在语音、词汇、语法方面有什么特点? 第二章语音 一、名词解释: 1.元音 2.辅音 3.音素 4.音节 5.音位 6.音色 7.音高 8.音强 9.音长、10五度标记法11.声母12.韵母13.声调14.清音15.浊音16.送气音17.不送气音 18.零声母19.单韵母20.复韵母21.鼻韵母22.前响复韵母23.后响复韵母24.中响复韵母25.四呼26开口呼27.合口呼28.齐齿呼29.撮口呼30.押韵31.调值32.调类33.轻声34.儿化35.变调36.音位变体37.条件变体38.自由变体39.停顿40.重音41.快慢42.语调43.句调44.语音规范化 二、填空题: 1.语音具有________________性、________________性和________________性,其中________________是语音的本质属性。 2.发音器官包括三大部分:A. _______________、B. _________________、C_______________。 3.语音同其他声音一样,具有_______________、___________________、_________________、_________________四个要素。 4.不同的音色至少是由以下三方面原因之一造成的:A_______________、B_______________、C _________________________。 5.元音和辅音的主要区别在于:发元音时,______________________________;发辅音时,_____________________________。 6.《汉语拼音方案》包括五部分内容:A_________________、B_________________、C_________________、D ______________、E_________________。

基于语料库的中国大学生英语口语表达中的“中式 英 语” 探究

基于语料库的中国大学生英语口语表达中 的“中式英语” 探究 摘要:本文利用大学学习者英语口语语料库,选取全国大学英语考试口语考试部分27名考生的口语语料库作为研究对象,对其中出现的中式英语进行标注和分类。作者根据统计结果,从词法和句法两个层面分析我国大学生英语口语中出现的中式英语现象,探讨汉语母语作为中式英语出现的主要原因及对英语口语的影响,最后对中国大学生的英语日常学习及口语水平的提高提出相关建议,为广大高校师生提供借鉴意义。 关键词:中式英语中国大学生口语语料库 1.引言 中国大学生在他们的年纪已经获得用汉语思考和表达的能力,形成用汉语思考和表达的习惯。绝大部分中国人都是在掌握了母语之后才开始学习英语的,所以在学英语的过程中,总是从中国人的思维角度思考,不顾西方的语言习惯,这就造成中式英语的大量存在。由于不符合英语的表达习惯,中式英语在人际交流中有时会引起误解和困惑。因此,它作为一种特殊的语言现象,应该引起人们的注意。在中国,高校在校学生占英语学习者的很大一部分,他们毕业之后就

由英语学习者转变为英语使用者,所以他们在学校学得如何,直接影响他们在工作岗位上用得如何。 从现状看,我国大学毕业生的平均英语水平不能满足各行各业越来越高的需求,尤其是在口语表达和人际交流方面。在现行教育体制下,高校英语教学过于强调语法和词汇的讲解,而对学生语言能力的培养和英语文化的教授则有所忽略。其结果就是许多中国大学生在学了十多年英语之后,只是善于记忆单词和语法规则;他们能在笔试中得高分,但是一张嘴就是中式英语。 《牛津英语词典》对中式英语作了如下定义:中式英语是一种汉语和英语的混合体;尤其是汉语使用者使用的或中英双语语境中的一种英语变体,典型地夹杂一些汉语的词汇和结构,或是汉语语境中特有的英语术语。 总的说来,中式英语是指一种不符合英语文化习惯的畸形英语,由某些受汉语思维方式和文化背景影响而将母语的语言规则运用到英语中的中国人说出或写出。 2.研究方法 2.1研究对象和数据收集 “大学学习者口语语料库”由上海交通大学的杨惠中教授主持完成。该语料库容量达70万字,来源是全国大学英语考试口语考试部分的真实音视频材料。它按照考试来源地、专业、考试成绩和对话题目,采取随机抽样的方法组

语料库

Background Information 语料库的概念 语料库是指按照一定的语言学规则,利用随机抽样的方法收集的有代表性的语言材料的总汇,它是语言材料的样本。 语料库通常指为语言研究机构收集的,具有一定容量的大型电子文本语料库。它是由口语语料和书面语的样本汇集而成,用来代表特定的语言或语言变体,或经过加工后带有语言学信息标注的文本的集合。 语料库的分类 按照语料库所涉及的语言种类,语料库课分为单语语料库,双语平行语料库(parallel corpus)和多语语料库(multilingual corpus); 按照语言涉及的题材,语料库可分为普通语料库(general corpus)和专门用途语料库(specialized corpus); 按语料的来源,又可分为口语语料库和书面语语料库; 按语料库是否被标注,语料库可分为生语料库或原始语料库(raw corpus)和熟语料库或标注语料库(annotated corpus) In linguistics, a corpus (plural corpora) or text corpus is a large and structured set of texts (now usually electronically stored and processed). They are used to do statistical analysis and hypothesis testing, checking occurrences or validating linguistic rules on a specific universe. A corpus may contain texts in a single language (monolingual corpus) or text data in multiple languages (multilingual corpus). Multilingual corpora that have been specially formatted for side-by-side comparison are called aligned parallel corpora. In order to make the corpora more useful for doing linguistic research, they are often subjected to a process known as annotation. An example of annotating a corpus is

现代汉语试题及答案

一、选择(单选题) C1、“一对花瓶”、“你说的对”、“面对未来”中三个“对”代表: A、一个词B、两个词C、三个词D、只代表音节,不代表词 A2、下列各组词中全部是联绵词的是: A、仓猝、唐突、阑干、苗条、蝙蝠B、坎坷、蟋蟀、枇杷、卢布、拮据 C、详细、伶俐、逍遥、葫芦、蒙胧D、游弋、叮咛、摩托、喽罗、吩咐 B3、“惆怅”一词是:A、叠韵词B、双声词C、音译词D、非双声叠韵词 A4、“珊瑚”一词是:A、联绵词一个语素B、音译词一个语素C、偏正式合成词两个语素D、联合式合成词两个语素 D5、虚词的语法作用是____。 A、连接和附着 B、连接、辅助和引介 C、连接、附着和关联 D、连接、引介、附着和语气 D6、下列各项中____不是能愿动词的语法特征。 A、没有重叠形式 B、主要作状语 C、后面不能加动态助词。 D、可以带名词性宾语。 B7、下列各组词中都是时间名词的是____。 A、开始往往 B、目前刚才 C、顿时已经 D、刚刚现在 C8、下列短语中是定中关系的是____。 A、光线异常充足 B、逐渐富裕起来 C、新开放的口岸 D、请他上台讲话 D9、下列短语中是连谓关系的是____。 A、选老张为工会代表 B、怕自己过度紧张 C、苗条得像柳树一般 D、打电话报警 A10、下列短语中不是兼语短语的是____。 A、勉强挣扎着下地劳动 B、要求他马上赶到现场 C、动员各方面力量捐助灾区群众 D、担心他会做出错误决定 B11、下列句子中包含有“的”字短语的一组是____。 A、鞋袜和裤管被露水浸得湿淋淋的。 B、公园里每天清晨都有许多打太极拳的。 C、午后的太阳炙热地烤着柏油路,踩上去脚下软塌塌的。 D、我呆坐在昏暗和寂静之中,心里感到空落落的。 C12、下列不属于谓词性短语的是____。 A、高兴得哭了 B、极度恐惧 C、满腹的抱怨 D、十几米高 C13、“沙哑”和“沙发”中的“沙”: A、都是语素B、都不是语素C、前者是语素后者不是语素D、前者不是语素后者是语素

语料库语言学的发展及研究现状

当代语言学(试刊)1998年第1期4-12页,北京 语料库语言学的发展及研究现状 丁信善 1.0引言 语料库语言学已经成为语言研究的主流。基于语料库的研究不再是计算机专家的独有领域,它正在对语言研究的许多领域产生愈来愈大的影响。 这是J.Thomas等人1996年为祝贺语料库语言学的主要奠基人和倡导者G.Leech六十诞辰而出的语料库语言学研究论集的开场白。近年来,对语料库语言学类似的评说频频见于导论和方法论的书及教科书中,它不仅仅是语料库语言学家们的自誉,而正在成为整个语言学界的共识。 2.0语料库语言学的定义 关于语料库语言学的定义,现引述三例: a. 根据篇章材料对语言的研究称为语料库语言学。 (K.Aijmer&B.Aitenberg,1991,p.1) b. 基于现实生活中语言运用的实例进行的语言研究称为语料库语言学。 (T.M c Enery&A. Wilson,1996,p.1) c. 以语料为语言描写的起点或以语料为验证有关语言的假说的方法称为语料库语言学。 (D. Crystal,1991,p.86) 由上述几个定义可见,语料库语言学不是研究语言自身某个方面,而是一种以语料库为基础的语言研究方法。它实际上包括两个方面:一是对自然语料进行标注,二是对已经标注的语料的研究和利用的方法。从方法论的角度,它不仅可以用于研究语言系统的各个层面,而且可以应用于语言学之外的其他领域。 3.0语料库语言学的历史发展 语料库语言学作为一种研究语言的方法,可以追溯到上个世纪,甚至更为久远。现在一般以乔姆斯基转换生成语法的兴衰时间为参照,将其发展大致分为以下几个阶段: 3.1语料库语言学的早期发展 早期的语料库语言学指的是本世纪五十年代中期以前,即乔姆斯基提出转换生成语法理论之前的所有基于语言材料的语言研究。此类研究主要集中在以下几个方面: (1)语言习得是应用语料研究方法较早且较普遍的领域。19世纪70年代在欧洲兴起了儿童语言习得研究的第一个热潮,当时的许多研究就是基于父母详细记载其子女话语发展的大量日记的。据悉,这些日记作为原始材料,不仅是当时W.Preyer和W.Stern等人的理论假说的依据,而且时至今日仍是许多学者的研究语料之一。自本世纪30年代以来,语言学家和心理语言学家提出了众多关于儿童在不同年龄段的语言发展模式。这些模式大都是建立在对儿童自然话语大量材料的研究分析上的。 (2)利用自然语料开展音系研究,在西方当首推美国早期的结构主义语言学家,如F.Boas和 E.Sapir等人。他们注重 野外工作 ,强调语料获取的自然性和语料分析的客观性。这些都为后来的语料语言学所继承和发展。 本文承蒙哥本哈根大学翻译与词典学研究中心主任C.Dollerup博士提供有关欧洲语料库网络的材料,特此致谢。

可以免费使用的大型英语语料库资源

可以免费使用的大型英语语料库资源 https://www.wendangku.net/doc/2517122830.html,/time/ http://www.lextutor.ca/concordancers/concord_e.html 常用语料库资源链接汇集(语料天涯) http://202.204.128.82/sweccl/Corpus/ https://www.wendangku.net/doc/2517122830.html,/netprints/Corporalink/Corporalink.htm 1. BNC-World Simple Search ☆☆☆ https://www.wendangku.net/doc/2517122830.html,/lookup.html But no more than 50 hits will be displayed, with a fixed amount of context. 2. Brown, LOB, BNC sampler ☆☆☆ Here are a few links for searching corpora online, including monolingual corpora like Brown, LOB, and BNC sampler and also some parallel English-Chinese corpora. English: https://www.wendangku.net/doc/2517122830.html,/concordance/WWWConcappE.htm English: http://www.lextutor.ca/concordancers/concord_e.html Parallel: https://www.wendangku.net/doc/2517122830.html,/concordance/paralleltexts/ 3. Collins Cobuild Corpus Concordance Sampler☆☆☆☆☆ https://www.wendangku.net/doc/2517122830.html,/Corpus/CorpusSearch.aspx The Collins WordbanksOnline English corpus is composed of 56 million words of contemporary written and spoken text. 4. New BNC interface - VIEW: ☆☆☆☆☆ https://www.wendangku.net/doc/2517122830.html,/ 5. Samples (about 2 million words) from the British National Corpus: both written and spoken ☆☆☆ The Brown Corpus and many others - native, learner... Go to http://www.lextutor.ca/concordancers/concord_e.html 6. MICASE ☆☆☆☆ https://www.wendangku.net/doc/2517122830.html,/m/micase/ There are currently 152 transcripts (totaling 1,848,364 words) available at the site. 7. CLEC online concordancing ☆☆☆☆ https://www.wendangku.net/doc/2517122830.html,/corpus/EngSearchEngine.aspx CLEC收集了包括中学生、大学英语4级和6级、专业英语低年级和高年级在内的5种学生的语料一百多万词,并对言语失误进行标注。For an introduction of the corpus, its error tagset and some statistics, see https://www.wendangku.net/doc/2517122830.html,/baseinfo/achievement/Achievement1.htm 8. Business Letter Corpus Online KWIC Concordancer ☆☆☆

浅析语料库对于翻译研究的意义

浅析语料库对于翻译研究的意义 【摘要】基于语料库的翻译研究在当今已进入一个全新模式,多种语料库被开发应用在人工翻译和机器翻译等实践领域当中。本文对语料库的概念以及某些种类语料库在翻译活动中具体实用情况做出分析,揭示语料库对于翻译研究的意义。 【关键词】语料库;翻译;双语语料库;平行/对应语料库 An Analysis on the Significance of Corpus to Translating Research CHEN Dan (Eastern Liaoning University,Dandong Liaoning 118000,China) 【Abstract】Translating research based on corpus has stepped into a new mode today,and many kinds of corpora are developed and applied in practical fields of manual translation and machine translation. The thesis analyzes the concept corpus and the application of some corpora in translating,which exemplify the significance of corpus to translating research. 【Key words】Corpus;Translating;bilingual corpus;Parallel corpus “语料库”的英语单词corpus来源于拉丁语,意思是body,有“全集”的含义,即“语料的集合”。有的学者认为语料库是基于形式和目的的存储于电子数据库中的文本集合,是描述自然发生语言的集合;也有人认为它是按照明确的语言学标准选择并排序的语言运用材料的汇集,旨在用作语言的样本。国内语料库学者杨惠中对语料库的定义做了较为详细的界定。他指出,“语料库是指按照一定的语言学原则,运用随机抽样方法,收集自然出现的连续的语言运用文本或话语片段而建成的具有一定容量的大型电子文库”。 语料库所收集的语料是真实、自然的语言。不同于普通的文本数据库,它的设计和建设是以系统的理论语言学原则为依据,并且具有明确的目的性。语料库的结构严格依照既定程序设定,以一定研究目的为基础,按学科或语篇类型分类存储。语料库中的语料必须符合科学的语言研究,语料可以随机抽取或按统计学方法采集。 语料库的类型和分类标准很多。按用途分,语料库可分为通用语料库(general corpus)和专用语料库(specialized corpus);按语料选取时间,语料库可分为历时语料库(diachronic corpus)和共时语料库(synchronic corpus);按不同结构,语料库可分为平衡语料库(balanced corpus)和自然随机结构语料库(random structure corpus);按语料库的性质,语料库可分为原始语料库(raw corpus)和标注语料库(annotated corpus);按语言种类,语料库可分为单语语料库

现代汉语答案及试卷[1]

现代汉语试题及答案 一、填空题(共40个空,每空分,共20分) 1.语法具有、、等性质。 2.汉语中词类划分的主要依据是词的。 3.根据语气分出来的句子类型是,依此划分汉语句子共 有、 、、四种。 4.“漓江的水真绿啊!”此句属于主谓句中的句。 5.“尚且……何况……”是关系复句使用的关联词语。 6.把“你只要一听,你就会明白”改为紧缩 句:。 7.双重否定句在语气上往往比一般肯定句更。 8.疑问句根据表示疑问的结构形式上的特点和语义情况,可以分为、 、、四类。 9.量词可以分为和两类。“走了两趟”中的量词属 于。 10.根据分句间的划分,复句可以分为复句 和复句。前者包 括、、、 、,后者包 括、、、 、。

11.比喻一般由、、三部分组成。比喻的种类,一般根据三种成分是否同时出现,分 为、、三种。 12、“先生,给现钱,袁世凯,不行吗?”这句话用的修辞手法是。 二、判断题(正确的请在括号内打“√”,错误的打“×”。共20题,每题1分,共20分) 1.形容词都能受程度副词修饰。() 2.“能看懂印度文学原著,才谈得上对中印文学作真正的比较研究。”属于条件复句。() 3.不及物动词都不能带宾语。() 4.说话和写作中积极调整语言的行动属于修辞活动。() 5.连动短语也可以由动词和形容词构成。() 6.好的修辞可以创造适合的语言环境。() 7.联合复句呈雁行式排列,顺承复句呈鱼贯式排列。() 8.“上得来”中的“得”是补语的标志。() 9.修辞充分利用语言的审美价值来满足人们的美感需求,审美原则是修辞的基本原则。()10.“她未必知道她的悲哀经大家咀嚼赏鉴了许多天,早已成为渣滓,只值得烦厌和唾弃;但从人们的笑影上,也仿佛觉得这又冷又尖,自己再也没有开口的必要了。”这一复句中共有4个分句。() 11.定语中心语有时可以由动词和形容词充当。() 12.“今天路上死了两条狗。”属于存现句。() 13.根据前后分句意思相反、相对程度的强弱,转折关系分重转和轻转两类。() 14.同印欧语相比,汉语缺少严格意义的形态变化。() 15.长句化短的办法只有一种,那就是把其中的修饰成分抽出来。() 16.大部分副词都可以充当补语。()

国际儿童口语语料库录写系统的赋码原则初探

国际儿童口语语料库录写系统的赋码原则初探* 王立非1,刘斌2 (1.南京大学, 江苏南京 210093; 2.解放军国际关系学院,江苏南京 210039) 摘要:国际儿童口语语料库是目前世界上最完整的口语语料库之一, 对开展口语语料库研究和语言习得研究具有重要价值,本文探讨该语料库 的录写系统的赋码原则与具体操作问题,对促进我国英语口语语料库的建 立和研究具有借鉴作用和启示意义。 关键词:国际儿童口语语料库;英语口语语料;语料库语言学 中图分类号:文献标识码:文章编号:The CHILDES Corpus: Coding and Operation of the CHAT Tool WANG Lifei1, LIU Bin2 (1. Nanjing University Nanjing, Jiangsu Prov., 210093; 2. PLA International Studies University, Nanjing, Jiangsu Prov., 210039, China) Abstract: This paper describes the basic coding and operating principles of CHAT for the CHILDES talk-bank, a very valuable corpus for studies on spoken English and language acquisition. It aims to promote the development and use of the CHILDES as a reference for constructing the EFL spoken corpus in China. Key words: CHILDES;English spoken corpus;corpus linguistics 1.引言 新世纪的语言学研究已进入计算机时代,基于语料库的研究成果不断涌现,国际儿童口语语料库CHILDES(Child Language Data Exchange System)就是众多语料库中的一员,已有一千项基于这个语料库的研究成果发表。该语料库由美国麦克阿瑟基金会资助,于1984年开始筹建,经过近20年的建设,已成为目前世界上最大的儿童口语语料库。到目前为止,该语料库已收集了包括英语、汉语在内的25种语言。用户可直接从网上免费登录、使用或下载(https://www.wendangku.net/doc/2517122830.html,/CHA T.html)语料。CHILDES语料库由三部分组成,第一部分是儿童英语口语语料库(DATA-BASE),第二部分为文本赋码系统(CHAT),第三部分为语料分析程序(CLAN),均可在网上免费下载。本文探讨该语料库的录写系统的文本赋码原则和操作,目的是对我国建设英语口语语料库提供借鉴与启示。 2.录写赋码系统的途径与原则

相关文档
相关文档 最新文档