文档库 最新最全的文档下载
当前位置:文档库 › 汉语NA表量构式“火热”的语料库和认知研究

汉语NA表量构式“火热”的语料库和认知研究

汉语NA表量构式“火热”的语料库和认知研究
汉语NA表量构式“火热”的语料库和认知研究

汉语NA表量构式“火热”的语料库和认知研究

本文基于权威语料,考察汉语NA表量构式“火热”的概念隐喻,并对其加以认知阐释。研究发现,“火热”的概念隐喻主要投射到三个域。个人域:喻感情热烈、喻爱情澎湃、喻愤怒、喻疾病、喻态度积极、喻性格热情、喻强烈的愿望;事物域:喻受关注的事物、喻发展迅速、喻色彩、喻程度深、喻精彩的生活、喻深受鼓舞;社会域:喻关系亲密、喻斗争紧张、喻危险、喻战争激烈、喻气氛热闹、喻市场活跃、喻人或物的活跃程度。“火热”具有[+量度]语义特征,其形成是范畴化和隐喻作用的结果。

标签:NA表量构式语料库认知概念隐喻

一、引言

古往今来,人们常基于自身体验来认识外界事物。温度作为人类经验的重要组成部分,是人们重要的认知领域。“火”是人类生存和发展的关键,同时也是五行之一,对中国人民的生活影响深远,对火的自身体验成为了人们认知世界的来源。Goldberg(1995:4)将“NA表量构式”定义为“一个‘光杆名词+温度形容词’构成的表温度程度量的复合形容词构式”,它是“名形表量构式”的一个次类,即“复合类名形表量构式”(罗思明,2014)。本文以汉语温度域形容词“热”的次类——“火热”为例,基于权威语料,研究“火热”的概念隐喻,并对其语义加以认知阐释,以拓展对其词义的认知。

二、相关研究述评

目前关于温度域的研究主要集中于以下三个方面:第一,考察汉语温度形容词的概念隐喻,如高航、严辰松(2008);第二,汉语温度词的历时研究,如张立红(2013);第三,汉英温度形容词隐喻对比,如郎姗姗(2008)、唐树华等(2011)、雷丹、覃修桂(2013)。以上成果虽与温度词相关,但少有涉及温度词次类的研究,更鲜有把温度词列为构式的研究。鉴于此,本文基于北京大学汉语语料库(CCL),对NA表量构式“火热”的概念隐喻进行分析和归纳,并进行认知阐释。

三、“火热”的概念隐喻

人们本着“近取诸身,远取诸物”的原则,以自身的经验为基础来认识客观世界,再进一步引申到其他抽象概念。“火热”是温度域“NA表量构式”的代表,名词“火”是量度标准,其基本语义是通过比拟而表现出来的“估量”义,即“像火一样热”,这是人们认知“火热”的肤觉出发点。吕叔湘《现代汉语词典》(2002:575)对“火热”的解释为:像火一样热,形容感情热烈、亲热、紧张、激烈。

(一)个人域

1.“火热”喻感情热烈

现代汉语“他”(CCL语料库)

现代汉语“他”(CCL语料库) 13、14世纪、、、轻一代的健康发展,教育必须从年轻一代身心发展的实际出发,符合他们身心发展的规律。有生产性的。教育还通过培养一定社会政治、经济所需要的人才,使他人具有当时社会要求的思想品德、知识技能,用以巩固和发展一定社会、、、进行政治理论、思想品德等的教育;人们无论进行何种生产劳动或其他种种活动,都需要强健的体力,这就要求增强学生的体质。处理好教育、、、无论是在中国还是在外国,古代思想家、教育家的教育思想,只是他们的哲学思想或政治思想的组成部分,没有形成一门独立的学科。纪捷克教育家夸美纽斯的《大教学论》(1632年)问世为标志。他号召把一切事物教给一切人,提出统一学校制度,主张采用班级授课制、、、主张采用班级授课制,扩大学科的门类和内容,普及初等教育。他从适应自然秩序的原则和感觉论出发,提出一系列教学原则,如直观性、、、、、、、自觉性积极性原则、系统性原则、循序渐进原则、量力性原则等。他认为人总是首先通过观察事物本身、从事物来源去获得知识,所以教学、、、、、、儿》、裴斯泰洛齐的《林哈德与葛笃德》、斯宾塞的《教育论》等。他们对教育学的发展都作出了重大的贡献。而教育学成为一门学科在大学、、、9、2、、、献。而教育学成为一门学科在大学里讲授,则始于德国哲学家康德。他于1776年在德国柯尼斯堡大学哲学讲座中开讲

教育学。最早以教育、、、、、、06年)。赫尔巴特以伦理学和心理学为基础建立了教育学的体系。他提出教育的目的在于培养"完美德性",强调运用严厉的方法管理儿童、、、、、、严厉的方法管理儿童,以建立秩序和纪律,保证教育过程顺利进行。他提出教学的教育性原则,认为教学是教育的主要手段,教育是教学目的、、、、、、教学是教育的主要手段,教育是教学目的。根据统觉主理学的原理,他将教学过程分为明了、联想、系统和方法四个阶段,后来被他的学生发、、、、、、原理,他将教学过程分为明了、联想、系统和方法四个阶段,后来被他的学生发展为"五段教学法"。赫尔巴特的《普通教育学》被西方教育、、、、、、校旧教育,明确提出在社会主义社会,教育要为无产阶级政治服务。他提出,要用共产主义精神教育青年一长,使他们成为真正的共产主义者、、、、、、为无产阶级政治服务。他提出,要用共产主义精神教育青年一长,使他们成为真正的共产主义者;青年要成为真正共产主义者,必须要用人类、、、、、、点阐述这教育基本理论问题的教育家。其代表作是《新教育大纲》。他认为:教育是上层建筑,同经济基础有依存关系;教育既受生产方式也、、、、、、师。这是因为教育对象是活生生的人,每个人都有自己的个性特点,他们的志趣、爱好、性格、才能千差万别。教师在进行教育工作时,既要、、、教育现象分复杂,与其他社会现象、自然现象有着密切的联系。同时,教育学又是在不断地综合、、、、、、现象、自然现象有

当汉语语料库文本分词规范草案

973当代汉语文本语料库分词、词性标注加工规范 (草案) 山西大学从1988年开始进行汉语语料库的深加工研究,首先是对原始语料进行切分和词性标注,1992年制定了《信息处理用现代汉语文本分词规范》。经过多年研究和修改,2000年又制定出《现代汉语语料库文本分词规范》和《现代汉语语料库文本词性体系》。这次承担973任务后制定出本规范。本规范主要吸收了语言学家的研究成果,并兼顾各家的词性分类体系,是一套从信息处理的实际要求出发的当代汉语文本加工规范。本加工规范适用于汉语信息处理领域,具有开放性和灵活性,以便适用于不同的中文信息处理系统。 《973当代汉语文本语料库分词、词性标注加工规范》是根据以下资料提出的。 1.《信息处理用现代汉语分词规范》,中国国家标准GB13715,1992年 2.《信息处理用现代汉语词类标记规范》,中华人民共和国教育部、国家语言文字工作委员会2003年发布 3.《现代汉语语料库文本分词规范》(Ver 3.0),1998年 北京语言文化大学语言信息处理研究所清华大学计算机科学与技术系4.《现代汉语语料库加工规范——词语切分与词性标注》,1999年 北京大学计算语言学研究所 5.《信息处理用现代汉语词类标记规范》,2002年, 教育部语言文字应用研究所计算语言学研究室 6.《现代汉语语料库文本分词规范说明》,2000年 山西大学计算机科学系山西大学计算机应用研究所 7.《資讯处理用中文分词标准》,1996年,台湾计算语言学学会 一、分词总则 1.词语的切分规范尽可能同中国国家标准GB13715《信息处理用现代汉语分词规范》(以下简称为“分词规范”)保持一致。本规范规定了对现代汉语真实文本(语料库)进行分词的原则及规则。追求分词后语料的一致性(consistency)是本规范的目标之一。 2.本规范中的“分词单位”主要是词,也包括了一部分结合紧密、使用稳定的词组以及在某些特殊情况下可能出现在切分序列中的孤立的语素或非语素字。本文中仍用“词”来称谓“分词单位”。 3.分词中充分考虑形式与意义的统一。形式上要看一个结构体的组成成分能否单用,结构体能否扩展,组成成分的结构关系,以及结构体的音节结构;意义上要看结构体的整体意义是否具有组合性。 4. 本规范规定的分词原则及规则,既要适应语言信息处理与语料库语言学研究的需要,又力求与传统的语言学研究成果保持一致;既要适合计算机自动处理,又要便于人工校对。 5.分词时遵循从大到小的原则逐层顺序切分。一时难以判定是否切分的结构体,暂不切分。 二、词性标注总则 信息处理用现代汉语词性标注主要原则有三个: (1)语法功能原则。语法功能是词类划分的主要依据。词的意义不作为划分词类的主要依据,

现代汉语语料库加工规范

现代汉语语料库加工规范 ——词语切分与词性标注 1999年3月版 北京大学计算语言学研究所 1999年3月14日 ⒈ 前言 北大计算语言学研究所从1992年开始进行汉语语料库的多级加工研究。第一步是对原始语料进行切分和词性标注。1994年制订了《现代汉语文本切分与词性标注规范V1.0》。几年来已完成了约60万字语料的切分与标注,并在短语自动识别、树库构建等方向上进行了探索。在积累了长期的实践经验之后,最近又进行了《人民日报》语料加工的实验。为了保证大规模语料加工这一项重要的语言工程的顺利进行,北大计算语言学研究所于1998年10月制订了《现代汉语文本切分与词性标注规范V2.0》(征求意见稿)。因这次加工的任务超出词语切分与词性标注的范围,故将新版的规范改名为《现代汉语语料库加工规范》。 制订《现代汉语语料库加工规范》的基本思路如下: ⑴ ⑴ 词语的切分规范尽可能同中国国家标准GB13715“信息处理用现代汉语分词规范” (以下简称为“分词规范”)保持一致。由于现在词语切分与词性标注是结合起来进行的,而且又有了一部《现代汉语语法信息词典》(以下有时简称“语法信息词典”或“语法词典”)可作为词语切分与词性标注的基本参照,这就有必要对“分词规范”作必要的调整和补充。 ⑵ ⑵ 小标记集。词性标注除了使用《现代汉语语法信息词典》中的26个词类标记(名词n、时间词t、处所词s、方位词f、数词m、量词q、区别词b、代词r、动词v、形容词a、状态词z、副词d、介词p、连词c、助词u、语气词y、叹词e、拟声词o、成语i、习用语l、简称j、前接成分h、后接成分k、语素g、非语素字x、标点符号w)外,增加了以下3类标记:①专有名词的分类标记,即人名nr,地名ns,团体机关单位名称nt,其他专有名词nz;②语素的子类标记,即名语素Ng,动语素Vg,形容语素Ag,时语素Tg,副语素Dg等;③动词和形容词的子类标记,即名动词vn(具有名词特性的动词),名形词an(具有名词特性的形容词),副动词vd(具有副词特性的动词),副形词ad(具有副词特性的形容词)。合计约40个左右。 ⑶ ⑶ 规范的多元性。既要适应语言信息处理与语料库语言学研究的需要,又要能为传统的语言研究提供充足的素材;既要适合计算机自动处理,又要便于人工校对。 ⑷ ⑷ 词组(短语)本位汉语语法体系的指导作用。汉语的词类与句法成分之间不存在简单的一一对应关系。同一个句法成分可以由不同词性的词来充任;而具有确定词性的同一个词又可以充当不同的句法成分,形式上可以没有任何不同的标记。《现代汉语语法信息词典》是在词组本位语法体系的语法思想指导下研制的,其最基本的成果是对数以万计的词语根据其在实际语料中的语法功能分布,特别是优势功能分布决定了它们的词性(即它们所属的词类)。在进行词性标注时,应当充分利用《现代汉语语法信息词典》,承接这个基本成果,避免仅根据词在所在的句子中充当的句子成分来决定其词性。同时考虑到语言学界对汉语词类的划分存在不同意见,在标记集中增加了名动词vn,名形词an,副动词vd,副形词ad。当然,增加这些标记并非只是缓冲不同意见,主要是为了给词的兼类研究提供计量根据,也 为汉语词的概率语法属性描述作准备。 ⑸ 为了对新闻语料中大量存在的专有名词(地名、团体机构名称等)进行研究(从命名规律到自动识别),在切分与标注的基础上对由若干个词组合而成的短语型专有名词加上方括号和类型标记(主要是nt,nz,还有少量的ns)。 ⑹ 不是孤立使用本规范。在使用本规范对语料库进行加工时,将与《现代汉语语法信息词典》等项研究成果密切配合。当现在的研究和将来的应用(中文信息检索、中文信息提取、汉外机器翻译等)相衔接时,就可以方便地利用词典中丰富的词语语法属性信息。而

语料库

语料库、学习者语料库与外语教学 ① □李文中 0.概述语料库(corpora )是应用计算机技术对海量自然语言材料进行处理(包括预处理、语法自动附码、自动句法分析、语义分析等)、存储,以供自动检索(retrieval )、索引(concordance )以及统计分析的大型资料库。它是按照明确的设计标准为某一具体目标而建立的语言资料库(Atkins and Clear 1992:5,引自G ranger 1996)。如果作进一步区分,还可以把语料库与大型文档资源库(text archives )区别开来。前者具有明确语料选择比例和设计标准,而后者更注重语料容量和语料来源的多样性(Edwards 1993)。所谓自然语言是指任何人类在童年习得的语言(Leech 1987:1)。使用这一概念的意义在于,把人类自然语言同人工编制的人工语言(artificial languag 2es )(如C 语言、BASIC 、JAVA 、FORTRAN 等)区别开来;在对语言描述和研究中,自然出现的语料不同于研究者为某一目的而引出的材料(elicited data )。语料库的研究对象是人类语言自然运用(performance ),而不是内在语言能力(com petence )。语料库的应用主要在于以下几个方面:1)自然语言处理(包括自动语言识别、自动语法附码、句法分析、语义分析、知识表达、机器翻译等)。基于语料库方法可以提供有关语言结构和特征的可靠信息,而这些信息是内省法研究或心理测验获取的信息所不能比拟的。语料库是人们广泛深入理解语言所必需的工具(Edwards 1993,Leech 1991,1992,Svartvik 1992)。2)词典编纂。语料库能够提供更为完备和详尽的关于词义和词汇搭配信息(K jellmer 1984,Sinclair 1982,引自Edwards 1993)。3)语言学习与语言教学。早在本世纪60年代,美国Brown 大学创建了最早的语料库BROW N C ORPUS ,容量为100万词,广泛搜集了当时美国英语各种文体的语言材料。与此相呼应的是70年代初在欧洲同样容量的LOB 语料库,搜集了同年代的英国英语材料。基于这两个语料库,开展了大量的重要研究,研究的重点是对英语语法的描述和分析(Rundell 1996)。另外,70年代初还建成了50万词的英语口语语料库London 2Lund C orpus (LLC )。但对于大规模的词汇研究(如词典编纂)而言,100万词的容量显然不能满足要求。80年代初,由Birmingham 大学John Sinclair 主持建成了专门用于词典编纂的大型语料库BCET (Birmingham C ollection of English T exts )。该语料库最初容量为730万词,到80年代中期,其迅速扩充为2000万词。与此同时,朗曼公司词典部开始建立自己的语料库Longman 2Lancaster 语料库,容量达到3000万词。在我国,上海交通大学杨惠中教授在80年代末主持建成了容量为300万词的科技英语语料库(JDEST ,1997年扩充至360万词),主要用于大学英语教学大纲制定和教材开发。80年代建成的语料库还有Lancaster 的英语口语语料库(ESC ,1984—1987)、用于跨文化比较的PIXI 语料库。90年代初,包含英国书? 15?外语界1999年第1期(总第73期)①本文在写作过程中,承蒙Sylviane G ranger 教授惠寄有关资料以及对有关问题的讨论。C ornelis H.J.Vaes 寄来International Journal o f Corpus Linguistics 以供参考。M ike Scott 寄来有关索引软件M icroC oncord 使用手册。导师杨惠中教授阅读了初稿并提出了修改意见。在此一并致谢。

英汉语料库汇总

1.英语学习者语料库(书面语及口语)中国学习者语料库 CLEC(100万)广外、上海交大 2.大学英语学习者口语语料库 COLSEC (5万) 上海交大 3.香港科技大学学习者语料库 HKUST Learner Corpus 香港科技大学 4.中国英语专业语料库 CEME (148万) 南京大学 5.中国英语学习者口语语料库 SECCL (100万) 南京大学 6.国际外语学习者英语口语语料库中国部分 LINSEI-China (10万) 华南师大 7.硕士写作语料库 MWC (12万) 华中科技大学 9.平行语料库汉英平行语料库 PCCE 北外 10.南大-国关平行语料库南京大学 11.英汉文学作品语料库;外研社 12.冯友兰《中国哲学史》汉英对照语料库 13.李约瑟(Joself Needham)《中国科学技术史》英汉对照语料库 14.计算机专业的双语语料库;国家语言文字工作委员会语言文字应用研究所 15.柏拉图(Plato)哲学名著《理想国》的双语语料库 16.英汉双语语料库(15万对) 中科院软件所 17.英汉双语语料库:LDC香港新闻英汉双语对齐语料36294段以及香港法律英汉双语对齐语料31万句子对中国科学院自动化研究所 18.英汉双语语料库(100万),网上英汉语段电子词典及网上电子英汉搭配词典(1000万) 东北大学 19.英汉双语语料库(40-50万句子对) 哈尔滨工业大学 20.双语语料库(5万多对) 北京大学计算语言学研究所 21.对比语料库 LIVAC(Linguistic variety in Chinese communities) 香港城市理工大学 22.平衡语料库(Sinica Corpus);树图语料库(Sinica Treebank) 台湾 23.特殊英语语料库中国英语(China English)语料库河南师范大学 24.军事英语语料库(Corpus of Military Texts) 解放军外语学院 25.新视野大学英语教材语料库上海交通大学 26.汉语语料库汉语现代文学作品语料库(1979年,527万字) 武汉大学 27.现代汉语语料库(1983年,2000万字) 北京航空航天大学 28.中学语文教材语料库(1983年,106万8000字) 北京师范大学 29.现代汉语词频统计语料库(1983年,182万字) 北京语言学院 30.国家级大型汉语均衡语料库(2000万字) 国家语言文字工作委员会 31.《人民日报》语料库(2700万字) 北京大学计算机语言学研究所 32.大型中文语料库(5亿字,10分库) 北京语言文化大学 33.现代汉语语料库(1亿字) 清华大学 34.汉语新闻语料库;(1988年,250万字) 山西大学 35.标准语料库(2000年,70万字) 36.生语料库(3000万字);《作家文摘》的标注语料库(100万字) 上海师范大学 37.现代自然口语语料库中国社会科学院语言所 38.旅游咨询口语对话语料库和旅馆预定口语对话语料库中国科学院自动化所 39.北京大学汉语语言学研究中心的三个语料库

中文平行语料库

中文平行语料库 机器翻译需要的平行语料库一库难求,笔者列举了一些免费的中文数据集,可用于中文和其他语言之间的机器翻译。 1.汉英10000平行语料库https://www.wendangku.net/doc/328684501.html,/data/14779 10000句对规模的英汉双语句对齐语料库,已经做了分词和句子对齐。 2.汉英22万句对法律类句子对齐语料https://www.wendangku.net/doc/328684501.html,/data/14261 22万句对规模的英汉法律类双语句对齐语料。缺点是没有做分词和语言对的对齐,还得做预处理 3.汉英双语句对齐语料库(1500句对)https://www.wendangku.net/doc/328684501.html,/data/13290 1500句对规模的英汉双语句对齐语料库。缺点是没有做分词和语言对的对齐,还得做预处理 4.最大开放字幕库OpenSubtitles的多语言平行语料数据 https://www.wendangku.net/doc/328684501.html,/data/14469 https://www.wendangku.net/doc/328684501.html,是全球最大的开放字幕库,提供了中文、英文、日文、德文、法文等30多种语言的上亿条电影和电视剧字幕。本数据集是根据该网站数据制作的多语言字幕平行语料库,包含30种语言中任意两种语言之间的字幕互译语料。是用于机器翻译研究的绝佳素材。数据量也足够大,压缩后还有2.38G 5.PHP手册的多语言平行语料库 https://www.wendangku.net/doc/328684501.html,/data/15045 将PHP手册内容制作了一个包含21国语言的平行语料库。语料库已经被分词,每个语言对都被对齐。数据量压缩后有278M 6.KDE手册的多语言平行语料库https://www.wendangku.net/doc/328684501.html,/data/15025 将KDE手册内容制作成一个包含24国语言的平行语料库。语料库已经被分词,每个语言对都被对齐。数据量压缩后有88M

语料库和知识库的研究现状

语料库和知识库研究现状 2015-12-9

摘要:语料库是语料库语言学研究的基础资源,也是经验主义语言研究方法的主要资源,它与自然语言处理有着相辅相成的关系,是用统计语言模型的方法处理自然语言的基础资源。知识库广泛应用于信息检索、机器问答系统、自动文摘、文本分类等领域,为进行大规模的真实性文本的语义分析提供了有利的支持,它也成为自然语言处理不可或缺的基础资源。由于语料库和知识库的广泛应用,如今国内外对语料库和知识库的研究给与高度的重视,经过过去几十年的发展,各国在语料库和知识库的建设和应用方面都取得了不少成果。本文通过对语料库与知识库相关文献资料的搜索整理,重点介绍目前国内外在语料库和知识库方面的研究现状。 关键词:语料库;知识库;研究现状 1前言 语料库是指按照一定的语言学原则,运用随机抽样的方法,收集自然出现的连续的语言文本或者说话片段而建成的具有一定容量的大规模电子文本库[1]。而知识库是知识工程中结构化、易操作使用,全面有组织的知识集群,是针对某一(或某些)领域问题求解的需要,采用某种(或若干)知识表示方式在计算机存储器中存储、组织、管理和使用的互相联系的知识片集合。语料库和知识库在传统语言研究、词典编纂、语言教学、自然语言处理等领域有重要作用,所以自从20世纪60年代第一个现代意义上的语料库——美国布朗语料库(Brown Corpus)诞生开始,大批国内外的专家学者致力于语料库和知识库的研究,近年来国内外对于语料库知识库的研究取得了重大的突破,形成了规模不一的各种语料库和知识库,并且涌现了众多有关语料库和知识库的专着、论文等。对于语料库和知识库发展现状的总结研究,不仅可以帮助人们清楚的了解语料库和知识库当前发展的形势,对今后语料库知识库的发展具有一定的指导作用,而且对于应用语料库知识库发展自然语言处理等领域具有重要意义。

国家语委现代汉语语料库介绍-cssn

国家语委现代汉语语料库介绍 肖航 教育部语言文字应用研究所 2012

语料库建设 ?国家语委语料库建设 ?1991年12月国家语言文字工作委员会提出立项; ?1992年4月召开现代汉语语料库选材原则专家论证会; ?1993年1月制订《现代汉语语料库选材原则》; ?1993年9月召开现代汉语语料库选材专家审定会; ?1998年底建成 7000万字的生语料库; ?目前已完成1亿字生语料和5000万字标注语料; ?语料库建设和加工工作还在继续进行。 ?被列为国家语委“九五”、“十五”科研重大项目 ?得到国家科技部“863”、“973”计划多个项目的支持 ?“智能中文信息处理平台” ?“图像、语音和自然语言理解” ?“中文信息处理应用基础研究”

生语料库 语料库的主要内容 ?未经标注加工的生语料库 ?标注语料库 ?词语切分 ?词类标注 ?句法树库 ?内部结构 ?外部功能 ?分词词表 ?88000词条 ?词性标注 ?频率信息 ?语料库加工标注规范 ?语料库软件工具 标注语料库 句法树库

语料库的主要用途 ?主要用途 ?语言文字的信息处理 ?语言文字规范和标准的制定 ?语言文字的学术研究 ?语文教育 ?语言文字的社会应用

语料来源 ?1993年以前的语料 ?以人工录入印刷版本的语料为主 ?约7000万字 ?1993~2002年的语料 ?部分采用人工录入印刷版本语料 ?约1500万字 ?部分来源自网络电子文本 ?约1500万字 ?2002以后的语料 ?以网络电子文本为主 ?约1000万字

语料分类 ?三个主要类别 ?人文与社会科学类 ?包括政法、历史、社会、经济、文学、艺术等类别语言材料 ?自然科学类 ?自然科学的语言材料(含农业、工业、医学、电子、工程技 术等),涉及科学技术发展的各个领域。 ?综合类 ?应用文 ?难于归类的语料

兰卡斯特汉语语料库

“兰卡斯特汉语语料库”介绍1 许家金 (北京外国语大学中国外语教育研究中心,北京 100089,北京) 提要:本文介绍“兰卡斯特汉语语料库”(简称LCMC)的取样方案、文本构成、标注体系和应用方面的概况。该语料库是依照英国英语语料库FLOB的取样方案和规模创建的可比汉语语料库,适合开展英、汉语对比研究,同时也适合汉语研究。 关键词:汉语语料库;LCMC;对比研究 1.0 前言 “兰卡斯特汉语语料库”(The Lancaster Corpus of Mandarin Chinese,简称LCMC)系旅英学者肖忠华博士创建的现代汉语平衡语料库。该语料库严格按照FLOB (Freiburg-LOB Corpus of British English)模式编制,它的建成有助于开展基于语料库的汉语单语或汉英(英汉)双语对比研究及汉语研究。 2.0 LCMC语料库概况 LCMC语料库是一个100万词次(按每1.6个汉字对应一个英文单词折算)的现代汉语书面语通用型平衡语料库。起先建立时,它是作为英国经社研究委员会资助项目Contrasting Tense and Aspect in English and Chinese的部分成果。肖忠华最初的设想是要将其建成同FLOB和FROWN对应的现代汉语语料库。筹建这样的一个语料库的另一个动因是:尽管已经有很多汉语语料库存在,但却没有一个完全免费对公众开放的平衡的汉语语料库2。 2.1 取样模式与文本收集 考虑到LCMC主要做对比研究之用,肖忠华创建语料库之初就确定了对比的对象。一方面,在短期内想要建成像BNC那样的逾亿词次的语料库并不现实。另一方面,要建立同LOB和Brown平行的语料库的问题在于很难找到1961年前后材料的电子文本。于是,最后对比目标被锁定在语料出版年份主要是1991、1992年的100万词次的FLOB上。鉴于同时还有与FLOB对应的美国英语语料库Frown的存在,LCMC建成以后也可与美国英语进行比较。最后,确定下来的方案是按FLOB的构建模式,从15个文体类型(见表1)中选取500篇2,000词左右的样本。样本的出版日期基本在1991年前后。 LCMC的筹建基本上是严格按照FLOB的取样模式进行,只在两个方面做了微调。 第一、FLOB的取样范畴中,肖忠华将FLOB中第N类样本的“西部和历险小说”改成“武侠小说”。一方面由于中国没有所谓的“西部小说”,另一方面,“武侠小说”和“西部和历险小说”从内容性质上同属一类,且在中国这一类小说中数量众多,因此有充足理由将其收入LCMC 中。 表1:LCMC取样范畴表 代码取样类型代码取样类型 A 新闻报道J 学术、科技 B 社论K 一般小说 C 新闻评论L 侦探小说

兰开斯特汉语语料库介绍

(载《中国英语教育》2007年第3期。) “兰卡斯特汉语语料库”介绍1 许家金 (北京外国语大学中国外语教育研究中心,北京100089,北京) 提要:本文介绍“兰卡斯特汉语语料库”(简称LCMC)的取样方案、文本构成、标注体系和应用方面的概况。该语料库是依照英国英语语料库FLOB的取样方案和规模创建的可比汉语语料库,适合开展英、汉语对比研究,同时也适合汉语研究。 关键词:汉语语料库;LCMC;对比研究 1.0 前言 “兰卡斯特汉语语料库”(The Lancaster Corpus of Mandarin Chinese,简称LCMC)系旅英学者肖忠华博士创建的现代汉语平衡语料库。该语料库严格按照FLOB (Freiburg-LOB Corpus of British English)模式编制,它的建成有助于开展基于语料库的汉语单语或汉英(英汉)双语对比研究及汉语研究。 2.0 LCMC语料库概况 LCMC语料库是一个100万词次(按每1.6个汉字对应一个英文单词折算)的现代汉语书面语通用型平衡语料库。起先建立时,它是作为英国经社研究委员会资助项目Contrasting Tense and Aspect in English and Chinese的部分成果。肖忠华最初的设想是要将其建成同FLOB和FROWN对应的现代汉语语料库。筹建这样的一个语料库的另一个动因是:尽管已经有很多汉语语料库存在,但却没有一个完全免费对公众开放的平衡的汉语语料库2。 2.1 取样模式与文本收集 考虑到LCMC主要做对比研究之用,肖忠华创建语料库之初就确定了对比的对象。一方面,在短期内想要建成像BNC那样的逾亿词次的语料库并不现实。另一方面,要建立同LOB和Brown平行的语料库的问题在于很难找到1961年前后材料的电子文本。于是,最后对比目标被锁定在语料出版年份主要是1991、1992年的100万词次的FLOB上。鉴于同时还有与FLOB对应的美国英语语料库Frown的存在,LCMC建成以后也可与美国英语进行比较。最后,确定下来的方案是按FLOB的构建模式,从15个文体类型(见表1)中选取500篇2,000词左右的样本。样本的出版日期基本在1991年前后。 LCMC的筹建基本上是严格按照FLOB的取样模式进行,只在两个方面做了微调。 第一、FLOB的取样范畴中,肖忠华将FLOB中第N类样本的“西部和历险小说”改成“武侠小说”。一方面由于中国没有所谓的“西部小说”,另一方面,“武侠小说”和“西部和历险小说”从内容性质上同属一类,且在中国这一类小说中数量众多,因此有充足理由将其收入LCMC 中。 表1:LCMC取样范畴表

兰开斯特汉语语料库介绍

兰开斯特汉语语料库介绍 北京外国语大学许家金 1.0 前言 兰开斯特汉语语料库(The Lancaster Corpus of Mandarin Chinese,简称LCMC)是在Tony McEnery教授指导下,由他的学生肖忠华博士历时半年多于2003年6月初步建设完成的现代汉语平衡语料库。该语料库项目是由兰开斯特大学语言学系承担,由英国经社研究委员会资助设立的。LCMC语料库是严格按照Freiburg-LOB Corpus of British English(即FLOB)模式编制的汉语书面语语料库,它的建成有助于我们从事基于语料库的汉语单语或汉英(英汉)双语的对比研究。 2.0 LCMC语料库概况 LCMC是一个100万词次(按每1.6个汉字对应一个英文单词折算)的现代汉语书面语平衡语料库。起先建立时它是作为英国经社研究委员会资助项目Contrasting Tense and Aspect in English and Chinese的一部分。最初的设想便是要将其建成同FLOB和FROWN对等的现代汉语语料库。筹建这样的一个语料库的最初动因主要是:尽管已经有很多汉语语料库存在(Yang 2003),但却没有一个完全免费对公众开放的平衡的汉语语料库1。 2.1 取样模式与文本收集 考虑到该语料库将来主要是要作对比研究之用,于是一开始就必须确定将来对比的对象。一方面,在短期内想要建成像BNC那样的逾亿词次的语料库并不现实。另一方面,要建立同LOB和Brown平行的语料库的问题在于很难找到1961年前后材料的电子文本。于是,最后对比目标被锁定在语料出版年份主要是1991、1992年的100万词次的FLOB上。鉴于同时还有与FLOB对应的美国英语语料库Frown的存在,LCMC建成以后也可以与美国英语进行比较。最后,确定下来的方案是按FLOB的构建模式,从15个文体类型中选取500篇2,000词左右的样本。样本的出版日期基本是1991年。 LCMC的筹建基本上是严格按照FLOB的取样模式来操作的,只是在两个方面做了微调。第一、FLOB的取样范畴中,肖忠华将FLOB中第N类样本的“西部和历险小说”改成“武侠小说”。一方面由于中国没有所谓的“西部小说”;另一方面,“武侠小说”和“西部和历险小说”从内容性质上同属一类,且在中国影响甚巨。有充足的理由将其收入LCMC 中。 表1:LCMC取样范畴表 1确切地说,台湾中央研究院Sinica Corpus也是一个免费对公众开放的平衡的汉语语料库。但是它只能代表台湾地区的汉语,而无法反映中国大陆的汉语的情况。详情可以访问Sinica Corpus 官方网站https://www.wendangku.net/doc/328684501.html,.tw/ftms-bin/kiwi.sh。

相关文档