文档库 最新最全的文档下载
当前位置:文档库 › 阶段式的句法推导

阶段式的句法推导

阶段式的句法推导
阶段式的句法推导

浅谈自然语言处理

浅谈自然语言处理 摘要 主要阐述了自然语言处理的定义,发展历史,并对其研究内容,以及目前相关领域的应用加以讨论。最后对自然语言处理的未来发展趋势做简单的介绍。 关键词 自然语言处理 Abstract The definition and the development history of Natural Language Processing(NLP) are explained,the research content and the applications in interrelated areas of NLP are discussed.And the develop direction of NLP in the future are simply introduced. Key Words: Natural Language Processing(NLP)

0.引言 早在计算机还未出现之前,英国数学家A.M.Turing便已经预见到未来计算机将会对自然语言处理研究提出新的问题。他指出,在未来我们可以“教机器英语并且说英语。”同时他觉得“这个过程可以仿效教小孩子说话的那种办法进行”。这便是最早关于自然语言处理概念的设想。 人类的逻辑思维以语言为形式,人类的多种智能都与语言有着密切的联系。所以用自然语言与计算机进行通信是计算机出现以来人们一直所追求的目标。 1.什么是然语言处理 美国计算机科学家Bill Manaris(马纳瑞斯)在1999年出版的《计算机进展》(Advances Computers)第47卷的《从人—机交互的角度看自然语言处理》一文中,曾经给自然与然处理提出了如下定义:“自然语言处理可以定义为研究在人与人交际中的语言问题的一门学科。自然语言处理要研制表示语言能力(linguistic competence)和语言应用(linguistic performance)的模型,建立计算框架来实现这样的语言模型,提出相应的方法来不断地完善这样的语言模型,根据这样的语言模型设计各种实用系统,并探讨这些实用系统的评测技术。”这个定义被广泛的接受,它比较全面的地表达了计算机对自然语言的研究和处理。 简单来说,自然语言处理就是一门研究能实现人鱼计算机之间用自然语言处理进行有效的通信与方法的一门学科,它是计算机科学领域与人工智能领域中的一个重要方向。普遍认为它主要是应用计算机技术,通过可计算的方法对自然语言处理的各级语言单位(字,词,语句,篇章等)进行转换,传输,存储,分析等加工处理的学科,是一门融合了语言学,计算机学,数学等学科于一体的交叉性学科。 互联网技术的发展,极大地推动了信息处理技术的发展,也为信息处理技术不断提出新的需求,语言作为信息的载体,语言处理技术已经日益成为全球信息化和我国社会及经济发展的重要支撑技术。

西方语言学史重点

西方语言学史重点 一、语言学的分类 (一)功能角度:理论语言学和应用语言学 (二)具体研究对象:普通(一般)语言学/个别(专语、具体)语言学 (三)研究时段:共时语言学和历时语言学 (四)研究方法:描写语言学和对比语言学 (五)研究对象的状态:静态语言学和动态语言学 (六)研究角度和范围:微观语言学和宏观语言学 二、应用语言学类别 社会语言学、心理语言学、神经语言学、统计语言学 三、西方语言学史的分期 1.一般的划分方法 (1)古代语言学(19世纪以前) (2)近代语言学(19世纪) (3)现代语言学(20世纪上半叶) (4)当代语言学(20世纪50年代末至今) ——“五段两线三解放 “五段”指语文学、历史比较语言学、结构主义语言学、形式语言学、交叉语言学等五个阶段;“两线”指“整齐论”和“参差论”两条路线的斗争;“三解放”指历史比较语言学、索绪尔、社会语言学这三个有代表性的里程碑。 2.传统语文学的定义、性质、局限性 定义:传统语文学是传统语言学的重要组成部分,它主要包括三大语文传统,分别是古希腊传统、古印度传统,以及中世纪阿拉伯传统。 传统语言学是一个与现代语言学相对的概念,泛指20世纪以前的语言学,特别是指索绪尔的语言学理论之前的各种语言学理论。那么,与它相对的现代语言学就是指20世纪以来,建立在瑞士语言学家索绪尔的语言理论基础上的各种语言流派及其分支学科的总称。 性质:“依附性”是传统语文学重要的性质。传统语文学并不能算作一门真正的独立学科,只能称为语言学的前奏。 局限性:要成为一门真正的学科,必须要有自己独立的研究对象,独立的研究方法以及多样化的研究材料,而传统语文学并不具备。 古希腊、古罗马、古印度 四、古希腊语言研究

自然语言理解技术

自然语言理解技术,未来人工智能的核动力 摘要:自然语言理解是人工智能研究重要的领域之一,同时也是目前前沿的难题之一。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法,是未来人工智能的核动力。因此理解自然语言理解以及自然语言理解技术的含义,阐述自然语言理解的研究及其相关应用,综述自然语言理解技术研究方向变化并对自然语言理解的发展前景进行分析和展望,是十分有意义的。 关键词:自然语言理解技术;智能信息服务; 1.引言: 随着计算机科学的不断发展和成熟,计算机应用开始迈人知识处理、语言理解阶段,人们对计算机的智能提出了新的要求随着社会的日益信息化,人们越来越强烈地希望能更好地同计算机交流。自然语言就是这样一个媒介。 2. 1自然语言理解的含义: 广义的“语言”是任何一种有结构的符号系统。其中, 最重要的两类语言,自然语言和形式语言。而狭义的“语言”是人类在社会牛活中发展出来的用来互相交际的声音符号系统,是“自然语言”。 “自然语言理解”即Natural Language Understanding 俗称人机对话,指的就是使计算机来按照这种语言所表达的意义做出相应反应的机制。它主要研究用电子计算机模拟人的语言交际过程,使计算机能理解和运用人类社会的自然语言如汉语、英语等,实现人机之间的自然语言通信,以代替人的部分脑力劳动,包括查询资料、解答问题、摘录文献、汇编资料以及一切有关自然语言信息的加工处理。这在当前新技术革命的浪潮中占有十分重要的地位。自然语言理解是计算机科学中的一个引人入胜的、富有挑战性的课题。从计算机科学特别是从人工智能的观点看,自然语言理解的任务是建立一种计算机模型,这种计算机模型能够给出象人那样理解、分析并回答自然语言(即人们日常使用的各种通俗语言)的结果。2. 1自然语言理解技术的含义: 首先, 自然语言是极其复杂的符号系统。一个人尽管可以对自己的母语运用自如, 但却无法把自己母语的构成规律、意义的表达规律和语言使用的规律用计算机可以接受的方式彻底说清楚。传统的语言学是在没有计算机参照的条件下发展起来的, 虽然为自然语言理解积累了宝贵的财富, 但那是讲给人的, 真正要让语言学知识变成计算机上可操作的, 绝不是那么简单, 也不能那么模糊。这个目标的实现,需要大量又懂语言学又懂计算机的人在正确的技术路线的指导下一起做非常大规模的基本建设, 绝不是一拍脑袋想出个“绝招”就能解决的。 其次, 自然语言的各个层次上都含有巨大的不确定性。在语音和文字层次上,有一字多

空间句法的新方法_比尔_希利尔

54 世界建筑2005/11 1 步行可达指数。图中显示了影响伦敦哈罗兹,金茨桥区域的步行活 动的重要因素。/Walkability Index.Bar chart showing significantfactors influencing pedestrian movement in the area aroundHarrods in Knightsbridge, London, as identified by the WalkabilityIndex.2 同一地区的步行活动预测图显示出了对新的联系(金茨桥和海德公园之间)的需求,可以同其他重要因素联系起来。预测等级通过不同 空间句法是一种研究城市的方法,主要是了解社会和经济因素是如何逐步影响并形成空间的。用当今的流行术语来说就是把城市看成是自组织系统。 空间句法最为人所知的方面也许是它建立了在建筑环境里分析空间模式或者说分析空间组构的方法。这些方法不仅揭示了城市中的空间结构,而且把它们和人的移动、停留和交流方式相联系。空间句法还能预测设计和规划所带来的中长期效果,因此,能让设计者和规划者在工作中遵循社会和经济发展规律,而不是违背它们。 这些研究方法已经在一段时间内得到了成功地运用,其中包括轴线分析法(用来分析城市街道网络和步行系统)和“可视性分析”(用来分析公共空间内的视域模式)。但是同时新的分析方法正不断地由伦敦大学学院空间句法实验室以及它的商业合作伙伴空间句法有限公司开发和研究出来。本文将简要地介绍其中一些发展。 组构的修正:步行可达指数 正如空间句法理论所说,空间组构强烈地影响人的流动,但并不意味着组构完全决定了人流或者它的作用是放之四海皆准的。在一些案例中,组构的影响比较弱,所以,要理解人流模式或者预测设计结果就需要一些其他额外的信息。这些附加的信息包括一些相关因素,如交通节点、土地利用、临街建筑、基础设施、主要吸引物和美学因素等。 现在这些其他因素都通过最近研发的一项称为步行可达指数的技术整合到了组构模式上。步行可达指数是 建立在统计学方法的多重回归分析(MRA)的基础上。多重回归分析是经验性地分析数据,以此来决定每个元素作为人流模型中所起的可变量作用。多重回归分析模型可以更好地理解与人流模式相关的问题,因为它强调了因素的相对重要程度,比如建筑高度、交通节点或者活跃的临街行为等等,有时它们和局部整合度(影响人流的主要组构量度)一样重要。 同时,改变不同的输入变量的值,例如那些步行道的宽度或者活跃临街行为的数量,都可以帮助预测可能发生的人流模式。事实上,这些因素的结合是可以被分析和修改的,这也就有了一个灵活性的方法。 步行可达指数在一些地区尤其有效,这些开发对空间结构、人流和土地利用的影响不同步,比如伦敦的大象城堡(Elephant and Castle)地区(它的总图设计采用了很多空间句法分析)。实际上,对于这样一个技术的需求正好说明路网结构、人流和土地利用三者之间的协调发展是一个发育良好的城市的产物。这也许是为什么传统城市更为人称道的主要原因。这并不意味着城市必须设计得和过去一样,但是却意味着它们设计的根据应借鉴那些具有活力的城市的经验。 更精确尺度的组构:线段分析 空间句法的一个很大优势在于它可以同时在城市宏观和微观尺度上分析空间。线是都市分析的一个主要单位(这反映了一个事实:城市空间本质上是一个线性空间网络)。但是这并不是我们需要了解的最精确的尺度,因为这些线在交点之间的不同线段经常是起着不同作用的。同样重要的是要考虑到不同城市存在非常不同的几 何形式,从更加网格状到更加有机状。 为解决这些问题,现在发展出了一种新的句法模式。它仍然是建立在线网的基础上,但是它的基本单位是交点之间的线段。这种模式不仅能在更精确的尺度上进行结构分析,而且可以通过不同的方式定义一个节点和另外一个之间的距离来进行不同类型的分析:实际路程距离(从点A到点B多远),最少转弯距离(一条路线有多少转弯),最小角度距离(两点之间的实际路径与连接两点的直线所形成的偏差角度大小)。这些不同的分析方法从不同的方面反映了都市的复杂程度。 尽管这种新模型还在研究测试中,但是它已经被证明对于分析城市最微观尺度的土地利用变化非常有效。这个模式现在被用来分析更精确的人流模式,同时它也指明了路程、几何和拓扑3个元素的作用使得城市空间网络本身形成了人流。这个领域的重要新成果在不久的将来公布,某种程度上可能是惊人的成果。 主观的组构:空间中智能行动者 现在来介绍最新的发展:EVAS空间中智能行动者。它是从视线分析(VGA)方法发展而来,已经被运用在很多公共空间项目上,包括最近的特拉法加广场(Trafalgar Square)的重新设计。 EVAS创造了虚拟环境(它建立在地图或者建筑图纸基础上),然后给虚拟的智能行动者赋予限制视角的朝前的视域。当这些智能行动者四处活动时,他们用“感知—行动”的规律来指导他们的运动行为,例如他们会被某个进入视野的特殊物体所吸引。如果环境改变(例如模拟一个新设计),EVAS会显示人流模式如何相应变 空间句法的新方法 NEW METHODS IN SPACE SYNTAX 比尔?希利尔,克里斯?斯塔茨/Bill Hillier, Chris Stutz 作者简介:比尔?希利尔 ,伦敦大学学院巴特雷特研究生院教授 兼院长,空间句法咨询公司非执行董事。 克里斯?斯图兹,空间句法咨询公司副主管。 收稿日期:2005-10-09 1 2 颜色来表达,红色最高,蓝色最低。/Pedestrian movement forecast map of same area with proposed new link (betweenKnightsbridge and Hyde Park), incorporating likely effects oflayout/configuration and other significant factors. Forecastlevels for each segment are represented on a colour scale, withhighest levels red and lowest levels blue. 影响步行活动的因素/Factors influencing movement 非常重要/Very significant 不重要/Not significant 重要/Significant 空间布局/Spatial layout 零售/Retail 地铁/Tube 特殊因素/Special 静止边界/Inactive frontages 哈罗兹/Harrods

语言学概论第四章

第四章语法 三、分析题 1、用层次分析法分析下列句法结构。 (1)夕阳把远山照得通红 主语谓语 状语中心语 介宾述补 (2)热爱人民的周总理 1)热爱人民的周总理 动宾 定中 2)热爱人民的周总理 定中 动宾 2、变换下列句子,使其具有句法同义关系。 (1)我打破了杯子。 1)我打破了杯子。——我把杯子打破了。——杯子被我打破了。——杯子我打破了。——杯子我把它打破了。——我打破的是杯子。——杯子是我打破的。…… 2)我打破了杯子。——我没有打破杯子。 3)我打破了杯子。——我打破了杯子了么? (2)我们找到了小王。 1)我们找到了小王。——小王我们找到了。——小王被我们找到了。——我们把小王找到了。——小王是我们找到的。——我们找到的是小王。—2)我们找到了小王。——我们没有找到小王。

3)我们找到了小王。——我们找到了小王了? 3、用变换方法区分下列句法多义的句子。 (1)关心的是他母亲。 ——被关心的人是他母亲 ——关心人的是他母亲 (2)虚构故事吓坏人 ——虚构故事把人吓坏了 ——虚构的故事用来吓唬坏人 (3)咬死猎人的狗 ——狗咬死了猎人 ——猎人的狗被咬死了 (4)鸡不吃了 ——鸡不吃食物了 ——我们不吃鸡了 5、用变换的方法辨析下列结构之间的差别。 (1)在池子里洗衣服--在池子里养金鱼 *把衣服洗在池子里——把金鱼养在池子里 *洗衣服洗到池子里——养金鱼养到池子里 这说明“池子里”仅仅是“洗衣服”这个行为的处所,但不必然是“衣服”的处所;与此相反,“池子里”既是“养金鱼”的处所,也是“鱼”的处所。 (2)在黑板上写字——在教室里写字——在火车上写字 字写在黑板上——字写在教室里——字写在火车上 (人呆)在黑板上写字——(人呆)在教室里写字——(人呆)在火车上写字 以上变换说明:(1)“黑板上”是“字”的处所,不必然是动作行为发生的处所;(2)“教室里”是“写字”的行为发生的处所,但不必然是“字”的处所;(3)“火车上”既是“写字”行为的处所,也可以是“字”的处所。 五.问答题

统计自然语言处理--概率句法分析

概率句法分析
哈工大信息检索研究室 2004年春

PCFG (Probabilistic Context Free Grammars)

Chomsky hierarchy
? 0-型(无约束文法)
– 无限制
? 1-型(上下文相关文法)
– αAβ -> αγβ
? 2-型(上下文无关文法)
– A -> γ
? 3-型(正规文法)
– A -> aB – A -> a

Motivation
? N-gram和HMM只能处理线性序列 ? 用这些方法对句子进行分析时,面临这 一些问题 ? The velocity of the seismic waves rises to ? 如何解决这种“矛盾”?

Motivation
? The velocity of the seismic waves rises to
? 自然语言是一种非线性的符号序列 ? 句子结构表现为复杂的嵌套性

Context Free Grammar
? ? ? ? ? ? (a) S NP, VP. (b) NP Det, Noun. (c) VP Verb, NP. (d) VP VP, PP. (e) PP Prep, NP. (f) Det [the]. (g) Det [a]. (h) Noun [boy]. (i) Noun [dog]. (j) Noun [rod]. (k) Verb [hits]. (l) Prep [with].

粤语句法的类型学特点

粤语句法的类型学特点,刘丹青,原载香港 《亚太语文教育学报》2001年2期 粤语句法的类型学特点* 刘丹青 0. 引言 粤方言是汉语中与普通话及其他方言相差较大、内部则较为一致的方言。外部差异较大,是因为粤方言由南岭之隔造成较长时间的相对独立发展。内部较为一致,则是因为其中的广州话获得了地方标准语的强势方言地位。广州话扩散至香港,又使相隔数百里的两大都会共一地点方言,形成汉语非官话区中独一无二的奇观,进一步扩大了粤语的影响。“省港”地区出去的华人华侨及港产文化娱乐产品还把粤语带到世界各地,产生国际影响。本文所谈的粤语,就是指这种穗港及深圳、澳门等处共同使用的通行粤语。 粤语研究因为其强势地位而较为繁荣,粤语相对于普通话而言语法特点也比较多,因此有关粤语语法的研究成果也就较为丰硕,如高华年(1980)、李新魁(1994)、李新魁等(1995) 等粤语研究专著都有章节作较系统的语法描写,还出现了数种粤语语法专著,如张洪年(1972)、Matthews & Yip (1995),此外还有大量粤语语法论文。现有的粤语语法论著,大多侧重于描写,尤其注意粤语与普通话的语法差异。本文也想集中关注粤语区别于普通话及其他方言的语法特点,但想换一个角度,即从语言类型学的角度来比较粤语和普通话,通过提供更广阔的汉语类型背景来更深入地揭示粤语语法的类型特征,以便深化对粤语语法特点的认识。所谓语言类型学,就是以人类语言的共性及类型差异为目标的一整套理论和方法。它以大范围的跨语言对比为基本视角,不局限于单一语种的研究或少数几种语言方言的对比。本文借助类型学研究的现有成果来观照粤语语法的特点,主要是句法特点,因为粤语的类型特点更多地表现在句法而不是形态上。本文将分三步。第一,概述粤语的几项主要句法特点。第二,暂时离开粤语本身,讨论一下汉语整体的类型背景,为聚焦于粤语的类型特点准备好“幕布”背景。第三,在此背景下进一步讨论粤语句法的类型特点。 1. 粤语句法的主要特征 本节拟参考前述论著对粤语语法的描写,加上笔者对粤语的一些观察,简要概述一下粤语句法区别于普通话的几个主要特点。 1.1 量词作用突出,指示词和数词作用受限。 粤语的量词(classifiers)可以离开指示词或数词单独充当句子成 分。指示词和数词则不能脱离量词而使用。可见量词是句法上更为重要的词类。普通话则相反,量词总须与指示词或数词同现,不能单用,而指示词和数词有时可以离开量词单独充当句法成分。以往的描写较强调粤语量词的功能“扩张”,而不太注意粤语指示词、数词的功能“萎

商务英语信函的句法特征

商务英语信函的句法特征 1.Introduction 1.1 literature review This study focuses on the morphological and syntactic features of English business correspondences. In order to finish this study effectively, I read some related literatures and this helps me a lot. Now I shall do a detailed analysis about the literatures. In the article “the features and application of English business correspondences in e-time”, the writer explained his main idea in accordance with the traditional principle “seven Cs”, that is Completen ess, Clearness, Concreteness, Conciseness, Correctness, Courtesy and Consideration. This article can be divided into two parts. The writer firstly makes an analysis of the business correspondences and makes sure that the readers are clear about the layout of business correspondences. And then the writer states the unique features of business correspondences in e-time. “This part is divided into two sub-parts to analyze the features, one from the aspect of the form of business correspondences and the other f rom the aspect of contents”[1]. At last the writer states the meaning of his study. The article “the grammatical features of English business correspondences” by Gao Jiayong “talks about the features from five aspects”[2], but he viewed the features just from the syntax. Articles written by other people also account for the features, such as “the lingual features of business correspondences and several important principles” by Wang Yuanyuan, “lingual features of English in business correspondences” by Tian Lan and so forth. All those articles analyze the features from their own points of view. 1.2 purpose of this study My study aims to seek out the morphological and syntactic features of English business correspondences. Before my study, there have been many researches about this topic, but through my reading those articles, I find that they are more or less incomplete. So I intend to make an analysis as comprehensive as possible. Besides, as time goes by, everything is changing. The business nowadays can be somewhat different from that of before, and so are the English business correspondences. And they must have possessed some new features as they develop. This study also tries to find out these new features. To sum up the morphological and syntactic features of English business

语言学期末总结

语言的结构类型: (一)词法类型: 1、孤立语:汉语、越南语、苗语、彝语 2、屈折语:英语、俄语、德语、阿拉伯语 3、粘着语:土耳其语、维语、芬兰语、日语、朝鲜语 4、编插语:美洲语 (二)句法类型SVO、SOV、VSO 语言学学科的发展: (一)传统语言学阶段 1、语文学阶段前4世纪~19世纪 1989年马建忠《马氏文通》开始真正开始语法研究 2、历史比较语言学阶段 语言学开始走上独立的学科道路 普通语言学的建立:德国洪堡特《论人类语言结构的差异及其对人类精神发展的影响》(二)现代语言学阶段 1、结构主义语言学 索绪尔“现代语言学之父”《普通语言学教程》 A、区分了语言和言语两个重要概念。 B、区分了内部语言学和外部语言学。 C、区分了语言的共时性(静态)和历时性(动态)。 D、提出了语言是一种表示意念的符号系统,认为语言符号能指和所指的联系是任意 的。 E、强调在语言中各个要素及其构成成分都处于组合关系和聚合关系中。 F、区分了词语的意义和价值。每个语言单位都具有意义。 G、认为语言是形式而不是实体。 布龙菲尔德、萨丕尔代表作《语言学》 2、转换生成语言学乔姆斯基 语言的功能 语言的社会功能 一、语言是交际工具(核心) 1、语言是人类特有的交际工具 人类语言和动物交际的根本区别:单位的明晰性、任意性、结构的二层性(音义)、开放性(无限创造)、传授性、不受时地限制。 2、语言是人类最重要的交际工具 3、语言是全民的交际工具 二、语言是思维工具 思维总得用一种语言。民族、社会的劳动成果一旦固化,就可在此基础上进行。 三、语言是文化的载体 语言是文化的一部分,语言记录文化、促进文化发展,文化影响语言发展。 语言是符号系统

再论“空间句法”(图文整理详细版)

再论“空间句法”(图文整理详细版) 作者:张愚王建国 国内建筑界对空间句法的了解,多数仅限于由赵冰翻译的《空间句法——城市新见》一文[1]。发表于1985年第一期《新建筑》上的这篇文章,简要介绍了早期的空间句法方法在城市空间形态研究方面的应用,但未全面介绍其方法背景、原理和其他应用,因此,至今很多人仍颇有不解或“持保留态度”[2]。多年来,空间句法在各方面已有长足发展,国内杂志却鲜有论及。本文试图比较清晰地介绍和评析空间句法的理论、方法、实践及其最新研究进展。 简单地说,空间句法是一种通过对包括建筑、聚落、城市甚至景观在内的人居空间结构的量化描述,来研究空间组织与人类社会之间关系的理论和方法(Bafna, 2003)。它是由伦敦大学巴利特学院的比尔•希列尔(Bill Hillier)、朱利安妮•汉森(Julienne Hanson)等人发明的。早在1974年,希列尔就用“句法”一词来代指某种法则,以解释基本的但又是根本不同的空间安排如何产生[3]。到1977 年,空间句法研究则略具雏形。经过二十余年的发展,空间句法理论已经深入到对建筑和城市的空间本质与功能的细致研究之中,并得到不断完善;由此开发出的一整套计算机软件,可用于建成环境各个尺度的空间分析;而且在建筑和城市设计中进行了广泛的应用。如今,空间句法的研究和应用已经在世界范围内普遍展开。 1997年,首届世界性的空间句法研讨会在伦敦举行;其后于1999年和2001年又在巴西利亚和亚特兰大举行了第二和第三届。2003年6月,在伦敦刚刚举行的第四届研讨会上,来自世界数十个国家和地区的82篇论文,从不同角度对空间句法进行了广泛深入的探讨。另外,日趋成熟的空间句法分析技术,已经成功应用于商业咨询。理查德•罗杰斯、诺曼•福斯特、泰瑞•法雷尔等知名事务所,在众多建筑和城市设计项目中雇请空间句法咨询公司进行空间分析,为其设计提供了有力的引导和支持。 由于篇幅所限,本文以解释构形概念为主线,重点从空间知觉的角度简析空间句法的方法原理,使读者能真正理解并实际运用它;而对于空间句法的理论概念和具体应用成果仅作扼要介绍。 1. 构形与建筑学 1.1 构形的含义 构形(configuration),从字面上看,是指“轮廓由其各部分或元素配置决定的外形”(据美国传统辞典)。希列尔将构形定义为“一组相互独立的关

自然语言处理技术分享1

内容大概分为:自然语言处理的简介、关键技术、流程及应用。 首先,介绍一下什么是自然语言处理(也叫自然语言理解): 语言学家刘涌泉在《大百科全书》(2002)中对自然语言处理的定义为:“自然语言处理是人工智能领域的主要内容,即利用电子计算机等工具对人类所特有的语言信息(包括口语信息和文字信息)进行各种加工,并建立各种类型的人-机-人系统,自然语言理解是其核心,其中包括语音和语符的自动识别以及语音的自动合成。” 从微观上讲,自然语言理解是指从自然语言到机器(计算机系统)内部之间的一种映射。 从宏观上看,自然语言理解是指机器能够执行人类所期望的某些语言功能。这些功能包括: ①回答有关提问;计算机正确地回答用自然语言输入的有关问题 ②提取材料摘要;机器能产生输入文本的摘要 ③同词语叙述;机器能用不同的词语和句型来复述输入的自然语言信息 ④不同语言翻译。机器能把一种语言翻译成另外一种语言 自然语言处理的关键技术 自然语言处理的关键技术包括:词法分析、句法分析、语义分析、语用分析和语句分析。 1.词法分析 词法分析的主要目的是从句子中切分出单词,找出词汇的各个词素,并确定其词义。 词法分析包括词形和词汇两个方面。一般来讲,词形主要表现在对单词的前缀、后缀等的分析,而词汇则表现在对整个词汇系统的控制。在中文全文检索系统中,词法分析主要表现在对汉语信息进行词语切分,即汉语自动分词技术。通过这种技术能够比较准确的分析用户输入信息的特征,从而完成准确的搜索过程。它是中文全文检索技术的重要发展方向。 不同的语言对词法分析有不同的要求,例如英语和汉语就有较大的差距 汉语中的每个字就是一个词素,所以要找出各个词素是相当容易的,但要切分出各个词就非常难。 如”我们研究所有东西“,可以是“我们——研究所——有——东西”也可是“我们——研究——所有——东西”。

英语句法特点与翻译

科技英语的句法特点与翻译 1.科技英语在句法上有着明显不同于一般英语的特点,主要有以下几点: a. 广泛使用长句 由于科技英语描写的是科学技术和其他的自然现象,因此,科技作者所注重的是事实和逻辑推导,所给出的定义、定律、定理,或描绘的概念,或叙述的生产工艺过程,都必须严谨、精确。在这方面与文学英语、政论英语或应用文英语相比,科技英语的长句就使用较多。在这些长句中,常常是一个主句带若干个从句,从句带短语,短语带从句,从句套从句,互相依附、互相制约,一环扣一环,这可谓错综复杂,盘根错节,读起来或翻译起来颇伤脑筋。例如: It is animals and plants which lived in or near water whose remains are most likely to be preserved,for one of the necessary conditions of preservation is quick burial, and it is only in the seas and rivers,and sometimes lakes,where mud and silt has been continuously deposited,that bodies and the like can be rapidly covered over and preserved. 只有水中或水边生活的动物,才能把遗骸保留下来,因为这样做的条件之一,就是迅速地埋葬。而只有在泥浆和淤泥能够接连不断地沉淀的地方——如海洋、河川,往往在湖泊里,动植物的遗骸和类似的东西,才能被很快地覆盖而保存下来。 (两个强调句) b. 非谓语动词使用频率高 非谓语动词的使用可以大大简化句子结构,减少长句的使用。 c. 广泛使用被动语态 科技英语叙述的对象往往是事物,现象或过程,强调的是所叙述事物的本身,而非其主体。被动语态有强调受事者,将其置于话题(topic)的主位(thematic position)的语用功能。如: Heat and light are given off by the chemical reaction. 这种化学反应能发出热和光。 被动语态隐含施事者,可以避免给人以主观臆断的对象,如:It is universally known that the world is made of matter. 人人都知道世界是由物质构成的。 英语中存在一些自动性(Intransitivity)很强的动词或动词词组produce,originate, enable, emerge, vary, give, send, occur, represent,

自然语言处理论文:国内自然语言处理研究热点分析

自然语言处理论文:国内自然语言处理研究热点分析[摘要]在确定国内自然语言处理领域使用频率最高的61个关键词的基础上,运用共词分析法,以SPSS 软件为工具,通过因子分析和聚类分析的方法,井借鉴相关研究结果,探讨国内自然语言处理研究现状及研究热点。 [关键词]自然语言处理共词分析法聚类分析因子分析 1引言 最早的自然语言处理方面的研究工作是机器翻译。1949年,美国人威弗首先提出了机器翻译设计方案。从20世纪40年代算起,自然语言处理的研究已经有印多年的历史了,随着信息网络时代的到来,它已经成为了现代语言学中一个颇为引人注目的学科。美国计算机科学家Bill Manaris(马纳利斯)在1999年出版的《计算机进展》(Advances in Computers)第47卷的《从人一机交互的角度看自然语言处理》一文中,曾经给自然语言处理提出了如下的定义: “自然语言处理可以定义为研究在人与人交际中以及在人与计算机交际中的语言问题的一门学科。自然语言处理要研制表示语言能力(Linguistic Compe-tence)和语言应用(Linguistic Performance)的模型,建立计算框架来实现这样的语言模型,提出相应的方法来不断地完善这样的语言模型,根据这样的语言模型设计各种实用系统,并探讨这些实用系统的评测技术”。 这个定义比较全面地说明了自然语言处理的性质和学科定位,国内外学者普遍认同这个定义。 在自然语言处理研究发展的60多年间,国外该领域经历了萌芽期、发展期和繁荣期三个时期,并取得了丰富的研究成果。相比之下,国内在该领域较为系统的研究成果则为数不多,主要是由于早期受到汉语信息处理一些预处理技术的制约(如汉字编码、汉语分词等),到真正开始汉语自然语言理解研究时,已经比国外晚了20多年。但是,经过20多年的发展,汉语自然语言处理技术也获得了长足的进步,在机器翻译、语料库、语篇理解、概念层次网络等领域取得了一些重要成果。 本文拟采用共词分析方法,通过对国内自然语言处理领域文献中高频关键词共同出现频率规律的分析,深入揭示其研究热点以及研究现状,为其他从事自然语言处理研究的学者提供参考。 2研究方法 共词分析法(Co-term Analysis)在图书情报界的应用非常广泛,是文献计量学的一种重要方法,也是内容分析法的常用方法之一。最先提出共词分析方法的是Callon等人,其后这种方法被广泛使用。共词方法的思想来源于文献计量学的引文耦合与共被引概念,即当两个能够表达某一学科领域研究主题或研究方向的专业术语(一般为主题词或关键词)在同一篇文献中出现时,表明这两个词之间具有一定的内在关系,并且出现的次数越多,表明它们的关系越密切、距离越近。利用现代统计技术如因子分析、聚类分析和多维尺度分析等多元分析方法,可以进一步按这种“距离”将一个学科内的重要关键词加以分类,从而归纳出该学科的研究现状、热点和内容。不仅如此。利用现代信息技术和统计软件图形显示功能,还能够将分析结果直观形象地显现出来,进而达到可视化的效果。 用共词分析法分析国内自然语言处理领域的研究热点。需要通过四个步骤完成:①,确定国内该研究领域主要关键词;②建立关键词共词矩阵;③选取多元统计方法对所建矩阵进行统计分析;④对所获得的数据进行分析。 3数据来源与关键词获取 3.1数据来源 在中国期刊网(CNKi)上,以“自然语言处理”为关键词,检索时间范围为CNKI默认的年限。选择了四个数据库,分别是中国学术期刊网络出版总库、中国博士学位论文全文数据库、中国优秀硕士学位论文全文数据库、中国重要会议论文全文数据库等,并以关键词为检索字段,采用精确检索的方式检索出2233篇文献,然后从CNKI上下载这些文献的题录数据。

句法分析

1、忘れていたら、私に注意して下さい。 2、ご請求の代金は今週中に払う。 3、その問題について検討していただきたいです。 4、他人に迷惑をかけない方がいいです。 5、これは君の書いたものなかろうか。 6、むしろその方が効果的ではないでしょうか。 7、暗い汽車の窓に流れて行く名古屋の街の灯を汽車に乗っている彼は見ていた。 8、この本は、外国人で、中国語を学習しようとする者に対して、その学習活動を効果的にする目的で編集したものである。 9、代表に選ばれた山田さんが会議に出席しました。 10、熱もないから、そんなに苦しいわけはない。仮病を使うに違いない。 11、人生の暮れ方に近づいた私にとって、このようなことが最後の機会になると思う。 12、二人は性質が合わないのを口実に離婚しました。 13、そのことは彼に任せておけば大丈夫です。 14、こんな雤の強い日には、タクシーを拾うのは難しいです。 15、貿易摩擦のため、化学繊維品の輸入は大幅に減少した。

16、9ヶ月にわたって書いてきた看病日記はとうとうこれで終わりになってしまいました。 17、顔色は血液の循環(血行)と密接にかかわっています。そのため、貧血気味の人はいつも顔色が悪く感じられることが多いようです。 18、名を変えたが、中身が変わったわけではない。 19、大好きなおばあさんが入院した。心配で帰国せずにはいられない。 20、日本語は得意だからといって、必ずしも就職に有利だとは限らない。 21、まだ子供だから、親のいうことを聞かざるを得ない。22、彼は若いながらも、経験がとても豊富だ。 23、いくらいい音楽でも毎日のように聞かされるといやになるものですよ。 24、西洋の学問、技術、社会の進んだありさまなどを日本の民衆に知らせないようにするのが徳川幕府の鎖国の大きな目的であった。 25、発送した品物が3日で届いていないなら、郵便局へ調査依頼を出して下さい。 26、自分は特に自信があるのは歯の丈夫さであった。 27、大学を卒業した以上、自分で働いて食べて行くつもりです。

自然语言处理

自然语言处理 2002.11.09 中国科学院计算技术研究所

1.综述 .1.1. 绪论 .1.1.1.背景,目标 .1.1.1.1. 研究自然语言的动力 1.语言是思维的裁体,是人际交流的重要工具。在人类历史上以语言文字形式记载和流传的知识占到知识总量的80%以上。就计算机的应用而言,据统计用于数学计算的仅占10%,用于过程控制的不到5%,其余85%左右都是用于语言文字的信息处理。在这样的社会需求下,自然语言理解作为语言信息处理技术的一个高层次的重要方向,一直是人工智能界所关注的核心课题之一。 2.由于创造和使用自然语言是人类高度智能的表现,因此对自然语言理解的研究也有助于揭开人类智能的奥秘,深化我们对语言能力和思维本质的认识。 .1.1.1.2. 什么是计算语言学 计算语言学(Computational Linguistics)指的是这样一门学科,它通过建立形式化的数学模型,来分析、处理自然语言,并在计算机上用程序来实现分析和处理的过程,从而达到以机器来模拟人的部分乃至全部语言能力的目的。 计算语言学(Computational Linguistics)有时也叫计量语言学(Quantitative Linguistics), 数理语言学(Mathematical Linguistics), 自然语言理解(Natural Language Understanding), 自然语言处理(Natural Language Processing), 人类语言技术(Human Language Technology)。 .1.1.1.3. 图灵测验 在人工智能界,或者语言信息处理领域中,人们普遍认为可以采用著名的1950年描述的图灵试验(Turing Test )来判断计算机是否“理解”了某种自然语言。 .1.1.1.3.1.Turing模仿游戏(Imitation Game) ●场景:男性被试、女性被试、观察者, 3者在3个不同的房间,房间号分别为X, Y, O ●规则:观察者用电传打字机与被试们通信, 男性被试欺骗观察者、女性被试帮助观察者。 ●目标:观察者要判断出X房间里被试的性别。

句法特点

(原载香港《亚太语文教育学报/Aisia Pacific Journal of Language in Education》V ol.3, No.2, 2000, 1-30页) 粤语句法的类型学特点* 刘丹青 0. 引言 粤方言是汉语中与普通话及其他方言相差较大、内部则较为一致的一种强势方言。本文所谈的粤语,就是指穗港深澳等处乃至海外共同使用的通行粤语。粤语研究因为其强势方言的地位而较为繁荣,粤语语法相对于普通话而言特点也比较多,因此有关粤语语法的研究成果也较丰硕,如高华年(1980)、李新魁(1994)、李新魁等(1995) 诸粤语专著都有章节作较系统的语法描写,还出现了数种粤语语法专著,如张洪年(1972)、Matthews & Yip (1995),此外还有大量粤语语法论文。现有的粤语语法论著,大多侧重于描写,尤其注意粤语与普通话的语法差异。本文也想集中关注粤语区别于普通话及其他方言的语法特点,但想换一个角度,即从语言类型学的角度来比较粤语和普通话,依托更广阔的汉语类型背景来揭示粤语语法的类型特征,以便深化对粤语语法特点的认识。所谓语言类型学,就是以人类语言的共性及类型差异为目标的一整套理论和方法。它以大范围的跨语言对比为基本视角,不局限于单一语种的研究或少数几种语言方言的对比。本文借助类型学研究的现有成果来观照粤语语法的特点,主要是句法特点,因为粤语的类型特点更多地表现在句法而不是形态上。本文将分三步来走。先概述粤语的几项主要句法特点,然后暂离粤语本身,讨论汉语整体的类型背景,为聚焦于粤语的类型特点准备好“幕布”背景,最后以此为背景进一步讨论粤语句法的类型特点。对粤语语法类型特点的认识,不但在理论上有助于加深对汉语方言语法差异的认识,而且也有利于香港等粤语地区的普通话和中文教学,能使教学双方更自觉地认识到哪些是粤语根深蒂固的类型特点及各特点的关系。 1.粤语句法的主要特征 本节拟参考前贤粤语语法论著的描写,加上笔者对粤语的一些观察,简要概述一下粤语句法区别于普通话的几个主要特点。各语法点不平均使力,人详我略,人略我详。 1.1量词作用突出,指示词和数词作用受限。 粤语的量词(classifiers)可以离开指示词或数词单独充当句子成分。指示词和数词则不能脱离 *本文初稿系1999-2000年在香港教育学院所作的两次讲座,张洪明教授和梁莉莉博士的先后邀请直接催育了此文。修改时中山大学麦耘教授、香港城市大学博士候选人李宝伦小姐和数位匿名审稿者又多所指正,在此一并致

相关文档