文档库 最新最全的文档下载
当前位置:文档库 › 跨语言信息检索中基于本体的查询扩展模型研究

跨语言信息检索中基于本体的查询扩展模型研究

跨语言信息检索中基于本体的查询扩展模型研究
跨语言信息检索中基于本体的查询扩展模型研究

跨语言信息检索中基于本体的查询扩展模型研究

摘要:网络的发展和世界语言的多样性使跨语言信息检索(CLIR,Cross Language Information Retrieval)倍受关注。但用户查询与文档用词不匹配成为影响检索效率的重要原因。为此,本文提出了一种基于领域本体的跨语言信息检索模型,以解决传统CLIR查询效率低下的问题。

关键词:智能信息检索;查询扩展;本体

1问题的提出

现代企业的国际化导致企业内部存在多种语言,这使跨语言信息检索CLIR(Cross Language Information Retrieval)备受关注,可是现存的跨语言信息检索系统大多使用基于关键词的单纯字符匹配的检索策略,只有当查询词出现在文档中时,才有可能被找到,这种检索系统无法提供基于概念的智能检索。例如,用户输入查询“trip”,可是包含“journey”和“travel”的文档却不能够被检索出来。由于大量同义词和多义词的存在,用户查询相关文档时一些内容由于用词不同而无法被检索出来,这种用词不匹配问题是长期困扰并影响信息检索效率的重要原因之一。

解决此问题的有效的方法是使用查询扩展策略。查询扩展是将用户输入的原始查询请求经过概念提取后,自动地根据用户的语义,加入新的检索词或短语。最终的查询请求是基于用户原始查询请求中关键词的一系列同义词及相关词。经过查询扩展后的系统具有很高的查询效率。

要实现上面的智能查询,查询扩展的构造是非常关键的。当前构造查询扩展的方法大致有两种:一种是基于语义词典的方法,如WordNet;另外一种是基于统计的方法,如基于关联共现频率的统计方法。本文提出了一种基于双语本体(Ontology)的跨语言查询扩展模型,利用领域本体在知识表示和知识描述方面的优势,实现基于概念的智能查询扩展。我们构建了一个旅游领域的跨语言信息检索模型,使用基于旅游领域本体对查询进行扩展。结果表明采用基于本体的查询扩展方法能够有效改善检索的性能。

2相关概念和技术

(1)CLIR (Cross-Language Information Retrieval):用户用某种语言(比如中文)表示的检索条件,检索由多种语言(比如中文、英文、德文、日文等)组成的文档集,我们称之为跨语言信息检索。

(2) 本体:本体是共享概念模型的明确的形式化规范说明。这个定义包含了概念模型、形式化、明确、共享4层含义。概念模型,通过抽象出客观世界中一些现象的相关概念而得到的模型,其表示的含义独立于具体的环境状态;明确,所使用的概念及使用这些概念的约束都有明确的定义;形式化,Ontology是计算机可读的;共享,Ontology中体现的是共同认可的知识,反映的是相关领域中公认的概念

实验六学术信息检索

实验六:学术信息检索 一、实验目的 1、掌握国内外期刊学术论文的检索方法; 2、掌握国内论文查重的方法; 3、掌握国内常用医药信息检索数据库的检索方法; 4、掌握国内外专利检索的方法。 二、实验学时 2学时 三、实验类型 综合性 四、实验需求 1、硬件 每人配备计算机1台。 2、软件 Windows 7以上操作系统,安装Chrome或Firefox浏览器。 3、网络 实验室局域网支持,能够访问校园网与互联网。 4、工具 无。 五、实验理论 1、国内外期刊学术论文、医药信息检索数据库; 2、PaperFree论文查重系统使用方法; 3、国内外专利数据库; 4、数据库关键词检索。 六、实验任务 1、基于姓名、单位名称等检索条件完成国内外期刊学术论文检索; 2、使用PaperFree平台完成论文查重; 3、基于中药名称等检索条件完成常见医药信息检索; 4、基于申请(专利权)人,发明人等完成国内外专利检索。

七、实验内容及步骤 1、国内外期刊学术论文检索 (1)知网检索 ①打开浏览器输入网址https://www.wendangku.net/doc/0a13520275.html,/,打开中国知网网站。 ②在文献检索输入框中输入“专业导论”主题关键词,如图6-1所示;点击搜索,查看搜索结果,如图6-2所示。 图6-1 主题名检索图6-2 主题名搜索结果 ③通过检索结果可看到与“专业导论”主题关键词相关的检索结果有1262条,检索结果默认按照发表时间排序。(注:检索结果与截止检索日期当天知网已收录数据有关,本次操作检索时间为:2018年11月5日。不同时间检索,得到的检索结果可能不同) ④通过检索页中排序功能,可对检索结果以发布时间、被引用次数、下载次数进行排序,被引用次数越多,论文论据越被同行认可,可参考价值越大。通过检索页中分组浏览功能,可将检索结果进行分类查看。如:通过资源类型可查看搜索结果来自期刊、国内会议、学术辑刊、博硕士论文、报纸各有多少篇。 ⑤点击论文名称,可查看论文摘要以及作者与作者单位详细信息,同时可将论文以HTML、CAJ、PDF三种格式进行论文文件下载,方便对论文进行离线查看。 图6-3高级检索图6-4 高级检索搜索结果 ⑥高级检索。访问https://www.wendangku.net/doc/0a13520275.html,,点击搜索框“高级检索”,进入信息检索高级检索页,如图6-3所示。通过输入作者名称、作者单位等信息可对检索结果进行精准查询。如作者信息输入“阮晓龙”,作者单位输入“河南中医”,点击检索,可查看阮晓龙老师

检索语言的分类

检索语言的分类:按照揭示和反映信息内外部特征的不同,检索语言可划分为:分类语言:以数字、字母(或字母与数字结合)为检索标识,作为有关类目的代号。 主题语言:分为标题词语言、叙词语言和关键词语言; 名称语言:以人名、地名、机构名、篇名、书名等为检索标识; 代号语言:以文献特有的顺序号(如专利号、标准号、合同号等)为检索标识 邻近位置算符(W)W是with的缩写。(W)算符也可以简写为()算符,A(W)B,表示A紧挨着B,顺序不能颠倒。A和B之间除允许有一个空格、一个标志符号或一个连接号以外,不得插入任何单位或字母。 邻词位置算符(nw)A(nw)B,表示两个词的次序不变,其间可以插入n个词。 句子位置算符(S)S是sentence的缩写。A(s)B表A和B必须同时出现在记录的同一个句子或短语中,但次序可能随意改变,A与B之间可以有若干个其他的词。 字段位置符(F)F是field的缩写。A(F)B,表示A和B 必须同时出现在记录的同一个字段之中,但位置和次序不限,两者之间还可以任意加词。如Rice(F)Genetics/Ti 要求Rice和Genetics必在同时出现在篇名之中。 记录位置算符(C)C是citation的缩写。A(C)B 其作用等同于A and B,均表示A和B 同时出现在同一记录内,但词序不限,也不要求在同一字段内。 截词符号 常用的有“?”、“$”和“*”等,绝大部分数据库无限截词符用“*”,少数用“?”或者“$” 截词类型 (1)后截断,前方一致。如:“comput*”表示computer、computers、computing等。(2)前截断,后方一致。如:“*computer”表示minicomputer、microcomputer等。(3)中截断,中间一致。如:“*comput*”表示minicomputer、microcomputers等。 1 .括号改变运算顺序。 2 .引号引号内的检索项以整体形式出现。精确匹配: “”和《》号,给查询词加上双引号则不拆分查询词,加上书名号的查询词,一是书名号会出现在搜索结果中;二是被书名号扩起来的内容,不会被拆分。 3 .个别数据库使用的特殊符号 某些搜索引擎使用加号(+)表示该单词必须出现。 【实例】在某些搜索引擎中输入“+电脑+电话+传真”就表示要查找的内容必须要同时包含“电脑、电话、传真”这三个关键词。 个别数据库例如“国研网”、山东标准网使用“&”代替“and”;欧洲专利局光盘数据库的“without”、美国专利商标局数据库的“andnot”就是通用的“not”。 1. 直接法(1)顺查法(2)倒查法(3)抽查法 2. 追溯法

信息检索模型研究概述

信息检索模型研究概述 【摘要】随着信息量的日益增长,用户要在巨大的信息海洋中查找自己所需的信息就变得复杂,这就需要对信息进行相关性选择,以提高查询的检全率和检准率。为此,人们提出了一系列检索模型,本文介绍了这些检索模型以及在此基础上的发展。 【关键词】信息检索;检索模型;认知心理学;综述 一、引言 信息检索是寻找相关信息的过程,而检索过程始终都涉及相关性问题。相关性是信息需求内容与文献内容之间的一种关系,为了正确地解释检索过程,就必须给相关性一个合理的衡量。为此,人们提出了一系列检索模型,本文就讨论介绍了这些信息检索模型研究的进展。文中笔者将检索模型分为基于系统的检索模型、基于认知心理学的检索模型和基于本体的检索模型三大类。 二、基于系统的信息检索模型 在基于系统的检索模型中,可以分为逻辑模型、模糊模型、向量空间模型和概率模型。 1.逻辑模型及其发展 1957年,巴-希列尔(Y.Bar-Hille)提出布尔逻辑模型。布尔逻辑式构造简单,但其不易全面反映用户的需求,匹配标准存在某些不合理的地方,且检索结果不能按照用户定义的重要性排序输出,很难控制输出量的大小,对用户的素质有很高的要求。 为了克服传统布尔逻辑模型的一些缺陷,Waller和Kraft在1979年提出了加权布尔逻辑检索模型。加权布尔逻辑检索模型通过对标引词进行加权,解决了传统布尔逻辑检索模型的一些缺点,比如无法排序、不能区分检索词的重要程度,但同时也带来了一个问题,即布尔逻辑操作算符在不加权布尔逻辑查询情形下的许多算律(如交换律、结合律等)已不再成立。 在Waller和Kraft之后,Salton于1983年提出扩展布尔模型。扩展模型是传统布尔逻辑检索模型完全匹配的严格性和向量模型提问的无结构性的折中,在保持布尔逻辑检索的结构式提问的同时,也吸取了模糊检索和向量检索模型的长处。而且该模型中巧妙地引入了一个模型参数p,通过适当调节这个参数,Salton 模型可以分别表现为布尔模型、向量空间模型和模糊模型。 2.模糊模型及其发展 布尔模型和扩展的布尔模型主要是基于康托(Contor)的经典集合论,但经典集合论容不得模糊的概念,这对于信息检索过程中所存在的模糊性的解释造成一定的困难,用户对检索结果的满意程度也具有不确定性。为了解决这种模糊性引起的不确定问题,人们引入模糊集合理论来构建模糊集合模型。 模糊集合模型是基于美国自动控制专家扎得(L.A.Zadeh)的“模糊集合”理论,模糊检索将文献看成是与某提问在一定程度上相关,对于每一个标引词,都存在一个模糊的文献集合与之相关;对于某一给定的标引词,用隶属函数表示每一文献与该词相关的程度,即隶属度,其取值在[0,1]上。在模糊集合检索中,对于布尔模型的用户信息需求的处理通常是把表达用户需求的布尔逻辑式转换成析取范式的形式。基于模糊集合模型的检索结果是建立在文献集上的,且其隶属度就是文献集对用户提问的相关程度的模糊子集。但目前而言,还无法十分精

信息组织与检索

《信息组织与检索》 一.名词解释 二.1. 一次文献:即原始文献。它是作者以生产或科研为依据而创作的原始文献。如专着、期刊论 文、学位论文等。 三.2. 技术档案:指生产、设计、建设、科研等专业部门,在科技活动中形成的文件、图书、照片、 数据等原始记录文献,包括项目规划、设计、实施方案、任务说明书、协议书、技术指标、实验计划等,具有保密性和内部使用的特点。 四.3. 目录:是图书、期刊或其他单位出版物外表特征的揭示与报道。它是以一本书、一种刊物为 着录的基本单位,记录图书、期刊、资料等的名称、着者、出版项与馆藏项等内容,并按照一定的编排体例进行编制,但不涉及书中的章节或期刊中具体的文章。 五.4.检索语言:又称为情报语言、情报存储和检索语言、信息组织语言等。它是根据检索的需要 而创作的人工语言,把信息的存储和检索联系起来,把标引人员与检索人员联系起来,以便取得共同理解、实现交流的语言。 六.5. 追溯法:以已获文献后面所附参考文献为线索进行追溯查找,又称为参考文献法。 6、文献信息资源 文献是记录有知识的一切载体,文献信息资源是以文字、图形、符号、声频、视频等方式记录在各种载体上的知识和信息资源。 7、信息检索语言 信息检索语言是用来描述信息的内容特征、外部特征和表达信息检索提问的一种专门语言。 8、竞争情报 竞争情报是20世纪80年代在国际上迅速发展起来的一种信息业务,是关于竞争环境、竞争对手和竞争策略的情报研究。 9、INTERNET(因特网) Internet:因特网。泛指由多个计算机网络相互连接而成的一个网络,它是在功能和逻辑上组成的一个大型网络。采用TCP/IP协议。 因特网,源自英文的Internet,它的含义从广义上来说就是是“联接网络的网络”。这种将计算机网络互相联接在一起的方法称为网络互联。作为专有名词,它所指的是全球公有、使用TCP/IP这套通讯协议的一个计算机系统,这个系统所提供的信息与服务,以及系统的用户。因此,世界上这个最大的互联网络也被简称为“互联网”(the Internet)。 二. 判断题(对的打“√” ,错的打“×” ) 1.??通过BA、ISTP、Kluwer online、Springer Link 数据库都能检索到外文期刊论文全文。(×) 2.??在重庆维普数据库检索系统中能查到企业名录。???????????????? (×) 3.??利用某个图书馆的书刊目录查询系统(OPAC),可以了解该图书馆收藏有哪些印刷型图书和期刊。(∨) 4.??截词检索相当于用逻辑“或”扩展检索的范围,可以提高检索的查全率。(∨) 5.??联合目录可以帮助读者确定其所需要的文献收藏在那个情报机构。(∨) 6.??综述因附有大量参考文献,所以是二次文献。(×) 7.??通过“万方数据资源系统”可以查找标准文献的全文。(∨) 三. 填空题 1.按文献载体形式划分,文献可分为印刷型、缩微型、声像型、和电子型。

信息检索题库

第一章 一、单选 1、报道范围主要为能源方面的科技报告为(D )。A、AD(军事系统)B、PB (行政系统) C、NASA(航空与宇航系统) D、DOE(原子能与能源管理系统) 2、(C)是出版周期最短的定期连续出版物。A、图书B、期刊C、报纸D、学位论文 3、(A )是高校或科研机构的毕业生为获取学位而撰写的。A、学位论文B、科技报告C、会议文献D、档案文献 4、了解各个国家政治、经济、科技发展政策的重要信息源是(B )A、科技报告B、政府出版物 C、标准文献 D、档案文献 5、年鉴属于下列哪一类别(D )A、零次信息B、一次信息C、二次信息D、三次信息 6、下列哪种文献属于一次文献(A )。A、图书B、百科全书(三次信息) C、综述(三次信息) D、文摘(二次信息) 7、下列文献中属于一次信息的是(A )A、专利说明书B、百科全书C、目录D、综述 8、以下各项属于二次信息的是(A )A、索引B、期刊(一次信息) C、学位论文D、百科全书 二、多选 9、二次信息主要包括(CD )等。A、手册B、年鉴C、目录D、题录 10、信息的属性包括(ABCD )A、客观性B、时效性C、传递性D、共享性 11、信息素质的内涵主要包括(ABC )。A、信息意识素质B、信息能力素质C、信息道德素质 D、信息职业素质 12、以下类型的信息属于三次信息的是(BC )。A、目录B、词典C、百科全书D、科技报告 附加: I)信息道德规范信息行为,主要包括(ABC)。A、不制作、传播、消费不良信息B、不侵犯他人的知识产权、商业秘密、隐私权C、恰当使用与合理开发信息技术D、私下交易个人信息 II)根据信息的载体和表达方式的不同,信息源可分为(ACD)。A、语言信息源B、二次信息C、实物信息源D、文献信息源 III)文献的基本要素有(AC)。A、有一定的知识内容B、一定要记录在纸张上C、一种物质载体D、存在大脑中即可 三、判断

信息检索答案

信息检索课作业(二) 1、浏览图书馆网站,简述我馆的电子资源按收录文献类型划分都有哪些类型?答:期刊、 2、简述我馆订购了“清华同方(cnki)数据库”的哪几个子库? 答:五个字库,分别是、《中国学术期刊全文数据库》(1994—今)包括8200多种重要期刊; 《中国博士学位论文全文数据库》(2000—今)包括全国420家博士培养单位的博士学位论文; 《中国优秀硕士学位论文全文数据库》(2000—今)包括全国652家硕士培养单位的优秀硕士学位论文; 《中国重要会议论文全文数据库》(2000—今) 《中国重要报纸论文全文数据库》(2000—今)包括国内公开发行的500多种重要报纸。 《哈佛商业评论数据库》收录了“哈佛《商业评论》中文杂志”自2002年9月以来的所有文章,包含服务管理、人力资源、信息技术、创新、创业、组织、市场营销、运营管理、领导力、战略、金融与财务、综合管理等十二个类别。 3、访问清华同方(cnki)数据库,在人民日报上查找一篇跟“滨海新区”有关 的报道,列出其题名、作者、报纸日期。 4、利用清华同方数据库查找南开大学柯平教授2013年发表的全部文章(不低 于5篇),复制题录或者截图均可。 5、请问“读秀学术搜索”数据库可以提供哪些文献类型的检索?每次文献传递 的比例有何限制? 6、简述怎样才能把“超星电子书(汇雅电子书)”数据库中下载的图书拷贝到 其他机器上阅读?下载到本地的超星电子书保存期限是多长时间? 答:1.应在下载胡阅读器上注册帐号,在注册的帐号下下载自己所需的文件(注意记下入径)。之后,把阅读器和图标一并拷入移动磁盘,紧接着,在其他机器上安装好阅读器打开使用即可。 2.保存期限是180天。 7、根据自己的使用体验,试简单说明使用图书馆的电子资源数据库资源与网络 搜索引擎检索到资源的差别 答:信息存取自由,内容包罗万象但收录了很多重要期刊,覆盖多个学科领域,

专业技术人员学术论文写作与信息检索答案

单项选择题 第1题:学术论文选题的原则有价值性原则、创新性原则和()。 A:实践性原则 B:适宜性原则 C:通俗化原则 第2题:工程实践型学术论文的结构应包括引言或工程背景、()以及总结。 A:工程实践的可行性论证 B:工程实践的方法、步骤、注意事项和结果 C:工程实践的后续发展展望 第3题:论证型论文的结构主要包括序论、本论和( )三部分。 A:导论 B:余论 C:结论 第4题:论文观点错误主要有基本观点错误和()两种情况。 A:观点与大多数人的观点相冲突 B:观点主观片面 C:观点过于超前 第5题:理论研究型论文的特点主要有:内容上的概括性与说理性、严密的逻辑以及()。 A:深刻的思想性 B:直接表述作者的思想观点 C:材料的丰富性 第6题:论文联合署名时,应按()的顺序排列。 A:贡献大小 B:职务高低 C:职称高低

第7题:论文写作信息材料的整理方法主要有逻辑分析法、系统分析法和()。 A:内容归类法 B:概率研究法 C:整体分析法 第8题:注释可分为篇名注、作者注、文中释义性注释和()。 A:引文注释 B:观点注释 C:内容注释 第9题:学术论文选题不仅要遵从价值性原则和适宜性原则,而且还应遵守()原则。 A:实践性 B:创新性 C:思想性 第10题:工具书可分为检索性工具书()。 A:应用性工具书 B:查阅性工具书 C:参考性工具书 二、多项选择题 第11题:学术论文关键词的词性主要包括()。 A:名词 B:动名词 C:名词性词组 D:形容词 第12题:学术论文初稿写作的方法主要有()。 A:个案分析法 B:比较寻疑法

C:追溯验证法 D:实践应用法 第13题:学术论文写作的特征主要有()。 A:实践性 B:科学性 C:规范性 D:可读性 第14题:学术论文摘要一般包括研究目的、研究对象、()等内容。 A:研究方法 B:研究结果 C:所得结论 D:结论的适用范围 第15题:学术论文署名者应具备的条件有()。 A:学术论文的直接责任者 B:做出主要贡献者 C:学术论文撰写者 D:学术论文的构思、论证或执笔者 第16题:中国知网数据库检索方式可分为()。 A:初级检索 B:二次检索 C:精确检索 D:高级检索 第17题:文献综述除了包括介绍相关领域研究现状外,还应该有()等内容。 A:说明用什么方法解决所提出的问题

计算机信息检索02139自考资料

第一章信息检索概述 1.信息检索:指将信息按一定的方式组织和存储起来,并根据信息用户的需要找出有关信息的过程。 2.根据检索手段的不同,信息检索可以分为手工检索、光盘检索、联机检索和网络检索。 3.信息检索的基本原理 通过对大量的、分散无序的文献信息是进行搜集、加工、组织、存储,建立各种各样的检索系统,并通过一定的方法和手段使存储与检索这两个过程所采用的特征标识达到一致,以便有效地获得和利用信息源。 4.信息检索语言 信息检索语言是人们在加工、存储和检索信息时用来描述信息内容和信息需求的词汇或符号及其使用规则构成的供标引和检索的工具。 5.五个信息检索阶段:手工检索、机械信息检索、脱机批处理检索、联机检索、网络信息检索,后三 者统称为计算机信息检索。 6.与手工检索相比,计算机信息检索的特点表现在: (1)速度快、效率高,仅几分钟就可以从成千上万条记录中找到所需信息; (2)检索范围广,可以迅速而方便地浏览相关学科或主题的所有数据库中的记录,在 网络中,几乎每一台个人计算机都可以成为信息源; (3)检索不受时空的限制,只要拥有相应的软件和硬件设备,就可以在任何地方借助 光盘和通信网络查询所需信息。 7.信息检索的模型:就是运用数学的语言和工具,对信息检索系统中的信息及其处理过程加以翻译和 抽象,表述为某种数学公式,再经过演绎、推断、解释和实际校验,反过来指导信息检索实践。 信息检索的三个经典模型是:布尔模型、向量空间模型和概率模型。 8.信息检索系统是具有信息存储和信息查询功能的一类信息服务设施。 9.信息检索系统是信息检索所用的硬件资源、系统软件以及信息资源集合的总和。 10.数据库由字段、记录和文档构成。 11.根据载体的不同,数据库可分为:联机数据库、光盘数据库和网络数据库三种。 12.信息检索系统评价的核心是检索性能评价。 13.检索性能评价:根据一定的评价指标对实施信息检索活动所取得的成果进行客观科学评价,以进一 步完善检索工作的过程。 评价检索效果的最主要的指标:查全率和查准率。 14.查全率 查全率是指检出文献中合乎需要的文献数量占数据库中存在的合乎该需要的所有文献的比例。 15.查准率 查准率是指检出文献中合乎需要的文献数量占检出文献全部数量的比例。 第二章网络信息检索的方法与技术 1.布尔逻辑检索的主要运算符 布尔逻辑检索的主要运算符有:逻辑与(“AND”)、逻辑或(“OR”)、逻辑非(“NOT”)。 它们分别代表的含义是:(1)逻辑“与”。表示检索结果中必须包含所有的检索词;(2)逻辑“或”。表示检索结果中只要包含任何一个检索词即可;(3)逻辑非。表示检索结果中一定不能出现“NOT”后面的检索词。 2.邻近检索 邻近检索是用一些特定的算符来表达检索词与检索词之间的顺序和词间距的检索。 3.短语检索:短语用“”表示,检索出与“”内形式完全相同的短语,以提高检索的精度和准确度, 因而也有人称之为“精确检索” 4.截词检索 是指在检索标识中保留相同的部分,用相应的截词符代替可变化部分。检索中,计算机会将所有含有相同部分标识的记录全部检索出来。截词符一般用“?”或“*”表示,但不同的数据库中有所差别。 常用的截词检索方法有前截词、中间截词和后截词。 5.在信息检索过程中,为了提高查全率或查准率,需要将检索范围限制在特定的字段中,即字段限制 检索。 6.模糊检索:模糊检索是指使用某一检索词进行检索时,能同时对该词的同义词、近义词、上位词、 下位词进行检索,以达到扩大检索范围、避免漏检的目的。

信息检索的概率模型-

信息检索的概率模型 一、综述 一、信息检索技术 由于以因特网为主体的信息高速公路的不断普及和发展,信息技术已经渗透到我们社会生活的各个角落,正以前所未有的速度和能力改变着我们的生活的工 作方式,我们真正处于一个“信息爆炸”的时代。一方面,因特网上面蕴含的海 量信息远远超过人们的想象;另一方面,面对信息的汪洋大海,人们往往感到束手无策,无所适从,出现所谓的“信息过载”和“信息迷向”的现象。于是一个 极富挑战性的课题:如何帮助人们有效地选择和利用所感兴趣的信息,尽量剔除不相关的信息。同时保证人们在信息选择方面的个人隐私权利?成为学术界和企 业界所十分关注的焦点。 随着在线文本的日益增多,其中包括新闻、电子杂志、电子邮件、技术报告、文档以及网上图书馆。如此众多的信息,仅仅依靠大脑来收集和整理所需要的信 息显然是不够的。所以,自动收集和整理所需要的各类信息成为信息产业面临新 的挑战和新的发展契机。根据不同的应用背景和不同的使用目的,信息处理技术已经演化信息检索、信息过滤、信息分类、问题回答等方向。 由于目前网上信息的表现形式大多数为文本,而且文本也是广大用户所习惯接收的形式。因此我们在下面主要讨论中文文本检索和相关的评价方案。 1、信息检索技术的发展 信息检索(Information Retrieval)是指信息按一定的方式组织起来,并根据 信息用户的需要找出有关的信息的过程和技术。狭义的信息检索就是信息检索过程的后半部分,即从信息集合中找出所需要的信息的过程。 信息检索起源于图书馆的参考咨询和文摘索引工作,从19世纪下半叶首先开始发展,至20世纪40年代,索引和检索成已为图书馆独立的工具和用户服务 项目。1945年,Vannevar Bush的论文《就像我们可能会想的……》第一次提出 了设计自动的,在大规模的存储数据中进行查找的机器的构想。这被认为是现在信息检索技术的开山之作。进入50年代后,研究者们开始为逐步的实现这些设 想而努力。在50年代中期,在利用电脑对文本数据进行检索的研究上,研究者 1

情报检索语言

虚拟现实(VR)就是利用计算机和其它的专用硬件和软件产生一种境界的仿真,参与者可以通过视觉、听觉和触觉等感觉与仿真的内容交互操作,达到一种“真实”的感觉,所以有人也称其为“灵境”。 信息构建就是为用户提供序化、优化及美化的信息。它需要借助一切信息组织、信息呈现的技术和方法,如图形设计、可用性工程、用户经验、人机交互、图书馆学信息科学中的主题法分类法等的理论方法,在用户需求分析的基础上,对信息进行组织、布局、优化,如设计导航系统、标签系统、索引和检索系统,以及内容布局等。 超文本是一种新型的信息组织技术,它以结点为单位,结点与结点之间通过表示它们之间关系的链加以连接,构成表达特定内容的信息网络。 数据仓库是支持决策过程的、面向主题的、集成化的、稳定的、不同时间的数据集合。这个定义体现了数据仓库作为信息组织技术和工具的鲜明特征,如主题性、有序性等。 自动归类是指计算机通过词频统计、语法分析和语义分析等途径得到代表文献内容的类主题词,然后按照某一分类表将文献划分到某个类目的过程。 自动标引是以计算机代替人工,自动生成表达信息记录内容特征的主题、分类或其它有意义的标识,它是标引技术与计算机结合的产物,是信息组织自动化的基础。 数据管理就是对数据进行分类、组织、编码、存贮、检索和维护。 数据库(Database,DB)是存储在一起的相关数据的集合。 主题组织是按照信息对象等所反映的主题特征的异同,用接近自然语言的这些语词能表达宽泛程度各异的概念语词和语词符号标识这些特征,通过参照系统等方法揭示概念词间关系,并将概念语词、语词符号按音、形顺序排列来组织信息,以便提供一种易用的面向具体事实、概念的检索途径的信息组织方法和活动。 主题词分为单元词、标题词、关键词和叙词,标题词是先组式语言,即在主题标引前,其概念已组配好;单元词和叙词是后组式的语言,即只在正式标引式才将概念加以组配,显然它的适用能力比先组式语言强;而关键词是不受控制的语词,是一种接近自然语言的一种主题语言。 组配就是从主题词表(但组配也适用于分类组织法)中选取若干个主题词,按照一定的概念组合关系和符号,把他们有机地结合起来,以表达更为专指的主题。组配时主要使用比号组配法和比孔组配法两种方法 关键词是指在文献的标题、摘要或正文中出现的、对表达文献主题内容具有实质意义、能作为检索入口的、具有关键性描述作用的词汇。 关键词法原理的应用,常有三种形式,即题外关键词索引、题内关键词索引和单纯关键词索引 条形码是由一组粗细不一、相互平行的黑白条符组成并按一定编码规则组织起来,用来表示字母、数字、甚至汉字等信息。 信息编码是指用一个或一组按特定规则排列起来的符号来表达信息的过程,它实质上包含两个环节,一是信息的代码化;二是代码的组织。

专业技术人员学术论文写作与信息检索答案

第1题:学术论文选题的原则有价值性原则、创新性原则和()。 A:实践性原则 B:适宜性原则 C:通俗化原则 第2题:工程实践型学术论文的结构应包括引言或工程背景、()以及总结。A:工程实践的可行性论证 B:工程实践的方法、步骤、注意事项和结果 C:工程实践的后续发展展望 第3题:论证型论文的结构主要包括序论、本论和( )三部分。 A:导论 B:余论 C:结论 第4题:论文观点错误主要有基本观点错误和()两种情况。 A:观点与大多数人的观点相冲突 B:观点主观片面 C:观点过于超前 第5题:理论研究型论文的特点主要有:内容上的概括性与说理性、严密的逻辑以及()。 A:深刻的思想性 B:直接表述作者的思想观点

C:材料的丰富性 第6题:论文联合署名时,应按()的顺序排列。 A:贡献大小 B:职务高低 C:职称高低 第7题:论文写作信息材料的整理方法主要有逻辑分析法、系统分析法和()。 A:内容归类法 B:概率研究法 C:整体分析法 第8题:注释可分为篇名注、作者注、文中释义性注释和()。 A:引文注释 B:观点注释 C:内容注释 第9题:学术论文选题不仅要遵从价值性原则和适宜性原则,而且还应遵守()原则。 A:实践性 B:创新性 C:思想性 第10题:工具书可分为检索性工具书()。 A:应用性工具书

B:查阅性工具书C:参考性工具书

第24题:论证型论文不要明确表明自己的观点,以防误导读者。 对 错 第25题:在写作学术论文的结论部分时,可以进行适当的自我评价。 对 错 第26题:文献调研的质与量是决定述评型论文水平高低的重要因素。 对 错 第27题:注释是作者对论文篇名、作者及论文中特定内容作必要的补充、解释或说明。 对 错 第28题:学术论文选题越新颖、越前沿越好。 对 错 第29题:考证型论文的最大特点在于以大量准确可靠的直接或间接材料为证据进行写作。 对 错 第30题:学术论文标题的用词应注重新、奇、特。 对

信息检索复习资料

一、名词解释 1.信息资源——是指经过人类的选取、组织、序化等整理与开发后的信息的集合。 2.白色文献——是指公开出版发行的、通过正常渠道可以得到的常规文献。 3.数据挖掘——就是从大量的、不完全的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。 4.检索策略——就是在分析课题内容实质的基础上,确定检索系统、检索途径和检索词,并科学安排各词之间的位置关系、逻辑联系和查找步骤等。 5.截词检索——是指在检索式中用专门的符号(截词符号)表示检索词某一部分允许有一定词形变化。 6.参考数据库——有时又称为书目数据库,是指包含各种数据、信息或知识原始来源和属性的数据库。 7.特种文献——是指出版发行和获取途径都比较特殊的科技文献,一般包括专利文献、会议文献、科技报告、学位论文、标准文献、政府出版物等文献类型。 8.学位论文——是高等院校或研究机构的学生为获得学位资格而提交并通过答辩委员会认可的学术性研究论文,它是随着学位制度的实施而产生的。 9.科技报告——是关于某科研项目或活动的正式报告或记录,多是研究、设计单位或个人以书面形式向提供经费和资助的部门或组织汇报其研究设计和开发项目的成果进展情况的报告。 10.电子图书——是指以电子文件形式存储在各种磁性或电子介质中,以磁盘、光盘、网络等电子媒体形式出版发行,通过计算机或便携式阅读终端进行阅读的一种新型数字化书籍。 11.电子报纸—多媒体技术、网络技术和通信技术的产物,是指在排、印、投递等方面基本上实现了电子化的报纸。 12.参考工具书——是指根据人们的需要,把某一范围的知识或资料加以分析、综合或浓缩,并按一定的排检方法编排,以备查阅、参考,用以解决有关事实和数据方面的疑难问题的图书。 13.年鉴——是系统汇集一年内的主要时事文献、学科进展情况、研究成果及有关统计资料,提供详尽的事实、数据和统计数字,反映近期政治、经济发展的动向及科学文化进步的年度出版物。 14.手册——是汇集某一方面常需要查考的基本知识和数据资料,以供读者手头随时翻检的一种工具书。 15.名录——是汇集机构名、人名、地名等专名基本情况和资料的一种工具书。 16.搜索引擎——就是通过运行一个不断在网络上通过域名扫描和各种链接的软件,自动获得大量站点页面的信息,并按照一定规则归类整理,从而形成数据库,用以提供查询的站点。 17.文献综述——是一种文献信息调研报告,又是学术论文的一种形式。它是通过全面系统的搜集某一特定研究领域的全部或大部分相关文献资料,并经过阅读、理解、分析、比较、归纳的基础上,对该课题的发展过程、发展趋势及存在的问题等,进行全面介绍、综合分析和评论而形成一种不同于一般论文的文体。 18.开放存取——又称开放访问,是国际学术界、出版界、图书情报界利用互联网进行学术信息和科研成果自由传播、免费利用的行动. 19. 一次文献:即原始文献。是作者以生产或科研为依据创作的原始文献。如专著、期刊论文、学位论文等。 20.技术档案指生产、设计、建设、科研等专业部门,在科技活动中形成的文件、图书、照片、数据等原始记录文献,包括项目规划、设计、实施方案、任务说明书、协议书、技术指标、实验计划等,具有保密性和内部使用的特点。 21.目录:是图书、期刊或其他单位出版物外表特征的揭示与报道。它是以一本书、一种刊物为著录的基本单位,记录图书、期刊、资料等的名称、著者、出版项与馆藏项等内容,并按照一定的编排体例进行编制,但不涉及书中的章节或期刊中具体的文章。 22.检索语言:又称为情报语言、情报存储和检索语言、信息组织语言等。它是根据检索的需要而创作的人工语言,把信息的存储和检索联系起来,把标引人员与检索人员联系起来,以便取得共同理解、实现交流的语言。 23.追溯法:以已获文献后面所附参考文献为线索进行追溯查找,又称为参考文献法。

信息检索总复习题

《文献检索与应用》总复习题一、选择题(单选) ( 共20分每小题2分) 1、哪一种布尔逻辑运算符用于交叉概念或限定关系的组配?【A 】。A.逻辑与(AND)B.逻辑或(OR)C.逻辑非(NOT)D.逻辑与和逻辑非2、根据【D】去图书情报单位索取或复制期刊论文的原文。A.相关期刊B.期刊的出版年、卷、期. C.期刊的刊名全称D.刊名全称、卷、期、年份、页3、逻辑“与”算符是用来组配【C 】 A.不同检索概念,用于扩大检索范围 B.相近检索概念,扩大检索范围C.不同检索概念,用于缩小检索范围D.相近检索概念,缩小检索范围4、如果检索结果过少,查全率很低,需要调整检索范围,此时调整检索策略的方法有【B 】等A.用逻辑“与”或者逻辑“非”增加限制概念 B.用逻辑“或”或截词增加同族概念 C.用字段算符或年份增加辅助限制 D.用“在结果中检索”增加限制条件 5、根据国家相关标准,文献的定义是指“记录有关【C】的一切载体。” A.情报 B.信息. C.知识 D.数据 6、《中国学术期刊全文数据库》的词频控制应在【A】场合下使用 A.文摘、全文等字段检索所得的文献量过大 B.文摘字段检索所得的文献量过大 . C.篇名、作者字段检索所得的文献量过大D.不管什么字段检索所得的文献量过大。7、如果打算了解最新即时的专业学术动态,一般可参考【A】。A.专业学会网站B.教育机构网站 . C.综合性门站D.综合性虚拟图书馆8、【D】是指通过文献信息资料的主题内容进行检索的途径。 A.题名检索途径 B.作者检索途径 C.分类检索途径 D.主题检索途径9、搜索含有“data bank”的PDF文件,正确的检索式为:【A】A."data bank" filetype:pdf B.data and bank and pdf C.data+bank+pdf

信息检索复习要点

1、文献:为了把人类知识传播开来和继承下去,人们用文字、图形、符号、声频、视频等手段将其记录下来,或写在纸上,或晒在蓝图上,或摄制在感光片上,或录在唱片上,或存储在磁盘上。这种附着在各种载体上的记录统称为文献。 2、文献由四要素构成,即文献信息、文献载体、符号系统和记录方法。 3、信息、知识和文献三者之间的关系:由信息、知识和文献的概念可知,三者之间是密切相关的。信息是物质存在的方式、形式和运动规律的表征。人脑对事物属性的感知形成信息;人们对信息集合加工、整理形成系统化,表现形成人类社会实践的知识;知识被记录在载体上形成文献,文献被人类广泛传播、运用在理论和实践中又产生新的信息、知识和文献。如此循环,不断创新,形成各种各样的新知识,从而推动人类社会前进。由此可见,信息、知识、文献在社会系统中表现出一种不间断的延续性。 4、具有信息素质的人主要具有以下几个方面的能力:(1)运用信息工具;(2)获取信息;(3)处理信息;(4)生成信息;(5)创造信息;(6)信息增效;(7)信息协作;(8)信息免疫。 5、信息资源的构成可从不同的层次和角度来划分: 一、按照信息的出版和加工划分:1 图书;2 报刊;3 会议文献;4 专利文献;5 科技 报告;6 学位论文;7 技术档案;8 产品资料;9 标准文献;10 政府出版物。 二、按照信息加工层次划分:按信息加工程度可将信息分为一次文献、二次文献、三次 文献。(1)一次文献即以作者本人的生产与科研工作成果为依据而撰写并已公开发行进入社会流通使用的原始文献。例如专著、学术论文、科技报告、会议论文、专利文献、学位论文等;(2)二次文献即将大量、分散、无序的一次文献收集起来。按照一定的方法进行整理、浓缩和加工,使之系统化而形成各种目录、索引和文摘,即编制成具有多种检索途径的检索工具。二次文献又称为检索性文献;(3)三次文献即根据一定的目的和需求,在大量利用一次、二次文献的基础上,对有关知识进行综合、分析、提炼、重组而再生的信息资源。例如词典、手册、百科全书、年鉴、各种教科书及综述等。 三、按信息的表现形式划分:(1)文献型信息源;(2)非文献型信息源。非文献型信息 源包括电子信息源、数值型信息源、声像型信息源、多媒体信息源以及实例与口头信息源。 6、信息出版类型:是指记录有知识的文献出版类型。 7、信息检索:是指将信息按一定的方式进行加工、整理、组织并存储起来,再根据信息用户的需要找出有关信息的过程。它的全过程又称为信息存储与检索。 8、信息检索的基本原理:对信息集合与需求集合的匹配与选择。 9、信息检索的基本方式可分为传统信息检索和现代信息检索。传统信息检索,简称“手检”;现代信息检索,简称“机检”。 10、信息检索的研究范围包括一切与信息存储与检索有关的系统、过程、理论和方法。 11、计算机信息检索系统根据内容不同可划分为:联机检索系统、光盘检索系统和网络检索系统。 12、检索工具按用途可分为两大类:指示型检索工具(二次文献)和提供具体信息的参考型检索工具(三次文献)。 13、检索工具按编著方式可分为:(1)目录型检索工具。目录主要报道实有的文献或收藏文献的情况,以一个完整的出版单位作为著录的基本单位。此类检索工具对于查找、索取原始文献具有重要作用;(2)题录型检索工具。题录是用来描述某一文献的外表特征并由一组著录项目构成的一条文献记录。题录实质上是一种不含文摘正文的文摘款目,在揭示文献内容的深度方面,题录比目录做得深入一些,但又比文摘款目浅;(3)文摘型检索工具。文摘是指对文献的内容简洁而又正确的摘录,供人们浏览和查用,使读者能以较少的时间和精力掌

检索语言

一、名词解释 查全率 是指系统在进行某一检索时 检出的相关文献量与系统文献库中相关文献总量的比率 它反映该系统文献库中实用的相关文献量在多大程度上被检索出来。 检索语言 是根据信息检索的需要创造出来的一种人工语言 是在文献检索领域中用来描述文献特征和表达信息检索提问的一种专用语言。 标题词法是一种以标题词作为主题标识,以词表预先确定的组配方式标引和检索的主题法。标题词指经过词汇控制,用来标引文献的词或词组,通常为比较定型的事物名称。 信息素质:是指判断何时、何地需要信息,并能有效的定位、获取、评价和利用信息的一系列能力的总和。 二、简答题 1.简述检索语言的基本功能 答: 1) 对文献的信息内容(及某些外表特征)加以标引的功能。要求利用检索语言能够正确标引文献信息内容及其外表特征。 2) 集中文献的功能。对内容相同及相关的文献信息加以集中或揭示其相关性,提高信息检索效率。 3) 信息组织的功能。对大量文献信息加以系统化或组织化,使文献信息的存储集中化、系统化,便于信息检索者按照一定的排列次序进行有序化检索。 4) 一致性功能。便于将标引用语和检索用语进行相符性比较,保证不同检索人员表述相同文献内容的一致性,以及检索人员与标引人员对相同文献内容表述的一致性。 5) 获得最高查全率和查准率的功能。保证检索者在按不同需要检索文献时,都能获得最高的查全率和查准率。 6) 桥梁和纽带功能。在文献信息标引者和检索者之间发挥桥梁和纽带作用,使二者在理解和表达文献信息主题方面达到一致,以提高信息检索的准确性。2.分类检索语言的作用 答: ①这是进行分类标引和组织分类检索工具的规范。②它能作为对文献资料进行分类排架的依据。但在档案机构一般要采用另一种类型的分类体系来组织分类排架。③它是检索者从分类途径检索文献资料的指南。④它是文献工作者工作中常用的参考手册。 三、文献信息检索

信息检索大赛试题库(个人赛)重点

注:个人赛中 80%分值的试题将来源于下述各类型试题。 单选 1. 符合我馆收藏原则 , 而我馆没有收藏的图书 , 可以通过图书馆主页上哪个栏目推荐购买? (A A 书刊荐购 B 新书通报 2. 我馆定期上传书商提供的新书目 , 以下哪个选项不能进入选书推荐? (A A 参考咨询 B 书刊荐购 C 我的图书馆 3. 我馆新书定期上架 , 通过主页上哪个栏目可以查询新上架书目? (A A 新书通报 B 书刊荐购 4. 想通过图书馆书目检索系统, 搜索本馆馆藏范围内, 题名中含有“英语四级”的所有书目,选择哪种检索方式(C A 前方一致 B 完全匹配 C 任意匹配 5. (C 即围绕读者提出的某一特定问题开展的文献检索服务。它主要针对自然科学、社会科学及人文科学各个学科、各种目的的研究课题,以描述课题的主题词、关键词作为检索人口,开展文献检索服务。 A 、科技查新; B 、专利检索; C 、专题检索: D 、辅导性咨询。

6. 登录网页版或客户端版超星移动图书馆的账号和密码是(A A 、“我的图书馆” 的账号和密码 B、自己注册产生的账号和密码 7. 使用逻辑“与”是为了 ( B 。 A 、提高查全率 B 、提高查准率 C 、减少漏检率 D 、提高利用率 8. 使用逻辑“或”是为了 ( A A 、提高查全率 B 、提高查准率 C 、缩小检索范围 D 、提高利用率 9. 在中国知网数据库中的布尔逻辑表达式:“在职人员不含青年教师”的检索结果是 ( A A 、检索出除了青年教师以外的在职人员的数据 B 、青年教师的数据 C 、青年和教师的数据 D 、在职人员的数据 10. 关于万方数据资源的说法中,正确的是 ( A 。 A 、以科技信息为主,涵盖经济金融人文信息 B 、以经济信息为主,涵盖科技金融人文信息 C 、以金融信息为主,涵盖人文经济科技信息 D 、以人文信息为主,涵盖金融经济科技信息 11. 二次检索的作用是(B 。 A 、第二次全新检索 B 、在第一次检索的结果中进行检索 12. 直接输入检索词进行单条件检索,而不进行检索条件之间的逻辑匹配,称为 (C 。

《文献信息检索》习题答案--文献信息检索(答案)

《文献信息检索》习题答案 一、单选题 1、文献是记录有知识的(A) A.载体 B.纸张 C.光盘 D.磁盘 2、如果需要检索某位作者的文献被引用的情况,应该使用(C)检索。 A.分类索引 B.作者索引 C.引文索引 D.主题索引 3、下列哪种文献属于二次文献( D.) A.专利文献 B.学位论文 C.会议文献 D.目录 4、纸质信息源的载体是(D) A.光盘 B.缩微平片 C.感光材料 D.纸张 5、《中国图书馆分类法》(简称《中图法》)将图书分成( A.) A.5大部分22个大类 B.5大部分26个大类 C.6大部分22个大类 D.6大部分26个大类 6、利用文献末尾所附参考文献进行检索的方法是(C) A.倒查法 B.顺查法 C.引文追溯法 D.抽查法 7、广义的信息检索包含两个过程(B) A.检索与利用 B.存储与检索 C.存储与利用 D.检索与报道 8、中国国家标准的代码是(A) A.G B. B.CB. C.ZG D.CG 9、( D )是报道文献出版或收藏信息为主要功能的工具。 A.题录 B.索引 C.文摘 D.目录 10、逻辑运算符包括(D) A.逻辑与 B.逻辑或 C.逻辑非 D.A,B和C 11、记录是对某一实体的全部属性进行描述的结果,在全文数据库中一条记录相当于(C),在书目数据库中,一条记录相当于() A.一条文摘,一篇完整的文献 B.一条文摘,一条题录 C.一篇完整的文献,一条题录或文摘 D.一条题录,一条文摘 12、《中国学术期刊全文数据库》提供的文献内容特征检索途径有(B) A.机构 B.篇名/关键词/摘要 C.中文刊名 D.作者 13、根据反映新内容的程度从大到小,下列文献类型的排序正确的是:(A) A.会议论文,科技期刊,科技报告,科技图书 B.科技图书,科技期刊,科技报告,会议论文 C.科技报告,会议论文,科技图书,科技期刊 D.以上都不对 14、《中国科研机构数据库》、《中国科技名人数据库》属于:(B) A.书目数据库 B.指南数据库 C.全文数据库 D.数值数据库 15、下列检索工具中,主要收录化学与化工类文献的是:(D) A.SCI B.OCLC C.EI

相关文档