文档库 最新最全的文档下载
当前位置:文档库 › 现代信息检索第12章

现代信息检索第12章

现代信息检索作业论文

信息社会,人们把信息、物质与能量一起称为人类社会赖以生存发展的三大要素。信息是促进社会经济、科学技术以及人类生活向前发展的重要因素。一个国家的科技进步和社会发展起来越取决于对信息的开发与利用,谁能充分开发和有效地利用信息资源,谁就能抢占科学技术发展的制高点。 社会的信息化环境使社会对人才的要求更高,信息素质成为现代化人才必备的基本素质之一。当今,信息呈爆炸式增长,不仅如此,信息载体也发生了巨大的变化,除传统纸介质信息外,每天都有大量的磁载体信息、电子版信息及各类网上信息涌现出来,这些浩如烟海的信息的多样性、离散性与无序性及其复杂的检索界面和使用方法,增加了信息利用的难度,极大地影响了人们获取信息的质量与效率。 信息检索方法是实现检索方案中的检索目标所采用的具体操作方法和手段的总称。检索的方法很多,要检索过程中应根据检索系统的功能和检索者的实际需求,灵活运用各种检索方法,以达到满意的检索效果。而检索方法大致有以下几种:1、顺查法,2、倒查法,3抽查法,4追溯法,5分段法,6浏览法。 顺查法:顺查法即根据课题所涉及的学科范围,从有关问题提出的最初年代入手,由远而近、逐年查找,直到查找的信息资料充足为止的方法。这种方法适用于对某一课题的普查,能查找到相当长时期内国内外发表的全部相关文献资料,这种方法查得的信息资料比较全面,漏查的可能性小,查全率较高。其不足之处是工作量大,费时费力。 倒查法:倒查法也称逆查法,即根据所查课题的时间范围,由近期向远期回溯查找文献资料的方法。此法适用于一些新课题、新观点、创新理论、革新技术等信息资料的检索,重点查检近期的信息资料,检索是按时间顺序由近期的新内容往远期旧内容逐年查找。其特点是速度快、效率高、省时、新颖性强,但漏查率比顺查法高,查得的信息资料不及顺查法的全面、系统不。 抽查法:抽查法是针对某一学科发展变化的特点及特定的发展阶段,查检特定时间范围内信息的一种方法。具体是以该学科文献信息发表的年代作为检索入口,来进行信息检索。此方法的特点是省时、省力,能获得较多的相关的信息资料。利用抽查法必须注意所查学科的特点及发展史,不然漏查的概率大,检索效率不高。 追溯法:追溯法是利用原始文献后面所附的参考文献和有关论著的引文注释进行追踪检索的一种方法。其检索到的文献系统性较强,内容比较集中,不足之处是漏检和误检的概率大,查检效率不高。 分段法:这是将常用法与追溯法交替使用的一种方法。既利用工具书检索文献,又利用文献后面的参考文献进行追溯,两种方法交替使用,直到满足读者需要为止。这种方法可根据文献和本单位工具书收藏的情况,分期分段交叉运用不同的查找方法,既能获得一定时期内的文献,还可节约查找时间。 浏览法:浏览法又称直接查找法。就是检索者从本专业最新核心期刊或者其他文献中直接阅读原文或浏览最新目次而获取原文的方法。因为浏览法查得的文献往往不全面、不系统,且局限性较大,所以不能作为查找文献信息的主要方法。 综上所述,文献检索方法很多,常常要因人因事而异,根据检索要求灵活应用,尽可能避免漏检和误检,以提高文献的查全率和查准率。 在浩如烟海的信息中,不设置检索点犹如大海捞针,很难找到所需要的信息资料。为了更好地利用信息,人们根据每件信息的内部和外部特征而设置了检索点,以此作为检索信息的入口。一般来说,设置的信息检索点主要有分类、主题、名称、著者、代码等。所以检索界面应该给用户提供较好的检索起始方式。没有任何内容的屏幕或空白的登陆表格都无法给用户提供有关如何开始检索过程的信息。在这一阶段,用户通常无法给出有关其信息需求的全面详细的描述。研究表明,用户倾向于以一个简短的查询作为起点,仔细观察相应结果,之后修改查询,如此循环往复。最初的查询可以看成一种“试水”,通过它可以得到有关可能返回的检索结果以及如何重构查询的信息。因此,信息存取界面的一项任务就是帮助用户选

《现代信息检索》完整备课教案

《现代信息检索》 授课教案 2010年9月

学期授课计划说明

六安职业技术学院教案 2010~2011学年度第 1 学期编号 1 信息工程系计算机教研室任课教师熊冠静课程名称《现代信息检索》 授课章节第1 章现代信息检索概述

教学过程主要环节设计 一.导入新课: 本章基本内容 随着科学技术的飞速发展,现代社会进入了知识时代,文献信息资源层出不穷。文献信息资源的类型按载体形式可分为印刷型、缩微型、视听型、机读型。按出版形式可分为图书、连续出版物、非书资料、舆图资料以及电子资源。从文献加工处理的深度划分,可分为一次文献、二次文献、三次文献。一次文献是指直接记录观察、发现、科研成果而形成的文献。二次文献是指文献工作者对一次文献进行整理、加工、编排而形成的文献,是为报道、检索、管理、利用一次文献而出现的一种文献形式。三次文献是指根据需要对一次文献和二次文献所载的内容进行选择,经分析研究、综合加工而成的文献。 1.1 检索工具的类型与作用 检索工具是指用于报道、存储和查找文献信息资源线索的工具和设备的总称,是以一次文献为基础,在广泛收集并经过严格筛选后,对其进行描述、标引或汇集,充分揭示其物质外形特征和内容特征,并按一定的规则组织而成的。 检索工具的作用在于帮助用户及时、快速、全面、系统地查找分散在各处的文献信息资源。检索工具的类型繁多,按文献信息资源的收录范围可分为综合性检索工具和专科性检索工具两大类型;按其载体形式可分为书本式工具书、卡片检索工具、光盘检索工具以及数据库。无论是书本式工具书,还是数据库均是知识时代人们检索和获取文献信息资源的工具,都具有存储和检索两种功能。但信息存储与检索的手段不同,前者采用手工检索,后者采用计算机检索。 1.2 检索汉字常用的检字法 1.2.1 汉语拼音音序法 汉语拼音音序法是一种将汉字依照《汉语拼音方案》所规定的拼音字母顺序

中国科学院大学现代信息检索课后习题答案

《信息检索导论》课后练习答案 王斌 最后更新日期 2013/9/28 第一章布尔检索 习题1-1 [*] 画出下列文档集所对应的倒排索引(参考图1-3中的例子)。 文档 1 new home sales top forecasts 文档 2 home sales rise in july 文档 3 increase in home sales in july 文档 4 july new home sales rise 习题1-2 [*] 考虑如下几篇文档: 文档1 breakthrough drug for schizophrenia 文档2 new schizophrenia drug 文档3 new approach for treatment of schizophrenia 文档4 new hopes for schizophrenia patients a. 画出文档集对应的词项—文档矩阵; 解答: breakthrough 1 0 0 0 drug 1 1 0 0 for 1 0 1 1 hopes 0 0 0 1 new 0 1 1 1

patients 0 0 0 1 schizophrenia 1 1 1 1 treatment 0 0 1 0 b. 画出该文档集的倒排索引(参考图 1-3中的例子)。 解答:参考a。 习题1-3 [*] 对于习题1-2中的文档集,如果给定如下查询,那么返回的结果是什么? a.schizophrenia AND drug 解答:{文档1,文档2} b.for AND NOT (drug OR approach) 解答:{文档4} 习题1-4 [*] 对于如下查询,能否仍然在O(x+y)次完成?其中x和y分别是Brutus和Caesar所对应的倒排记录表长度。如果不能的话,那么我们能达到的时间复杂度是多少? a.Brutus AND NOT Caesar b.Brutus OR NOT Caesar 解答: a.可以在O(x+y)次完成。通过集合的减操作即可。具体做法参考习题1-11。 b.不能。不可以在O(x+y)次完成。因为NOT Caesar的倒排记录表需要提取其他所有词项对应的倒 排记录表。所以需要遍历几乎全体倒排记录表,于是时间复杂度即为所有倒排记录表的长度的和 N,即O(N) 或者说O(x+N-y)。 习题1-5 [*] 将倒排记录表合并算法推广到任意布尔查询表达式,其时间复杂度是多少?比如,对于查询 c.(Brutus OR Caesar) AND NOT (Antony OR Cleopatra) 我们能在线性时间完成合并吗?这里的线性是针对什么来说的?我们还能对此加以改进吗? 解答:时间复杂度为O(qN),其中q为表达式中词项的个数,N为所有倒排记录表长度之和。也就是说可以在词项个数q及所有倒排记录表长度N的线性时间完成合并。由于任意布尔表达式处理算法复杂度的上界为O(N),所以上述复杂度无法进一步改进。 习题1-6 [**] 假定我们使用分配律来改写有关AND和OR的查询表达式。 a. 通过分配律将习题1-5中的查询写成析取式; 12 b. 改写之后的查询的处理过程比原始查询处理过程的效率高还是低? c. 上述结果对任何查询通用还是依赖于文档集的容和词本身? 解答: a. 析取式为:(Brutus And Not Anthony And Not Cleopatra) OR (Caesar AND NOT Anthony AND NOT Cleopatra) b. 这里的析取式处理比前面的合取式更有效。这是因为这里先进行AND操作(括号),得到的倒排记录表都不大, 再进行OR操作效率就不会很低。而前面需要先进行OR操作,得到的中间倒排记录表会更大一些。 c. 上述结果不一定对,比如两个罕见词A和B构成的查询 (A OR B) AND NOT(HONG OR KONG),假设HONG KONG一 起出现很频繁。此时合取方式可能处理起来更高效。如果在析取式中仅有词项的非操作时,b中结果 不对。 习题 1-7 [*] 请推荐如下查询的处理次序。 d. (tangerine OR trees) AND (marmalade OR skies) AND (kaleidoscope OR eyes)

现代信息检索作业

运城学院 《现代信息检索》 系别:应用化学 专业:化学 班级:1101 姓名:张丹 学号:2011080145

这个学期我学习了想《现代信息检索》这门课程,从中学到了很多关于信息检索的知识,以下就是我对这门课程的总结。 信息社会,人们把信息、物质与能量一起称为人类社会赖以生存发展的三大要素。信息是促进社会经济、科学技术以及人类生活向前发展的重要因素。一个国家的科技进步和社会发展起来越取决于对信息的开发与利用,谁能充分开发和有效地利用信息资源,谁就能抢占科学技术发展的制高点。 社会的信息化环境使社会对人才的要求更高,信息素质成为现代化人才必备的基本素质之一。当今,信息呈爆炸式增长,不仅如此,信息载体也发生了巨大的变化,除传统纸介质信息外,每天都有大量的磁载体信息、电子版信息及各类网上信息涌现出来,这些浩如烟海的信息的多样性、离散性与无序性及其复杂的检索界面和使用方法,增加了信息利用的难度,极大地影响了人们获取信息的质量与效率。 信息检索方法是实现检索方案中的检索目标所采用的具体操作方法和手段的总称。检索的方法很多,要检索过程中应根据检索系统的功能和检索者的实际需求,灵活运用各种检索方法,以达到满意的检索效果。而检索方法大致有以下几种:1、顺查法,2、倒查法,3抽查法,4追溯法,5分段法,6浏览法。 顺查法:顺查法即根据课题所涉及的学科范围,从有关问题提出的最初年代入手,由远而近、逐年查找,直到查找的信息资料充足为止的方法。这种方法适用于对某一课题的普查,能查找到相当长时期内国内外发表的全部相关文献资料,这种方法查得的信息资料比较全面,漏查的可能性小,查全率较高。其不足之处是工作量大,费时费力。 倒查法:倒查法也称逆查法,即根据所查课题的时间范围,由近期向远期回溯查找文献资料的方法。此法适用于一些新课题、新观点、创新理论、革新

山东大学网络教育学院 现代信息检索技术1doc 答案

现代信息检索技术模拟题 一、填空 1.信息按出版类型分为___科技图书、科技期刊、科技报告、会议文献、专利文献、学位 论文、标准文献、政府出版物、产品样本、技术档案、_报纸、新闻稿、统计资料等。 (也可以直接回答:普通文献和特种文献) 2.定期(多于一天)或不定期出版的有固定名称的连续出版物是_科技期刊__。 3.按文献的相对利用率来划分,可以把文献分为__核心文献_、相关文献、边缘文献。 4.检索语言可分为两大类:( 分类语言、主题词语言 )。 5.检索国外科技会议论文的主要检索工具为( _ISTP。) 6.在万方数据资源中,检索期刊文献时主要使用____数字化期刊子系统_。 7.文件ABC.001.TXT的后缀名是 TXT 。文件类型是文本文件。 8.我国专利法保护的发明创造分为 (_发明,实用新型和外观设计。) 9.在使用搜索引擎检索时,URL:ustc可以查到( 网址 ) 中带有ustc的网页。 10.查询关键词为短语"DATA OUTPUT",可以用位置算符(W)改写为:( DATA (W) OUTPUT ) 。 二、选择题 1《全国西文期刊联合目录》属于:【 A 】 A.目录 B.题录 C.文摘 D.索引 2 在下列哪种检索工具中可以得到历年的统计数据?【 C 】 A.字典 B.百科全书 C.年鉴 D.手册 3下列哪种图书不属于工具类图书?【 A 】 A.科技专著 B.字典 C.手册 D.年鉴 4下列哪个数据库是开放式的数字图书馆?【 B 】 A.万方数据 B.超星 C.维普 D ELSEVIER 5下列哪个检索系统提供了期刊和文献被引用的情况?【 A 】 A.WEB OF SCIENCE B.OCLC C.ISTP D.工程索引EI 6下列关于检索目的的说法正确的是:【 ABC 】 A.避免重复研究、建设

现代信息检索课程学习心得

现代信息检索课程 学习心得 系别:生命科学系 班级:0903班 姓名:马昕 学号:2009140361 指导老师:何志林

2012-06-13 现代信息检索课程学习心得 走过了大学的四分之三,即将升入大四,也即将面临毕业论文的写作,但是对于文献的检索却知之胜少,所以这学期选修了何志林老师的现代信息检索课程,这门课程给我带来了不少收获。 文献检索课程是高校教学中不可缺少的一门课程,是素质教育中重要的组成部分,是当代大学生必须掌握的基本技能。文献检索教育是培养我们大学生的信息意识,使我们掌握用手工方式和计算机方式从各种文献或互联网中获取知识和信息的一种科学方法,是信息素养教育中重要的组成部分,是大学生素质教育中不可缺少的一个环节。高校的文献检索课作为我国高校情报用户教育的主要形式,是学生学习信息知识、掌握信息检索技术、普及信息素质教育的基础课,它和外语、计算机等一样是当代大学生必须掌握的基本技能。所以,对我

们来说,文献检索十分有必要,而且我们必须好好掌握这样一门课程。 科技文献检索与论文写作这门课程是最实用的课程之一,学习这门课程的目的是学会利用信息检索如何最快最准确的搜索想要的信息。文献检索作为一种工具,能通过他人的知识而对前人研究继承,发展和创新,通过研究思路和方法的学习和借鉴来进一步进行自己的研究,对于我们以后写毕业论文会有很大的帮助。文献信息资料是学习和研究工作的基础,各项学习和研究工作都将根据我们搜集到的文献信息资料来开展。信息资源越丰富,学习和研究工作成功的可能性就越大。面对日益增长的文献资源,如何通过一种有效的方法,以最少的时间与精力来获取自己所要的信息?这就需要具备文献检索的基本技能,通过文献检索,可以获取学术动态;通过文献检索可以寻找未知问题的答案;通过文献检索可以培养信息意识、提高自学的能力,可以说,同学们平时的学习及毕业论文的写作等都与文献检索密切相关。 在此次文献检索课程中,通过老师的介绍,我不仅了解到了信息检索方面的基础知识,如文献可以分为期刊,专利,会议资料,学位论文,科技报告等,并了解到了很多检索系统,如维普数据库,中国期刊全文数据库,EI,EBSCOhost ,SpringerLink ,超星电子图书,方正Apabi电子图书等。并了解到了各种数据库的特点,如:维普数据库中主要是期刊,万方学位论文数据库的检索结果多样性,EBSCO 是全球最早推出全文在线数据库检索系统的公司之一,在SCI中则可以查到各个领域的论文,研究成果,Springer则收录了各个领域的

山东大学网络教育现代信息检索技术期末考试试题及参考答案

现代信息检索技术—线上 一、问答题 1、查找有关“西红柿中维生素C含量分析“方面的文献。 1)请确定该课题的相关主题词,并编写检索提问式。 2)如果在《中国期刊全文库》中检索该课题,有几种检索途径。 正确答案:1)请确定该课题的相关主题词,并编写检索提问式。 相关主题词:西红柿、番茄;维生素C检索提问式:(西红柿+番茄)*维生素C 2)如果在《中国期刊全文库》中检索该课题,有几种检索途径。 主题途径、分类+主题途径 2、叙述信息检索的一般步骤。 正确答案:1、分析检索课题(整个检索的关键) (1)明确课题的学科性质、主题概念和技术内容。 (2)明确课题的要求 检索目的:论证、解决技术关键、查新。 检索对象:数据检索、事实检索、文献检索。 2、选择检索工具(数据库)(1)针对性(2)权威性 3、确定检索方法 文献检索中常见的方法:追溯法、顺法、倒去、抽法、循环法。 4、确定检索途径 检索工具是根据文献的特征编排的,文献特征的多样性,就决定了检索途径的多样性。检索途径:主题、分类。外加其他辅助途径。 5、试查通过分析检索到的信息,调整检索策略。 二、填空题 3、按文献的相对利用率来划分,可以把文献分为、相关文献、边文献。 正确答案:核心文献 4、请在英文数据库后面写上中文数据库的名称。《ISTP》。 正确答案:科学会议录索引 5、试举三个中文期刊全文数据库:、维普中文科技期数据库、万方数字化期刊。 正确答案:中国期刊全文库 6、我国专利法保护的发明创造分为。正确答案:发明、实用新型和外观设计 7、检索语言可分为两大类:分类语言、。 正确答案:主题词语言 8、检索国外科技会议论文的主要检索工具为。 正确答案:ISTP 正确答案: 9、信息按出版类型分为。 正确答案:书、期刊、科技报告、会议、学位论文、专利、标准、政府文献、产品目录、技术档案

现代信息检索技术

现代信息检索技术 一、填空 1.信息按出版类型分为( 。) 2.定期(多于一天)或不定期出版的有固定名称的连续出版物是( ) 。 3.按文献的相对利用率来划分,可以把文献分为( 、、) 。 4.检索语言可分为两大类:( 、)。 5.检索国外科技会议论文的主要检索工具为( 。) 6.在万方数据资源中,检索期刊文献时主要使用( )。 7.文件ABC.001.TXT的后缀名是( ) 。文件类型是( ) 。 8.我国专利法保护的发明创造分为( ) 9.在使用搜索引擎检索时,URL:ustc可以查到( ) 中带有ustc的网页。 10.查询关键词为短语"DA TA OUTPUT",可以用位置算符(W)改写为: ( ) 。 二、选择题 三、1《全国西文期刊联合目录》属于:【】 A.目录 B.题录 C.文摘 D.索引 2 在下列哪种检索工具中可以得到历年的统计数据?【】 A.字典 B.百科全书 C.年鉴 D.手册 3下列哪种图书不属于工具类图书?【】 A.科技专著 B.字典 C.手册 D.年鉴 4下列哪个数据库是开放式的数字图书馆?【】 A.万方数据 B.超星 C.维普 D ELSEVIER 5下列哪个检索系统提供了期刊和文献被引用的情况?【】 A.WEB OF SCIENCE B.OCLC C.ISTP D.工程索引EI 6下列关于检索目的的说法正确的是:【】 A.避免重复研究、建设

B.了解前人的工作,以便继承发展 C.学习前人的优秀方法,提高工作效率 D.可以拿来就用 7专利权的特点有:【】 A.专有性 B.地域性 C.时效性 D.保护性 8下列标准是国际标准的有:【】 A.GB2312-80 B.ISO4084-77 C.IEC1234-89 D.京Q/JB1-79 9下列数据库中,提供期刊原文的有哪些?【】 A.学术期刊网 B.维普科技期刊 C.WEB OF SCIENCE D.ELSEVIER 10主流的电子图书格式有哪些?【】 A.TXT B.PDF C.CHM D.HTM 三简答题 1 简述零次信息、一次、二次、三次信息的概念。 2 简述数据库的概念。 3 简述信息检索原理。 4中国专利保护的期限为多长时间? 有关艺术设计类的专利属哪类? 四问答题 1叙述信息检索的一般步骤。

山东大学网络教育学院 现代信息检索技术3 答案

《现代信息检索技术》模拟题 一、填空 1.信息按出版类型分为___科技图书、科技期刊、科技报告、会议文献、专利文献、学位 论文、标准文献、政府出版物、产品样本、技术档案、_报纸、新闻稿、统计资料等。 (也可以直接回答:普通文献和特种文献) 2.定期(多于一天)或不定期出版的有固定名称的连续出版物是_科技期刊__。 3.按文献的相对利用率来划分,可以把文献分为__核心文献_、相关文献、边缘文献。 4.检索语言可分为两大类:(分类语言、主题词语言)。 5.检索国外科技会议论文的主要检索工具为(_ISTP。) 6.在万方数据资源中,检索期刊文献时主要使用____数字化期刊子系统_。 7.文件ABC.001.TXT的后缀名是TXT。文件类型是文本文件。 8.我国专利法保护的发明创造分为(_发明,实用新型和外观设计。) 9.在使用搜索引擎检索时,URL:ustc可以查到(网址)中带有ustc的网页。 10.查询关键词为短语"DATA OUTPUT",可以用位置算符(W)改写为:(DATA(W) OUTPUT)。 二、选择题 1查找特定类型的文件的高级搜索语法命令为【A】 A.filetype B.intitle C.site D.inurl 2在下列哪种检索工具中可以得到历年的统计数据?【C】 A.字典 B.百科全书 C.年鉴 D.手册 3.甲乙二人各有一条信息,二人交流后,每人拥有两条信息,说明信息具有【D】 A客观性 B相对性 C依存性 D共享性 4下列哪个数据库是开放式的数字图书馆?【B】 A.万方数据 B.超星 C.维普 D ELSEVIER 5下列哪个检索系统提供了期刊和文献被引用的情况?【A】 A.WEB OF SCIENCE B.OCLC C.ISTP D.工程索引EI 6下列关于检索目的的说法正确的是:【ABC】 A.避免重复研究、建设

浅谈现代信息检索技术的发展

浅谈现代信息检索技术的发展 要想充分利用这些浩如烟海的文献信息资源,必须借助各种各样的检索工具。同时,因特网信息资源的骤增及其异构性、动态性,不断给信息检索带来新的挑战。信息检索已成为现代社会信息化和各种应用的关键。如何更高层次的模拟、应用人脑的智能原理,从本质上变革信息资源检索方法,已成为现代化信息知识检索理论研究的热点。实践证明,将人工智能技术与信息技术结合,发挥人工智能的作用,是一条成功的经验。下面就知识检索与信息检索的关联和发展,作初步的探讨。一、布尔检索利用布尔逻辑算符进行检索词或代码的逻辑组配,是现代信息检索系统中最常用的一种方法。常用的布尔逻辑算符有三种,分别是逻辑或“OR”、逻辑与“AND”、逻辑非“NOT”。用这些逻辑算符将检索词组配构成检索提问式,计算机将根据提问式与系统中的记录进行匹配,当两者相符时则命中,并自动输出该文献记录。下面以“计算机”和“文献检索”两个词来解释三种逻辑算符的含义。①“计算机”AND“文献检索”,表示查找文献内容中既含有“计算机”又含有“文献检索”词的文献。 ②“计算机”OR“文献检索”,表示查找文献内容中含有“计算机”或含有“文献检索”以及两词都包含的文献。③“计算机”NOT“文献检索”,表示查找文献内容中含有“计算机”而不含有“文献检索”的那部分文献。检索中逻辑算符使用是最频繁的,对逻辑算符使用的技巧决定检索结果的满意程度。用布尔逻辑表达检索要求,除要掌握检索课题的相关因素外,还应在布尔算符对检索结果的影响方面引起注意。另外,对同一个布尔逻辑提问式来说,不同的运算次序会有不同的检索结果。布尔算符使用正确但不能达到应有检索效果的事情是很多的。二、信息检索信息检索起源于图书馆的参考咨询和文摘索引工作,从19世纪下半叶首先开始发展,至20世纪40年代,索引和检索已成为图书馆独立的工具和用户服务项目。信息检索通常指文本信息检索,包括信息的存储、组织、表现、查询、存取等各个方面,其核心为文本信息的索引和检索。它是基于信息组织形式,如字符串、结构化数据库,应用信息处理方法,如排序数据查找、字符匹配,实现效率不高的检索。信息检索综合应用布尔检索方法和基于超链的检索技术,改进了基本检索功能,但缺点是对精确的提问不能给出精确的回答。从历史上看,信息检索经历了手工检索、计算机检索到目前网络化、智能化检索等多个发展阶段。目前,信息检索已经发展到网络化和智能化的阶段。信息检索的对象从相对封闭、稳定一致、由独立数据库集中管理的信息内容扩展到开放、动态、更新快、分布广泛、管理松散的Web内容;信息检索的用户也由原来的情报专业人员扩展到包括商务人员、管理人员、教师学生、各专业人士等在内的普通大众,他们对信息检索从结果到方式提出了更高、更多样化的要求。适应网络化、智能化以及个性化的需要是目前信息检索技术发展的新趋势。 三、知识检索知识检索的基本思想是,模拟扩展人类关于知识处理与利用的智能行为和认识思维方法,是充分利用在线图书馆和数字图书馆的文献信息资源的有利工具。例如:抽象思维方法,形象思维方法。知识检索具有明显的优势:①实现信息服务向知识服务的转化,向用户提供潜在内容知识,以及分析预测后的超前性领域成果或知识。②提供主动服务方式,自动优化用户需求,主动提供个性化检索。③面向用户,依据用户的需求及其变化,能灵活选择理想的检索策略和技术,并且将繁重的知识信息存取工作从用户移向了计算机。④综合应用各类知识和各种高效的智能技术,全面提高检索效率。知识检索是综合应用信息管理科学人工智能认知科学及语言学等多学科的先进理论与技术,基于知识和知识组织,融合知识处理和多媒体信息处理等多种方法与技术,充分表达和优化用户需求,能高效存取所有媒体类型的知识源,并能准确精选用户需要的结果。四、智能检索智能检索利用分词词典、同义词典,同音词典改善检索效果,比如用户查询“计算机”,与“电脑”相关的信息也能检索

现代信息检索课程论文

课程论文 论文题目:略论网络信息的检索 课程名称:现代信息检索 课程式号:1110506 学生姓名:江文睿 学生学号:1100830310 所在学院:电子工程与自动化学院 所在专业:光信息科学与技术 2011年11月14日

引言 在现代的工作和学习当中,各类的信息检索是必不可少的,以前人们查询信息是通过期刊、杂志、报纸、图书等途径。但随着因特网的出现,特别是近年来的快速发展,对人类传统的信息组织检索和获取方法构成了很大的冲击,使得人们在世界范围内很方便地进行信息交流和资源共享。因此,如何能在因特网上较快地找到所需的专题信息是目前最困扰用户的难题。就此,来探讨一下检索方法。 检索步骤: ①弄清信息需求,明确检索目的, 确定大致的检索范围。 ②明确所需的文献量。根据检索要求选择数据库,并确定检索途径。 ③对用户提问进行概念分析,依据检索词表将分析出的主题概念转换成检索标识。 ④运用布尔逻辑算符构造检索提问表达式。 ⑤输入提问表达式, 由计算机对文档进行查找,检出相关文献。 ⑥分析检索结果, 若不符合要求, 则对提问表达式进行修改, 并且重复第⑤步, 直到 满意为止。 1、信息需求 信息需求是人们索取情报信息的出发点,也是联机信息检索时选择数据库、确定检索策略以及评价检索效果的依据。不同类型的课题,其信息需求的范围和程度也不同。要正确的分析信息需求。 ①明确检索课题内容涉及的主要学科范围,以便选择合适的数据库。 ②分析检索课题的主要内容,用自然语言来表达这些内容要求。 ③明确所需文献的语种、年代范围、类型、作者或其它外表特征,以便限定检索范围。 2、检索途径 根据用户的检索提问, 选择合适的检索途径。对某一特定的检索要求选择什么样的检索途径。决定于利用者对档案线索的掌握程度以及检索工具、检索系统的设置情况。对于手工检索来说, 检索途径的选择就是决定采用哪种检索工具进行检索, 可以是分类目录, 也可以是主题目录,可以是题名目录, 也可以是文号索引等等。而对计算机检索系统来说, 则包括对数据库的选择及检索项目的确定。检索项目包括待检数据库中各种规范化代码(如分类号、产品代码、国家或地区代码、机构名称代码等)以及表示主题概念的检索词。在计算机检索中, 检索词包括主题词和自由词, 一般总是优先选择主题词作为最基本的检索项目。因此, 主题检索途径是计算机检索的主要途径。 检索标识的选定 选择好检索途径后, 即可根据分类表或词表, 将表达用户提问的主题概念转换成检索标识。所选择的检索标识适当与否, 取决于对检索提问进行主题分析的正确性和全面性以及标

山东大学网络教育学院现代信息检索技术3答案教学提纲

山东大学网络教育学院现代信息检索技术 3 答案

《现代信息检索技术》模拟题 一、填空 1. 信息按出版类型分为—科技图书、科技期刊、科技报告、会议文献、专利文献、学位 论文、标准文献、政府出版物、产品样本、技术档案、—报纸、新闻稿、统计资料等。 (也可以直接回答:普通文献和特种文献) 2. 定期(多于一天)或不定期出版的有固定名称的连续出版物是_科技期刊__。 3. 按文献的相对利用率来划分,可以把文献分为__核心文献_、相关文献、边缘文 献。 4. 检索语言可分为两大类:(分类语言________ 、主题词语言)。 5. 检索国外科技会议论文的主要检索工具为(_ISTP。) 6. 在万方数据资源中,检索期刊文献时主要使用 _______ 数字化期刊子系统_。 7. 文件ABC.001.TXT的后缀名是TXT _______ 。文件类型是文本文件。 8. 我国专利法保护的发明创造分为「发明,实用新型和外观设计。_J_ 9. 在使用搜索引擎检索时,URL:ustc可以查到(网址J_中带有ustc的网页。 10. 查询关键词为短语"DATA OUTPUT"可以用位置算符(W)改写为:(DATA (W) OUTPUT )。 二、选择题 1查找特定类型的文件的高级搜索语法命令为【A】 A. filetype B. in title C. site D. inurl 2在下列哪种检索工具中可以得到历年的统计数据?【C】 A. 字典 B. 百科全书 C. 年鉴 D. 手册 3.甲乙二人各有一条信息,二人交流后,每人拥有两条信息,说明信息具有【D】 A客观性 B相对性 C依存性 D共享性 4下列哪个数据库是开放式的数字图书馆?【B】 A. 万方数据 B. 超星 C. 维普 D ELSEVIER 5下列哪个检索系统提供了期刊和文献被引用的情况?【A】 A. WEB OF SCIENCE B. OCLC C. ISTP D. 工程索引EI 6下列关于检索目的的说法正确的是:【ABC 】

现代信息检索

第二章:停用词去除停用词好处,词干还原(归一)作用(四点),跳表指针了解就行不用深究,双词索引:两种:双词查询和扩展的双词,位置索引(还原文档的语义信息)->临近式查询,混合索引::临近式查询+双词索引 第三章:本章主讲容错、通配符等。前面内容哈希表和树结构的优缺点。通配查询两种做法:看看就行。边际距离算法:用来拼写校正,几种可用的单词间距离算法:编辑距离算法(课堂上重点讲述了),soundex算法自己看看应该不考,编辑距离会考 第四章:几个算法理解一下,spim-invert算法考试不考大作业要用 第五章:为什么在IR中需要压缩,。。。倒排记录表压缩(关键思想),伽马编码不支持0的编码所以解决方式是对所有ID进行加一处理,考试形式:给一串让写出气vb编码或者伽马编码 第六章:为什么要长度归一,长度归一要怎么处理(会考) 第七章:了解长度归一化,本章介绍了很多对系统加速的方法(了解胜者表的基本思路会考,静态质量得分概念思路会考) 第八章:信息检索评价的指标考,评价指标(召回率、正确率),缓冲池方法估计要考(显然的一个弊端是其召回率不太可靠,但是正确率是比较可靠的),平均正确率这个概念要考,Bpref指标用于相关性判断不完整的这种情况下,NDCG用于多级相关(看看)。本章必考缓冲池,平均正确率等。 第九章:查询扩展,相关反馈分类 第十一章:BIM模型和BM。。。,了解两个分布:多元贝努力分布和多项式分布,BIM的优缺点 本课程分类和聚类没有介绍考试不涉及 第十九章:如何对广告排序,重复检测(近似检测) 第二十章:不能频率过高的访问同一个网站, 第二是一章:两个算法。pagerank算法:静态算法,可以线下计算。hets算法: 下周一答疑,下周三考试,六一之前交大作业 PageRank vs. HITS ?网页的PageRank与查询主题无关,可以事先算好,因此适合于大型搜索引擎的应用。 ?HITS算法的计算与查询主题相关,检索之后再进行计算,因此,不适合于大型搜索引擎。 链接分析算法之PageRank、HITS 1.PageRank算法 它的主要思想是对所有网页根据PageRank值(范围为0-10)进行排序。 网页PageRank的计算基于以下两个基本假设: 1.数量:在Web图模型中,如果一个页面节点接收到的其他网页指向的入链数量越多,那么这个页面越重要。 2.质量:指向页面A的入链质量不同,质量高的页面会通过链接向其他页面传递更多的权重。所以越是质量高的页面指向页面A,则页面A越重要。 优点: 是一个与查询无关的静态算法,所有网页的PageRank值通过离线计算获得;有效减少在线查询时的计算量,极大降低了查询响应时间。

现代信息检索心得

《现代信息检索教程》 考查作业 学院:机械与汽车工程学院专业:机械设计制造及其自动化班级: 姓名: 学号: 联系方式:

2012年10月20日 《现代信息检索》 课题:液压传动系统 检索词:液压、传动 检索策略:液压and传动and系统 1、检索图书:利用“图书馆馆藏书目”检索,题名途径,检索结果举例: 《工程机械液压与液力传动》吉林工业大学编著, 吉林工业出版社0979 , TH137/19,中文图书 《液压传动与控制沈兴全, 吴秀玲主编, 国防工业出版社2005, TH137/77, 中文图书 2、检索期刊论文:利用“万方中国学位论文全文数据库”检索,题名途径,检索结果举例: 《工程机械液压传动系统故障诊断与维修》[期刊论文] 《科技创新导报》-2012年4期邓林兴 《液压传动系统中节能技术的探讨》[期刊论文] 《机床与液压》-2007年3期桑勇王占林祁晓野白国长 《机械液压传动系统中智能故障诊断技术的应用研究》[期刊论文] -2007年8期崔玉理CUI Yu-li

3、检索学位论文:利用“万方中国学位论文全文数据库”检索,题名途径,检索结果举例: 《自发电液压传动系统建模与仿真》[学位论文] 冯殿军, 2010 - 兰州理工大学:车辆工程 《混凝土搅拌运输车液压传动系统研究与设计》[学位论文] 张宇,2009 - 西安建筑科技大学:机械设计及理论 《中型轮式车静液压传动系统的设计及其CAE分析》[学位论文] 邢海博, 2005 - 天津大学:机械设计制造及其自动化。 4、检索会议论文:利用“万方会议论文文摘数据库”检索,任意词途径,检索结果举例: 《机床液压传动系统的爬行分析与排除》[会议论文] 贾全忠,2008 - 第八届全国设备与维修工程学术会议暨第十三届全国设备监测与 诊断学术会议 《冶金设备液压传动系统常见故障诊断与排除方法》[会议论文] 何曦,2006 - 第二届全国冶金液压与气动学术年会 《液压传动系统安装与试运转应注意的问题》[会议论文] 王坛,2002 - 中国造纸学会新闻纸专业委员会2002年学术年会 5、检索专利文献:利用“中国专利数据库(CNKI)”检索,检索项:专利名称;检索词:液压传动系统;检索结果举例: 《篦冷机液压传动系统的泵源多模式集中系统》庄永飞;赵再发; 张爱东,南通市南方润滑液压设备有限公司 《液压跟踪式中心架》马海鸥;饶斌;康满仓;赵永昌,陕西秦川格

中国科学院大学现代信息检索2011年试题(完整版)

2011年信息检索试题 一,判断,15题*2分 1,在布尔检索中处理多个词项的查询时,按照词项对应的倒排记录表的长度从小到大处理的性能一定最优。()f 2,词干还原的正确率很难做到100%。()t 3,组成短语的两个词项各自出现都很频繁,那么采用二元词索引的效率不如位置信息索引。()f 4,倒排索引压缩的唯一好处就是节省空间开销。()f 5,按照zipf定律,文档集不断增长后一定会出现新词汇。()f 6,在向量空间模型的权重表示中,IDF给出的是词项在文档内的局部信息。()f 7,对于检索系统而言,MAP值越高意味着用户的满意度一定越大。()f 8,伪相关反馈中,没有用户的交互,不一定会提高检索的效果。()t 9,在语言模型的估计当中,如果采用MLE估计方法,往往会遇到“零概率”问题。()t 10,在朴素贝叶斯分类器的实现中,基于多项式模型实现的效果总是优于基于贝努利模型的效果。(f)11,文本分类中特征选择的作用只是为了提高计算的效率。()f 12,SVM当中的核函数实际上是从原始空间到目标空间的映射函数。()t 13,K-均值聚类算法一定能保证目标函数收敛到全局最小值。()f 14,单链接HAC层次聚类算法的结果具有确定性。(t) 15,PageRank反映的是Web图中“越多越重要的节点指向某节点,则该节点越重要”这个现象。(t) 二,选择(单选或多选)8题*2分 1,关于布尔模型的有点,一下叙述正确的是() A,布尔检索构造复杂B,结果无排序 C,难以进行部分匹配D,表述简洁 2,关于向量空间模型,一下叙述错误的是() A,查询也看成一个向量B,权重计算是某个固定不便的TF*IDF公式 C,查询和文档可以采用不同的权重计算机制D,只能采用余弦相似度进行相关度计算3,关于二值独立概率模型,以下叙述错误的是() A,该模型中不存在词项独立性假设B,该模型没有考虑词项频率TF C,该模型考虑了相关文档的生成频率D,该模型考虑了不相关文档的生成频率4,关于查询似然检索模型,以下叙述错误的是() A,不需要参数估计B,平滑技术非常重要 C,计算复杂度远高于向量空间模型D,词项频率和为1 5,关于朴素贝叶斯分类器,以下叙述错误的是() A,该分类器不需要训练B,该分类器中存在词项独立性假设 C,该分类器训练速度很快D,该分类器分类速度很快6,关于层次聚类,以下叙述错误的是() A,层次聚类必须要指定聚类数目B,层次聚类复杂度通常很高 C,层次聚类中类间相似度计算只有一种方式D,层次聚类一定收敛 7,关于PageRank和HITS算法,以下叙述错误的是() A,两者通常都是离线(Offline)使用B,两者通常都是在线(Online)使用 C,两者本质都是计算矩阵的特征根D,PageRank计算的图通常大于HITS计算的图

传统信息检索与现代信息检索的区别和联系

目录 传统信息检索与现代信息检索的区别与联系 (2) 【引言】: (2) 一、传统信息检索 (2) 二、现代信息检索 (2) 三、传统信息检索和现代信息检索的异同 (3) 四、国内外研究现状 (3) 五、信息检索的发展趋势 (6)

传统信息检索与现代信息检索的区别与联系 【摘要】: 信息检索的发展是随着科学技术的进步而发展的。人类已经进行了四次信息技术革命,目前正在进行第五次信息技术革命。信息技术的革命使得信息检索也不断地得到改进,信息检索技术主要有四个阶段:初始阶段、手工检索阶段、计算机检索阶段、网络检索时代。信息检索手段分传统信息检索和现代信息检索。传统信息检索是指手工信息检索,现代信息检索包括计算机信息检索和网络信息检索。 【关键词】: 网络信息检索传统信息检索信息技术革命比较研究计算机检索手工检索网络检索信息检索技术检索手段文献信息 【引言】: 一、传统信息检索 传统信息检索-手工检索是利用各种专门用于检索的印刷出版物,即常说的检索工具来查找所需要信息的手段。其检索方法主要有以下几种: (1)直接检索:这是人们最常用的一种查找信息的方法,如去图书馆查阅各种图书、期刊及其他资料,找到需要的信息,需花大量的时间和精力,在过去文献较少 时,还能达到目的,而在信息大量产生的年代里犹如大海捞针。 (2)间接检索:就是利用各种检索工具获取线索,再根据线索查找原始文献信息的方法。也就是手工检索。间接检索还分为:1追溯放:通过已知文献所赋的参 考文献“由一变十,由十变百“地进行追溯查找有关信息还可以利用各种”引 文索引”等工具进行追溯检索。2.工具法:利用各种检索工具进行查找文献, 是文献检索最常用的方法。 二、现代信息检索 现代信息检索是指计算机及网络信息检索。计算机检索是以计算机为基础的信息存储检索。它是在手工检索、机械检索及光电检索基础上演变过来的,且在不断地发展。 (1)计算机单机检索:是计算机检索的初形式。随着计算机存储介质的发展变化,也在发生不断变化。目前主要有三种方式:计算机磁盘检索,计算机磁带检索 和计算机光盘检索。 (2)网络检索:计算机网络检索是近几年来发展起来的,目前它主要有三种形式:图书馆的局域网络的检索,联机检索系统的检索和internet网上检索。 随着计算机技术的普及、通讯及网络技术的发展,现代信息检索技术已不再是图书馆情报专业人员的专长,而是人人都应掌握的基本技能。

相关文档
相关文档 最新文档