文档库 最新最全的文档下载
当前位置:文档库 › 文本挖掘技术研究及其在信息检索中的应用

文本挖掘技术研究及其在信息检索中的应用

文本挖掘技术研究及其在信息检索中的应用
文本挖掘技术研究及其在信息检索中的应用

作者简介:乔良(1980-),男,河北博野人,硕士,华北科技学院助教,研究方向为数据挖掘。

文本挖掘技术研究及其在信息检索中的应用

(华北科技学院,河北三河101601)

要:文本挖掘是一个对具有丰富语义的文本进行分析从而理解其所包含的内容和意义的过程,已经成为数据挖

掘中一个日益流行而重要的研究领域。给出了文本挖掘的定义和框架,对文本挖掘中预处理、文本摘要、文本分类、聚类、关联分析及可视化技术进行了详尽的分析,并归纳了最新的研究进展,指出了文本挖掘在信息检索中的作用。关键词:文本挖掘;数掘挖掘;信息检索中图分类号:TP311.11

文献标识码:A

文章编号:1672-7800(2009)04-0160-02

1

文本挖掘概述

1.1

文本挖掘的定义

借鉴Choon Yang Quek 对Web 挖掘的定义,我们给出文本

挖掘的定义:

文本挖掘是指从大量文本的集合C 中发现隐含的模式p 。如果将C 看作输入,将p 看作输出,那么文本挖掘的过程就是从输入到输出的一个映射ξ:C →P 。

1.2文本挖掘的一般过程

文本挖掘的主要处理过程是:对大量文档集合的内容进行

预处理、特征提取、结构分析、文本摘要、文本分类、文本聚类、关联分析等。图1给出了文本挖掘的一般处理过程。

第8卷%第4期

2009年4月

Vol.8No.4Apr.2009

第4期

分析了。常用的文本挖掘分析技术有:文本结构分析、文本摘要、文本分类、文本聚类、文本关联分析、分布分析和趋势预测等。

2.2.1文本结构分析

其目的是为了更好地理解文本的主题思想,了解文本所表达的内容以及采用的方式。最终结果是建立文本的逻辑结构,即文本结构树,根节点是文本主题,依次为层次和段落。2.2.2文本摘要

文本摘要是指从文档中抽取关键信息,用简洁的形式对文档内容进行解释和概括。这样,用户不需要浏览全文就可以了解文档或文档集合的总体内容。任何一篇文章总有一些主题句,大部分位于整篇文章的开头或末尾部分,而且往往是在段首或段尾,因此文本摘要自动生成算法主要考察文本的开头、末尾,而且在构造句子的权值函数时,相应地给标题、子标题、段首和段尾的句子较大的权值,按权值大小选择句子组成相应的摘要。

2.2.3文本分类

文本分类的目的是让机器学会一个分类函数或分类模型,该模型能把文本映射到已存在的多个类别中的某一类,使检索或查询的速度更快、准确率更高。训练方法和分类算法是分类系统的核心部分。用于文本分类的分类方法较多,主要有朴素贝叶斯分类(Native Bayes)、向量空间模型、决策树、支持向量机、后向传播分类、遗传算法、基于案例的推理、K-最临近、基于中心点的分类方法、粗糙集、模糊集以及线性最小二乘(L inear Least Square Fit,LLSF)等。有文献指出传统特征提取的方法是基于词形的,并不考察词语的意义,忽略了同一意义下词形的多样性、不确定性以及词义间的关系,尤其是上下位关系。2.2.4文本聚类

文本分类是将文档归入到已经存在的类中,文本聚类的目标和文本分类是一样的,只是实现的方法不同。文本聚类是无教师的机器学习,聚类没有预先定义好的主题类别,它的目标是将文档集合分成若干个簇,要求同一簇内文档内容的相似度尽可能大,而不同簇间的相似度尽可能小。Hearst等人的研究已经证明了“聚类假设”,即与用户查询相关的文档通常会聚类得比较靠近,而远离与用户查询不相关的文档。目前,有多种文本聚类算法,大致可以分为两种类型:以G2HAC等算法为代表的层次凝聚法和以K2means等算法为代表的平面划分法。2.2.5关联分析

关联分析是指从文档集合中找出不同词语之间的关系。Feldman和Hirsh研究了文本数据库中关联规则的挖掘,有人提出了一种从大量文档中发现一对词语出现模式的算法,并用来在Web上寻找作者和书名的出现模式,从而发现了数千本在Amazon网站上找不到的新书籍;还有的以Web上的电影介绍作为测试文档,通过使用OEM模型从这些半结构化的页面中抽取词语项,进而得到一些关于电影名称、导演、演员、编剧的出现模式。

2.2.6分布分析与趋势预测

分布分析与趋势预测是指通过对文档的分析,得到特定数据在某个历史时刻的情况或将来的取值趋势。

2.3可视化技术

数据可视化(Data Visualization)技术指的是运用计算机图形学和图像处理技术,将数据转换为图形或图像在屏幕上显示出来,并进行交互处理的理论、方法和技术。它涉及到计算机图形学、图像处理、计算机辅助设计、计算机视觉及人机交互技术等多个领域。

3文本挖掘技术在信息检索系统中的应用

基于内容检索由于仅用几个关键词难以充分描述具有丰富内涵的信息,而且关键词的选取也有很大的主观性,文本挖掘技术采用区别于传统检索手段的基于内容检索技术。尽管目前基于内容检索技术很初级,只能利用一些相对简单的特征来进行检索,但随着研究的深人,必将可以从文本信息抽取一些更为详细的、经过特殊加工的特征信息,大大提高检索的全面性和准确性。

3.1信息智能代理

主要为在分布式信息网络环境下的信息的查询服务,信息智能代理使用户可以不知道所要检索信息的具体形式、存储于何处、何种介质中,只需要用户提出查找要求即可。文本挖掘技术会自动把各种信息源中各种形式的相关信息检索出来,供用户使用,使用户可以立即获得较为满意的检索结果。

3.2信息过滤

根据用户需要,通过对多个不同信息集之间的比较,进行信息过滤,产生适量的、合乎用户需求的信息。文本信息文摘用包括题目和具有代表性关键词字,进行抽取、计算和表达,自动选择重要的句子,产生文本信息摘要。

3.3信息表现

信息挖掘技术关心的是信息的方方面面,从多角度表现信息的本质和特征,文本挖掘技术能动态地、实时在线地表现信息的相关属性,使用户及时发现信息、及时更新信息和及时地发现信息的演变方向。

从上面所叙述的内容可以看出,传统的信息检索系统,通常是用户从信息库中查找想要的信息,而应用文本挖掘技术则可以智能地从信息库中检索出符合用户需求的信息。

参考文献:

[1]陈京民.数据仓库与数据挖掘技术[M].北京:电子工业出版社,2002.

[2]范明,孟小峰.数据挖掘——

—概念与技术[M].北京:机械工业出版社,2001.

(责任编辑:杜能钢)

乔良:文本挖掘技术研究及其在信息检索中的应用

161··

信息检索与利用期末复习

《信息检索与利用》考试题型说明: 一、判断题(1×10) 二、单选题(1×20) 客观题要涂答题卡。 三、填空题(2×5) 四、简答题(12×3) 五、实践题(12×2) 信息检索与利用客观复习题 一、判断题 1.在构建关键词时,我们尽量不要用自然语言,而要从自然语言中提炼关键词。 (对) 2.在信息检索时查询词表述准确是获得良好搜索结果的必要前提。(对) 3.目前的搜索引擎能很好的处理自然语言。(错) 4.用户可以通过Google图书搜索在线阅读任何一本搜索到的图书。(错) 5.二次检索是指在第一次检索结果不符合要求时,重新选择检索条件再次进行检 索。(错) 6.解决读者需求的无限性和馆藏的有限性的矛盾,唯一有效的方法就是在图书馆 间建立合作机制,实现资源共享。(对) 7.关键词语言的最大优点是能用计算机进行自动抽词标引,它适合于计算机自动 编制各种类型的词索引。(对) 8.信息素养由信息意识、信息能力、信息道德三个方面内容构成,其中,信息道 德是前提,信息能力是保证,信息意识是准则。(错) 9.搜索引擎与普通网站不同的是提供一个包含搜索框的页面,它不是一个WWW网 站。(错)

10.用搜索引擎google检索专利和期刊的全文比用中国国家知识产权局专利数据 库、《维普中文科技期刊数据库》等数据库的查全率和查准率都要高。(错)11.GB/T 16159-1996,汉语拼音正词法基本规则[S].北京:中国标准出版社, 1996.该文献类型为标准文献。(对) 12.在搜索引擎中输入“项目管理”和输入““项目管理””检索结果是不一样 的。(对) 13.在搜索引擎中常用的截词符是星号“*”,通常使用右截断。如输入comput*, 将检索出computer、computing、computerized等词汇。(对) 14.通用搜索引擎,如google、baidu、bing、yahoo,并不能囊括所有的网页。(对) 15.不同类型的搜索引擎对同一个主题进行搜索会得到不同的结果。(对) 16.一次文献是指原始创作,即作者以本人的研究成果为基本材料而创作(或撰写) 的文献,主要包括期刊论文、专利说明书、会议论文、科技报告和学位论文等。 (对) 17.从一次文献、二次文献到三次文献,是文献从无序到有序、从无组织到系统化 的过程。(错) 18.题录、目录属于一次文献;期刊论文属于二次文献。(错) 19.关键词和主题词都是表征文献实质性内容的词汇,前者是经过词表规范的,后 者是未经过词表规范的自由词。(错) 20.利用某个图书馆的书刊目录查询系统(OPAC),可以了解该图书馆收藏有哪些印 刷型图书和期刊。(对) 21.截词检索相当于用逻辑“或”扩展检索的范围,可以提高检索的查全率。(对) 22.将“红外线”扩展成“远红外线”和“近红外线”运用了上下位概念扩展法。 (对)、

资源检索技术

资源检索技术 摘要:信息时代信息膨胀,资源的种类和形式多种多样。不同类型的资源,搜索和检索的技术也有不同,本文整合了不同类型的信息资源的搜索和检索技术,其应用领域及特点。一、信息检索技术 (一)、含义:指信息按一定的方式组织起来,并根据信息用户的需要找出有关的信息的过程和技术。狭义的信息检索就是信息检索过程的后半部分,即从信息集合中找出所需要的信息的过程,也就是我们常说的信息查寻。 (二)、信息检索的对象 1、文献检索:是以文献(包括题录、文摘和全文)为检索对象的检索。可分为全文检索和书目检索两种。 2、数据检索:是以数值或数据(包括数据、图表、公式等)为对象的检索。 3、事实检索:是以某一客观事实为检索对象,查找某一事物发生的时间、地点及过程的检索。 (三)、检索手段 1、手工检索:指利用印刷型检索书刊检索信息的过程,优点是回溯性好,没有时间限制,不收费,缺点是费时,效率低。 2、光盘检索:光盘在文献信息领域的应用对信息的存储介质(纸、磁介质、缩微胶片等、CD-ROM为代表的光盘技术具有易用、存储容量大等独特的特点并很快发展成为一种新的检索系统——光盘检索系统,光盘数据库检索系统以它存储数据量大、操作简单、检索效率高、成本低廉、运行环境要求简单等特性。 3、联机检索:用户借助通讯线路,通过终端设备同检索系统联机所进行的文献与数据检索。这种计算机系统一般设有较多的数据库,而一个数据库可以包括几十万、几百万条文献的书目款目或科技数据。每检索一个课题只需数十秒钟,检索到的题录、文摘或数据还可立即在终端上显示和打印出来。联机检索的实现,对于图书馆传统的收集、查找与提供资料的方式来说,是一次革命。世界上已投入运行的联机情报系统很多。 4、网络信息检索:也即网络信息搜索,是指互联网用户在网络终端,通过特定的网络搜索工具或是通过浏览的方式,查找并获取信息的行为。 计算机检索、网络文献检索将成为信息检索的主流。 (四)应用领域 1、传统的图书情报检索,如图书馆信息系统; 2、互联网信息检索。 (五)、特点 1、与人们的思维习惯一致 2、表达直观清晰、结构化强 3、方便扩检和缩检 4、易于计算机实现 二、图像检索技术 (一)、含义:从20世纪70年代开始,有关图像检索的研究就已开始.CBIR属于基于内容检索(Content-based Retrieval,简称CBR)的一种,CBR中还包括对动态视频、音频等其它形式多媒体信息的检索技术。 在检索原理上,无论是基于文本的图像检索还是基于内容的图像检索,主要包括三方面:一

数据挖掘与预测分析

数据挖掘是一个多学科交叉研究领域,它融合了数据库技术、人工智能、机器学习、统计学、知识工程、面向对象方法、信息检索、高性能计算以及数据可视化等最新技术的研究成果。数据挖掘是目前人工智能和数据库领域研究的热点问题,所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。数据挖掘是一种决策支持过程,高度自动化地分析企业的数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,做出正确的决策。预测分析是一种统计或数据挖掘解决方案,包含可在结构化和非结构化数据中使用以确定未来结果的算法和技术。可为预测、优化、预报和模拟等许多其他用途而部署。预测分析可帮助用户评审和权衡潜在决策的影响力。可用来分析历史模式和概率,预测未来业绩并采取预防措施。 数据挖掘的含义是广泛的,每个人有每个人不同的体会,每个人有每个人的见解。但这些体会、见解是有许多共通之处的,从而可以归纳出数据挖掘的技术定义以及商业定义:从技术角度,数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的但又是潜在有用的信息和知识的过程。它是涉及机器学习、模式识别、统计学、人工智能、数据库管理及数据可视化等学科的边缘学科。由于每个人的思维方式不同,这个定义可以被解读为以下几个层次:①数据源必须是真实的、大量的、含噪声的;②发现的是用户感兴趣的知识;③发现的知识要可接受、可理解、可运用;④这些知识是相对的,是有特定前提和约束条件的,在特定领域中具有实际应用价值。 预测是大数据的核心,数据挖掘之后的预测分析无疑成为开拓市场的重要环节。预测分析是一种统计或数据挖掘解决方案,包含可在结构化和非结构化数据中使用以确定未来结果的算法和技术。可为预测、优化、预报和模拟等许多其他用途而部署。预测分析和假设情况分析可帮助用户评审和权衡潜在决策的影响力。可用来分析历史模式和概率,以预测未来业绩并采取预防措施。这种级别的分析可以为规划流程提供各种信息,并对企业未来提供关键洞察。不仅可提供预测分析,使用户可以执行高级分析、发布并与更广泛的用户群交流。还可以提供

科技信息检索

科技信息检索 1、信息资源的类型、基本特征 答:类型:信息资源类型(开发程度): 1潜在信息资源 2现实信息资源(包括口语信息资源、体语信息资源、文献信息资源、实物信息资源) 基本特征:共享性、时效性、增值性、智能性、无限性与有限性并存。 2、电子信息资源的特点、几种划分形式(了解) 答:特点:1、存储形式多样化2、资源数字化3、可交流程度高、 4、方便利用 5、内容丰富 6、载体容量大 划分形式:(网络协议):1.Web信息资源、2.Telnet信息资源、3.FTP信息资源、 4.用户服务组信息资源、 5.用户服务组信息资源、 6.Gopher信息资源 3、电子期刊的几种不同形式(书上没有找到,期刊上的,有谁知道补充一下) 答:一、按载体类型可以把电子期刊分成软盘期刊、光盘期刊、联机期刊、网络化电子期刊。 二、电子期刊也可以分成全文型、摘要型、索引型3种类型。 三、按检索方式来分,电子期刊可分为联机(On-line)检索型电子期刊和单机(Stand alone)检索型电子期刊。 四、按期刊包含的媒体类型的多少,可以把电子期刊分成单媒体电子期刊和多媒体电子期刊两种类型。 4、会议文献、科技报告、标准文献、专利文献、学位论文 答:会议文献:指在专业学术会议上宣读或书面交流的论文、学术报告、会议纪要等文献。 科技报告:是特种文献出版物。指各学术团体、科研机构、大学研究所的研究报告及其研究过程的真实记录,理论性强,但保密性差,难以获取。 标准文献:又称标准资料,是指有产品或工程的质量、规格、生产过程、检验方法等标准技术性文献。 专利文献:指发明人向政府部门(专利局)递交的、说明自己及发明创造的技术文件,同时也是实现发明所有权的法律性文件。 学位论文:指高等学校、科研机构的毕业生为取得学位在导师的指导下完成的学术性研究论文。 5、(加工深度)零次文献、一次文献、二次文献、三次文献的概念,并举例。 答:零次文献:也叫灰色文献,是指未经公开发表或为流于社会的文献。如:私人笔记、设计草图、实验记录、文章草稿、会议记录、书信文书等。 一次文献:又称原始文献,是指以著者本人的研究成果为依据撰写并公开发表或出版的文献。 如:期刊论文、科技报告、专利说明书、会议论文、学位论文等。 二次文献:也叫检索工具,是指将大量分散的无组织的一次文献经浓缩、加工、整理后形成的文献。如:目录、题录、文摘、索引等。 三次文献:也称工具书指工具书,是指在一次文献、二次文献的基础上,经过综合分析而编写出来的文献。如:专题述评、动态综述、学科年度报告、进展报告、数据手册、百科全书等参考工具书。

文本挖掘基础

文本挖掘(Text mining)基础- Presentation Transcript 1.文本挖掘(Text Mining )技术基础出家如初, 成佛有余https://www.wendangku.net/doc/cb6972781.html, 20 10 年10 月 2.议题 o搜索引擎文本挖掘基础 o文本挖掘基础 3.搜索引擎技术不单纯只是搜索 o搜索引擎技术除了实现Web 搜索、图片搜索外,还能够干什么? o搜索引擎核心技术有哪些? ?网络爬虫 ?中英文分词 ?排序算法 ?Text Mining 相关 ?海量数据存储 ?分布式计算 ?等等 4.Google 的十大核心技术 o Google 的十大核心技术: ?分布式基础设施: ?GFS 、Chubby 、Protocol Buffer ?分布式大规模数据处理 ?MapReduce、Sawzall ?分布式数据库技术: ?BigTable、Sharding ?数据中心优化技术 ?数据中心高温化、12V 电池、服务器整合 ?参考:探索Google App Engine 背后的奥秘 5.搜索引擎技术使用场景:内容相似度 o新闻站点的“您可能也喜欢” ?本质为:两篇文档/ 图书/ 商品内容的相似度 6.搜索引擎技术使用场景:内容分类、聚类 7.通用搜索引擎系统流程 8.Lucene系统架构 9.Lucene系统架构 10.搜索引擎中文本挖掘典型问题 o在搜索引擎中关于文本挖掘的典型问题 ?怎样得到一篇文章的关键词、主题? ?怎样用计算机可识别的数学公式来表征一篇文档 ?怎样处理查询关键词与文档的相似度 ?怎样度量两篇文档的相似度? 11.信息检索模型 o信息检索模型(Information Retrieval Model )是指如何对查询和文档进行表示,然后对它们进行相似度计算的框架和方法。

《信息检索与利用》期末复习1

《信息检索与利用》期末复习 试题题型 一、填空题(每空3分,共15分) 二、选择题(每题3分,共30分) 三、判断题(每题3分,共30分) 四、简答题(共25分) 1.(12分) 2.(13分) 复习题 第一章信息资源检索基础知识 一、填空题 1.___________________________是自然界、人类社会以及思维活动中普遍存在的现象,是一切事物自身存在方式以及它们之间相互关系、相互作用等运动状态的表达。信息 2.___________________________是在改造客观世界的实践中获得的对客观事物存在和运动规律的认知和总结,是人的大脑通过思维重新组合的系统化的信息的集合。知识 3.___________________________是人们用来解决特定问题所需要的、经过激活过程活化了的具有使用价值的知识或信息。情报 4.___________________________是在存储检索利用或传递记录信息的过程中,可作为一个单元处理的,在载体内、载体上或依附载体而存有信息或数据的载体。文献 5.___________________________是指在国内外学术或非学术会议上发表的论文或报告。会议文献 6.___________________________是高等院校和科研机构的毕业生为获取各级学位在导师指导下撰写和提交和科学研究、科学实验的书面报告。学位论文 7.___________________________是对文献内容和形式特征进行选择和记录的过程。著录8.___________________________是指特定的数值型数据为对象的检索。数据检索 9.___________________________是指以特定的事实为目标的检索。事实检索 10.事实与数据检索工具主要依靠各类___________________________完成各种数据或事实的查询。参考工具书 11.按照结构原理,信息检索语言可以分为_____________________、____________________、

科技信息检索题答案

信息检索实习报告 学院:计算机与控制工程学院 班级:计本081 姓名:毕玉芳 学号:2008021001 指导教师:杜君 刘卓然 日期:2011-11-6

科技信息检索实习题 一、中文数据库检索 1.在CNKI“中国学术期刊网络出版总库”中分别用篇名、关键词、主题、摘要、全文字段查找本专业某一课题的论文,比较检索结果的数量有什么不同,哪个字段最多,哪个字段最少,你认为使用哪个字段检索查准率最高? 答: 全文字段检索的最多,篇名检索的最少。篇名字段查准率最高。 2.利用CNKI“中国学术期刊网络出版总库”查找本专业教师在核心期刊上发表的论文,请记录两篇本专业的论文题目、作者、刊名和年期。 答:

3. 分析课题“全球气候变化对我国生态环境的影响”,并完成以下题目: 1)写出该课题的逻辑检索式; SU=全球气候变化*生态环境*影响*我国 2)根据你的逻辑检索式,在CNKI“中国学术期刊网络出版总库”中检索该课题,写出检索结果数目; 3)在检索结果中任选一篇文章,写出该篇文章的篇名、作者、刊名、中文关键词(写一个即可)、英文关键词(写一个即可)。

4.利用学位论文数据库查找近五年某大学本专业的硕士学位论文一篇,请记录论文篇名、作者姓名,学位授予单位和导师姓名;该导师指导完成的学位论文有多少篇?列举其中两篇学位论文的题目和作者。

5.利用CNKI“中国工具书网络出版总库”查找本专业一名词术语。 6.利用CNKI“中国工具书网络出版总库”查找有关本专业的工具书,请列举两种工具书的书名、作者和出版者。

7.请利用重庆维普数据库查出两种本专业核心期刊的联系方式(如主办单位、出版地、电话、邮编等)。 8. 利用维普数据库“文献引证追踪”模块查找齐齐哈尔大学某教师论文被引用情况,请记录其中一篇论文的被引量并列举两条引证文献的简要信息(题名、作者、年代和出处)。

文献检索期末考试卷

《信息检索与利用》试题(本科) 一、单项选择题(每题1.5分,共30分) 1. 人类社会的三大资源是(A ) (A)物质、能源、信息(B)物质、人力、资本 (C)物质、能源、管理(D)信息、管理、人力 2. 就信息与物质、能量的关系而言( D ) (A)信息是一种物质(B)信息是一种物质,同时具有一定的能量(C)信息是一种能量(D)信息既非物质,也非能量 3. 信息论的创始人是( D ) (A)美国数学家哈特莱(B)美国数学家维纳 (C)中国数学家华罗庚(D)美国数学家香农 4.信息资源的本质特征是( B ) (A)依附性与可传递性(B)知识性与共享性 (C)共享性与价值不定性(D)可传递性与共享性 5. 如果分别以检索词a、b、c在某数据库的关键词字段进行检索都能得到相

应的检索结果,结果不为0,下面哪个检索式表示检索结果数最少( A )(A)a and b and c (B)a and b or c (C)a or b or c (D)a or b and c 6. 根据加工深度来划分文献,学位论文属于( B ) (A)零次文献(B)一次文献 (C)二次文献(D)三次文献 7. CNKI 是以下哪一种称谓的简称( C ) (A)清华同方(B)重庆维普 (C)中国知识基础设施(D)中国期刊全文数据库 8. 扩大检索范围的方式是(B ) (A)使用“逻辑与”(B)使用“逻辑或” (C)使用“逻辑非”(D)使用优先运算符 9. 下列能够检索图书信息的数据库是(D ) (A)维普《中文科技期刊数据库》(B)万方数据资源系统 (C)人大复印报刊资料全文数据库(D)超星数字图书馆 10. 下列属于一次文献的正确答案是( C ) (A)专刊说明书、索引、文摘刊物(B)期刊论文、私人笔记、百科

电力文本挖掘技术研究.docx

电力文本挖掘技术研究 1引言 当前,大数据云计算研究的成熟与发展推动着电子化自动化技术的产业应用。智能电网的管理、服务、监测、运行、诊断、营销、评估等方方面面的工作开始获得一体化联网管理模式。信息的高度集中使得大量的非结构化关键性数据与内容存在于各类形式以及多种来源的文本文件中。井喷式增长的电力大数据对于智能电网的研究意义已获得业内普遍认可。它既是智能电网发展的前沿领域,也是关键技术基础。作为资源密集型的电网企业,大数据资源的科学统筹管理与综合分析是关键任务之一。电力文本数据具有的数据体量大、类型丰富、信息密度低、更新速度快的特征。其中,数据体量大,指24小时全时段无间歇运作的电力设备系统不断产生数目庞大的数据;类型丰富,指电力数据描述电力系统运行的方方面面包括设备运行监测诊断维护,电网公司运营评估,客户相关信息报告,呈现数据形式多样,数据来源多样,数据内容多样的现象;价值密度低,指异常数据占比低,但数据价值高。因此采用文本挖掘技术挖掘电力文本具有很高的应用意义。目前,文本挖掘技术主要被应用于医学信息、生物学、社交媒体等领域,而在电力行业内则停留于研究实验阶段。人工智能及其子方向自然语言处理理论与技术的发展为电力文本挖掘的实现提

供先决条件。与此同时,电力企业长期运营所积累的大量数据为电力文本挖掘的研究提供数据保障。电力行业经过长期发展,在数据管理分类,规程规章,数据体制方面有较高的完整性和统一性。上述三点为未来完全实现对电力文本的自动化知识与关键内容获取具有可行性以及技术保障。根据电力文本挖掘技术目前的研究探索与实验,本文将就电力文本挖掘技术的研究成果与初期应用探索展开讨论。重点就文本挖掘技术及其电力领域应用、研究现状、未来工作与挑战做简要分析。 2文本挖掘技术 文本挖掘作为自然语言处理与数据挖掘的交叉应用,该概念于20世纪80年代中期被正式提出,至今以经过30多年的发展。随着大数据时代的到来,该项技术重新受到关注与应用。文本挖掘的主要任务是从大量现有非结构化文本数据中挖掘未知的、价值高的、高可用的结构化知识,并应用于信息管理、组织、归纳、二次利用。文本挖掘技术主要涉及三方面的内容。如图1所示,文本挖掘的发展主要基于深度学习、机器学习、自然语言处理、概率统计为理论依据。换言之,文本挖掘是上述理论的具体任务。技术基础部分主要包含文本信息抽取、文本分类、文本聚类、文本数据压缩、文本数据处理。在此基础之上主要应用信息访问和知识发现,其中信息访问具体涉及信

搜索引擎索引技术

计算机新技术论文 论文题目:搜索引擎索引技术 课程名称:计算机新技术 专业: 班级: 学号: 姓名:

搜索引擎索引技术 摘要:近期两类国内搜索引擎技术的研究状况:爬虫系统性能优化技术研究及高级文件搜索引擎核心技术研究。爬虫系统性能优化侧重于:对爬行方式的优化实现海量信息源的高效索引;对URL 数据库存取算法的优化提高用户检索的响应速度。高级文件搜索引擎研究是通过对字符串匹配的扩展、属性过滤的扩展、查询结果优化排序、输出结果的优化选择等7 种核心技术的有效结合,丰富了文件搜引擎的功能。 关键词:互联网搜索引擎爬虫技术检索技术 搜索引擎作为网络信息搜寻的工具,它以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务。早期的搜索引擎将互联网中的资源服务器做为搜索的目标,并将收集的数据按概念进行分类,用户从分类引导中索取所需的信息资源。随着网络资源成几何量级增长, 这种方式很快就被淘汰。1994年,Spider 程序被应用到索引程序中,Yahoo 、Google等相继出现,搜索引擎技术在应用和性能方面得到长足进步。但至今,功能再强大的搜索引擎都仍然存在信息丢失、招回率不高、精确率不高等问题。用户需要更快、更准、更方便、更有效的查询服务成为搜索引擎技术发展研究追求的目标。2003 年3 月“全国首届搜索引擎和网上信息挖掘学术研讨会”在北京大学举行,该会收录论文30篇,基本反映了当前国内研究状况及进展,本文将其中最具代表性的Igloo1. 2 版网络搜索引擎和天网FTP 搜索引擎关键技术的研究状况做一介绍。 现在的数据库通常只是将信息简单地数字化和有序化,无法根据各类读者的需要组合成特定的知识体系。怎样让读者在众多信息源中迅速、直接选中自己所要检索的相关信息,能不能将信息整理、筛选,划分成许多类别分明、有特色的“知识块”,以利于读者使用呢? 知识仓库的出现,为我们解决相关问题提供了有效的技术手段。20 世纪90 年代,西方管理学家提出了知识管理的概念,认为采用现代信息技术和手段将信息加工整理成为知识,并对这些知识按照某种知识结构进行有效的管理,形成具有规定使用功能的数据仓库,也就是知识仓库。数字图书馆应用系统是进行数字化建设及整合各类数字资源的基础平台,它支持对知识和数字资源的采集、加工、处理、存储、归档、组织、发布和利用等全过程。知识仓库是数字图书馆资源建设的核心内容之一。随着信息数字化进程的加快,图书馆的工作重心开始向数字信息的描述、管理和服务转移。利用现代信息技术将更多的特色资源和常用资源数字化,通过DC 元数据的应用,可以对知识资源实现横向和纵向整合,通过建立DC、MARC 等多种元数据的关联,并以XML 结构的RDF 资源描述体系封装整合多种元数据,实现对数字资源的综合整合,最终实现文本、图像、音频、视频等不同媒体,图书、期刊、会议录、学位论文等不同类型,书目、文摘、索引、引文、综述、评论、全文等不同级次资源的链接,建立起文献、机构、人

最新信息检索与利用试卷及答案

一、单项选择题(30分) 1.( B )的主要功能是检索、通报、控制一次文献,帮助人们在较短时间内获取较多的文献信息。7 A.零次文献B.二次文献C.一次文献D.三次文献 2.一次文献、二次文献、三次文献是按照( A )进行区分的。7 A.加工深度B.原创的层次C.印刷的次数D.评论的次数 3.从文献的( B )角度区分,可将文献分为印刷型、缩微型等。6 A.内容公开次数B.载体类型C.出版类型D.公开程度 4.具有固定名称、统一出版形式和一定出版规律的定期或不定期的连续出版物,称为( D )。8 A.图书B.会议文献C.学位论文D.期刊 5.( A )类型的专业文献出版周期最短、发行量最大、报道最迅速及时,成为多数论文发表渠道。8 A.期刊B.报纸C.会议文献D.专利 6.在公开出版物中,当前的(C )反映的信息内容可能最新。8 A.学位论文B.标准文献C.期刊论文D.报纸文献 7.当我们需要对陌生知识作一般了解时,我们可先参考( C )文献。8 A.专利B.报告C.图书D.标准 8.利用文献后面所附的参考文献进行检索的方法称为( A )。31 A.追溯法B.直接法C.抽查法D.综合法 9.中国图书馆图书分类法的分类号采用了( A )体系。34 A.拼音字母+数字B.英语字母+数字C.全部拼音字母D.全部数字 10.( B )是以报道文献出版或收藏信息为主要功能的工具。 A.题录B.索引C.文摘D.目录 11.按照顺序表述文献检索常用的五个步骤是( D )。32 A.明确要求和分析课题,选择检索系统,获取原文,确定检索途径和检索策略,实施检索以及调整检索策略B.明确要求和分析课题,获取原文,确定检索途径和检索策略,实施检索以及调整检索策略,选择检索系统C.明确要求和分析课题,实施检索以及调整检索策略,选择检索系统,获取原文,确定检索途径和检索策略D.明确要求和分析课题,选择检索系统,确定检索途径和检索策略,实施检索以及调整检索策略,获取原文12.图书分类法中,类名之间的上下位关系反映了学科概念之间的( A )关系。34 A.包含B.排斥C.延伸D.相容 13.图书分类法中,类名之间的同位类关系一般反映了学科概念之间的( B )关系。34 A.包含B.排斥c.延伸D.相容 14.分类途径是按照文献信息所属的学科门类,利用( D )进行检索的途径。29 A.学科名称B.专业名称C.分类号及其分类名D.A、B、C均可 15.如果希望查找“对用后均法进行数据处理的讨论”这个课题相关的文献,较好的检索词应该是( C )。36 A.后均法,进行,数据处理B.后均法,数据处理C.后均法,进行,数据处理,讨论D.用,后均法,进行,数据处理 16.如果希望查找“对宋词韵律的美学思考”这个课题相关的文献,较好的检索词应该是(A )。36 A.宋词,韵律,美学,思考B.宋词,韵律,美学C.宋词,美学,思考D.宋词,韵律,思考 17.逻辑“与”算符是用来组配( D )。41

文本挖掘主要技术研究

文本挖掘主要技术研究 摘要:Web技术的发展日新月异,与此同时,因特网上的文本信息愈积愈多,浩如烟海。如何从这些海量文本数据挖掘出潜在的、有价值的信息,已经成为越来越多人的研究重点。本文主要介绍了文本挖掘的基本方法,包括文本特征提取、特征子集选取、文本分类、文本聚类等,并对这些方法的改进进行了分析。在此基础上,介绍了文本挖掘在当今一些领域的应用。 关键词:文本挖掘特征提取特征子集选取文本分类文本聚类应用 Research of Major Technologies in Text Mining 【Abstract】With the rapid development of Web technology, text information on the Internet has a tremendous growth. How to dig out the potential and valuable information from the text information on the Internet has become the focus of many people's research. This paper describes the basic methods of text mining, including text feature extraction, feature subset selection, text categorization, text clustering, etc., it makes some analysis on how to improve some of these methods. In addition, it introduces the application in some fields with text mining technology. 【Key words】text mining, feature extraction, feature subset selection, text categorization, text clustering, application

信息检索与利用试卷及答案1

信息检索与利用试卷及答案1

信息检索期末试卷 班级物流1081 姓名吴新华学号1081508130 一、单项选择题(30分) 1.( B )的主要功能是检索、通报、控制一次文献,帮助人们在较短时间内获取较多的文献信息。7 A.零次文献B.二次文献C.一次文献D.三次文献 2.一次文献、二次文献、三次文献是按照( A )进行区分的。7 A.加工深度B.原创的层次C.印刷的次数D.评论的次数 3.从文献的( B )角度区分,可将文献分为印刷型、缩微型等。6 A.内容公开次数B.载体类型C.出版类型D.公开程度 4.具有固定名称、统一出版形式和一定出版规律的定期或不定期的连续出版物,称为( D )。8 A.图书B.会议文献C.学位论文D.期刊5.( A )类型的专业文献出版周期最短、发行量最大、报道最迅速及时,成为多数论文发表

渠道。8 A.期刊B.报纸C.会议文献D.专利 6.在公开出版物中,当前的(C )反映的信息内容可能最新。8 A.学位论文B.标准文献C.期刊论文D.报纸文献 7.当我们需要对陌生知识作一般了解时,我们可先参考( C )文献。8 A.专利B.报告C.图书D.标准 8.利用文献后面所附的参考文献进行检索的方法称为( A )。31 A.追溯法B.直接法C.抽查法D.综合法 9.中国图书馆图书分类法的分类号采用了( A )体系。34 A.拼音字母+数字B.英语字母+数字C.全部拼音字母D.全部数字 10.( B )是以报道文献出版或收藏信息为主要功能的工具。 A.题录B.索引C.文摘D.目录 11.按照顺序表述文献检索常用的五个步骤是( D )。32

全文检索技术

全文检索技术 1概述 图书情报界对于检索语言的主流观点:自然语言检索是发展方向,信息检索要走自然语言道路;人工语言不适应网络环境;目前自然语言检索技术虽有缺点,但人工智能发展可使其逐步达到完善,满足检索的要求。 自然语言检索技术包括:(1)关键词索引及以关键词为检索标识的文献题录数据库;(2)全文数据库;(3)搜索引擎及由搜索引擎自动建立的网络资源数据库;(4)自动标引;(5)自动分类。在这5个主要方面中,只有关键词索引及数据库、全文检索、搜索引擎已经实现,但这3个方面的实质都是关键词检索,所以可以说自然语言检索目前仅在关键词检索的层次上实现。 目前关键词检索技术的最主要用途就是用来实现全文检索,它是全文检索的核心。并且关键词检索和全文检索是密不可分的。 2基本概念 所谓全文检索,是指直接以全文本信息作为主要处理对象,并根据数据资料的内容而不是外在特征来实现的信息检索手段。它的基本工作方式是能够将所有包含检索词的文献检索出来,不管这个词出现在文献的什么位置,或者说文献中的任意一个词都可以作为检索到该文献的条件。全文检索提供存取全文文本(指原始记录)的空间,文本中任何字符和字符串均可作为检索的入口点,全文检索是以原始记录中的检索词、字间的特定位置为对象的运算,对文献不作标引,故没有标引用词。因此,全文检索是一种可以不依赖叙词表而直接使用自由词的检索方法。 3实现条件 要实现全文检索需要2个必要的条件:一是需要将最终信息本身输入到计算机里,这个问题看似简单,实际上它包含了极大的工作量;二是需要有相应的软件支持,全文信息不仅包括书刊的文字信息,而且包括图片、声音、视频信息等各种信息资料,即使只将书刊及各种资料的文字信息输入计算机,其信息量就非常大了。因此,必须有专门的方法、专门的软件来支持这种“最终信息”的检索,这类软件就是全文检索软件。 3.1 全文检索的实现方式 全文检索目前主要通过以下方式来实现:①采用自由指定的检索项(如关键词、字符串等)直接与全文文本的一次数据高速对照,进行检索;②对文本内容中的每个检索项进行位置扫描,然后排序,建立以每个检索项的离散码为表目的倒排文档;③采用超文本模型建立全文数据库,实现超文本检索。 3.2 全文检索的核心技术 全文检索的核心技术是将源文档中所有的基本元素的出现信息记录到索引库中。中文全文检索技术在原理上同西文全文检索是一致的,但汉字本身的特点使中文系统的实现比西文系统更为复杂。在西文中,文档的基本元素是单词,可以以单词建立索引库,而且单词与单词之间有天然的间隔符空格,所以索引文件的建立相对简单。在中文系统中,基本元素可以是单个汉字字符,也可以是词。因此,存在2种基本的索引方法,即“词索引”和“字索引”。 3.2.1 词索引 “词索引”以能表达一定的意义的词为单位,通过事先内嵌的词典对原始数据作索引,以词为单位进行匹配。词索引适于大规模应用,索引库可以组织得比较小,检索速度也

信息检索与利用

从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,抽取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程称为()语义分析 数据挖掘 知识发现 智能搜索 标准答案:数据挖掘 2. 世界上使用最广泛的主题词表是()《工程标题词表》 《工程与科学主题词表》 《美国国会图书馆标题表》 《汉语主题词表》 标准答案:《美国国会图书馆标题表》 3. ( )反映的是信息的确定度,指的是符号与其他符号的关系。语法信息 语义信息 语用信息 全信息

标准答案:语法信息 4. ()是最早出现的一种主题法。元词法 叙词法 关键词法 标题法 标准答案:标题法 5. 具有各种工具书的功能,被称为“工具书之王”的是()。字典 词典 手册 年鉴 百科全书 标准答案:百科全书 6. 一个检索系统如果对用户来说,取得信息比不取得信息更伤脑筋和麻烦的话,那么这个系统通常就不会得到利用。这一表述通常称为()。布拉德福定律 齐普夫定律

马太效应 罗宾汉效应 穆尔斯法则 标准答案:穆尔斯法则 7. 从检索系统中检出来的无关文献量与系统中无关文献总量之比称之为(),它与专指度存在互补关系。查全率 新颖率 错检率 覆盖率 标准答案:错检率 8. 在学术论文的构成要素中,最能反映学术继承性的是()。引论 参考文献 正文 文摘 结论

标准答案:参考文献 9. 信息检索研究的核心内容是()检索课题分析 制定检索策略 检索技术 检索方法 标准答案:制定检索策略 10. 通过研究两个或两个以上变量之间的相关关系对未来进行预测的一种信息分析方法称为()推理分析 聚类分析法 回归分析法 因子分析法 标准答案:回归分析法 二判断题1. 分类检索语言是指直接采用描述文献主题内容的语词作为检索标识,以字顺为排检途径,并通过参照系统等方法揭示词间关系的一种检索语言。()错 对

科技信息检索大作业西电

科技信息检索大作业西 电 SANY标准化小组 #QS8QHH-HHGX8Q8-GNHHJ8-HHMHGN#

《科技信息检索课》检索实验报告 上课时间:周四 姓名:XXX 学号: XXXXXXXXXX 班级:XXXXXX 名单中的序号:XX

《科技信息检索》考核题 (2015年下学期) 一、简答题(60分) 1.在我校图书馆网站,通过“馆藏书刊”栏目,完成检索式:“题名=计算机 网络 and 出版社=清华大学”的中文图书检索,要求书名为精确匹配,请写出检索结果共多少写出检索步骤,及该类图书的中图分类号。 答:33;高级检索,计算机网络 and 出版社=清华大学。 2. 我校采购的国外全文类系统平台(数据库)有哪些检索类系统平台(二次 文献库)有哪些 答:ACM 期刊/会议论文数据库、AIP全文期刊数据库(国家科技图书文献中心赞助购买)、 ASME全文期刊数据库APS全文期刊数据库、大英百科(EB)全书、EBSCO期刊全文/文摘数据库、Academic Search Premier(简称ASP)全文库、 Business Source Premier (简称BSP)全文库、Engineering Village(EI Compendex--Inspec--NTIS)(1970年-) Elsevier全文电子期刊 (2004年-)、Emerald电子期刊全文库、Emerald电子系列丛书(工商管理与经济学专辑)、IEL期刊/会议/图书/标准全文库(1988年-)、John Wiley全文期刊数据库 (1997年-)、NTIS(美国政府科技报告) (1964-2011)、国外科技报告全文服务系统(用户名:guest密码:guest)、OCLC数据库 (全国登录并发16个,单馆并发1个)、OSA电子期刊和会议库、PQDT-B(美国博硕士论文文摘)、ProQuest国外学位论文全文数据库 (1997年-)、Safari IT类电子图书、Science美国科学周刊 new 、SIAM电子图书(-2011年)、Springer英文电子图书与丛书(图书2005-;丛书1997-) Springer全文电子期刊 (1997年-)、WOS平台数据库-SCI,SSCI,CPCI- S,CPCI-SSH、WOS-ESI(旧平台),WOS-JCR(旧平台)、WOS-InCites科研评价工具(旧平台)、WOS-ESI(新平台),WOS-JCR(新平台)、WOS-InCites科研评价工具(新平台)、Nature《自然》电子版期刊、电子科技文献综合数据库(国外)、SAGE多学科人文电子书数据库、百链文献资源共享平台(外文资料一站式检索与文献传递) 、Presdisplay国外2000余种报纸库、T&F科技期刊回溯数据库(-2000)。 3.预了解某个理论或概念有没有被应用到其他的领域中去被哪个国家的哪些研 究人员应用解决了哪些领域的问题取得了哪些研究成果你知道有什么工具和方法可以检索这方面的需要,请写出数据系统(平台)的名称,具体的检索思路和检索步骤。 答:可以在cnki NSTL EI SCI ISTP NTIS等数据库中进行检索; 1)确定该理论或概念的关键词 2)确定文献范围(国家、领域) 3)确定检索式,在平台上进行检索

信息检索与利用(期末考试题)

《信息检索与利用·农业》试题 姓名申秀军学号w320206220257 专业会计学 一、单选题(20分,每题1分) 1、个人信息源又称为(B )。 A、文献信息源 B、口头信息源 C、生物信息源 D、实物信息源 2、文献是记录有知识的(A)。 A、载体 B、纸张 C、光盘 D、磁盘 3、下列哪种文献属于一次文献( A )。 A、期刊论文 B、百科全书 C、综述 D、文摘 4、下列哪种文献属于二次文献( D )。 A、专利文献 B、学位论文 C、会议文献 D、目录 5、下列哪种文献属于三次文献( C )。 A、标准文献 B、学位论文 C、综述 D、文摘 6、下列选项中属于连续出版物类型的选项有( A )。 A、人民日报 B、学位论文 C、科技期刊 D、会议文献 7、下列选项中属于特种文献类型的有( D )。 A、学位论文 B、图书 C、科技期刊 D、标准文献 8、纸质信息源的载体是(D) A、光盘 B、缩微平片 C、感光材料 D、纸张 9、《中国图书分类法》(简称《中图法》)将图书分成( A) A 5大部分22个大类 B 5大部分26个大类 C 6大部分22个大类 D 6大部分26个大类 10、《中国图书分类法》(简称《中图法》)是我国常用的分类法,要检索农业方面的图书,需要在(A)类目下查找。 A、S类目 B、Q类目 C、T 类目 D、R类目

11、使用逻辑“与”是为了(B) A、提高查全率 B、提高查准率 C、减少漏检率 D、提高利用率 12、使用逻辑“或”是为了(A) A、提高查全率 B、提高查准率 C、缩小检索范围 D、提高利用率 13、利用文献末尾所附参考文献进行检索的方法是( C ) A、倒查法 B、顺查法 C、引文追溯法 D、抽查法 14、至少由一种文档组成,并能满足某一特定目的或某一特定数据处理系统需要的一种数据集合, 称为(A)。 A、数据库 B、记录 C、字段 D、文档 15、广义的信息检索包含两个过程(B ) A、检索与利用 B、存储与检索 C、存储与利用 D、检索与报道 16、要查找李平老师所发表的文章,首选途径为( A ) A、着者途径 B、分类途径 C、主题途径 D、刊名途径 17、狭义的专利文献是指(C ) A、专利公报 B、专利目录 C、专利说明书 D、专利索引 18、中国国家标准的代码是( A ) A、GB B、CB C、ZG D、CG 19、政府出版物主要包括两大类型的文献(B ) A、专利与标准 B、行政文件与科技文献 C、图书与期刊 D、档案与标准 20、ISBN是( B)的缩写 A、国际标准刊号 B、国际标准书号 C、连续出版物代码 D、国内统一刊号 二、多选题(20分,每题2分) 1、文献的构成要素( ABC) A、信息内容 B、载体材料 C、信息符号 D、纸、光盘 2、下列各项哪些属于文献( AC ) A、图书、期刊 B、光盘、磁盘 C、光盘数据库 D、纸张 3、期刊论文的外部特征有( ABC ) A、文献题目 B、着者 C、文献出处 D、主题词 4、图书的外部特征有( BCD )

基于双层PDF技术的数字档案馆全文检索实践

基于双层PDF文档的全文检索技术在数字档案馆中的应用 贺志军向禹 (湖南长沙中南大学档案馆 410083) 【摘要】本文通过基于双层PDF文档的全文检索技术运用于B/S结构的档案管理系统的研究实践,实现了高效、快捷的档案检索,实现了高查全率和高查准率,界面友好,可靠安全,扩展性强。【关键词】双层PDF 全文检索数字档案馆 【分类号】G270 随着社会信息化程度的提高,人们对档案信息资源的依赖程序也越来越高,对高效率的档案资源管理、检索利用的需求也越来越迫切,发展数字档案馆是社会发展的必然,数字档案馆是一个提供档案远程服务和信息共享的平台。近年来,数字档案馆的研究和建设也如火如荼的开展起来,数字档案馆的平台呈现多样化,档案数字化加工也存在着不同标准,建设数字档案馆的最终目标都是为了档案永久存储和高效利用,本文以中南大学数字档案馆建设实例,着重讨论数字档案馆建设中的全文检索技术。 1 概述 1.1 全文检索 全文检索是计算机程序通过扫描文件中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置。当用户查询时根据索引进行查找,类似于通过字典的检索字表查字的过程。 档案的收藏是为了利用,档案检索应该把查全率摆在首位,兼顾查准率。数字档案馆要提供便捷的查询和高查全率,必须建设全文检索系统,全文检索系统由索引模块、分词模块、检索模块和存储模块等构成。 1.2 双层PDF技术 双层PDF文件是一种包含Text层和Image层的多层结构PDF格式文件,两层内容位置上一一对应。Image层是原始图像,保留了原始档案的效果;Text层是Image层的识别结果,支持选择、检索和复制等功能。通过程序控制可实现两个图层的任意显示和切换,可实现检索词的精确定位。 双层PDF加工是指将其它文件(可以是WORD、也可以是图像文件)转换,或者将标准纸质文档通过扫描后,经过去污、修正和OCR识别,通过软件生成双层PDF文档,然后挂接到档案管理系统的相应目录下。 1.3全文检索的意义 全文检索是一种很重要的检索途径,弥补了目录检索的不足,也解决了目录著录不全、不规范等问题,大幅度提高了查全率。由于全文检索不是直接访问数据库,而是通过对数据库中的数据或者对双层PDF文件的Text层进行索引,因此用户搜索对数据库的压力为零,可以达到毫秒级的检索速度和每秒数百次的并发访问,大大提升检索速度。 2 全文检索在数字档案馆的实现 2.1 创建全文数据库 我们采用湖南德立信软件开发有限公司的档案数字化加工系统和PDF车间进行纸质档案的数字化加工,实行流水线作业,将档案扫描加工为电子档案;使用双层PDF车间,将文件识别为文字,然后再将Text层和Image层组合成为一个完整的双层PDF文件。我们仍然采用目前技术成熟、广为流行的基于目录数据库挂接方式来实现PDF文件的挂接,对档案内容数据及其元数据等相关信息建立永久联系,形成数据包。 2.2 创建索引 将制作好的PDF文件和数据包通过调用德立信全文检索系统(Delisun Text)内核函数建立对应的索引文件,抓取和解析数据,创建索引的过程实际上也就是将数字化档案原文及其原数据(包括结构化和非结构化数据)信息提取并创建索引文件的过程。

相关文档