文档库 最新最全的文档下载
当前位置:文档库 › 基于奇异值分解的web信息检索模式

基于奇异值分解的web信息检索模式

龙源期刊网 https://www.wendangku.net/doc/7616854705.html,

基于奇异值分解的web信息检索模式

作者:高维春田华

来源:《商场现代化》2008年第35期

[摘要] 针对传统信息检索搜索时间慢、空间占用量大的问题,提出了一种基于奇异值分

解和欧氏距离算法的信息检索算法。该算法降低了信息检索时间复杂度和空间复杂度,实验证明了该算法的有效性。

[关键词] 信息检索奇异值分解欧氏距离 Salton向量空间模型

随着因特网上信息资源种类及数量不断扩大,研究高效的信息检索方法成了一个非常重要的课题。信息检索就是借助一定的设备与工具,采用一系列方法与策略从数据库中查找出所需信息。基于查询串的文档信息检索接收用户从浏览器提交的信息串,经网络传输后提交相关的信息检索,并将最终结果按照一定排序规则排序后传输给用户,这种检索方式具有较好的用户交互能力。

近年来很多科研工作者致力于基于关键字的文档检索领域方面研究,并成功应用于各种Web应用中。Salton等人提出的向量空间模型将文档和用户查询转化为向量形式,根据向量之间的相似程度对所有返回结果进行排序,并在搜索引擎系统中得到了较为广泛的应用。

一、利用Salton向量空间模型实现信息检索的算法

第一,构造特征项库。输入文档集合中的特征项,并建立特征项库;

第二,建立文档信息。将文档内容输入数据库,建立文档信息库;

第三,构造文档向量信息库。对每个文档信息依据公式(1),计算每一个特征项的权值,

并构建相应的文档向量;

第四,查询文档。用户输入查询条件,利用布尔模型得到查询条件的文档向量,再利用公式(2)与每一个文档向量进行计算得到该查询条件与文档的相似度;

第五,排序输出结果。按照第四步所计算出来的相似度大小排序输出查询结果。

定义1 特征项t:是指出现在文档d中且能够代表该文档性质的基本语言单位。

定义2 特征项权值Wik:是指特征项tk代表文档di的能力大小。Wik的计算采用特征项频率tfik和反比频率idfk计算。

相关文档