文档库 最新最全的文档下载
当前位置:文档库 › 一种基于Web日志的Item—Based协同过滤算法改进

一种基于Web日志的Item—Based协同过滤算法改进

龙源期刊网 https://www.wendangku.net/doc/578517842.html,

一种基于Web日志的Item—Based协同过滤算法改进

作者:王春才邢晖吕东方

来源:《软件导刊》2015年第03期

摘要:在目前众多的电子商务推荐方法中,协同过滤的研究和应用最为广泛。但由于其自身存在的一些诸如数据稀疏性与缺少个性化等问题,导致推荐的准确度与效率不高。而且User-Based协同过滤算法存在用户规模过大、不易寻找最近邻的问题。因此,引入了Web日

志挖掘方法,并利用Item-Based等相关技术,以提高推荐准确度。

关键词:Web日志挖掘;Item-Based;协同过滤;电子商务

中图分类号:TP312

文献标识码:A 文章编号:1672-7800(2015)003-0046-03

0 引言

随着Internet的快速发展,大量电子商务网站应运而生。面对网络上海量的产品数据,如何为用户提供个性化服务、推荐其可能喜欢的产品以提高企业收益成为亟待解决的问题。

协同过滤(Collaborative Filtering)[1]是目前研究与应用十分广泛的推荐方法,可分为基于用户(User-Based)和基于项目(Item-Based)的算法。基于项目的协同过滤最主要的特点

在于它是预先计算所有项目对之间的相似度,根据用户对项目的评分模式对项目进行比较,从而产生并推荐用户可能喜欢的项目。本文通过分析处理站点服务器日志,得到用户兴趣,隐性地提取用户信息,并与传统项目聚类技术相结合,为用户推荐其可能喜欢的产品。

1 Web日志处理

虽然Web日志中的数据记录了用户浏览信息,但由于其数据的不完整性,必须对Web日志进行相应处理,才能获得所需的结构化数据[2]。Web日志的预处理包括以下几个步骤:

1.1 数据清理

数据清理根据站点不同而不同,但其所涉及的工作主要是删除对分析无关的项,并采用适合的方式处理错误记录。如:删除样式文件、图片、音频、视频等信息;删除过渡页面,因为过渡页面不能表示用户对这些信息感兴趣;清理访问出错页面等。这些信息通常对数据分析任务没有用处。

相关文档