当前位置：文档库 › 基于Web挖掘的个性化推荐服务研究

基于Web挖掘的个性化推荐服务研究

分类号密级

U D C

硕士学位论文

基于Web挖掘的个性化推荐服务研究

学位申请人：丁一

学科专业：计算机应用技术

指导教师：卢正鼎教授

论文答辩日期2004.5.10 学位授予日期

答辩委员会主席胡和平评阅人王天江李玉华

A Thesis Submitted in Partial Fulfillment of the Requirementsfor the

Degree of the Master of Engineering

The Research of Personalized Recommendation Based on Web Mining

Candidate : Ding Yi

Major : Computer Application Technology

Supervisor : Prof. Lu Zhengding

Huazhong University of Science & Technology

Wuhan 430074, P.R.China

April, 2004

摘要

随着网络技术的不断发展，如何利用数据挖掘技术从大量的网络信息中挖掘出对人们有用的资源，已经成为研究的热点问题。信息推荐技术需要解决的三个问题是：首先，要理解用户的需求；其次，是能高效、准确地执行查询任务；最后，能把结果很好地组织起来交给用户。目前比较成熟的信息推荐技术是采用面向网络信息来解决以上问题的。但是，这种方式很难执行好用户个性化的检索需求，因此提出了面向用户的个性化推荐模型。

通过对通用搜索引擎和元搜索引擎的研究，提出了个性化推荐模型，该模型分为离线部分和在线部分。离线部分由数据预处理和特定的访问挖掘任务组成，数据预处理将网络服务器的访问日志文件以及站点的相关文件生成用户文件和事务文件；特定的访问挖掘是利用聚类算法来生成网页聚类。模型的在线部分主要是利用离线部分生成的网页聚类，再根据用户的当前访问操作行为，动态地为用户推荐下一步访问操作。在线部分主要是由：用户接口、兴趣学习器、个性化分析器、推理器、网络数据连接管理器、个性化过滤器和网络服务器等组成。在线部分涉及到的关键算法有：兴趣学习算法、个性化分析算法、个性化过滤算法和推理算法，此外还对模型的一些简单的语法规则进行了定义，通过实验环境实现了一个界面简单的推荐模型。

关键词：数据挖掘，个性化，信息检索，推荐服务，聚类分析

Abstract

With the development of network technology, how to use the data mining technologies to search on Web has come to be a hot research area in the information search field. Three problems need to be solved through information discovery technology on Web. Firstly, it must understand the user’s need correctly. Secondly, it can execute query tasks efficiently and accurately. Lastly, it is able to organize the results before showing them to user. Now the popular and mature IR technologies settle these problems in a network information objected method. However, the network information oriented IR technologies cannot understand and execute users’ personal need. In this dissertation, we bring forward a new model for information recommendation in Web, user-oriented information recommendation model.

After combining advantages and disadvantages of the normal search model and the Meta search model, this paper raises another new model of personal information recommendation based on Web mining. The model can depart offline-model and online-model. Introduces the data preprocessing of the offline-model, and then discusses the special task of accessing mining. Data preprocessing is the step that brings users’documents and events documents through accessing log documents of Web server and some documents of sites. Special task of access mining brings out Web URL clustering using the clustering algorithm.

Online-model mainly uses the Web URL clustering based on current accessing operation of users, recommendation the following accessing operation dynamically. Online-model mainly consists of user interface, interest learner, personality analysis, case-based reasoning, Internet database connecter, personality re-sorting and Web server. And the key algorithm of online-model such as, interest learning algorithm, personal analysis algorithm, personal re-sorting algorithm and case-based reasoning algorithm were discussed. Besides these, some simple syntax rules of the model were defined. The whole structure of the model was displayed through experiments, which verify the capability of it.

Key words: data mining, Personalization, information search,

recommendation server, clustering

摘要 ................................................................................................................ I Abstract............................................................................................................. I I 1 绪论

1.1 数据挖掘 (1)

1.2 Web数据挖掘 (2)

1.3 个性化推荐服务的现状 (3)

1.4 论文研究内容及其组织 (5)

2 个性化Web挖掘

2.1 Web数据挖掘 (7)

2.2 几个重要的研究方向 (11)

2.3 Web挖掘的个性化 (13)

2.4 个性化推荐解决的问题和目标 (16)

2.5 小结 (17)

3 基于Web挖掘的个性化推荐

3.1 个性化服务中用户研究 (18)

3.2 个性化推荐 (20)

3.3 个性化推荐服务技术 (23)

3.4 个性化推荐模型 (29)

3.5 小结 (32)

4 个性化推荐模型设计与实现

4.1 推荐模型描述 (33)

4.2 模型离线预处理 (34)

4.3 离线挖掘算法 (37)

4.4 模型在线推荐 (38)

4.5 模型测试结果 (48)

4.6 小结 (50)

5 论文总结

5.1 主要工作总结 (51)

5.2 进一步的研究方向 (51)

致谢 (53)

参考文献 (54)

附录1 攻读学位期间发表的论文目录 (57)

1 绪论

近年来，随着大规模的工业生产过程的自动化、商务贸易电子化及企业和政府事务电子化的迅速普及以及科学计算的日益增长，产生了大规模的数据源。计算机网络技术的长足进步也为数据的传输和远程交互提供了技术手段，特别是互联网的迅速发展更是将全球的信息源纳入了一个共同的数据环境中[1]。日益成熟的数据库系统和数据库管理系统都为这些海量数据的存储和管理提供了技术保证，为步入信息时代奠定了基础，这些庞大的数据库及其中的海量数据是极其丰富的信息源。

在这些信息源中隐含了许多有潜在价值的知识，如何发现这些有用的知识是人工智能、数据库等领域的研究焦点。但是仅仅依靠传统的数据检索机制和统计分析方法已经远远不能满足需要了。因此，近年来出现了一门新兴的知识获取提取技术——数据挖掘。数据挖掘旨在从数据库中提取正确的、非平凡的、未知的、有潜在应用价值的并最终可为用户理解的模式。它的出现为自动和智能地把海量的数据转化成有用的信息和知识提供了手段[1]。数据挖掘涉及到诸如机器学习、模式识别、统计学、数据库和人工智能等众多学科，是数据库理论和机器学习的交叉学科。

1.1 数据挖掘

数据挖掘和知识发现KDD（Knowledge Discovery in Database）有密切的联系。知识发现（KDD）[2]是指从数据库中发现有用知识的整个过程，数据挖掘是这一过程中的一个特定步骤，知识发现包括数据选择、预处理、数据转换、数据挖掘、模式解释和知识评价等多个步骤，是应用特定数据挖掘算法和评价解释模式的一个循环反复过程，并要对发现的知识不断求精深化，使其易于理解；数据挖掘是知识发现过程中的一个关键步骤。数据挖掘（Data Mining）是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取潜在的、不为人知的有用信息、模式和趋势。数据挖掘的目的是提高市场决策能力；检测异常模式；在过去的经验基础上预言未来趋势等[3]。这些知识和规则是隐含的、先前未知的、对决策有潜在价值的有用信息。通过数据挖掘，有价值的知识、规则或高层次的信息就能从数据库的相关数据集合中抽取出来，为决策提供依据，从而使数据库作为一个丰富可靠的资源，为知识归纳服务。

与传统的数据库查询系统相比较，数据挖掘技术有以下不同[4]：

（1）传统的数据库查询一般都具有严格的查询表达式，可以用SQL语句描述，而数据挖掘则不一定具有严格的要求，常常表现出即时、随机的特点，查询要求也不确定。

（2）整个挖掘过程也无法仅用SQL语言就能完整表达，实际上，数据挖掘常常用一种类似SQL语言来描述。

（3）传统的数据库查询一般生成严格的结果集，但数据挖掘可能并不生成严格的结果集。挖掘过程往往基于统计规律，产生的规则并不要求对所有的数据项总是成立，而是只要达到一定的事先给定的阈值就可以了。

（4）通常情况下，数据库查询只对数据库的原始字段进行，而数据挖掘则可能在数据库的不同层次上发掘知识规则。

从广义上讲，数据挖掘分为三种类型：全自动、半自动和全交互式。对于全自动技术，一旦系统被创建，无需人的任何干预，它能在后台自动进行操作；对于半自动技术，系统或者在后台操作，或者采用全交互方式；对于全交互式技术，是一种简单的数据挖掘，它由用户设置每次操作的参数，然后等待相应结果。

数据挖掘在解决实际问题时，经常要同时使用多种模式。一个数据挖掘系统或仅仅一个数据挖掘查询就可能生成成千上万的模式，但是并非所有的模式都是令人感兴趣。这里有一个重要的概念，兴趣度（Interestingness），通常是用来衡量模式的总体价值，它包括正确性（Validity）、新奇性（Novelty）、可用性（Usefulness）和简洁性（Simplicity）。数据挖掘工具还要求具有开放性，它的开放性体现在两个方面：能与各种数据源集成；分析的结果是通用的或易于转化的。数据挖掘工具相互差别很大，这不仅体现在关键技术上，还体现在运行平台、数据存取和价格等方面。从运行平台来看，简单的工具可运行在PC的DOS或Windows上，复杂的工具要求运行在Unix 工作站或并行处理平台上；从数据存取来看，简单工具处理的数据以文件形式输入，复杂工具要求大型的数据库环境。

目前，数据挖掘已成为计算机科学研究中的一个十分活跃的前沿领域，并在市场分析、金融投资、欺诈甑别、医疗卫生、环境保护、产品制造和科学研究等许多领域获得了广泛的应用，取得了十分可观的社会效益和经济效益。同时，知识发现和数据挖掘的研究和应用，对于人工智能这门前沿学科的发展注入了新的活力，有力地促进了计算机科学朝着纵深方向顺利发展。

1.2 Web数据挖掘

Internet提供了一个海量的信息源泉，它涉及新闻、广告、消费信息、金融管理、

教育、政府、电子商务和许多其它信息服务。Web还包含了丰富和动态的超链接信息，以及Web页面的访问和使用信息，这为数据挖掘提供了丰富的资源。人们希望有一个工具能够自动从Internet上提取知识。传统的数据挖掘基于关系数据库或数据仓库，所处理数据具有完整的结构。但是Internet上的数据却是无序的、非结构的，并且存在着大量的冗余与噪声。

对有效的数据仓库和数据挖掘而言，Web似乎太大了。Web的数据量目前以几百兆字节计算，而且仍然在迅速地增长。Web数据具有以下的一些特征：（1）数据源具有很强的动态性，Internet本身就是一个时刻在动态更新和变化的系统，这就需要借鉴数据仓库的某些技术，以此保存Web上动态更新的数据。

（2）数据的多样性，Web数据经过过滤后，既有数值型(整型、实型)、布尔型，又有分类数据、性质描述数据以及Web特有的数据类型(如URL地址、E-MAIL地址等)。新的数据类型必然带来新的特色，需要对原有挖掘方法进行改进和扩充。

（3）用户目标的模糊性，基于Internet的数据挖掘用户往往只对要挖掘的主题有一个粗浅的认识，提不出很明确的目标来。这就需要数据挖掘系统具有一定的智能性和学习机制，不断地跟踪用户的兴趣，清晰明白地阐述挖掘结果。

Web上的信息只有很小的一部分是相关的或有用的。据统计，99%的Web信息对于99%的用户是无用的，这些无用的信息会淹没用户所希望得到的推荐结果。基于以上的分析可知，Web对有效的资源和知识发现具有极大的挑战性。这些挑战推动了如何高效且实际地发现和利用因特网上资源的研究工作。

目前有许多基于索引的Web推荐引擎，利用推荐引擎，有经验的用户可以快速定位到所需的文档。但是目前基于查询串的推荐引擎存在一些问题。首先，推荐引擎返回的文档数过于庞大，其中很多与话题相关性并不大；其次，很多与话题相关的文档可能并不包含相应的查询串。因此，对Web资源查找还不够充分的Web推荐引擎不能等同于Web 挖掘。

1.3 个性化推荐服务的现状

随着信息科技的进步和互联网的日益普及，如何在浩瀚如海的信息空间里，快速查找并获取所需的信息已成为信息时代最根本的问题之一。网络个性化推荐在网络信息资源查找中起到了重要的作用，它可以帮助人们从数以亿计的网络信息中找到自己想要的信息。

信息检索技术经历了三个发展阶段：顺序检索、顺序与倒排检索相结合、全文检索。全文检索早期的发展，一是源于手工标引已不适应信息增长的需要，二是人们采用自然语言直接进行检索的原理[5,6]。

据研究者统计，目前互联网上的搜索引擎已达数千种，仅中文搜索引擎就达70余种。在庞大的搜索引擎家族中，有囊括各学科、各种主题网络信息的综合性搜索引擎，有以特定学科或专业领域的网络信息为收录对象的专业性搜索引擎，还有专门列举搜索引擎的搜索引擎指南。搜索引擎作为一个整体，存在着质量参差不齐、信息的分类加工欠规范、搜索速度慢、死链接过多，以及提供的检索结果中重复信息及不相关的无效信息过多等弊端，对检索效果形成负面影响。网络信息的急剧增加，令以覆盖所有学科、所有类型信息为宗旨的综合性搜索引擎亦越来越难以应对，就是号称功能最为强大的搜索引擎，在网络信息搜索与加工软件的升级开发上，亦无法跟上网络信息的增长速度。

搜索引擎在网络信息的组织、加工等环节上缺乏可供操作的、统一的技术标准，处于各自为政的无序状态，这主要体现在网络信息的分类上。统一的网络信息分类标准的缺位令网络用户无所适从，他们被迫接受各搜索引擎的分类体系无法兼容的事实，每使用一种新的搜索引擎，就意味着他们必须接受该搜索引擎与其他搜索引擎在分类体系上的差异。搜索引擎之间的检索体系存在一定的差异性，难于相互兼容，给网络用户掌握通用的信息检索技巧与方法带来不必要的操作障碍。每一种搜索引擎的开发者在设计该搜索引擎的核心检索技术时，都以突出自身特色而各显千秋，故不同的搜索引擎均有着相对独立的检索方法与技巧。各个搜索引擎都有一个特色化的检索体系等待网络用户去适应，这些检索体系在推向用户之前较少通过试运行从网络用户中搜集反馈信息，因此在适用性上存在先天的不足。

网络搜索引擎一般由信息采集器(Spider或Crawler)、索引数据库(Index或Catalog database)以及用于检索索引库的检索软件(Search Engine software)三部分组成。信息采集器主要负责访问各种站点，取回Web主页的信息。运行Spider时，只要提供少量的起始网页，Spider除了会将网页上的信息读回以外，还将沿着网页上的超文本链接，自动访问网页链接的其它网页，直至遍历整个网站。Spider对网站的访问是周期的，一般为每月一次或数次，访问次数视网页的更新频率而定。索引器负责索引库的建立。Spider收回的信息很多，直接用于查询，其效率将非常低。索引器的主要工作是建立一个包含关键信息的索引库以备查询。索引器的策略很大程度上影响了搜索引擎的效

率与准确性。目前，比较常用的方法是对网页的标题(Title)和评语(Comment)进行索引。检索软件负责提供用户使用搜索引擎的接口。检索软件通常是一个Web应用程序，其主要工作包括：接收、解释用户的搜索请求；查询索引库；计算网页与搜索请求的关联度；提供排序后的搜索结果返回。简而言之，信息采集软件是从一个已知的文档集中读取信息，并检查这些文档的链接指针，指出新的信息空间，然后取出这些新空间中的文档，将它们加入到索引数据库，检索软件通过索引数据库为用户的查询请求提供服务，但现有的搜索引擎在信息维护、信息重复、网络及站点负载方面还存在很大的不足，索引数据库往往很大，检索的查准率不高。

1.4 论文研究内容及其组织

1.4.1 课题提出的现实意义与目标

随着经济的不断发展，我国经济的开放度不断提高，因而遭受各种外部冲击的可能性和受影响的程度也将日益增大，各种国际规则和惯例对我国经济运行的制度约束越来越强烈，这些制度约束将产生强制性的制度变迁效应，加快我国外汇管理制度和模式变革的进程，在转化过程中，如何维护和提高管理效率，尽可能地减少制度变迁成本，将成为外汇局所面临的一大挑战。为此，迫切需要建立一个功能强大、数据完整的信息管理系统去统驭其他业务管理系统的运行。

本课题来源于与国家外汇局合作的国家外汇信息管理决策系统的项目，简称SAFE－MIDSS，是根据我国外汇管理的需要，按照外汇局“说得清，管得住，服务好”的指导思想建立的集业务管理与辅助决策于一身的综合信息服务平台。它将是外汇局完成真实性审核、统计预警和政研立法三大职能的支撑系统，也将成为我国外汇管理电子化的核心平台。它将以采集基础数据取代报表数据；以电子数据的直接提取或交换取代业务数据的二次录入与加工传递；以接近实时取代定期、不定期；以系统灵活的、即插即用的应用程序取代独立、固定的应用程序；借助报表生成工具以灵活组合、自定义方式的查询方法取代固定的查询、报表生成程序；以系统的指标体系、科学的分析方法、灵敏的决策机制取代静态的、孤立的、缺乏全面信息支持的决策方式。这一课题属国家十五攻关课题（2001BA102A06-11），并由本课题组承担，一期工程于2003年12月通过国家验收。

本课题的目标是以建立国家外汇管理局决策支持系统为实践背景，利用数据挖掘理论技术，改进并实现基于Web挖掘的个性化推荐服务技术，从而对国家外汇管理局

网站的Web信息文件进行挖掘，得出用户的访问模式，从而可以进一步分析和研究日志记录的规律，来改进国家外汇管理局网站的组织结构及其性能，改造自适应网站；还可以通过统计和关联分析，了解使用用户的爱好，增加个性化推荐服务，使用户足不出户就可以了解和关注到自己感兴趣的信息和资源，更好的为用户服务；也可以是外部数据采集员用来在Internet上面采集相关数据、资料的工具。

1.4.2 论文组织

论文比较系统完整的分析和论述了数据挖掘技术的热点难点、Web挖掘的体系结构、个性化服务的定义、基于Web挖掘的个性化推荐服务。各章节内容安排如下：第1章绪论：简要介绍了本文要描述的数据挖掘的基本概况和Web挖掘的基本定义，本文的课题背景、目的和意义，以及论文的主要工作。

第2章个性化Web挖掘：简要介绍了Web挖掘的定义、分类、过程、任务，还介绍了个性化服务的定义，个性化推荐解决的主要问题以及Web挖掘的个性化，最后还介绍了目前比较流行和重要的几个研究方向。

第3章基于Web挖掘的个性化推荐模式：首先对个性化服务中的用户服务研究做出了描述，接着介绍了个性化推荐模型的工作机理、分类以及目前个性化推荐存在的问题；然后对个性化推荐服务的具体技术问题、实现方法进行了介绍，最后对目前比较流行的通用模型和元搜索引擎进行了分析。

第4章个性化推荐模型设计与实现：首先对模型进行了具体描述，然后就个性化推荐模型的离线部分预处理、离线算法和在线部分的定义、数据流程、算法的分析以及具体实现技术进行了具体的阐述。模型的在线部分主要是利用离线部分生成的网页聚类，再根据用户的当前访问操作行为，动态地为用户推荐下一步访问操作。通过实验环境实现了一个界面简单的推荐模型。

第5章论文总结：总结了本论文的特色和创新，以及提出了今后工作的发展方向。

2 个性化Web挖掘

本章将从Web挖掘的定义开始，介绍了Web挖掘的分类、Web挖掘的过程、Web 挖掘技术以及Web信息检索，还介绍了几个最重要的挖掘技术，最后将介绍一下Web 挖掘的个性化。

2.1 Web数据挖掘

数据挖掘是一个逐渐演变的过程，电子数据处理的初期，人们就试图通过某些方法来实现自动决策支持，当时机器学习成为人们关心的焦点。机器学习的过程就是将一些已知的并已被成功解决的问题作为范例输入计算机，机器通过学习这些范例总结并生成相应的规则，这些规则具有通用性，使用它们可以解决某一类的问题。随后，随着神经网络技术的形成和发展，人们的注意力转向知识工程，知识工程不同于机器学习那样给计算机输入范例，让它生成规则，而是直接给计算机输入已被代码化的规则，而计算机是通过使用这些规则来解决某些问题[6,7]。

Web挖掘从数据挖掘发展而来，是数据挖掘技术应用于Web信息的一个崭新领域。Web是一个巨大的、广泛分布的、高度异构的、半结构化的、相互联系并且不断进化的信息仓库；是一个巨大的文档累积的集合，包括超链接信息，访问及使用信息。大量的非结构化数据无法使用现有的数据库管理系统来操纵和管理，其用户群体也表现出多样性的特点，这些都对信息系统的研究人员提出新的挑战[7]。因为Web信息的特殊性，它与传统的数据挖掘相比又有新的特质。首先，Web挖掘的对象是大量异质分布的Web文档，每个数据源都是异构的；其次，Web文档本身是半结构化或无结构的且缺乏机器可理解的语义。所谓半结构化，是指Web上的数据具有一定的结构性，但是它没有特定的模型描述，每一站点的数据都有各自独立设计，并且数据本身具有自述性和动态可变性，是一种非完全结构化的数据。而传统的数据挖掘的对象局限于数据库中的结构化数据并利用关系表格等存储结构来发现知识，因此有些数据挖掘技术并不适用于Web挖掘，即使可用也需要建立在对Web文档进行预处理的基础之上[2]。

2.1.1 Web挖掘的分类

通过数据挖掘，个人、企业、网站从Internet提供的信息资源中，根据各自不同

的目的和特点，抽取有关数据并且从中发现数据中隐含的规则和知识，从而更进一步地获取数据。Internet数据挖掘总的来讲，有3个目标：精确度，即返回数据符合用户需求的程度；覆盖率，即有多少符合用户需求的数据被返回；效率，即响应速度。现今最流行的Web数据挖掘的分类，是根据挖掘的对象将其分为：基于内容的挖掘和基于用户使用记录的挖掘。

（1）Web内容挖掘：Web内容挖掘是从Web文档内容及其描述中获取有用知识，是对网页上真正的数据进行挖掘，包括网页内容挖掘和推荐结果挖掘。Web文档通常包含以下几种数据类型：文本、图像、音频、视频、元数据和超链接，也有些如HTML 文档所含的半结构化数据，但大多还是无结构的文本数据。文本、超文本内容的挖掘是Web内容挖掘的重点，但作为内容挖掘一份子的多媒体数据挖掘近年来受到许多研究人员的关注，对于统一表示模型、问题解决及从多媒体数据中学习这些问题的研究非常迫切，也将是巨大的挑战[7]。随着WWW上的信息的迅猛增长，许多只支持由关键词和超链接所构成推荐引擎返回的结果中有许多无用及无关的信息，因此，要推荐某一给定话题的Web页面，不仅希望得到与之相关的页面，还希望所检索的页面具有高质量，即针对该话题具有权威性。Web页面中的超链接包含了人类潜在的注释，权威性就隐藏在Web页面链接中。当一个Web页面的作者建立指向另一个页面的指针时，这可以看作是作者对另一页面的认可。把一个页面的来自不同作者的注解搜集起来，就可以用来反映该页面的重要性。因此，大量的Web链接信息提供了丰富的关于Web 内容相关性、质量和结构方面的信息，这对Web挖掘是可以利用的一个重要资源。

（2）Web使用记录的挖掘：Web使用记录的挖掘的目的是预测用户在网上的行为，比较网站的实际使用与期望的差别，根据用户的兴趣调整网站结构[7]。Web使用记录的挖掘是从用户存取模式中获取有价值的信息，是对Web上第二类数据即Web日志数据及相关数据的挖掘[8]，如图2.1所示。

这些数据包括：客户端数据、服务器端数据和代理端数据。Web使用记录挖掘可分为一般存取路径追踪和专业化追踪。前者是用KDD技术理解一般访问模式和趋势，如Web日志挖掘；后者是分析某一时刻每一个用户的访问模式，网站根据这些模式自动重建结构，如自适应站点。Web服务器通常保存了对Web页面的每一次访问的Web 日志项，或叫Web log项。它包括了所请求的URL 、发出请求的IP地址和时间戳。基于Web的电子商务服务器中保存了大量的Web访问日志记录，热点的Web站点每天可以记录下数以百兆字节的Web log记录。Web log数据库提供了有关Web日志记录，来发现用户访问Web页面的模式。通过分析和探究Web日志记录中的规律，可以识别电

子商务的潜在客户，增强对最终用户的因特网信息服务的质量，并改进Web服务器系统的性能，甚至建立针对个体用户的定制Web服务。

图2.1 Web日志挖掘过程

2.1.2 Web挖掘的步骤

目前，根据数据挖掘的通用方法，结合Web数据的特点，可以将Web数据挖掘划分为以下5个步骤[2]，如图2.2所示：

图2.2 Web挖掘的步骤

（1）数据的取样：Web环境目前能提供的数据源包括Web页面数据，超链接数据和记录用户访问情况的log数据等。按照主题相关的原则，数据取样从大量数据中取出一个与探索目标相关的数据子集，为后面的数据挖掘提供素材和资源。

（2）数据的预处理：数据的预处理是对数据源进行加工处理和组织重构，构建相关主题的数据仓库，为下一步的数据挖掘过程提供基础平台，做好前期准备。它主要包括：数据清理，数据集成，数据转换和数据简约。

（3）数据的挖掘：这是数据挖掘系统的核心部分。它的主要功能是运用各种数据挖掘技术，从经过预处理的数据中提取出潜在的、有效的且能被人理解的知识模式。

数据挖掘的目标是描述和预测，描述型模式是对数据中存在的规则作一种描述，或者根据数据的相似性把数据分组；而预测则是指根据属性的现有数据值找出其规律性，进而推测出其在未来可能出现的属性值。

（4）分析与评估：数据挖掘所得到的知识模式需进行可信度和有效性分析，并对其做出评估结论，为用户的经营决策提供信息支持。如何检验得到的分析结果是否有用，一个简单的办法是直接使用原来建立模型的样板数据进行检验；另一种办法是另外找一些反映客观实际的规律性数据来检验；再一种办法是在实际运行的环境中取出新数据进行检验。

（5）知识表述：知识表述是指用适当的形式将利用数据挖掘工具从Web数据中挖掘出来的知识模式表现出来，以利于用户接受和相互交流。数据挖掘的任务是多方面的，主要包括：总结（Summarization）规则挖掘、关联（Association）规则挖掘、分类（Classification）规则挖掘、聚类（Clustering）规则挖掘、预测（Prediction）分析、趋势（Trend）分析、偏差（Deviation）分析等。

2.1.3 Web数据挖掘任务

（1）特征抽取：通过对数据源的分析，提取出关于该数据集的一些总体特征表达式。

（2）关联分析：找出相互独立的不同事物之间的关联规则，经过关联分析处理，得到结论。

（3）属性分类：利用分类器，能够把数据集中的数据项映射到某个分类。例如：可建立一个分类模型，对银行贷款的安全或风险进行分类。

（4）聚类分析：在没有给定主题类别的情况下，通过对数据集的分析和比较，把数据划分到不同的组中，组之间的差别尽可能小。

（5）时序预测：时序预测和关联分析相仿，是把数据之间的关联性与时间联系起来。为得到时序预测，不仅需要知道事件是否发生，而且需要确定事件发生的时间。例如：情人节前巧克力和鲜花的销量会突然上升。

在实际应用中，数据挖掘必须借助一定的工具，这些工具主要包括代理、查询报表、统计分析、数据发现(神经网络/ 决策树模型分析) 以及OLAP(多维分析)和可视化表现等[4]。

2.1.4 Web挖掘与Web推荐

Web信息挖掘与Web信息推荐在实现的技术上有很多相似之处，人们往往将Web

信息挖掘与Web上的信息推荐等同起来，但实际上它们之间是有区别的[9,10]，主要体现在：

（1）Web上的信息推荐主要是通过查询串来进行推荐，而Web信息挖掘则能对用户给的复杂目标进行特征抽取，然后根据所提取的特征在网络中进行搜寻。

（2）所有的Web信息挖掘基本上都要用到信息推荐技术，而并非所有的Web 信息推荐都要用到挖掘技术。

Web信息推荐技术不能发现信息背后隐藏的联系和规律，而Web信息挖掘的功能之一就是找出大量看似无关的信息之间的联系和规律，供决策使用。由于Web的异构数据环境、半结构化的数据结构、开放动态的数据存取等特点，使得Web上的信息挖掘实现起来十分困难。必须对挖掘对象进行适当处理，以获得被挖掘对象的有关特征信息。Web上的信息挖掘技术可以借鉴信息推荐技术，因此如何对Web文档进行推荐、预处理而得到关于文档的特征表示，便成为Web信息挖掘研究的一个重点。当前各种信息检索工具的研制是Internet/WWW信息检索与数据挖掘研究的重点。网络信息检索工具的核心是其检索功能。检索功能已经从基本的布尔检索、截词检索、邻近检索、短语检索、字段检索发展为高级的加权检索、自然语言检索、相关信息反馈检索、模糊检索和概念检索，其中的大多数检索都与数据挖掘的算法相关。其逼近能力的研究与实现体现了数据挖掘结果的质量，要实现多路数据的数据挖掘，开发具有较高挖掘质量的检索工具，必须探索一些知识信息处理的方法。目前，支撑矢量机、粗集、进化算法的研究方兴未艾，某些技术已经成功地运用到Internet/WWW上的数据挖掘。

2.2 几个重要的研究方向

2.2.1 挖掘Web推荐引擎所发现的资源

Web推荐引擎对Web资源的查找还不够充分，Web上的数据大多是HTML格式的，有关某个主题的信息杂乱地散布在Web站点的多个目录下，这样就需要有一个强大的推荐引擎，定位超文本的位置。现有的Web推荐引擎多是基于查询串的，返回的文档过于庞大，所包含的内容质量却不高。而且由于很多与话题相关的文档可能不包含相应的查询串，导致结果很可能也不全面，对文档进行先扩大后缩小的方法来推荐[7]。

2.2.2 权威页面的识别

Web不仅由页面组成，而且还包含了一个页面指向另一个页面的超链接。超链接

包含了大量人类潜在的注释，权威性就隐藏在这些超链接中。当一个Web页面的作者建立指向另一个页面的指针时，可看作是作者对另一页面的认可。把一个页面来自不同作者的注释收集起来，就可以用来反映该页面的重要性，即用于权威的Web页面的发现。这样可以进行页面等级的划分，事实上，Web链接结构存在局限性：（1）每一个超链接都代表一个认可，例如广告；

（2）由于商业或竞争的考虑，很少有Web页面会指向其竞争领域的权威页面，也就是说显著权威Web上通常不能直接互相认可。

权威页面很少具有特别描述之类的自描述信息，这就需要使用Hub权威方法。一个Hub是指一个或多个Web页面，它提供了指向权威页面的链接集合。Hub页面本身可能并不突出，或者说可能没有几个链接指向它们，但是，Hub却提供了指向就某个公共话题而言最为突出的站点链接，此类页面可以是主页上的推荐链接列表。Hub页面起到了隐含说明某话题权威页面的作用，好的Hub是指向许多好的的权威页面。这种Hub与权威页面之间的相互作用，可用于权威页面的挖掘和高质量Web结构和资源的自动发现。算法HITS（Hyperlink Induced Top is Search），是利用Hub的推荐算法，基于HITS算法的系统有CLEVER，Google也基于同样的原理。这些系统由于纳入Web链接和文本内容信息，查询效果明显优于基于词类索引引擎产生的结果。

2.2.3 Web 信息过滤系统

Web信息过滤系统--Website是一个Web使用记录挖掘模型，它从站点中利用内容和结构信息挖掘算法。预处理算法包括识别用户、服务器会话和推断缓存网页。除了创造一个服务器会话文件，Website系统进行内容和结构的预处理，把服务器会话转换为事件。对服务器会话或事件文件可以进行序列模式分析、关联规则发现、聚类等，其结果通过简单的知识查询机制、可视化工具或信息过滤器进行分析，形成需要的模式。图2.3详细显示了在特定Web站点上要怎样进行使用记录的挖掘。

挖掘预处理的输入包括三个服务器日志、站点文件、注册文件及远程代理日志。预处理阶段利用这些输入形成用户会话文件，经过事务识别形成用于模式发现的事务文件。模式发现利用现有的数据挖掘方法（关联挖掘、聚类、序列模式挖掘、统计学方法等）产生规则和模式，再经过各种模式分析工具得出最终有效知识[7]。

图2.3 Website的体系结构

2.3 Web挖掘的个性化

随着网络技术的发展及机器学习、模式识别等知识发现新技术的出现，电子商务竞争已使得信息服务方式从传统的“一对多”发展到“一对一”的个性化用户服务方式，即为恰当的用户在恰当的时间方便快捷的提供恰当的信息。随着电子商务中引入个性化用户服务方式，企业需要对Web环境下的客户资料数据进行深入的统计与分析，找出不同用户兴趣所在，透视隐藏在这些数据之后的更重要的用户兴趣模式信息以及关于这些数据的整体特征的描述并预测其发展趋势等。了解用户在Web环境中的

访问模式将不仅改善Web站点设计，而且对企业市场决策过程具有重要的意义。本章介绍的基于Web挖掘的个性化推荐服务即是利用个性化技术将传统的数据挖掘（Data Mining）对象同Web访问信息结合起来，利用Web挖掘的方法抽取用户感兴趣的潜在有用模式与信息，然后基于这些模式和信息为用户提供“一对一”的具备自适应性的个性化推荐服务。这些个性化推荐服务可大大缩短用户在网络上的访问延迟，使得提供给用户的网络信息服务质量得到最大程度的提高。

Web已成为人们获取信息的一个重要途径，由于Web信息的日益增长，人们不得不花费大量的时间去推荐。浏览自己需要的信息，推荐引擎（search engine）是最普遍的辅助人们检索信息的工具，比如传统的推荐引擎AltaVista，Yahoo和新一代的推荐引擎Google 等。信息检索技术由于其通用的性质，虽然满足了人们一定的需要，但仍不能满足不同背景、不同目的和不同时期的查询请求。个性化服务技术就是针对这个问题而提出的，它为不同用户提供不同的服务，以满足不同的需求。个性化服务通过收集和分析用户信息来学习用户的兴趣和行为，从而实现主动推荐的目的，如图2.4所示。

个性化推荐服务即是利用个性化技术将传统的数据挖掘对象同Web访问信息结合起来，利用Web挖掘的方法抽取用户感兴趣的潜在有用模式与信息，然后基于这些模式和信息为用户提供“一对一”的具备自适应性的个性化推荐服务。个性化服务技术能充分提高站点的服务质量和访问效率，从而吸引更多的访问者。

图2.4 个性化模型的基本组成

web数据挖掘考试重点

填空或简答： 1. 数据、信息和知识是广义数据表现的不同形式。 2. 主要知识模式类型有：广义知识，关联知识，类知识，预测型知识，特异型知识 3. web挖掘研究的主要流派有：Web结构挖掘、Web使用挖掘、Web内容挖掘 4. 一般地说，KDD是一个多步骤的处理过程，一般分为问题定义、数据抽取、数据预处理、.数据挖掘以及模式评估等基本阶段。 5. 数据库中的知识发现处理过程模型有：阶梯处理过程模型，螺旋处理过程模型，以用户为中心的处理结构模型，联机KDD模型，支持多数据源多知识模式的KDD处理模型 6. 粗略地说，知识发现软件或工具的发展经历了独立的知识发现软件、横向的知识发现工具集和纵向的知识发现解决方案三个主要阶段，其中后面两种反映了目前知识发现软件的两个主要发展方向。 7. 决策树分类模型的建立通常分为两个步骤：决策树生成，决策树修剪。 8. 从使用的主要技术上看，可以把分类方法归结为四种类型： a) 基于距离的分类方法 b) 决策树分类方法 c) 贝叶斯分类方法 d) 规则归纳方法 9. 关联规则挖掘问题可以划分成两个子问题： a) 发现频繁项目集:通过用户给定Minsupport ，寻找所有频繁项目集或者最大频繁项目集。 b) 生成关联规则:通过用户给定Minconfidence ，在频繁项目集中，寻找关联规则。 10. 数据挖掘是相关学科充分发展的基础上被提出和发展的。主要的相关技术：数据库等信息技术的发展统计学深入应用人工智能技术的研究和应用 11. 衡量关联规则挖掘结果的有效性：应该从多种综合角度来考虑： a准确性：挖掘出的规则必须反映数据的实际情况。 b实用性：挖掘出的规则必须是简洁可用的。 c新颖性：挖掘出的关联规则可以为用户提供新的有价值信息。 12. 约束的常见类型有：单调性约束；反单调性约束；可转变的约束；简洁性约束. 13. 根据规则中涉及到的层次，多层次关联规则可以分为：同层关联规则：如果一个关联规则对应的项目是同一个粒度层次，那么它是同层关联规则。层间关联规则：如果在不同的粒度层次上考虑问题，那么可能得到的是层间关联规 14. 按照聚类分析算法的主要思路，聚类方法可以被归纳为如下几种。划分法：基于一定标准构建数据的划分。属于该类的聚类方法有：k-means、k-modes、k-prototypes、k-medoids、PAM、CLARA、CLARANS等。层次法：对给定数据对象集合进行层次的分解。密度法：基于数据对象的相连密度评价。网格法：将数据空间划分成为有限个单元（Cell）的网格结构，基于网格结构进行聚类。模型法：给每一个簇假定一个模型，然后去寻找能够很好的满足这个模型的数据集。 15. 类间距离的度量主要有：最短距离法：定义两个类中最靠近的两个元素间的距离为类间距离。最长距离法：定义两个类中最远的两个元素间的距离为类间距离。中心法：定义两类的两个中心间的距离为类间距离。

谢运洁-浅论Web使用挖掘

浅Web使用挖掘谢运洁（武汉大学信息管理学院，重庆教育学院图书馆重庆 400067）摘要：系统介绍了Web使用挖掘的相关概念、基本流程以及各种方法在Web使用挖掘中的应用。关键词：信息分析数据挖掘 Web使用挖掘正文： 0引言随着Internet和网络技术的进一步发展，许多企业机构都拥有了自己的Web站点，向用户提供各种基于Web的信息服务，如电子商务、网上银行、用户反馈、技术支持等等，对他们来讲，如何更好地向用户提供更具有针对性的服务，根据用户的网络行为来推测企业未来的发展策略变得十分重要。同时，Web网页在以惊人的速度增长，新闻、广告、教育、经济等各种信息充斥在用户面前，加上其更新速度也越来越快，使得用户在信息的海洋中无所适从，如何把信息在恰当的时间、恰当的地点以恰当的方式提供给用户更是我们必须解决的问题。Web使用挖掘，其任务是挖掘Web用户的行为模式，根据挖掘结果改进站点结构，减少用户在获取所需信息或产品之前的寻找时间，向特定用户主动提供个性化服务。 1基本概念 1.1Web数据挖掘 Web数据挖掘是指利用数据挖掘技术对Web存取模式、Web结构和规则，以及动态Web内容的查找。一般地，根据挖掘对象的不同，可以将Web数据挖掘分为三大类：Web内容挖掘（Web Content Mining）、Web结构挖掘（Web Structure Mining）和Web使用挖掘（Web Usage Mining），另外web结构挖掘可以被认为是Web内容挖掘的一部分，这样可以简单的把Web挖掘分为Web 内容挖掘和Web使用挖掘。 1.2Web使用挖掘 Web使用挖掘是指利用数据挖掘技术对Web服务器中的日志记录进行分析，发现各种用户使用模式的过程，其目的在于更好的为用户提供各种服务。Web使用挖掘可以挖掘出用户的隐藏信息，根据用户行为趋势确定企业未来的战略方向。Web使用挖掘的基本流程主要包括数据准备、数据预处理、模式发现和模式分析几个步骤。 2数据准备 Web使用挖掘的数据来源大致可分为三大块：服务器端(Server Log File)、中介代理端(Intermediary Data)以及客户端(Client Side Data)。 2.1服务器端数据 2.1.1服务器日志文件（Server Log File） Web服务器日志文件是一个存储用户基本信息、描述用户浏览行为信息的文件。特别是，它可以存储用户浏览网页时沿着网页链接所产生的点击流序列信息，是Web使用挖掘的主要数据来源。Web服务器日志通常以两种格式存储文件：普通日志文件格式（Common Log File Format），它可以存储用户IP、用户名、请求文件名、文件大小及服务器名等最基本的信息；扩展日志格式（Extended Log Format），存储了一些额外的信息，比如主机地址、请求日期和时间、用户名、传输字节数、事务完成时间等。Web使用挖掘把Web服务器日志作为主要

web日志分析常用方法及应用

Web日志挖掘分析的方法日志文件的格式及其包含的信息 ①2006-10-17 00:00:00②202.200.44.43 ③218.77.130.24 80 ④GET ⑤/favicon.ico ⑥Mozilla/5.0+(Windows；+U；+Windows+NT+5.1；+zh-CN；+rv： 1.8.0.3)+Gecko/20060426 +Firefox/1.5.0.3。 ①访问时间；②用户IP地址；③访问的URL，端口；④请求方法(“GET”、“POST”等)； ⑤访问模式；⑥agent，即用户使用的操作系统类型和浏览器软件。一、日志的简单分析 1、注意那些被频繁访问的资源 2、注意那些你网站上不存在资源的请求。常见的扫描式攻击还包括传递恶意参数等： 3、观察搜索引擎蜘蛛的来访情况 4、观察访客行为应敌之策： 1、封杀某个IP 2、封杀某个浏览器类型（Agent） 3、封杀某个来源（Referer） 4、防盗链 5、文件重命名作用： 1.对访问时间进行统计，可以得到服务器在某些时间段的访问情况。 2.对IP进行统计，可以得到用户的分布情况。 3.对请求URL的统计，可以得到网站页面关注情况。 4.对错误请求的统计，可以更正有问题的页面。二、Web挖掘根据所挖掘的Web 数据的类型，可以将Web 数据挖掘分为以下三类：Web 内容挖掘(Web Content Mining)、Web 结构挖掘(Web Structure Mining)、Web 使用挖掘(Web Usage Mining)（也称为Web日志挖掘）。 ①Web内容挖掘。Web内容挖掘是指从文档的内容中提取知识。Web

数据挖掘在Web中的应用案例分析

[数据挖掘在Web中的应用] 在竞争日益激烈的网络经济中，只有赢得用户才能最终赢得竞争的优势。作为一个网站，你知道用户都在你的网站上干什么吗？你知道你的网站哪些部分最为用户喜爱、哪些让用户感到厌烦？什么地方出了安全漏洞？什么样的改动带来了显著的用户满意度提高、什么样的改动反而丢失了用户？你怎样评价你的网站广告条的效率、你知道什么样的广告条点击率最高吗？“知己知彼，才能百战不殆”，你真的了解自己吗？挑战的背后机会仍存，所有客户行为的电子化（Click Stream），使得大量收集每个用户的每一个行为数据、深入研究客户行为成为可能。如何利用这个机会，从这些“无意义”的繁琐数据中得到大家都看得懂的、有价值的信息和知识是我们面临的问题。 [问题]： 1.根据你所学的知识，思考从网站中所获取的大量数据中，我们能做哪些有意义的数据分析？基于WEB 使用的挖掘，也称为WEB 日志挖掘（Web Log Mining）。与前两种挖掘方式以网上的原始数据为挖掘对象不同，基于WEB 使用的挖掘面对的是在用户和网络交互的过程中抽取出来的第二手数据。这些数据包括：网络服务器访问记录、代理服务器日志记录、用户注册信息以及用户访问网站时的行为动作等等。WEB 使用挖掘将这些数据一一纪录到日志文件中，然后对积累起来的日志文件进行挖掘，从而了解用户的网络行为数据所具有的意义。我们前面所举的例子正属于这一种类型。基于WEB 内容的挖掘：非结构化半结构化\文本文档超文本文档\Bag of words n-grams 词短语概念或实体关系型数据\TFIDF 和变体机器学习统计学(包括自然语言处理)\归类聚类发掘抽取规则发掘文本模式建立模式. 基于WEB 结构的挖掘:半结构化数据库形式的网站链接结构\超文本文档链接\边界标志图OEM 关系型数据图形\Proprietary 算法ILP (修改后)的关联规则\发掘高频的子结构发掘网站体系结构归类聚类. 基于WEB 使用的挖掘:交互形式\服务器日志记录浏览器日志记录\关系型表图形\Proprietary 算法机器学习统计学(修改后的）关联规则\站点建设改进与管理销建立用户模式. 2.根据你所学的数据挖掘知识，谈谈哪些数据挖掘技术可以应用于Web中，以这些数据挖掘技术可以完成哪些功能？ Web Mining 技术已经应用于解决多方面的问题，比如基于WEB 内容和结构的挖掘极大的帮助了我们从浩瀚的网络资源中更加快速而准确的获取所需要的资料，而基于使用的数据挖掘之威力，更是在商业运作上发挥的淋漓尽致，具体表现在：（1）对网站的修改能有目的有依据稳步的提高用户满意度发现系统性能瓶颈，找到安全漏洞，查看网站流量模式，找到网站最重要的部分，发现用户的需要和兴趣，对需求强烈的地方提供优化，根据用户访问模式修改网页之间的连接，把用户想要的东西以更快且有效的方式提供给用户，在正确的地方正确的时间把正确的信息提供给正确的人。（2）测定投资回报率测定广告和促销计划的成功度找到最有价值的ISP 和搜索引擎测定合作和结盟网站对自身的价值