文档库 最新最全的文档下载
当前位置:文档库 › 基于Mobile Agent的分布式关联规则挖掘方法

基于Mobile Agent的分布式关联规则挖掘方法

基于Mobile Agent的分布式关联规则挖掘方法
基于Mobile Agent的分布式关联规则挖掘方法

https://www.wendangku.net/doc/6b1243988.html, 基于Mobile Agent的分布式关联规则挖掘方法

任长伟1,徐慧1,杜晓昕1,崔伟峰2,贾雪峰1,王志浩1

1中国矿业大学(北京)机电与信息工程学院,(100083)

2装备指挥技术学院信息装备系,(101416)

E-mail:rlchw@https://www.wendangku.net/doc/6b1243988.html,

摘要:本文将Mobile Agent技术应用于分布式关联规则这一数据挖掘领域,初步设计了

基于Mobile Agent技术的分布式关联规则的数据挖掘系统,分析了Mobile Agent技术和最

大频繁模式理论的特点,将两者的优点有机结合起来,设计了分布式关联规则的数据挖掘

方法。并从分布式数据站点的结构设计、模型构造和关联规则算法上进行了初步的实现,

对分布式关联规则数据挖掘进行了有益的探索。

关键词:数据挖掘,分布式关联规则,Mobile Agent,频繁模式

1.引言

分布式数据挖掘技术是数据挖掘技术与分布式计算技术的有机结合,主要用于分布式

环境下的数据模式发现。随着各相关学科的飞速发展,各种网络尤其是Internet的广泛使用,

在实际应用要求数据挖掘系统具有更好的可扩展性。比如在研究某种疾病在某地的发病情

况与气候的关系时候要把疾病控制数据库和环境数据库结合起来获取有效的、新颖的、潜

在有用的知识;金融组织间通过合作防止信用卡欺诈,它们之间要共享数据来完成合作,

分布式数据挖掘就是在这种背景下产生的。

随着网络技术和分布式数据库技术的发展和成熟,分布式数据库已经得到越来越广泛

的应用,大型机构都将原来数据的集中式存储和管理逐渐转变为分布式存储和管理,数据

存储方式的变化也必然会促进数据挖掘技术及其系统结构的变化。由于实际应用中数据对

安全性、私有性、保密性、容错性、商业竞争以及法律约束等多方面因素的考虑,使得在

许多情况下首先将所有分散存储的数据集中在一起进行数据分析往往是不可行的,因此分

布式数据挖掘系统则可以充分利用分布式计算的能力对相关的数据进行分析与综合。

文献[1]提出了关联规则分布式挖掘算法ARDM,该算法采用全局局部站点模式及异步

通信方式,其缺点是每进行一次候选集生成局部站点都要和全局站点通信一次,因而通信

开销还是比较大,而且在给定分布式系统中,当最小支持度和最小置信度发生变化时,不

能够对生成全局关联规则做出反应。文献[2]中提出了将代理技术引入到分布式数据挖掘系

统设计中,他把问题分成了两个问题,一是对本地数据进行分析,产生部分数据模式,二

是对来自不同地方的部分数据模式进行综合,产生全局模式。但是需要全局站点和全部局

部站点进行频繁通信,所以需要大的带宽和通信量。文献[3]提出了基于多Agent技术的分布

式协调算法,各个局部站点都有自己的Agent,全局服务器有全局Agent,局部Agent和全局

Agent之间可以相互通信,负责在局部的Agent和全局Agent之间传递规则和少量的数据,而

- 1 -

https://www.wendangku.net/doc/6b1243988.html,

- 2 -

不是全部数据,但是这样用户站点的不固定性必然导致用户必须和全局Agent 通信的代价增大。

2.方法的提出

分布式系统中的数据挖掘是近十年才提出的一个新的研究课题,有关研究成果较少,

随着网络系统的广泛应用,分布式数据挖掘日益受到关注,随着大规模事务数据库的广泛使用以及企业数据分布范围的逐步扩大,使得高效的分布式关联规则挖掘算法变得越来越重要[4]。在数据挖掘系统中,经常存在来自不同站点的数据源,这使得数据挖掘系统必须具有分布式挖掘的能力,同时也需要我们根据分布式数据挖掘的特点,设计新的分布式数据挖掘算法。然而,在分布式系统中,由于存在着数据分布以及异构性等问题,因此分布式数据挖掘不仅需要解决集中式数据挖掘中的算法时间复杂性问题,还要考虑通信代价问题。依据分布式数据挖掘的特点,通过引进移动Agent 技术增强数据挖掘系统的灵活性、适应性和可移植性,在数据挖掘的过程中采用基于最大频繁模式理论为基础的数据挖掘算法来进行关联规则挖掘,这种分布式数据挖掘方式和移动Agent 技术结合能很大程度上减小通信量。

基于以上所述,把Mobile Agent 技术引进分布式关联规则挖掘中,提出了基于Mobile

Agent 的分布式关联规则挖掘方法,具体过程描述如下:

1.用户通过移动代理服务器的用户界面来完成挖掘任务的请求。

2.管理器接收到用户的任务请求后,通过对任务解析,创建一个按照满足用户要求的移动代理。然后,按照选择的代理工作模式,将移动代理发送到目标节点去执行挖掘任务。

3.移动代理按照一定的策略迁移到目标节点并执行挖掘任务。同时,也和该节点的Local

Agent 交互,将任务分派给Local Agent 来执行。

4.挖掘任务完成后,将挖掘结果返回至源节点,然后,移动代理根据源节点的要求来决定是否直接返回还是迁移到下一个目标节点。迁移到下一个目标节点后,则进入步骤3。

5.当移动代理按照要求遍历完所有节点后返回源节点,源节点已得到各节点的信息,用户可以综合这些信息进行全局的挖掘任务并把可视化结果,返回给用户。

3.方法的概述与方案

数据挖掘算法中采用挖掘最大频繁模式来代替频繁集的挖掘,最大频繁模式也是

Apriori 的推广,相关理论如下:

定义1 设为项目(Item)集合,I 的一个非空子集称为一个项目集

(Itemset)含有k 个项目的项目集称为k-项目集。TDB 是一个交易数据库(其中每个交易T 表示成一个二元组为交易标识符,X 为I 中项目组成的集合,即X ?I , 假如某个项目集Y X ,则称交易T 包含项目集Y ,包含项目集Y 的交易数在整个交易数据库中的所占比例称为项目集Y 在TDB 中的支持度(support),用sup(Y)来表示。

},.....,,,{321m i i i i I =?

https://www.wendangku.net/doc/6b1243988.html,

- 3 -

给定一个最小支持度阈值min-sup(minimum support threshold),假如一个项目集的支持

度大于等于min-sup ,则称该项目集为频繁模式。

关联规则X →Y 成立的条件是:① 它具有支持度S ,即事务数据库D 中至少有S%的事务

包含XUY;② 它具有置信度C ,即在事务数据库D 包含X 的事务中至少有C%的事务同时也包含Y 。关联规则的挖掘问题就是在事务数据库D 中找出具有用户给定的最小支持度(minsup)和最小置信度(concorf)的关联规则。

假如一个频繁模式不是任何其它频繁模式的子集,则被称为是最大频繁模式。最大

频繁模式有以下的性质[5]:

性质A 最大频繁模式的任何真超集都不是频繁的;

性质B 最大频繁模式的所有非空子集都是频繁的;

性质C 只有项目数不小于j 的事务才可能对j 维频繁集作出贡献,也就是说j 频繁集

的诞生与项目数小于j 的事务无关;

由性质 A ,B 可知,最大频繁模式是频繁模式与非频繁模式的分界线,由最大频繁模

式可求出所有频繁模式,因此,频繁模式挖掘问题可转化为求最大频繁模式的问题;所以我们可以采用一种策略,用挖掘最大频繁模式来代替挖掘所有频繁模式,由最大频繁模式可求出所有频繁模式,但数量上前者比后者要少几个数量级,因此大大降低了计算代价。

定义2 频繁项目集是指支持度不小于用户给定的最小支持度的项目的集合。

定理 设分布式数据库系统中含有N 个站点,每个站点Pi 上的局部频繁项目集为,

i=1,2,…,N ,将所有站点上的Fi 合并得到集合F',则F' 一定是全局频繁项目集F 的超集。

i F 证明: 要证明 F'是全局频繁项目集F 的超集,只需证?f ∈F 则f ∈'

F 。

设最小支持度为minsup ,每个站点的记录数为k ,i=1,2,…,N ,f 在第i 个站点的支持

数为(f),因为f ∈,所以f 的全局支持数 i S F )(f S =≥∑·minsup

∑=N i f Si 1)(=N

i Ki 1假设f ?F',则每个站点上f 的支持数<·minsup ,从而得到

<()·minsup

)(f Si i K ∑=N i f Si 1)(∑=N

i Ki 1 这与f ?F 矛盾。

Mobile Agent 技术起源于人工智能领域,Agent 能模仿人类行为和关系,具有一定智能并且能自主运行和提供相应服务的软件体。Agent 的力度更大,智能化程度更高。Agent 在自主性、开放性、智能性这些方面有着众多的优点,组成系统的每一个单元都是集成的模块,能够自主的进行活动,智能系统具有一定的智能性,能够对周围的环境做出实时反应。

https://www.wendangku.net/doc/6b1243988.html,

- 4 -一般概念上Mobile Agent 是一个按发起者的意图行动的程序。它由执行一些计算所需的

代码和状态信息组成。Mobile Agent 并不是固定在它发起执行的地方,而是独一无二的通过网络从一个地方移动到另一个地方,移动性使得它可以移动到目的主机来获取想要的信息,

Mobile Agent 完成了任务后,可自动终止或者回到任务发起主机向用户报告它的结果[6]。 Mobile Agent 的本质是Agent 技术与分布式计算技术的结合,只有Agent 代码和临时数据变量的串行化和移动, 大大减少了传输的数据,并且在挖掘过程中无任何的数据库数据的传输,提高了数据的安全性。

鉴于以上特点和分布

式关联规则的数据挖掘系统中引进移动

Agent 技术,从而提高数据挖掘的效率。在

分布式关联规则数据挖掘中综合考虑最大

频繁模式的性质和Mobile Agent 的特点,可

以把Mobile Agent 的优点和最大频繁模式的

性质结合起来形成分布式关联规则挖掘方

法。具体方法如下描述:用户提交任务的过

程如图(图1),用户通过图形界面向移动代

理服务器提交任务请求,移动代理服务器加

载并解析用户任务需求,派发生成Mobile

Agent ,并且依据用户任务为其指定任务和

执行策略,派发出的Mobile Agent 在分布式

数据库系统中的各个场地之间的迁移路由

以及安全信息需在派遣之前确定。当移动

Agent 在各场地数据库中收集并实时处理完

成任务后,返回发起移动代理服务器,移动

代理服务器将最终信息结果返回给提

交任务的用户。

图1 用户提交任务的过程 图2 站点结构模型 对于每个场地数据库站点的结构

设计如图(图2),每个场地数据库站点

的移动代理服务器都将这些信息结果

反馈给用户。各个场地数据库站点提供

暂停位供Mobile Agent 到达该站点时着

陆。当Mobile Agent 到达该站点完成携

带的任务时,暂停位同时也要负责

Mobile Agent 的启程,同时也要

为Mobile Agent 和本地Agent 之间进行交互提供可执行环境,可执行环境包括安全认证、资源请求与分配、数据通信等。

https://www.wendangku.net/doc/6b1243988.html, 移动代理服务器一旦派出Mobile Agent就很少在干预其行为,由于移动Agent自身的特点,它可以在整个分布式数据库系统中进行智能路由选择,自动选择下一个可能迁移的场地数据库系统中的暂停位。当其在某个数据库站点的暂停位上着陆时,会与此站点的本地Agent进行相互交互,完成其携带的任务。

4.总结

本文着重介绍了Mobile Agent技术和最大频繁模式理论相结合的分布式关联规则的数

据挖据方法,在该方法中描述了在分布式数据环境中Mobile Agent运行的整个过程以及支持Mobile Agent技术的数据库站点的结构。然而,本方法还存在一些不足,还有待于进一步改进。比如,在本方法中只能实现分布式关联规则的数据挖据,不能对聚类等算法实现。在后续的研究过程中将以突破这些局限性,使得方法的适应范围更广为目标。

参考文献

[1] 赵斌,吉根林.分布式系统中关联规则挖掘研究,小型微型计算机系统,2003.12:2270-2271.

[2] 陈卓,魏振钢.基于分布式数据挖掘的移动代理系统设计,计算机应用研究,2004.2:192-194.

[3] 孙惠琴,熊璋.基于粗糙集和多Agent技术的分布式数据挖掘,微电子学与计算机,2005.1:36-40.

[4] Jiawei H,Micheline K.Data Mining Concepts and Techniques Simon Fraser University,Morgan Kaufmann Publishers,2000:324-345.

[5]李清峰,杨路明,等.关联规则中的最大频繁项目集的研究,计算机应用研究,2005.1:93-95.

[6]贾红伟,余元辉.移动Agent在分布式数据库访问中的应用,集美大学学报(自然科学版),2003.12:338-342.

Distributed Association Rule Mining Base on Mobile Agent Ren Changwei1,Xu Hui1,Du Xiaoxin1,Cui Weifeng2,Jia Xuefeng1,Wang Zhihao1

1 School of Mechanical electronic & information engineering, China University of Mining &

Technology (Beijing), 100083, china

2 Department of Information Equipment, Academy of Equipment Command & Technology,

101416, china

Abstract

This thesis applies the Mobile Agent technology to the field of distributed association rule data mining , presents the designing thought of distributed association rule data mining that based on the Mobile Agent technology, analyzes the features of the Mobile Agent technology and the largest frequent, and integrates the advantages of both, presenting the distributed association rule data mining method. Realizes the initial on the structural design of distributed data points、construction models and association rule algorithm, and proceeds a beneficial exploration on distributed association rule data mining.

Keywords:Data mining; distributed association rule; mobile agent; frequent Itemsets

- 5 -

数据挖掘关联规则分析报告

关联规则分析报告 2009年7月8日 目录 一前言 (1) 二数据预处理 (1) 三前7710条真实数据分析 (2) 1商品按小类分析 (2) 2商品按中类分析 (4) 3商品按大类分析 (4) 4分析比较 (5) 四后44904条随机数据分析 (5) 1商品按小类分析 (5) 2商品按中类分析 (7) 3商品按大类分析 (8) 4分析比较 (8) 五52614条混合数据分析 (8) 1商品按小类分析 (8) 2商品按中类分析 (11) 3商品按大类分析 (11) 4分析比较 (12) 六总结 (12)

一前言 使用关联规则挖掘算法分析购物清单时,会产生不止“啤酒→尿布”的单一关联规则,而将出现涉及多种商品的“纵横交错”的多条关联规则。针对这一实际问题,本文利用学生日常购物记录数据进行关联分析,通过概念分层从不同粒度上分析商品之间的关联性,从而找到商品之间的关联规则,实现优化超市货物摆放次序的目的。 二数据预处理 1)在SQL server 2000 查询分析器里执行下面的SQL语句 declare @sql varchar(8000) set @sql = 'select zid ,xh' select @sql = @sql + ' , max(case goodsid when ''' + goodsid + ''' then goodsid end) [' + 'n'+ goodsid + ']' from (select distinct goodsid from rcxfjl) as a set @sql = @sql + ' into table_a from rcxfjl group by zid,xh' exec(@sql) 2)在PB里将有购买记录的列改为”yes” for i=1 to dw_1.rowcount() for li_index=1 to long(dw_1.object.datawindow.column.count) if integer(dw_1.getitemstring(i,dw_1.describe('#' + string(li_index) + ".name")))>0 then dw_1.setitem(i,dw_1.describe('#' + string(li_index) + ".name"),"yes") end if next next 3)将处理好的数据直接导出到Excel中 4)将Excel表中的空格替换成”?”(在weka中?表示缺省值)

聚类分析、数据挖掘、关联规则这几个概念的关系

聚类分析和关联规则属于数据挖掘这个大概念中的两类挖掘问题, 聚类分析是无监督的发现数据间的聚簇效应。 关联规则是从统计上发现数据间的潜在联系。 细分就是 聚类分析与关联规则是数据挖掘中的核心技术; 从统计学的观点看,聚类分析是通过数据建模简化数据的一种方法。传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。采用k-均值、k-中心点等算法的聚类分析工具已被加入到许多著名的统计分析软件包中,如SPSS、SAS等。 从机器学习的角度讲,簇相当于隐藏模式。聚类是搜索簇的无监督学习过程。与分类不同,无监督学习不依赖预先定义的类或带类标记的训练实例,需要由聚类学习算法自动确定标记,而分类学习的实例或数据对象有类别标记。聚类是观察式学习,而不是示例式的学习。 聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。聚类分析所使用方法的不同,常常会得到不同的结论。不同研究者对于同一组数据进行聚类分析,所得到的聚类数未必一致。 从实际应用的角度看,聚类分析是数据挖掘的主要任务之一。而且聚类能够作为一个独立的工具获得数据的分布状况,观察每一簇数据的特征,集中对特定的聚簇集合作进一步地分析。聚类分析还可以作为其他算法(如分类和定性归纳算法)的预处理步骤。 关联规则挖掘过程主要包含两个阶段:第一阶段必须先从资料集合中找出所有的高频项目组(FrequentItemsets),第二阶段再由这些高频项目组中产生关联规则(AssociationRules)。 关联规则挖掘的第一阶段必须从原始资料集合中,找出所有高频项目组(LargeItemsets)。高频的意思是指某一项目组出现的频率相对于所有记录而言,必须达到某一水平。 关联规则挖掘的第二阶段是要产生关联规则(AssociationRules)。从高频项目组产生关联规则,是利用前一步骤的高频k-项目组来产生规则,在最小信赖度(MinimumConfidence)的条件门槛下,若一规则所求得的信赖度满足最小信赖度,称此规则为关联规则。

关联规则数据挖掘

关联规则数据挖掘 学习报告

目录 引言 2 案例 2 关联规则 3 (一)关联规则定义 (二)相关概念 (三)关联规则分类 数据 6 (一)小型数据 (二)大型数据 应用软件7 (一)WEKA (二)IBM SPSS Modeler 数据挖掘12 总结27

一、引言 数据库与互联网技术在日益发展壮大,人们每天可以获得的信息量呈指数级增长。如何从这浩如瀚海的数据中找出我们需要的数据显得尤为重要。数据挖掘又为资料探勘、数据采矿。它是数据库知识发现中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。 数据挖掘大致分为以下几类:分类(Classification)、估计(Estimation)、预测(Prediction)、相关性分组或关联规则(Affinity grouping or association rules)、聚类(Clustering)、复杂数据类型挖掘(Text, Web ,图形图像,视频,音频等)。 二、案例 "尿布与啤酒"的故事。 在一家超市里,有一个有趣的现象:尿布和啤酒赫然摆在一起出售。但是这个奇怪的举措却使尿布和啤酒的销量双双增加了。这不是一个笑话,而是发生在美国沃尔玛连锁店超市的真实案例,并一直为商家所津津乐道。沃尔玛拥有世界上最大的数据仓库系统,为了能够准确了解顾客在其门店的购买习惯,沃尔玛对其顾客的购物行为进行购物篮分析,想知道顾客经常一起购买的商品有哪些。沃尔玛数据仓库里集中了其各门店的详细原始交易数据。在这些原始交易数据的基础上,沃尔玛利用数据挖掘方法对这些数据进行分析和挖掘。一个意外的发现是:"跟尿布一起购买最多的商品竟是啤酒!经过大量实际调查和分析,揭示了一个隐藏在"尿布与啤酒"背后的美国人的一种行为模式:在美国,一些年轻的父亲下班后经常要到超市去买婴儿尿布,而他们中有30%~40%的人同时也为自己买一些啤酒。产生这一现象的原因是:美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布,而丈夫们在买尿布后又随手带回了他们喜欢的啤酒。 按常规思维,尿布与啤酒风马牛不相及,若不是借助数据挖掘技术对大量交易数据进行挖掘分析,沃尔玛是不可能发现数据内在这一有价值的规律的。

关于关联规则挖掘综述

关联规则挖掘综述 潮娇娇 摘要:关联规则挖掘是数据挖掘中的一个很重要的研究内容之一,近年来很多国内外研究人员对其进行了大量的研究。为了更进一步的了解关联规则挖掘技术,并掌握其发展方向和目前的研究现状。本文对关联规则挖掘技术进行了相关综述。首先介绍了关联规则的基本概念,其次分析了近年来一些经典关联规则算法的改进,并概述了相关算法在实际中的应用。最后对关联规则挖掘技术未来的发展趋势进行了讨论。 关键字:关联规则;算法;数据挖掘; Abstract: association rule mining is one of the important data mining research contents in this year, many domestic and foreign researchers have done a lot of research on it. In order to understand further the association rule mining technology, and grasp the development status and direction of research at present. This article of association rule mining technology related review. Firstly introduces the basic concepts of association rules, then analyzes the improvement of some classical algorithm of association rules in recent years, and summarizes the application of related algorithms in practice. At the end of the association rule mining technology development trend in the future are discussed. Key words: association rules; algorithms; data mining; 引言 随着计算机技术与数据库技术的飞速地发展,数据资源越来越多。但巨大的数据,依然没有解决我们的信息需求问题,针对这种情况,产生了数据库的数据挖掘。与传统技术相比,数据挖掘技术是一种新型的信息处理技术,能够自动和智能地把位置数据或者大量数据中潜在信息转换成人们需要的信息和知识的技术。它可以从数据库提取有用的知识、规律以及更高层次的信息,对这些进行分析,帮助人们更有效的利用海量数据中存在的价值。目前对数据挖掘的发展趋势及研究方向主要集中在数据挖掘的数据总结、分类、聚类、关联规则等方面。而关联规则挖掘作为数据挖掘的核心内容之一,进来得到了很快的发展。并已经成为当今数据挖掘的热点。为此,对关联挖掘技术的研究具有重要的意义。本文将重点介绍关联规则挖掘技术的相关研究。主要对近年来关联规则挖掘技术的算法改进进行综述以及未来的发展方向。 1、关联规则基本概念 1.1 相关介绍 关联规则作为数据挖掘的核心研究内容之一,它是大量数据中发现信息之间可能存在的某种关联或者相关联系。通过分析这些挖掘出的数据联系,可以在现实中帮助我们预测或决定某些事情将会发生。有效的提高了我们制定出准确的决策。目前,关联规则挖掘技术广泛应用于金融、互联网、医学等多个领域。最早的关联挖掘是未来发现交易数据库中不同商品之间的联系,通过分析这种联系获得有关购买者的一般的购买模式。从而有助于商家合理地安排进货、库存及货架设计,更好的制定发展计划和规避风险。

关联规则挖掘的过程

关联规则挖掘的过程 关联规则挖掘过程主要包含两个阶段:第一阶段必须先从资料集合中找出所有的高频项目组(Frequentitemsets),第二阶段再由这些高频项目组中产生关联规则(Association Rules)。 关联规则挖掘的第一阶段必须从原始资料集合中,找出所有高频项目组(Large Itemsets)。高频的意思是指某一项目组出现的频率相对于所有记录而言,必须达到某一水平。一项目组出现的频率称为支持度(Support),以一个包含A与B两个项目的2-itemset为例,我们可以经由公式(1)求得包含{A,B}项目组的支持度,若支持度大于等于所设定的最小支持度(Minimum Support)门槛值时,则{A,B}称为高频项目组。一个满足最小支持度的k-itemset,则称为高频k-项目组(Frequent k-itemset),一般表示为Large k或Frequent k。算法并从Large k的项目组中再产生Large k+1,直到无法再找到更长的高频项目组为止。 关联规则挖掘的第二阶段是要产生关联规则(Association Rules)。从高频项目组产生关联规则,是利用前一步骤的高频k-项目组来产生规则,在最小信赖度(Minimum Confidence)的条件门槛下,若一规则所求得的信赖度满足最小信赖度,称此规则为关联规则。例如:经由高频k-项目组{A,B}所产生的规则AB,其信赖度可经由公式(2)求得,若信赖度大于等于最小信赖度,则称AB为关联规则。 就沃尔马案例而言,使用关联规则挖掘技术,对交易资料库中的纪录进行资料挖掘,首先必须要设定最小支持度与最小信赖度两个门槛值,在此假设最小支持度min_support=5% 且最小信赖度min_confidence=70%。因此符合此该超市需求的关联规则将必须同时满足以上两个条件。若经过挖掘过程所找到的关联规则「尿布,啤酒」,满足下列条件,将可接受「尿布,啤酒」的关联规则。用公式可以描述Support(尿布,啤酒)>=5%且Confidence(尿布,啤酒)>=70%。其中,Support(尿布,啤酒)>=5%于此应用范例中的意义为:在所有的交易纪录资料中,至少有5%的交易呈现尿布与啤酒这两项商品被同时购买的交易行为。Confidence(尿布,啤酒)>=70%于此应用范例中的意义为:在所有包含尿布的交易纪录资料中,至少有70%的交易会同时购买啤酒。因此,今后若有某消费者出现购买尿布的行为,超市将可推荐该消费者同时购买啤酒。这个商品推荐的行为则是根据「尿布,啤酒」关联规则,因为就该超市过去的交易纪录而言,支持了“大部份购买尿布的交易,会同时购买啤酒”的消费行为。 关联规则挖掘通常比较适用与记录中的指标取离散值的情况。如果原始数据库中的指标值是取连续的数据,则在关联规则挖掘之前应该进行适当的数据离散化(实际上就是将某个区间的值对应于某个值),数据的离散化是数据挖掘前的重要环节,离散化的过程是否合理将直接影响关联规则的挖掘结果。

关联规则挖掘英文PPT

INFO411/911 Laboratory exercises on Association Rule Mining Overview: Association rule mining can help uncover relationships between seemingly unrelated data in a transactional database. In data mining, association rules are useful in discovering consequences of commonly observed patterns within a set of transactions. What you need: 1.R software package (already installed on the lab computers) 2.The file "laboratory_week5.zip" on Moodle. Preparation: 1.Work in a group of size two to three (minimum size of a group is two. But no more than three students are to work together). Penalties apply if a group exeeds these limits. 2.Boot computer into Windows mode. 3.Download laboratory_week5.zip then save to an arbitrary folder, say "C:\Users\yourname\Desktop" 4.Uncompress laboratory_week 5.zip into this folder 5.Start "R" 6.Change the working directory by entering: setwd("C:/Users/yourname/Desktop") (Note that R expects forward slashes rather than backwars slashes as used by Windows.) Your task: Your are to submit a PDF document which contains your answers of the questions in this laboratory exercise. One document is to be submitted by each group. The header of the document must list the name and student number of all students in the group. Clearly indicate which question you have answered. The following link provides a documentation of the association rule module in R (called arules). The link can help you develop a better understanding of the usage and parameters of the association rule package in R: https://www.wendangku.net/doc/6b1243988.html,/web/packages/arules/arules.pdf Work through the following step and answer given questions: Step1: Familiarize yourself with the arules package in R. Start R and type: library(arules) to load the package. We shall start from the analysis of a small file sample1.csv that contains some transactional data. To load data into R enter: sample1.transactions <- read.transactions("sample1.csv", sep=",") To get information about the total number of transactions in a file sample1.csv enter: sample1.transactions To get a summary of data set sample1.csv enter: summary(sample1.transactions) The data set is described as sparse matrix that consists of 10 rows and five columns. The density of

最新数据挖掘考试题目——关联分析资料

数据挖掘考试题目——关联分析 一、10个选择 1.以下属于关联分析的是() A.CPU性能预测B.购物篮分析 C.自动判断鸢尾花类别D.股票趋势建模 2.维克托?迈尔-舍恩伯格在《大数据时代:生活、工作与思维的大变革》一书中,持续强调了一个观点:大数据时代的到来,使我们无法人为地去发现数据中的奥妙,与此同时,我们更应该注重数据中的相关关系,而不是因果关系。其中,数据之间的相关关系可以通过以下哪个算法直接挖掘() A.K-means B.Bayes Network C.C4.5 D.Apriori 3.置信度(confidence)是衡量兴趣度度量()的指标。 A.简洁性B.确定性 C.实用性D.新颖性 4.Apriori算法的加速过程依赖于以下哪个策略() A.抽样B.剪枝 C.缓冲D.并行 5.以下哪个会降低Apriori算法的挖掘效率() A.支持度阈值增大B.项数减少 C.事务数减少D.减小硬盘读写速率 6.Apriori算法使用到以下哪些东东() A.格结构、有向无环图B.二叉树、哈希树 C.格结构、哈希树D.多叉树、有向无环图 7.非频繁模式() A.其置信度小于阈值B.令人不感兴趣 C.包含负模式和负相关模式D.对异常数据项敏感 8.对频繁项集、频繁闭项集、极大频繁项集的关系描述正确的是()[注:分别以1、2、3代表之] A.3可以还原出无损的1 B.2可以还原出无损的1 C.3与2是完全等价的D.2与1是完全等价的 9.Hash tree在Apriori算法中所起的作用是() A.存储数据B.查找 C.加速查找D.剪枝 10.以下不属于数据挖掘软件的是() A.SPSS Modeler B.Weka C.Apache Spark D.Knime 二、10个填空 1.关联分析中表示关联关系的方法主要有:和。 2.关联规则的评价度量主要有:和。 3.关联规则挖掘的算法主要有:和。 4.购物篮分析中,数据是以的形式呈现。 5.一个项集满足最小支持度,我们称之为。 6.一个关联规则同时满足最小支持度和最小置信度,我们称之为。

关联分析解析

摘要关联分析是一种简单、实用的分析技术,就是发现存在于大量数据集中的关联性或相关性,从而描述了一个事物中某些属性同时出现的规律和模式。关联分析是从大量数据中发现项集之间有趣的关联和相关联系。在关联规则挖掘算法中,Apriori算法是最常用的,Apriori算法广泛应用于商业中,应用于消费市场价格分析中,它能够很快的求出各种产品之间的价格关系和它们之间的影响。通过数据挖掘,市场商人可以瞄准目标客户,采用个人股票行市、最新信息、特殊的市场推广活动或其他一些特殊的信息手段,从而极大地减少广告预算和增加收入。百货商场、超市和一些老字型大小的零售店也在进行数据挖掘,以便猜测这些年来顾客的消费习惯。 关键词关联分析 Apriori算法spss clementines12.0 相关性 关联分析又称关联挖掘,就是在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式、关联、相关性或因果结构。或者说,关联分析是发现交易数据库中不同商品(项)之间的联系。在关联分析中,建立“关联规则模型”分析数据,了解事物之间的相关程度。比如,进行市场调查解决营销问题上,在海量数据中利用模型发现内在的规律性,从而找出解决方案。 A => B [ 支持度 =2%, 置信度 =60%] 式中A是规则前项(Antecedent),B是规则后项 (Consequent)。实例数表示所有购买记录中包含A的记录的数量。 支持度(Support)表示购买A的记录数占所有的购买记录数的百分比。 规则支持度(Rule Support)表示同时购买A和B的记录数占所有的购买记录数的百分比。 置信度(confidence)表示同时购买A和B的记录数占购买A记录数的百分比。 提升(Lift)表示置信度与已知购买B的百分比的比值,提升大于 1 的规则才是有意义的。 支持度 2% 意味着,所分析的记录中的 2% 购买了A。置信度 60% 表明,购买A的顾客中的 60% 也购买了B。如果关联满足最小支持度阈值和最小置信度阈值,就说关联规则是有意义的。这些阈值可以由用户或领域专家设定。就顾客购物而言,根据以往的购买记录,找出满足最小支持度阈值和最小置信度阈值的关联规则,就找到顾客经常同时购买的商品。 关联规则中的挖掘算法--Apriori算法 Apriori算法是一种挖掘关联规则的频繁项集算法,其核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集。而且算法已经被广泛的应用到商业、网络安全等各个领域。 该算法的基本思想是:首先找出所有的频集,这些项集出现的频繁性至少和预定义的最小支持度一样。然后由频集产生强关联规则,这些规则必须满足最小支持度和最小可信度。然后使用第1步找到的频集产生期望的规则,产生只包含集合的项的所有规则,其中每一条规则的右部只有一项,这里采用的是中规则的定义。一旦这些规则被生成,那么只有那些大于用户给定的最小可信度的规则才被留下来。经典的关联规则数据挖掘算法Apriori 算法广泛应用于各种领域,通过对数据的关联性进行了分析和挖掘,挖掘出的这些信息在决策制定过程中具有重要的参考价值。

数据挖掘实验报告-关联规则挖掘

数据挖掘实验报告(二)关联规则挖掘 姓名:李圣杰 班级:计算机1304 学号:1311610602

一、实验目的 1. 1.掌握关联规则挖掘的Apriori算法; 2.将Apriori算法用具体的编程语言实现。 二、实验设备 PC一台,dev-c++5.11 三、实验内容 根据下列的Apriori算法进行编程:

四、实验步骤 1.编制程序。 2.调试程序。可采用下面的数据库D作为原始数据调试程序,得到的候选1项集、2项集、3项集分别为C1、C2、C3,得到的频繁1项集、2项集、3项集分别为L1、L2、L3。

代码 #include #include #define D 4 //事务的个数 #define MinSupCount 2 //最小事务支持度数 void main() { char a[4][5]={ {'A','C','D'}, {'B','C','E'}, {'A','B','C','E'}, {'B','E'} }; char b[20],d[100],t,b2[100][10],b21[100 ][10]; int i,j,k,x=0,flag=1,c[20]={0},x1=0,i1 =0,j1,counter=0,c1[100]={0},flag1= 1,j2,u=0,c2[100]={0},n[20],v=1; int count[100],temp; for(i=0;i=MinSupCount) { d[x1]=b[k]; count[x1]=c[k]; x1++; } } //对选出的项集中的元素进行排序 for(i=0;i

数据挖掘考试题目——关联分析教学提纲

数据挖掘考试题目——关联分析

数据挖掘考试题目——关联分析 一、10个选择 1.以下属于关联分析的是() A.CPU性能预测B.购物篮分析 C.自动判断鸢尾花类别D.股票趋势建模 2.维克托?迈尔-舍恩伯格在《大数据时代:生活、工作与思维的大变革》一书中,持续强调了一个观点:大数据时代的到来,使我们无法人为地去发现数据中的奥妙,与此同时,我们更应该注重数据中的相关关系,而不是因果关系。其中,数据之间的相关关系可以通过以下哪个算法直接挖掘()A.K-means B.Bayes Network C.C4.5 D.Apriori 3.置信度(confidence)是衡量兴趣度度量()的指标。 A.简洁性B.确定性 C.实用性D.新颖性 4.Apriori算法的加速过程依赖于以下哪个策略() A.抽样B.剪枝 C.缓冲D.并行 5.以下哪个会降低Apriori算法的挖掘效率() A.支持度阈值增大B.项数减少 C.事务数减少D.减小硬盘读写速率 6.Apriori算法使用到以下哪些东东() A.格结构、有向无环图B.二叉树、哈希树 C.格结构、哈希树D.多叉树、有向无环图 7.非频繁模式() A.其置信度小于阈值B.令人不感兴趣 C.包含负模式和负相关模式D.对异常数据项敏感 8.对频繁项集、频繁闭项集、极大频繁项集的关系描述正确的是()[注:分别以1、2、3代表之] A.3可以还原出无损的1 B.2可以还原出无损的1 C.3与2是完全等价的D.2与1是完全等价的 9.Hash tree在Apriori算法中所起的作用是() A.存储数据B.查找 C.加速查找D.剪枝 10.以下不属于数据挖掘软件的是() A.SPSS Modeler B.Weka C.Apache Spark D.Knime 二、10个填空 1.关联分析中表示关联关系的方法主要有:和。 2.关联规则的评价度量主要有:和。 3.关联规则挖掘的算法主要有:和。 4.购物篮分析中,数据是以的形式呈现。 5.一个项集满足最小支持度,我们称之为。

数据挖掘中关联规则挖掘的应用研究

数据挖掘中关联规则挖掘的应用研究 吴海玲,王志坚,许峰 河海大学计算机及信息工程学院,江苏南京(210098) 摘 要:本文首先介绍关联规则的基本原理,并简单概括其挖掘任务,然后说明关联规则的经典挖掘算法Apriori 算法,通过一个实例分析进一步明确关联规则在CRM 中的应用,最后展望了关联规则挖掘的研究方向。 关键词:数据挖掘,关联规则,Apriori 算法,CRM 引言 关联规则是表示数据库中一组对象之间的某种关联关系的规则,关联规则挖掘的主要对象是交易(Transaction)数据库。这种数据库的一个主要应用是零售业,比如超级市场的销售管理。条形码技术的发展使得数据的收集变得更容易、更完整,从而可以存储大量的交易资料。关联规则就是辨别这些交易项目之间是否存在某种关系。例如:关联规则可以表示“购买了商品A 和B 的顾客中有80%的人又购买了商品C 和D”。这种关联规则提供的信息可以用作商品目录设计、商场货架的布置、生产安排、具有针对性的市场营销等。 [1] 1 关联规则的基本原理 设I={i 1,i 2,……,i m }是项的集合,设任务相关的数据D 是数据库事务的集合,其中每个事务T 是项的集合,使得T I 。每一个事务有一个标识符,称作T ID 。设X 是一个项集,事务T 包含X 当且仅当X T 。关联规则是形如X Y 的蕴涵式,其中X I ,Y ?I ,并且X ∩Y =?。规则X Y 在事务集D 中成立,具有支持度s ,其中s 是D 中事务包含X ∪Y (即X 和Y 二者)的百分比,它是概率P (X ∪Y )。规则X Y 在事务集中具有可信度c ,如果D 中包含X 的事务同时也包含Y 的百分比c 。这是条件概率P (X Y ∣)。即是 ??????support(X ?Y)= P (X Y ∪) confidence(X ?Y)= P (X Y ∣) 同时满足最小支持度(minsup)和最小可信度阈值(minconf )的规则称作强规则[1]。 项的集合称为项集(itemset )。包含k 个项的项集成为k -项集,例如集合{computer, software }是一个2—项集。项集的出现频率是包含项集的事务数,简称为项集的频率。项集满足最小支持度minsup ,如果项集的出现频率大于或者等于minsup 与D 中事务总数的乘积。如果项集满足最小支持度,则称它为频繁项集(frequent itemset) [2]。 2 关联规则的发现任务 关联规则挖掘的问题就是要找出这样的一些规则,它们的支持度或可信度分别大于指定的最小支持度minsup 和最小可信度minconf 。因此,该问题可以分解成如下两个子问题[3]: 1.产生所有支持度大于或等于指定最小支持度的项集,这些项目集称为频繁项目集(frequent itemsets ),而其他的项目集则成为非频繁项目集(non-frequent itemsets ) 2.由频繁项集产生强关联规则。根据定义,这些规则必须满足最小支持度和最小可信度。 关联规则挖掘的问题的主要特征是数据量巨大,因此算法的效率很关键。目前研究的重点在第一步,即发现频繁项目集,因此第二步相对来说是很容易的。

关联规则挖掘基本概念和算法--张令杰10121084

研究生课程论文 关联规则挖掘基本概念和算法 课程名称:数据仓库与数据挖掘 学院:交通运输 专业:交通运输规划与管理 年级:硕1003班 姓名:张令杰 学号:10121084 指导教师:徐维祥

摘要 (Ⅰ) 一、引言 (1) 二、关联规则的基本描述 (1) 三、经典频繁项集挖掘的Apriori算法 (3) 四、提高Apriori算法的效率 (6) 五、由频繁项集产生关联规则 (8) 六、总结 (9) 参考文献 (9)

目前,数据挖掘已经成为一个研究热点。关联规则数据挖掘是数据挖掘的一个主要研究内容,关联规则是数据中存在的一类重要的可被发现的知识。其核心问题是如何提高挖掘算法的效率。本文介绍了经典的关联规则挖掘算法Apriori并分析了其优缺点。针对该算法的局限性,结合Apriori性质,本文对Apriori中连接的步骤进行了改进。通过该方法,可以有效地减少连接步产生的大量无用项集并减少判断项集子集是否是频繁项集的次数。 关键词:Apriori算法;关联规则;频繁项集;候选集

一、 引言 关联规则挖掘发现大量数据中项集之间有趣的关联或相关联系。如果两项或多项属性之间存在关联,那么其中一项的属性就可以依据其他属性值进行预测。它在数据挖掘中是一个重要的课题,最近几年已被业界所广泛研究。 关联规则挖掘的一个典型例子是购物篮分析[1] 。关联规则研究有助于发现交易数据库中不同商品(项)之间的联系,找出顾客购买行为模式,如购买了某一商品对购买其他商品的影响。分析结果可以应用于商品货架布局、货存安排以及根据购买模式对用户进行分类。 最著名的关联规则发现方法是R. Agrawal 提出的Apriori 算法。关联规则挖掘问题可以分为两个子问题:第一步是找出事务数据库中所有大于等于用户指定的最小支持度的数据项集;第二步是利用频繁项集生成所需要的关联规则,根据用户设定的最小置信度进行取舍,最后得到强关联规则。识别或发现所有频繁项目集市关联规则发现算法的核心。 二、关联规则的基本描述 定义1. 项与项集 数据库中不可分割的最小单位信息,称为项目,用符号i 表示。项的集合称为项集。设集合{}k i i i I ,,,21 =是项集,I 中项目的个数为k ,则集合I 称为k -项集。例如,集合{啤 酒,尿布,牛奶}是一个3-项集。 定义2. 事务 设{}k i i i I ,,,21 =是由数据库中所有项目构成的集合,一次处理所含项目的集合用T 表示,{}n t t t T ,,,21 =。每一个i t 包含的的项集都是I 子集。 例如,如果顾客在商场里同一次购买多种商品,这些购物信息在数据库中有一个唯一的标识,用以表示这些商品是同一顾客同一次购买的。我们称该用户的本次购物活动对应一个数据库事务。 定义3. 项集的频数(支持度计数) 包括项集的事务数称为项集的频数(支持度计数)。 定义4. 关联规则 关联规则是形如Y X ?的蕴含式,其中X ,Y 分别是I 的真子集,并且φ=?Y X 。 X 称为规则的前提,Y 称为规则的结果。关联规则反映X 中的项目出现时,Y 中的项目也 跟着出现的规律

关联规则挖掘综述

关联规则挖掘综述 摘要:近年来国内外学者对关联规则进行了大量的 研究。为了更好地了解关联规则的挖掘技术,对研究现状有更深入的了解,首先本文对数据挖掘技术进行了介绍,接着介绍了关联数据挖掘的基本原理,最后对经典的挖掘算法进行分类介绍。 关键词:数据挖掘;关联规则;算法;综述 1.引言 数据挖掘是从海量的数据里寻找有价值的信息和数据。 数据挖掘中常用的算法[1] 有:关联规则分析法(解决事件之间的关联问题)、决策树分类法(对数据和信息进行归纳和分类)、遗传算法(基于生物进化论及分子遗传学理论提出的)、神经网络算法(模拟人的神经元功能)等。 数据挖掘最早使用的方法是关联分析,主要应用于零售 业。其中最有名的是售货篮分析,帮助售货商制定销售策略。 随着信息时代的到来,数据挖掘在金融[2] 、医疗[3] 、通信[4] 等方面得到了广泛的应用。 2.关联规则基本原理 设项的集合I = { I1 ,I2 ,...,Im },数据库事务的集合 为D ,我们用|D| 表示事务数据库所有事务的个数,其中用T 表示每个事务,使得T I。我们用TID作为每个事务的唯一标 识符。用X表示一个项集,满足X T那么交易T包含X。根 据上述相关描述,给出关联规则的相关定义。

2.1项集支持度用X 表示数据库事务D 中的项集,项集X 的支持 度表示 项集X在D中事务数所占的比例,用概率P (X)表示,那么 Support ( X) =P( X) =COUNT( X) /|D| ( 1) 2.2关联规则置信度 X丫关联规则的置信度是数据库事务D中包含X丫的事务 数与包含X的事务数之比,表示方法如下: confidence( X Y)= support( X Y)/support( X) = P(Y|X) 3.关联规则算法 3.1经典的Apriori 挖掘算法大多数关联规则的算法是将关联规则 挖掘任务分为两 个子任务完成。一是频繁项集的产生,频繁项集的目的是找到大于等于给定的最小支持度阈值的所有项集,这些项集我们称之为频繁项集。二是规则的产生,即从频繁项集中找到置信度比较高的规则,我们称之为强规则。Apriori 挖掘算法是众多挖掘关联规则中比较经典的算法,它采用布尔关联规则,是一种宽度优先算法。 3.2Apriori 算法优化

数据挖掘算法之关联规则

数据挖掘算法之-关联规则挖掘(Association Rule) (2009-09-20 21:59:23) 转载 标签: 分类:DM dm 在数据挖掘的知识模式中,关联规则模式是比较重要的一种。关联规则的概念由Agrawal、Imielinski、Swami 提出,是数据中一种简单但很实用的规则。关联规则模式属于描述型模式,发现关联规则的算法属于无监督学习的方法。 一、关联规则的定义和属性 考察一些涉及许多物品的事务:事务1 中出现了物品甲,事务2 中出现了物品乙,事务3 中则同时出现了物品甲和乙。那么,物品甲和乙在事务中的出现相互之间是否有规律可循呢?在数据库的知识发现中,关联规则就是描述这种在一个事务中物品之间同时出现的规律的知识模式。更确切的说,关联规则通过量化的数字描述物品甲的出现对物品乙的出现有多大的影响。 现实中,这样的例子很多。例如超级市场利用前端收款机收集存储了大量的售货数据,这些数据是一条条的购买事务记录,每条记录存储了事务处理时间,顾客购买的物品、物品的数量及金额等。这些数据中常常隐含形式如下的关联规则:在购买铁锤的顾客当中,有70 %的人同时购买了铁钉。这些关联规则很有价值,商场管理人员可以根据这些关联规则更好地规划商场,如把铁锤和铁钉这样的商品摆放在一起,能够促进销售。 有些数据不像售货数据那样很容易就能看出一个事务是许多物品的集合,但稍微转换一下思考角度,仍然可以像售货数据一样处理。比如人寿保险,一份保单就是一个事务。保险公司在接受保险前,往往需要记录投保人详尽的信息,有时还要到医院做身体检查。保单上记录有投保人的年龄、性别、健康状况、工作单位、工作地址、工资水平等。这些投保人的个人信息就可以看作事务中的物品。通过分析这些数据,可以得到类似以下这样的关联规则:年龄在40 岁以上,工作在A 区的投保人当中,有45 %的人曾经向保险公司索赔过。在这条规则中,

数据挖掘中的关联规则2

数据挖掘中的关联规则 程晓飞2009306202008 摘要: 近年来,数据挖掘己经引起了信息产业界的极大关注,这是快速增长的数据量和曰益贫乏的信息量之间矛盾运动的必然结果,对数据挖掘技术进行系统、深入、全面、详尽地研究是全球信息化发展的客观需要。本文对数据挖掘技术,尤其是关联规则数据挖掘技术进行了系统、深入、全面、详尽地分析和研究。 关键词:数据挖掘;关联规则;Apriori算法;基于划分的算法 1.什么是关联规则 在描述有关关联规则的一些细节之前,我们先来看一个有趣的故事:"尿布与啤酒"的故事。 在一家超市里,有一个有趣的现象:尿布和啤酒赫然摆在一起出售。但是这个奇怪的举措却使尿布和啤酒的销量双双增加了。这不是一个笑话,而是发生在美国沃尔玛连锁店超市的真实案例,并一直为商家所津津乐道。沃尔玛拥有世界上最大的数据仓库系统,为了能够准确了解顾客在其门店的购买习惯,沃尔玛对其顾客的购物行为进行购物篮分析,想知道顾客经常一起购买的商品有哪些。沃尔玛数据仓库里集中了其各门店的详细原始交易数据。在这些原始交易数据的基础上,沃尔玛利用数据挖掘方法对这些数据进行分析和挖掘。一个意外的发现是:"跟尿布一起购买最多的商品竟是啤酒!经过大量实际调查和分析,揭示了一个隐藏在"尿布与啤酒"背后的美国人的一种行为模式:在美国,一些年轻的父亲下班后经常要到超市去买婴儿尿布,而他们中有30%~40%的人同时也为自己买一些啤酒。产生这一现象的原因是:美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布,而丈夫们在买尿布后又随手带回了他们喜欢的啤酒。 按常规思维,尿布与啤酒风马牛不相及,若不是借助数据挖掘技术对大量交易数据进行挖掘分析,沃尔玛是不可能发现数据内在这一有价值的规律的。 数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。关联规则挖掘发现大量数据中项集之间有趣的关联或相关联系。Agrawal等于1993年首先提出了挖掘顾客交易数据库中项集间的关联规则问题,以后诸多的研究人员对关联规则的挖掘问题进行了大量的研究。他们的工作包括对原有的算

关联规则挖掘综述

关联规则挖掘综述 本文介绍了关联规则挖掘的研究情况,提出了关联规则的分类方法,对一些典型算法进行了分析和评价,指出传统关联规则衡量标准的不足,归纳出关联规则的价值衡量方法,展望了关联规则挖 蔡伟杰张晓辉朱建秋朱扬勇2 (复旦大学计算机科学系上海 200433) 摘要:本文介绍了关联规则挖掘的研究情况,提出了关联规则的分类方法,对一些典型算法进行了分析和评[1]价,指出传统关联规则衡量标准的不足,归纳出关联规则的价值衡量方法,展望了关联规则挖掘的未来研究方向。 关键词:数据挖掘,关联规则,频集,OLAP 1 引言 数据挖掘(Data Mining),又称数据库中的知识发现(Knowledge Discovery in Database),在最近几年里已被数据库界所广泛研究,其中关联规则(Association Rules)的挖掘是一个重要的问题。 关联规则是发现交易数据库中不同商品(项)之间的联系,这些规则找出顾客购买行为模式,如购买了某一商品对购买其他商品的影响。发现这样的规则可以应用于商品货架设计、货存安排以及根据购买模式对用户进行分类。 Agrawal等于1993年[1]首先提出了挖掘顾客交易数据库中项集间的关联规则问题,以后诸多的研究人员对关联规则的挖掘问题进行了大量的研究。他们的工作包括对原有的算法进行优化,如引入随机采样、并行的思想等,以提高算法挖掘规则的效率;对关联规则的应用进行推广。 最近也有独立于Agrawal的频集方法的工作[18,19],以避免频集方法的一些缺陷,探索挖掘关联规则的新方法。同时随着OLAP技术的成熟和应用,将OLAP 和关联规则结合[20,21]也成了一个重要的方向。也有一些工作[6]注重于对挖掘到的模式的价值进行评估,他们提出的模型建议了一些值得考虑的研究方向。 本文第二部分是对关联规则基本概念的介绍,提出了关联规则的分类方法;第三部分是对挖掘算法的介绍,从经典的apriori开始,然后描述了对该算法的优化拓展,接着讲述脱离apriori算法的方法,最后是多层、多维的关联规则挖掘;第四部分归纳出关联规则价值衡量方法,主要从两个方面进行考虑:系统客观层面和用户主观层面;最后展望了关联规则挖掘的未来研究方向。

相关文档