关于聚类算法的探究与发展

龙源期刊网 http://m.wendangku.net/doc/785680c902d8ce2f0066f5335a8102d277a261fa.html

关于聚类算法的探究与发展

作者:李静

来源:《数字技术与应用》2014年第06期

摘要:本文依据当前聚类算法在当代社会中的重要性,对近年来聚类算法的现状与进展进行了分析研究。对其概念及在数据挖掘中的要求进行了阐述,同时对当前几种具有代表行的聚类算法进行了分析概括,分析了当前聚类算法存在的不足及问题。

关键词:聚类算法数据挖掘算法分类

中图分类号:TP311 文献标识码:A 文章编号:1007-9416(2014)06-0150-01

1 前言

聚类在自然科学和社会科学是非常重要的。在商业领域中,聚类算法可以应用与市场分析中,它能够很好的完成分析人员对客户数据库中不同客户及不同客户群的筛选分类工作,此外,还可以设定购买模式针对不同客户群的特点来进行分类描述。运用在生物学中,可以很好的帮助科研人员对动植物的推导分类。在基因学中,它可以针对基因结构进行划分,以达到人类可以准确的认识不同物种的基因结构的异同。

2 聚类的概念

聚类的定义:将抽象抑或是物理的集合由类似对象分组为多个类的过程。由聚类产生的簇的数据对象的集合,并且在同一个群集中这些对象是相似的对象,并在不同的簇的其他对象。聚类分析,也称为聚类分析,这是一种统计分析方法分类问题的研究。聚类分析起源于分类学,在旧分类中,人们主要依靠经验和专业知识来实现分类,很少利用数学工具进行定量分类。随着人类科学技术,对这些经验和专业知识孤独有时很难准确地进行分类,使人们逐渐引用到的数学工具的分类,形成了数值分类,后多变量分析技术转成数值分类的要求越来越高的发展分类学形成了聚类分析。

3 数据挖掘对聚类算法的要求

(1)可拓展性:大多数的聚类算法可以很好的对不超过200个对象的小数据集合进行有效的处理,然而如果数据库中可能会拥有数百万个对象大型数据集合就会捉襟见肘,此时运用聚类算法往往会出现错误的结果,因此对于聚类算法需要其拥有高度可塑造和高拓展性。

(2)多属性处理能力:多数的聚类算法只能处理数值类的数据对象或者集合。而随着应用的计算机应用的普及,多数的应用会需要其他类型数据进行处理,因此聚类算法如果要用于数据挖掘中,必须具备良好的多属性处理能力。

相关推荐
相关主题
热门推荐