文档库 最新最全的文档下载
当前位置:文档库 › 自组织数据挖掘方法研究综述

自组织数据挖掘方法研究综述

自组织数据挖掘方法研究综述
自组织数据挖掘方法研究综述

第38卷 第10期

2006年10月

 

哈 尔 滨 工 业 大 学 学 报

JOURNAL OF HARB I N I N STI T UTE OF TECHNOLOGY

 

Vol 138No 110Oct .2006

自组织数据挖掘方法研究综述

张宾,贺昌政

(四川大学管理科学系,成都610064,E 2mail:zhangbin79@t https://www.wendangku.net/doc/7f1905930.html, )

摘 要:从对自组织数据挖掘方法(S ODM )本身的改进和S ODM 与其他建模方法结合两方面介绍了S ODM 的研究进展.对S ODM 本身改进的方面包括模型表示、选择准则和搜索方法.分析S ODM 与神经网络、遗传算法、模糊法则归纳法以及模拟方法的结合.在此基础上,指出S ODM 改进方向应该在改善算法本身的基础上,将其从单纯的数据挖掘技术扩展为知识发现的全过程.

关键词:自组织数据挖掘方法;数据分组处理方法;数据挖掘;知识发现中图分类号:TP39119

文献标识码:A

文章编号:0367-6234(2006)10-1719-05

Rev i ew on i m provem en ts of self 2organ i z i n g da t a m i n i n g

Z HANG B in,HE Chang 2zheng

(Dep t .of M anage ment Science,Sichuan University,Chengdu 610064,China,E 2mail:zhangbin79@t https://www.wendangku.net/doc/7f1905930.html, )

Abstract:Advances of i m p r ove ments on self 2organizing data m ining (S ODM )are revie wed fr o m a meli orati on on itself and its combinati on with other modeling techniques .Ameli orati on on S ODM includes study on its model rep resentati on,model evaluati on criteria and search method .S ODM ’s integrati on with other modeling techniques is analyzed,inv olving with Neural Net w ork,ev oluti on algorithm ,Fuzzy I nducti on Rules and si m u 2lati on .It is pointed out the directi on of S ODM ’s further devel opment will be t o br oaden it fr om mere data m in 2ing method t o effective Kno wledge D iscovery t ool .Some suggested future work is listed .Key words:self 2organizing data m ining (S ODM );G MDH;data m ining;kno wledge discovery

收稿日期:2004-09-28.

基金项目:国家自然科学基金资助项目(70271073).作者简介:张宾(1979—),男,硕士研究生;

贺昌政(1947—),男,教授,博士生导师.

自组织数据挖掘方法(S ODM )指数据分组处

理方法(G MDH )及在其基础上发展起来的一系列算法.从 A.G .I vakhnenko 提出G MDH

[1]

至今,

S ODM 在理论和实践方面都取得了长足进展[2]

,成为复杂系统进行非线性分析的有效方法

[3,4]

.

虽然G MDH 的理论体系还存在缺陷,但与统计方法、神经网络方法相比,S ODM 方法不要求对被研究问题有过多严格假设和先验理论/知识,有自己的特色.在上一世纪90年代,J.A.Mueller 和L.Frank 研制了功能强大的自组织数据挖掘软件包Knowledge M iner,使S ODM 成功地应用于经济、生

态、人口、医药、军事等领域的建模预测实践

[5]

,

在模式识别、系统预测、结构分析等方面得到令人

满意的成果

[6,7]

.

1 S ODM 基本原理与主要算法

由于G MDH 以及在其基础上发展起来的一

系列方法可以应用于从数据预处理到模型有效性检验的不适定问题知识提取的全过程,而且具有

自组织的特点[8]

,因此,通常将这类方法称为自组织数据挖掘方法.其基本思想是模仿生物“遗传—变异—选择—进化”的进化过程:从一个简单的初始组织(模型集合)出发,按一定的法则进行组合,生成新的竞争模型(遗传、变异),再经过筛选(选择),重复这样一个遗传、变异、选择和进化的过程,使竞争模型的复杂度不断增加,直至得到最优复杂度模型.其中,G MDH 是S ODM 的核

心技术,表1[9]

列出了S ODM 主要算法.

2 对S ODM 本身的改进研究

对S ODM 本身的改进主要是对S ODM 的模

型表示、模型评价准则和搜索方法(包括参数估计和模型搜索)的改进.在S ODM中,模型表示(也称为参考函数)通常用多项式,用最小二乘法估计模型参数,用外准则评价、筛选中间待选模型,用启发式方法确定G MDH网络中间每一层上被保留模型的个数,即自由度.非参数S ODM算法无需估计系数,外准则比较单一,因此,对非参数算法本身的改进研究主要集中在模型表示方面.

表1 S ODM主要算法

变量参数算法非参数算法

连续变量组合算法(Combi-G M2

DH)

客观聚类分析

(OCA)

多层叠代算法(M I A)

相似合成体算法

(AC)

客观系统分析(OS A)

自组织模糊准则归

纳算法(FR I)

调和算法

活动神经元网络算法

(ANN)

离散变量调和复离散方法基于统计决策多层理论的方法

211 S ODM中模型表示的不足及其改进

非参数S ODM算法一般都有比较固定的模型表示方法,对S ODM参考函数的改进主要是对参数S ODM(尤其是G MDH)参考函数的改进.通常用Kol m ogor ov-Gabor(简称K-G)多项式[4]作为参考函数.用多项式模型的主要不足是:1)算法复杂,计算量大;2)模型网络结构僵化.虽然G MDH的模型网络是自组织生成的,但是参考函数一旦选定就不会改变,从第k到第k+1层模型的映射函数f也固定不变,忽略了模型结构的多样性,得到的模型可能有较大的结构偏差;3)被研究问题不适宜用多项式表示.G MDH只用次数为正整数的多项式,因此,在逼近一些简单代数函数时会产生复杂的模型[10].另一方面,建模对象本身的特性可能更适用其他函数.比如具有周期性特点的系统更适合用能反映周期波动的调和函数[4,11].

造成不足1)的主要原因是被研究问题的高维变量和参数.相应的改进主要是筛选出相关变量以降低被研究对象的维数和简化参数估计方法.前者如文献[12]用相关性分析方法筛选与输出变量相关性强的变量.同样用相关分析,文献[13]是从一类初等函数的集合中选出适合预报对象的函数形式作为“预报因子”来代替原始变量参加中间模型的构成.文献[14]用逐步回归算法同时完成中间模型结构的确定(主要是选择变量)、参数估计和预测误差(外准则值)的计算,避免了大量重复计算.在简化参数估计方面,I vakh2 nenko提出的迭代最小二乘法[4]应用最广,这种方法用二元矩阵表示中间模型的参数估计过程,避免了层与层之间的重复计算.

针对不足2),比较有代表性的改进是基于遗传算法的多项式网络设计[15].主要做法是设计了包含多项式次数、输入变量个数和备选变量个数的染色体,利用遗传算法使初始变量和中间模型可以不同的函数形式(主要是项数和次数不同)充分组合,染色体以适应度函数为目标函数逐步进化最终得到最优函数.这种改进利用多项式简单易操作的特点,主要改进的是网络结构和变量组合规则.相反,针对不足3)的改进是保持G M2 DH网络结构和组合规则不变,用新的参考函数形式代替多项式[16,17].

对于非参数算法的模型表示,研究较多的是相似合成体算法中的模式.相似合成体算法的精度取决于变量集、模式长度、选择相似模式的个数和模式组合时权系数的取值[7].对于以上每个因素都有研究[18,19],但还没有关于如何综合研究这4个因素取得相似合成体算法的整体优化的报道.

212 S ODM外准则改进的3个重要问题

一是避免过拟合,二是客观地选择模型.文献[4,7]介绍了外准则的分类及各类准则的特点,文献[6]介绍了一些新准则.A.G.I vakhnenko强调偏差外准则的使用和外准则最小值的最小化问题.

数据的快速变化使得以前建立的模型失效,解决方法一是让学习过程不断继续,二是用偏差准则评价模型,因为偏差是模型推广能力的直接度量,选出的G MDH模型能更好地实现知识提取.

外准则选择最优模型的原理类似于香农第二定理:数据中噪声越大,选出的模型就越简单[7,20].外准则的作用类似于信息论中的失真度函数(用D表示)[21],可以认为与外准则最小值相对应的模型的可靠性最高,外准则最小值越小,模型越可信.最小化外准则的最小值值得研究.

在对外准则的改进研究中另外一个值得注意的问题是检测集(B)提供的新信息.B提供的相对于训练集(A)的新信息越多,外准则的最小值就越小,得到的模型可信度就越高.B提供新信息的时间越短,得到的最终模型就越简单,计算时间

?

2

7

1

?哈 尔 滨 工 业 大 学 学 报 第38卷 

就越少.所以,如何增加A和B中信息的不相关程度、如何减少B提供新信息的时间是进一步改进外准则值得研究的问题.文献[22]设计了一种考虑“新息贡献”的外准则,选择与已知变量相比带来一定“新息”、而且该变量所带“新息”对近似描述系统输出贡献较大的变量进入模型,避免了信息重复和遗漏,简化了建模过程.

213 对G MD H搜索方法的改进

G MDH搜索模型的方式主要是由建模者确定自由度F.每一层上外准则值最小的F个模型被保留作为生成下一层模型的母体,其余被淘汰.这种方法的不足之处是主观性强.这方面的改进不多,比较好的改进是上面提到的基于遗传算法的G MDH算法.此外,文献[23]中提出的基于HF LANN自组织多项式网络学习算法对非线性模型的拟合始终基于神经元变换为双曲函数的基础上,因此,优于G MDH随机地选择中间模型.

一般用最小二乘法估计G MDH的参数,这要求数据误差向量服从正态分布[24].对于简单问题可以容易地判断这一条件是否成立,但复杂问题很难做到.文献[25]用正交的Chabyshev多项式克服这一不足,文献[12,26]提出用所有数据样本而非训练集重新估计得到最终模型的系数来提高参数的精度,I vakhnenko[27]则认为迭代最小二乘法是鲁棒性更好的方法.另一方面,如果变量之间存在多重共线性,G MDH模型参数的稳定性就会受到影响[4].岭回归分析或逐步回归可以解决该问题[28,12].其他参数搜索改进还有文献[29]讨论的基于自组织理论的自组织多项式网络学习算法,是通过引入了梯度算法的学习过程克服最小二乘法系数估计受原始数据阵制约的不足.

3 S ODM与其他方法的结合研究

311 G MD H-type神经网络

神经网络是G MDH的基础之一,但两种方法有本质的区别[30].由于两种方法都是运用黑箱方法进行系统分析,运用联系机制通过基本函数网络表示复杂函数,因此最容易结合.将G MDH与神经网络结合可以客观确定神经网络中的层数和隐单元个数,同时可避免G MDH中主观性较强的数据划分.这种结合的神经网络称为G MDH-type型方法[31],其代表人物是Kondo[32].其特色是通过逐步回归用Akaike信息量准则(A I C)舍弃K-G多项式的某些项,并对K-G多项式进行非线性变换.对G MDH-type型方法的改进主要是对参考函数(神经元)的改进.需要说明的是,Kondo等认为G MDH-type型方法是G MDH 的改进,而I vakhnenko[33]认为虽然这种方法也运用了模型筛选准则,但既然没有数据划分,就不能被称为归纳的数据划分方法,仍然是演绎方法.

活动神经元网络是S ODM技术与神经网络思想的结合,实现了神经元(中间模型)和网络结构的二次自组织.该方法的另一特色是可以将非参数算法嵌套在参数算法中[34].

312 G MD H在模拟中的应用

利用G MDH可以得到显性、易于理解的模型描述的特点,文献[35]详细讨论了将G MDH应用于模拟中的模型构建、模型有效性检验、建立模式、试验设计以及评价实验结果的情况.在宏观经济模拟中运用G MDH取得了满意结果.

313 客观聚类分析:基于S ODM思想的聚类方法一般的聚类分析和模糊聚类分析无法客观确定聚类的最优个数以及变量的组成.特别是在对复杂不确定对象进行研究时,可能具有众多的变量.一旦它们中某些变量具有多重相关性,就会造成信息重叠,影响到最优聚类的产生[4].客观聚类分析(OCA)[36]将G MDH理论的核心概念与原理应用于聚类分析,用G MDH算法客观确定最优分类的个数以及它们的变量构成[37].已有的实证研究表明,OCA能对模糊对象给出更精确的近似或对随机过程的预测给出更好的效果.

314 基于G MD H的模糊法则归纳

无论是建立模糊控制系统还是模糊神经网络都要通过与实际领域专家对话来先确定一定数量的模糊规则[20,38],并在此基础上进行模糊推理.而自组织模糊法则归纳法(FR I)[7]基于G MDH技术,自动地从数据中提取模糊规则,形成由自然语言描述的I F-T HE N模糊模型来描述系统行为.

文献[39]利用G MDH网络提供的信息直接提取出I F-T HEN形式的规则.这种方法分析美国国会选举结果的正确率达到了97%.该方法的不足是只适用于变量均为二元离散变量的单输出系统.S ODM与模糊方法结合的另一做法是用线性区间构造部分模型[40].

研究比较多的模糊G MDH方法还有一类,它的中间模型(部分描述)用径向基函数表示,该方法被称为neur ofuzzy-G MDH方法.由于多用神经网络技术研究这种方法,可参考文献[41].

315 S ODM与遗传算法的结合

遗传算法与S ODM都是摹仿生物进化的过程,两种方法有较多的相似性.目前,遗传算法对S ODM的改进主要是在参数算法网络结构方面.

?

1

2

7

1

?

第10期张宾,等:自组织数据挖掘方法研究综述

受此启发,可以设计基于遗传算法的非参数S ODM,比如设计一个分为4部分的染色体,分别表示AC算法中模式的长度、包含变量的个数、模式的个数和模式的组合方式,通过遗传算法得到最优预测.但目前遗传算法与非参数S ODM的结合还没有报道.

316 利用M on te Carlo方法度量G MD H模型的置信度

F.Le mek和Müller注意到:尽管基于已知数据可以得到满意的G MDH模型,但已知数据毕竟只是被研究问题所有数据的一个区间,得到的G MDH模型是否反映了被研究对象的规律性?一般的,数据挖掘的结果(模型)只是有待检验的假设而不是结论[42].文献[43]用Monte Carl o方法估算得到G MDH对于M个变量、N个数据样本过滤噪声的经验公式,然后构造了一个阈值函数Q u=f(M,N),认为模型要超过Q n值才能被认为是反映了数据中的规律.F.Le mek利用这一研究结果,在Knowledge M iner510软件中设计了度量模型置信度的“描述能力”.一般描述能力超过10%即可认为模型有效[44].

317 不同S ODM算法的选择与组合

S ODM的不同算法都是针对应用中的具体问题提出的,除了具有S ODM的基本共性外,应用领域和适用对象都有明显区别.再者,一种建模方法只是对被研究问题某一方面的简化了的分析.因此,针对问题和数据特点选择合适的算法(体系)、综合分析对同一问题的不同模型就很必要.文献[7,45]讨论了如何根据数据噪声特点选择S ODM中的算法,简单讨论了将不同S ODM模型结合进行经济系统组合预测的情况.

4 S ODM改进方向:从数据挖掘到知识发现

数据挖掘应用特定方法从数据中提取模式,但模式不一定就是有用的知识.知识发现则是“得到可靠的、新的、潜在有用的、可被理解的知识的全过程”[46],它由以数据挖掘为中心的3个步骤组成:1)数据预处理,主要明确建模任务和被研究问题、数据的特点;2)数据挖掘;3)模型后处理,主要包括模型解释和模型评价.

对S ODM本身的改进除了关注通过提高S ODM自组织程度以改进算法的适应性外,还包括对被研究问题的预处理:1)如何处理大量数据样本、降低变量维数、过滤噪声;2)如何应用先验知识选择参考函数、数据划分方法和外准则,进而简化建模过程和提高S ODM模型的精度.对S ODM与其他建模技术的结合主要关注得到模型后如何利用模型分析解决问题:1)借鉴S ODM归纳的特点,产生复杂度逐渐增加的变量,用建模中没有用到的新信息选择模型;2)利用S ODM模型容易解释的特点,提高模型的解释能力,如与模拟方法的结合;3)与Monte Carl o方法结合是对模型有效性评价的改进.

因此,对S ODM的改进目的是希望将S ODM 从单纯的数据挖掘技术扩展为知识提取的全过程,提高S ODM解决复杂问题的能力.

5 结论与研究展望

将S ODM从单纯的数据挖掘方法扩展成为考虑了数据预处理、数据挖掘和模型分析的知识提取的全过程,以下问题值得进一步研究:

1)如何协调数据划分、参考函数和外准则,尽快达到外准则的最小值以减少计算时间,最小化外准则的最小值以提高模型的可信度.

2)如何处理变化的数据和知识,使模型保持相对稳定.

3)如何利用数据样本信息和先验知识建立新的参考函数.

4)非参数算法网络结构和外准则的改进.

5)与运筹/管理科学方法的结合,尤其是运筹方法.

6)与信息论相关概念的比较研究.由于G M2 DH与信息论的相似性,这一比较研究有助于深入了解外准则和最优复杂度模型的关系,对设计新的外准则有启发意义.

7)对S OD M模型有效性检验的研究,尤其是对非参数模型的验证.目前研究G MDH模型验证的工作还有文献[44],主要是将模型验证可视化.

8)OS A与系统结构分析技术的结合.OS A从全局出发客观确定系统变量的相互关系[46],可以将OS A模型与解释结构模型、系统动力学、微分方程等系统结构分析技术结合,进一步提高知识发现的水平.

参考文献:

[1]I V AKHNE NK O A G.Heristic self-organizing in p r ob2

le m s of engineering cybernetics[J].Aut omatica,1967, 6:207-219.

[2]AKSE NOVA T I,Y URACHK OVSKY Y P.A character2

izati on at unbiased structure and conditi ons of their J-

op ti m ality[J].Sov J of Aut omati on and I nf or mati on Sci2

?

2

2

7

1

?哈 尔 滨 工 业 大 学 学 报 第38卷 

ences,1988,21:36-42.

[3]贺昌政.自组织数据挖掘理论与经济系统的复杂性

研究[J].系统工程理论与实践,2001,21(12):1-5.

[4]MADALA H R,I V AKHNE NK O A G.I nductive Learn2

ing A lgorith m s f or Comp lex Syste m sModeling[M].Boca Rat on,London,T okyo:CRC Press I nc,1994.

[5]I V AKHNE NK O A G,I V AKHNE NK O G A.The revie w

of p r oble m s s olvable by algorith m s of the gr oup method of data handling(G MDH)[J].Pattern Recogniti on and

I m age Ayalysis,1995,5(4):527-535.

[6]ANAST AS AKI S L,MORT N.The Devel opment of Self

-O rganizati on Techniques in Modeling:A Revie w of the

G MDH[E B/OL].htt p://https://www.wendangku.net/doc/7f1905930.html,/acse/re2

search/students/l.anastasakis/813.pdf.

[7]MΒLLER J A,LE M KE F.Self-organizing DataM ining

[M].Berlin,Ha mburg:L ibri Books,2000.

[8]LE M EK F,MULLER J A.Self-organizing data m ining

[E B/OL].htt p://www.knowledge m https://www.wendangku.net/doc/7f1905930.html,/pdf/

s od m.pdf.

[9]MULLER J A,I V AKHNE NK O G A.Recent Devel op2

ment of Self-O rganaziti onModeling in Predicti on and A2 nalysis of St ock Market[E B/OL].www.g https://www.wendangku.net/doc/7f1905930.html,/arti2 cles/index.ht m l.

[10]STE I GER D M,SHARDA R.Analyzing mathe matical

models with inductive learning net w orks[J].Eur opean Journal of Operati onal Research,1996,93:387-401. [11]田益祥.G MDH调和算法预测模型及应用[J].数量

经济技术经济研究,2000,17(10):66-68.

[12]DUFFY J J,FRANK L I N M A.A learning identificati on

algorith m and its app licati on t o an envir on mental syste m [J].I EEE Transacti ons on Syste m s,M an and Cybernet2 ics,1975,S MC-5(2):226-240.

[13]徐田军,王桂增.G MDH中部分表达式的构成及改

进方法[J].自动化学报,1994,20(4):470-475. [14]WANG X F,L I U D.A recursive algorith m f or G MDH

[J].S AMA,1990,7(7):533-542.

[15]KI N D W,P ARK G T.A Design of E A-based Self-

organizing Polynom ial Nerual Net w orks using Evoluti on2 ary A lgorith m f or Nonlinear System Modelling[E B/OL].

www.g https://www.wendangku.net/doc/7f1905930.html,/articles/algor/s opnn.pdf.

[16]K ONDO T.Logistic G MDH-type neural net w orks and

their app licati on t o the identificati on of the X-ray fil m characteristic curve[A].Pr oceedings of I EEE I nterna2 ti onal Conference on System s,Man and Cybernetics[C].

[s.l.]:[s.n.],1999.

[17]刘伟,田树苞.改进型G MS M建模方法及其应用

[J].自动化学报,1993,19(4):468-471.

[18]BALZER K.Methods and results of inter p retati on of

geopotential f orecast[A].WMO-Sy mposiu m on the I n2 ter p retati on of B r oad Scale NW P Pr oduct f or Local Fore2 casting Pur pose[C].W arsa w:[s.n.],1976.[19]MOT N I K AR B S.Ti m e-series forecasting by pattern

i m itati on[J].OR Spektru m,1996,18(1):43-49.

[20]CHERK ASSKY V,MUL I ER F.Learning fr om Data

[M].New York:J W iley&Sons,1998.

[21]姜丹.信息论与编码[M].合肥:中国科学技术大

学出版社,2001.

[22]劳兰王君.G MDH中部分表达式构成的新方法[J].

中山大学学报论从,1996,5:112-115.

[23]周永权,赵斌.基于HF LANN自组织多项式网络学习

算法[J].计算机研究与发展,2001,38(5):587-590.

[24]S ARYCHE V A P.Stable esti m ati on of the coefficients

in multilayer G MDH algorith m s[J].Soviet Aut omatic Contr ol c/c of Avt omatika,1984,17(5):1-5. [25]Y ARE M E NK O A G.Synthesis of regressi on equati on for

gr oss p r oduct of South Car olina using G MDH alg orith m s [J].Soviet Aut omatic Contr ol c/c of Avt omatika,1974, 7(4):70-73.

[26]T UMANOV N V.A G MDH algorith m with mutually or2

thogonal partial descri p ti ons f or synthesis of polynom ial models of comp lex objects[J].S oviet Aut omatic Contr ol c/c of Avt omatika,1978,11(3):82-84.

[27]I V ANCHE NK O V N.An algorith m of har monic rebina2

rizati on of a data sa mp le[J].Journal of Aut omati on and

I nf or mati on Sciences c/c of Avt omatika,1992,25(3):

77-82.

[28]N I SH I K AWA T,S H I M I Z U S.I dentificati on and fore2

casting in manage ment syste m s using the G MDH method [J].App lied Mathe maticalModelling,1982,6(1):7-

15.

[29]汪徐焱,胡文艳.基于自组织理论的自组织多项式

网络算法[J].系统工程理论与实践,1999,19(4):51 -56.

[30]贺昌政.自组织数据挖掘与人工神经网络方法比较

研究[J].系统工程理论与实践,2002,22(11):11-

14.

[31]MULLER J A.G MDH algorith m s f or comp lex syste m s

modeling[J].M athematical and Computer Modelling of Dyna m ical System s,1998,4(4):275-316.

[32]K ONDO T.G MDH-type neural net w orks with a feed2

back l oop and their app licati on t o the identificati on of large-s patial air poolluti on patterns[A].Pr oceedings of the39the SI CE Annual Conference I nternati onal Sessi on Papers[C].[s.l.]:[s.n.],2000.

[33]I V AKHNE NK O A G.Self-organizati on of neural net2

works with active neur ons[J].Pattern Recogniti on and

I m age Analysis,1994,2:185-196.

[34]I V AKHNE NK O G A.Model-Free Anal ogues A s Ac2

tive Neur ons For Neural Net w ork Self-O rganizati on

[E B/OL].htt p://www.g https://www.wendangku.net/doc/7f1905930.html,/articles/algor/ana2

l ogue.pdf.(下转第1727页)

?

3

2

7

1

?

第10期张宾,等:自组织数据挖掘方法研究综述

当毛细孔内被水溶液充盈时,当混凝土处于负温条件下时,NR溶液可作为热的不良导体,推迟混凝土内部溶液的传热过程,延缓内部溶液的结冰过程,从而使毛细孔内过冷水有充足时间向混凝土内部某些未充水空间转移释放,进而减少因冻结产生的破坏.

当部分毛细孔内部没有被水溶液充盈时,由于溶液NR浓度较大,可能在混凝土毛细孔内部形成一层NR溶液膜,高浓度的NR溶液膜可在一定程度上阻碍外界热向混凝土内部的转移,从而也在一定程度上增强了混凝土的抗冻性.

3 结 论

1)在基本配比相同的情况下,与空白样相比不同NR掺量的可提高冻融后混凝土的抗压强度20%~50%左右,而且NR的加入还使冻融后混凝土的弹模提高显著,一般为空白混凝土弹模的3176~5164倍,即NR在011%~1%较低的最佳掺量下可大幅提高混凝土的抗冻性能.

2)掺NR011%后混凝土的孔结构与空白样的明显不同,主要表现在NR的掺入有效地降低了011~10μm内孔量,而在100~400μm内孔量变化不大.

3)NR改善混凝土抗冻性机理在于它能有效延缓混凝土孔溶液的热质交换与传递过程,使混凝土孔隙溶液达到冰点的时间后移,提高混凝土冻融循环后的结构稳定性,最终提高混凝土抗冻性.

4)NR改善混凝土抗冻性的理论模型描述了混凝土毛细孔内RN溶液对环境介质传热、传质的阻滞作用,即NR溶液处于两种不同充盈状态下都可以起到阻止混凝土与外界的能量(热)的交换的作用,从而起到对混凝土的抗冻性增强作用.

参考文献:

[1]吴中伟,廉慧珍.高性能混凝土[M].北京:中国铁

道出版社,1999.

[2]吴中伟.高性能混凝土(HPC)的发展趋势与问题[J]

建筑技术,1998,29(l):8-13.

[3]重庆建筑工程学院.混凝土学[M].北京:中国建筑

工业出版社,1983.

[4]G OUZ ALEZ L A.A B rief intr oducti on t o matrix compos2

ite materials and technol ogy[J].AD.-A161954.Jour2 nal1981.

[5]P I A TTI G.Advance in Composite M aterials[M].Lon2

don:App lied Science Publishers,1978.

[6]胡曙光.聚合物水泥基复合材料界面增强的机理研

究[D].武汉:武汉工业大学.1992.

[7]马保国.海洋高性能混凝土的研究[D].武汉:武汉

理工大学,2000.

[8]MA B G,DONG R Z,ZHU H B,et a l.I nfluences of a

ne w ad m ixture MX on concrete durability[J].Journal of W uhan University of Technol ogy-Mater Sci Ed,2005, 20(1):117-120.(编辑 姚向红)

(上接第1723页)

[35]MULLER J A.Self-organizing modeling as a part of

si m ulati on p r ocess[J].S AM S,2003,43(10):1283-

1299.

[36]I V AKHE NK O A G,MULLER J A.Para metric and non2

para metric selecti on p r ocedures in experi m ental syste m analysis[J].S AMS,1992,9(5):157-175.

[37]I V AKHNE NK O A G.Objective selecti on of op ti m al

clusterizati on of a data sa mp le during compensati on of non2r obust random interference[J].J of Aut omati on and I nfor mati on Science,1993,26(3):45-56. [38]T AK AGI T,S UGE NO M.Fuzzy identificati on of sys2

te m s and its app licati on t o modelling and contr ol[J].

I EEE Transacti on on Syste m s,Man,and Cybernetics,

1985,15(1):116-132.

[39]F UJ I M OT O K,NAK ABAY ASH I S.App lying G MDH

algorith m t o extract rules fr om examp les[J].S AM S, 2003,43(10):1311-1319.

[40]Z AT CGE NK O Y P,Z AYETS I O.The fuzzy G MDH

and its app licati on t o the tasks of the macr oeconom ic in2

dexes f orcasting[J].S AM S,2003,43(10):1321-

1329.

[41]NAG AS AK A K.Neur o-fuzzy G MDH and its app lica2

ti on t o modelling grinding characteristics[J].J Pr od Res,1995,33(5):1229-1240.

[42]PRANG T.Unsupervised Data M ining in Nom inally-

Supported Databases[E B/OL]https://www.wendangku.net/doc/7f1905930.html,r ma2 tik.uni-osnabrueck.de/~ft p rang/papers/t p r oject/ t p r oject.ht m l.

[43]LE MKE F,MΒLLER J A.Validati on in Self-O rganis2

ing Data M ining[E B/OL].htt p://www.knowledge m i2 https://www.wendangku.net/doc/7f1905930.html,/pdf/validati on.pdf.

[44]K ORD I K P.Modified G MDH model and models quality

evaluati on by visualizati on[J].Contr ol Syste m s and Computers(YCиМ),2003(2):23-28.

[45]俞海.自组织数据挖掘理论方法及经济系统复杂性

研究[D].成都:四川大学,2003.

[46]I V AKHNE NK O A G.Objective syste m analysis of mac2

r oeconom ic syste m s[J].S AM S,1990,1:201-206.

(编辑 刘彤)

?

7

2

7

1

?

第10期马保国,等:天然树脂对混凝土抗冻性能的影响与机理

数据挖掘研究现状综述

数据挖掘 引言 数据挖掘是一门交叉学科,涉及到了机器学习、模式识别、归纳推理、统计学、数据库、高性能计算等多个领域。 所谓的数据挖掘(Data Mining)指的就是从大量的、模糊的、不完全的、随机的数据集合中提取人们感兴趣的知识和信息,提取的对象一般都是人们无法直观的从数据中得出但又有潜在作用的信息。从本质上来说,数据挖掘是在对数据全面了解认识的基础之上进行的一次升华,是对数据的抽象和概括。如果把数据比作矿产资源,那么数据挖掘就是从矿产中提取矿石的过程。与经过数据挖掘之后的数据信息相比,原始的数据信息可以是结构化的,数据库中的数据,也可以是半结构化的,如文本、图像数据。从原始数据中发现知识的方法可以是数学方法也可以是演绎、归纳法。被发现的知识可以用来进行信息管理、查询优化、决策支持等。而数据挖掘是对这一过程的一个综合性应用。

目录 引言 (1) 第一章绪论 (3) 1.1 数据挖掘技术的任务 (3) 1.2 数据挖掘技术的研究现状及发展方向 (3) 第二章数据挖掘理论与相关技术 (5) 2.1数据挖掘的基本流程 (5) 2.2.1 关联规则挖掘 (6) 2.2.2 .Apriori算法:使用候选项集找频繁项集 (7) 2.2.3 .FP-树频集算法 (7) 2.2.4.基于划分的算法 (7) 2.3 聚类分析 (7) 2.3.1 聚类算法的任务 (7) 2.3.3 COBWEB算法 (9) 2.3.4模糊聚类算法 (9) 2.3.5 聚类分析的应用 (10) 第三章数据分析 (11) 第四章结论与心得 (14) 4.1 结果分析 (14) 4.2 问题分析 (14) 4.2.1数据挖掘面临的问题 (14) 4.2.2 实验心得及实验过程中遇到的问题分析 (14) 参考文献 (14)

数据挖掘算法综述

数据挖掘方法综述 [摘要]数据挖掘(DM,DataMining)又被称为数据库知识发现(KDD,Knowledge Discovery in Databases),它的主要挖掘方法有分类、聚类、关联规则挖掘和序列模式挖掘等。 [关键词]数据挖掘分类聚类关联规则序列模式 1、数据挖掘的基本概念 数据挖掘从技术上说是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在的有用的信息和知识的过程。这个定义包括好几层含义: 数据源必须是真实的、大量的、含噪声的、发现的是用户感兴趣的知识, 发现的知识要可接受、可理解、可运用, 并不要求发现放之四海皆准的知识, 仅支持特定的发现问题, 数据挖掘技术能从中自动分析数据进行归纳性推理从中发掘出潜在的数据模式或进行预测, 建立新的业务模型帮助决策者调整策略做出正确的决策。数据挖掘是是运用统计学、人工智能、机器学习、数据库技术等方法发现数据的模型和结构、发现有价值的关系或知识的一门交叉学科。数据挖掘的主要方法有分类、聚类和关联规则挖掘等 2、分类 分类(Classification)又称监督学习(Supervised Learning)。监

督学习的定义是:给出一个数据集D,监督学习的目标是产生一个联系属性值集合A和类标(一个类属性值称为一个类标)集合C的分类/预测函数,这个函数可以用于预测新的属性集合(数据实例)的类标。这个函数就被称为分类模型(Classification Model),或者是分类器(Classifier)。分类的主要算法有:决策树算法、规则推理、朴素贝叶斯分类、支持向量机等算法。 决策树算法的核心是Divide-and-Conquer的策略,即采用自顶向下的递归方式构造决策树。在每一步中,决策树评估所有的属性然后选择一个属性把数据分为m个不相交的子集,其中m是被选中的属性的不同值的数目。一棵决策树可以被转化成一个规则集,规则集用来分类。 规则推理算法则直接产生规则集合,规则推理算法的核心是Separate-and-Conquer的策略,它评估所有的属性-值对(条件),然后选择一个。因此,在一步中,Divide-and-Conquer策略产生m条规则,而Separate-and-Conquer策略只产生1条规则,效率比决策树要高得多,但就基本的思想而言,两者是相同的。 朴素贝叶斯分类的基本思想是:分类的任务可以被看作是给定一个测试样例d后估计它的后验概率,即Pr(C=c j︱d),然后我们考察哪个类c j对应概率最大,便将那个类别赋予样例d。构造朴素贝叶斯分类器所需要的概率值可以经过一次扫描数据得到,所以算法相对训练样本的数量是线性的,效率很高,就分类的准确性而言,尽管算法做出了很强的条件独立假设,但经过实际检验证明,分类的效果还是

总结报告-数据挖掘技术论文开题报告 精品

数据挖掘技术论文开题报告 毕业都是需要进行论文的写作,数据挖掘技术论文的开题报告怎么写?下面是数据挖 掘技术论文开题报告,欢迎阅读! 数据挖掘技术综述 数据挖掘(Data Mining)是一项较新的数据库技术,它基于由日常积累的大量数据所 构成的数据库,从中发现潜在的、有价值的信息——称为知识,用于支持决策。数据 挖掘是一项数据库应用技术,本文首先对数据挖掘进行概述,阐明什么是数据挖掘, 数据挖掘的技术是什么,然后介绍数据挖掘的常用技术,数据挖掘的主要过程, 如何 进行数据挖掘,主要应用领域以及国内外现状分析。 一. 研究背景及意义 近十几年来,随着数据库系统的广泛流行以及计算机技术的快速发展,人们利用信息 技术生产和搜集数据的能力大幅度提高。千万个数据库被用于商业管理、政府办公、 科学研究和工程开发等,特别是网络系统的流行,使得信息爆炸性增长。这一趋势将 持续发展下去。大量信息在给人们带来方便的同时也带来了一大堆的问题:第一是信 息过量,难以消化;第二是信息真假难以辨认;第三是信息安全难以保证;第四是信 息形式不一致,难以统一处理。面对这种状况,一个新的挑战被提出来:如何才能不 被信息的汪洋大海所淹没,从中及时发现有用的知识,提高信息利用率呢?这时出现 了新的技术——数据挖掘(Data Mining)技术便应用而生了。 面对海量的存储数据,如何从中发现有价值的信息或知识,成为一项非常艰巨的任务。数据挖掘就是为迎合这种要求而产生并迅速发展起来的。数据挖掘研究的目的主要是 发现知识、使数据可视化、纠正数据。 二. 概述 1,数据挖掘 数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。这些 数据可以是结构化的,如关系数据库中的数据,也可以是半结构化的,如文本,图形, 图像数据,甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的,也可 以是非数学的,可以是演绎的,也可以是归纳的。发现了的知识可以被用于信息管理、查询优化、决策支持、过程控制等,还可以进行 数据自身的维护。数据挖掘借助了多年来数理统计技术和人工智能以及知识工程等领 域的研究成果构建自己的理论体系,是一个交叉学科领域,可以集成数据数据库、人 工智能、数理统计、可视化、并行计算等技术。 2,数据挖掘技术

GIS技术的研究现状及未来发展趋势.

GIS 技术的研究现状及未来发展趋势 摘要:GIS 是随着计算机技术发展而形成的一门新兴技术,其应用程度和范围也随之渗透、延伸,得到了人们的广泛关注。该文综述了地理信.息的发展现状,从多个角度分析当前 GIS 技术发展存在的不足,并在此基础上研究分析了 GIS 技术的未来发展趋势。 关键词:GIS 研究现状发展趋势 0 引言 随着计算机技术的飞速发展、空间技术的日新月异及计算机图形学理论的日渐完善, GIS(Geographic Information System技术也日趋成熟,并且逐渐被人们所认识和接受。近年来, GIS 被世界各国普遍重视,尤其是“数字地球”概念的提出,使其核心技术 GIS 更为各国政府所关注。目前,以管理空间数据见长的 GIS 已经在全球变化与监测、军事、资源管理、城市规划、土地管理、环境研究、农作物估产、灾害预测、交通管理、矿产资源评价、文物保护、湿地制图以及政府部门等许多领域发挥着越来越重要的作用。当前 GIS 正处于急剧发展和变化之中,研究和总结 GIS 技术发展,对进一步开展 GIS 研究工作具有重要的指导意义。因此,本文就目前 GIS 技术的研究现状及未来发展趋势进行总结和分析。 1 GIS 研究现状及其分析 1.1 GIS研究现状 世纪 90年代以来,由于计算机技术的不断突破以及其它相关理论和技术的完善, GIS 在全球得到了迅速的发展。在海量数据存储、处理、表达、显示及数据共享技术等方面都取得了显著的成效,其概括起来有以下几个方面 [1]:①硬件系统采用服务器 /客户机结构,初步形成了网络化、分布式、多媒体 GIS ; ②在 GIS 的设计中, 提出了采用“开放的 CIS 环境” 的概念, 最终以实现资源共享、数据共享为目标; ③高度重视数据标准化与数据质量的问题, 并已形成一些较为可行的数据标准; ④ 面向对象的数据库管理系统已经问世, 正在发展称之为“对象 --关系 DBMS (数据库

文献综述_数据挖掘

数据挖掘简介 数据挖掘的任务 数据挖掘的任务就是从实例集合中找出容易理解的规则和关系。这些规则可以用于预测未来趋势、评价顾客、评估风险或简单地描述和解释给定的数据。通常数据挖掘的任务包括以下几个部分: 数据总结目的是对数据进行浓缩,给出它的紧凑描述。传统的也是最简单的数据总结方法是计算出数据库的各个字段上的求和值、平均值、方差值等统计值,或者用直方图、饼图等图形方式表示。数据挖掘主要关心从数据泛化的角度来讨论数据总结。数据泛化是一种把数据库中的有关数据从低层次抽象到高层次上的过程。数据泛化目前主要有两种技术:多维数据分析方法和面向属性的归纳方法。 多维数据分析方法是一种数据仓库技术,也称作联机分析处理(OLAP,onLineAnalysisProeess)。数据仓库是面向决策支持的、集成的、稳定的、不同时间的历史数据集合。决策的前提是数据分析。在数据分析中经常要用到诸如求和、总计、平均、最大、最小等汇集操作,这类操作的计算量特别大。因此一种很自然的想法是,把汇集操作结果预先计算并存储起来,以便于决策支持系统使用。存储汇集操作结果的地方称作多维数据库。多维数据分析技术已经在决策支持系统中获得了成功的应用,如著名的SAS数据分析软件包、Businessobject公司的决策支持系统Businessobjeet,以及IBM公司的决策分析工具都使用了多维数据分析技术。 采用多维数据分析方法进行数据总结,它针对的是数据仓库,数据仓库存储的是脱机的历史数据。为了处理联机数据,研究人员提出了一种面向属性的归纳方法。它的思路是,直接对用户感兴趣的数据视图(用一般的SQL查询语言即可获得)进行泛化,而不是像多维数据分析方法那样预先就存储好了泛化数据。方法的提出者对这种数据泛化技术称之为面向属性的归纳方法。原始关系经过泛化操作后得到的是一个泛化关系,它从较高的层次上总结了在低层次上的原始关系。有了泛化关系后,就可以对它进行各种深入的操作而生成满足用户需要的知识,如在泛化关系基础上生成特性规则、判别规则、分类规则,以及关联规则等。数据挖掘的分类 数据挖掘所能发现的知识有如下几种: .广义型知识,反映同类事物共同性质的知识; .特征型知识,反映事物各方面的特征知识; .差异型知识,反映不同事物之间属性差别的知识; .关联型知识,反映事物之间依赖或关联的知识; .预测型知识,根据历史的和当前的数据推测未来数据; .偏离型知识。揭示事物偏离常规的异常现象。 所有这些知识都可以在不同的概念层次上被发现,随着概念树的提升,从微观到中观再到宏观,以满足不同用户、不同层次决策的需要。例如,从一家超市的数据仓库中,可以发现的一条典型关联规则可能是“买面包和黄油的顾客十有八九也买牛奶”,也可能是“买食品的顾客几乎都用信用卡”,这种规则对于商家开发和实施客户化的销售计划和策略是非常有用的。 数据挖掘的方法 数据挖掘并非一个完全自动化的过程。整个过程需要考虑数据的所有因素和其预定的效用,然后应用最佳的数据挖掘方法。数据挖掘的方法很重要。在数据挖掘的领域里.有一点已经被广泛地接受,即不管你选择哪种方法,总存在着某种协定。因此对实际情况,应该具体分析,根据累积的经验和优秀的范例选择最佳的方法。数据挖掘中没有免费的午餐,也没

大数据时代的空间数据挖掘综述

第37卷第7期测绘与空间地理信息 GEOMATICS &SPATIAL INFORMATION TECHNOLOGY Vol.37,No.7收稿日期:2014-01-22 作者简介:马宏斌(1982-),男,甘肃天水人,作战环境学专业博士研究生,主要研究方向为地理空间信息服务。 大数据时代的空间数据挖掘综述 马宏斌1 ,王 柯1,马团学 2(1.信息工程大学地理空间信息学院,河南郑州450000;2.空降兵研究所,湖北孝感432000) 摘 要:随着大数据时代的到来,数据挖掘技术再度受到人们关注。本文回顾了传统空间数据挖掘面临的问题, 介绍了国内外研究中利用大数据处理工具和云计算技术,在空间数据的存储、管理和挖掘算法等方面的做法,并指出了该类研究存在的不足。最后,探讨了空间数据挖掘的发展趋势。关键词:大数据;空间数据挖掘;云计算中图分类号:P208 文献标识码:B 文章编号:1672-5867(2014)07-0019-04 Spatial Data Mining Big Data Era Review MA Hong -bin 1,WANG Ke 1,MA Tuan -xue 2 (1.Geospatial Information Institute ,Information Engineering University ,Zhengzhou 450000,China ; 2.Airborne Institute ,Xiaogan 432000,China ) Abstract :In the era of Big Data ,more and more researchers begin to show interest in data mining techniques again.The paper review most unresolved problems left by traditional spatial data mining at first.And ,some progress made by researches using Big Data and Cloud Computing technology is introduced.Also ,their drawbacks are mentioned.Finally ,future trend of spatial data mining is dis-cussed. Key words :big data ;spatial data mining ;cloud computing 0引言 随着地理空间信息技术的飞速发展,获取数据的手 段和途径都得到极大丰富,传感器的精度得到提高和时空覆盖范围得以扩大,数据量也随之激增。用于采集空间数据的可能是雷达、红外、光电、卫星、多光谱仪、数码相机、成像光谱仪、全站仪、天文望远镜、电视摄像、电子 显微镜、CT 成像等各种宏观与微观传感器或设备,也可能是常规的野外测量、人口普查、土地资源调查、地图扫描、 地图数字化、统计图表等空间数据获取手段,还可能是来自计算机、 网络、GPS ,RS 和GIS 等技术应用和分析空间数据。特别是近些年来,个人使用的、携带的各种传感器(重力感应器、电子罗盘、三轴陀螺仪、光线距离感应器、温度传感器、红外线传感器等),具备定位功能电子设备的普及,如智能手机、平板电脑、可穿戴设备(GOOGLE GLASS 和智能手表等),使人们在日常生活中产生了大量具有位置信息的数据。随着志愿者地理信息(Volunteer Geographic Information )的出现,使这些普通民众也加入到了提供数据者的行列。 以上各种获取手段和途径的汇集,就使每天获取的 数据增长量达到GB 级、 TB 级乃至PB 级。如中国遥感卫星地面站现在保存的对地观测卫星数据资料达260TB ,并以每年15TB 的数据量增长。比如2011年退役的Landsat5卫星在其29年的在轨工作期间,平均每年获取8.6万景影像,每天获取67GB 的观测数据。而2012年发射的资源三号(ZY3)卫星,每天的观测数据获取量可以达到10TB 以上。类似的传感器现在已经大量部署在卫 星、 飞机等飞行平台上,未来10年,全球天空、地空间部署的百万计传感器每天获取的观测数据将超过10PB 。这预示着一个时代的到来,那就是大数据时代。大数据具有 “4V ”特性,即数据体量大(Volume )、数据来源和类型繁多(Variety )、数据的真实性难以保证(Veracity )、数据增加和变化的速度快(Velocity )。对地观测的系统如图1所示。 在这些数据中,与空间位置相关的数据占了绝大多数。传统的空间知识发现的科研模式在大数据情境下已经不再适用,原因是传统的科研模型不具有普适性且支持的数据量受限, 受到数据传输、存储及时效性需求的制约等。为了从存储在分布方式、虚拟化的数据中心获取信息或知识,这就需要利用强有力的数据分析工具来将

空间聚类的研究现状及其应用_戴晓燕

空间聚类的研究现状及其应用* 戴晓燕1 过仲阳1 李勤奋2 吴健平1 (1华东师范大学教育部地球信息科学实验室 上海 200062) (2上海市地质调查研究院 上海 200072) 摘 要 作为空间数据挖掘的一种重要手段,空间聚类目前已在许多领域得到了应用。文章在对已有空间聚类分析方法概括和总结的基础上,结合国家卫星气象中心高分辨率有限区域分析预报系统产品中的数值格点预报(HLAFS)值,运用K-均值法对影响青藏高原上中尺度对流系统(MCS)移动的散度场进行了研究,得到了一些有意义的结论。 关键词 空间聚类 K-均值法 散度 1 前言 随着GPS、GI S和遥感技术的应用和发展,大量的与空间有关的数据正在快速增长。然而,尽管数据库技术可以实现对空间数据的输入、编辑、统计分析以及查询处理,但是无法发现隐藏在这些大型数据库中有价值的模式和模型。而空间数据挖掘可以提取空间数据库中隐含的知识、空间关系或其他有意义的模式等[1]。这些模式的挖掘主要包括特征规则、差异规则、关联规则、分类规则及聚类规则等,特别是聚类规则,在空间数据的特征提取中起到了极其重要的作用。 空间聚类是指将数据对象集分组成为由类似的对象组成的簇,这样在同一簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大,即相异度较大。作为一种非监督学习方法,空间聚类不依赖于预先定义的类和带类标号的训练实例。由于空间数据库中包含了大量与空间有关的数据,这些数据来自不同的应用领域。例如,土地利用、居住类型的空间分布、商业区位分布等。因此,根据数据库中的数据,运用空间聚类来提取不同领域的分布特征,是空间数据挖掘的一个重要部分。 空间聚类方法通常可以分为四大类:划分法、层次法、基于密度的方法和基于网格的方法。算法的选择取决于应用目的,例如商业区位分析要求距离总和最小,通常用K-均值法或K-中心点法;而对于栅格数据分析和图像识别,基于密度的算法更合适。此外,算法的速度、聚类质量以及数据的特征,包括数据的维数、噪声的数量等因素都影响到算法的选择[2]。 本文在对已有空间聚类分析方法概括和总结的基础上,结合国家卫星气象中心高分辨率有限区域分析预报系统产品中的数值格点预报(HLAFS)值,运用K-均值法对影响青藏高原上中尺度对流系统(MCS)移动的散度场进行了研究,得到了一些有意义的结论。 2 划分法 设在d维空间中,给定n个数据对象的集合D 和参数K,运用划分法进行聚类时,首先将数据对象分成K个簇,使得每个对象对于簇中心或簇分布的偏离总和最小[2]。聚类过程中,通常用相似度函数来计算某个点的偏离。常用的划分方法有K-均值(K-means)法和K-中心(K-medoids)法,但它们仅适合中、小型数据库的情形。为了获取大型数据库中数据的聚类体,人们对上述方法进行了改进,提出了K-原型法(K-prototypes method)、期望最大法EM(Expectation Maximization)、基于随机搜索的方法(ClAR ANS)等。 K-均值法[3]根据簇中数据对象的平均值来计算 ——————————————— *基金项目:国家自然科学基金资助。(资助号: 40371080) 收稿日期:2003-7-11 第一作者简介:戴晓燕,女,1979年生,华东师范大学 地理系硕士研究生,主要从事空间数 据挖掘的研究。 · 41 · 2003年第4期 上海地质 Shanghai Geology

数据挖掘在中国的现状和发展研究

数据挖掘在中国的现状和发展研究 导读:本文以科学引文索引数据库(SCI)、工程索引数据库(EI)以及清华全文数据库(CNKI)中有关“数据挖掘”研究文章的统计数据为研究基础,对数据挖掘在我国研究的总体趋势、研究热点、研究分支三个方面进行分析和研究。本文分析了数据挖掘在我国的发展,并对进一步发展我国数据挖掘的理论研究和实际应用提出了建议。 关键字:数据挖掘 0 引言 近年来,随着计算机对数据的生成、收集、存贮和处理能力的大大提高,数据量与日俱增,传统的数据分析工具对海量数据的处理力不从心,数据挖掘技术应运而生。 中国科研工作者近几年来积极开展了对数据挖掘的研究,并在理论研究和实际应用上取得了一定的成绩,但是有关数据挖掘的成功应用还比较少。本文通过对中国有关数据挖掘研究文章数量的统计,对数据挖掘在中国发展的现状及发展趋势进行分析和研究,通过分析有关论文的发表,对数据挖掘在中国的理论研究和实际应用提出建议。 1 数据挖掘的应用与研究发展 数据挖掘是指从存放在数据库、数据仓库或其他信息库中的大量数据中挖掘有用知识的过程。数据挖掘是一门新兴的边缘学科,近年来引起了中国学术界和产业界的广泛关注。 数据挖掘出现于20世纪80年代后期,90年代有了突飞猛进的发展。2001年,Gartner Group的一次高级技术调查将数据挖掘和人工智能列为“未来三到五年内将对工业产生深远影响的五大关健技术”之首,并且还将并行处理体系和数据挖掘列为未来五年内投资焦点的十大新兴技术前两位。美国麻省理工学院在2001年1月份的《科技评论》(Technology Review)提出将在未来5年对人类产生重大影响的10大新兴技术,其中第3项就是数据挖掘。 数据挖掘技术已被广泛的应用于各个领域,其中一些典型应用如加州理工学院喷气推进实验室与天文科学家合作开发的SKICAT系统,能够帮助天文学家发现遥远的类星体,是人工智能技术在天文学和空间科学上的第一批成功应用之一;生物学研究中用数据挖掘技术对DNA进行分析利用数据挖掘技术识别顾客的购买行为模式,对客户进行了分析;对银行或商业上经常发生的诈骗行为进行预测IBM公司

数据挖掘课程论文综述

海南大学 数据挖掘论文 题目:股票交易日线数据挖掘 学号:20100602310002 姓名: 专业:10信管 指导老师: 分数:

目录 目录 (2) 1. 数据挖掘目的 (3) 2.相关基础知识 (3) 2.1 股票基础知识 (3) 2.2 数据挖掘基础知识 (4) 2.2.2数据挖掘的任务 (5) 3.数据挖掘方案 (6) 3.1. 数据挖掘软件简介 (6) 3.2. 股票数据选择 (7) 3.3. 待验证的股票规律 (7) 4. 数据挖掘流 (8) 4.1数据挖掘流图 (8) 4.2规律验证 (9) 4.2.2规律2验证 (10) 4.2.3规律三验证 (12) 4.3主要节点说明 (14) 5.小结 (15)

1.数据挖掘目的 数据挖掘的目的就是得出隐藏在数据中的有价值的信息,发现数据之间的内在联系与规律。对于本次数据挖掘来说,其目的就是学会用clementine对股票的历史数据进行挖掘,通过数据的分析,找出存在股票历史数据中的规律,或者验证已存在的股票规律。同时也加深自己对股票知识的了解和对clementine软件的应用能力。为人们决策提供指导性信息,为公司找出其中的客户为公司带来利润的规律,如二八原则、啤酒与尿布的现象等。 2.相关基础知识 2.1 股票基础知识 2.1.1 股票 是一种有价证券,是股份公司在筹集资本时向出资人公开或私下发行的、用以证明出资人的股本身份和权利,并根据持有人所持有的股份数享有权益和承担义务的凭证。股票代表着其持有人(股东)对股份公司的所有权,每一股同类型股票所代表的公司所有权是相等的,即“同股同权”。股票可以公开上市,也可以不上市。在股票市场上,股票也是投资和投机的对象。对股票的某些投机炒作行为,例如无货沽空,可以造成金融市场的动荡。 2.1.2 开盘价 开盘价又称开市价,是指某种证券在证券交易所每个交易日开市后的第一笔买卖成交价格。世界上大多数证券交易所都采用成交额最大原则来确定开盘价。 2.1.3 收盘价 收盘价是指某种证券在证券交易所一天交易活动结束前最后一笔交易的成交价格。如当日没有成交,则采用最近一次的成交价格作为收盘价,因为收盘价是当日行情的标准,又是下一个交易日开盘价的依据,可据以预测未来证券市场行情;所以投资者对行情分析时,一般采用收盘价作为计算依据。

基于matlab的数据挖掘技术研究【文献综述】

毕业论文文献综述 信息与计算科学 基于matlab的数据挖掘技术研究 数据挖掘是用于大规模数据处理的一种新的思维方式和技术手段,他是在现实生活中各种数据量呈指数级不断增长,以及以数据库(database)技术为核心的信息技术逐渐成熟的背景下产生的。数据挖掘可以帮助用户发现影藏在大型数据库中的规律和模式,它融合了人工智能(artificial intelligence)、统计(statistics)、机器学习(nachine learning)、模式识别(pattern recognition)和数据库等多种学科的理论、方法与技术,已经在商业、企业、政府、科研及体育等多种不同类型的组织机构和领域中获得了非常广泛的应用。即使在日常生活中,数据挖掘技术也已经潜移默化地参与到人们的生活质量改善过程中。 数据挖掘有很多种技术和计算方法,包括决策树方法(decision tree)、人工神经网络方法(artificial neural metwork,ANN)、聚类分析、模糊集合方法、遗传算法(genetic algorithm)、模拟退火算法(simulated annealing,SA)、进化式程序设计(evolutionary programming)等。这里主要介绍一下聚类分析、遗传算法和人工神经网络算法。 聚类分析也称无监督学习,或无教师学习,或无指导学习,因为和分类学习相比,聚类的样本没有标记,需要由聚类学习算法来自动确定。聚类分析是研究如何在没有训练的条件下把样本划分为若干。聚类(clustering)是对物理的或抽象的样本集合分组的过程。聚类分析有很多种目标,但都涉及把一个样本集合分组或分割为子集或簇(cluster)。从统计学的观点看,聚类分析是通过数据建模简化数据的一种方法。聚类分析主要针对的数据类型包括区间标度变量、二值变量、标称变量、序数型变量、比例标度型变量以及由这些变量类型构成的复合类型。聚类算法应具有以下几个特点:1处理不同字段类型的能力;2可伸缩性;3处理高维数据的能力;4发现具有任意簇的形状的族类能力;5能够处理异常数据;6对数据顺序的不敏感性;7输入参数对领域知识的弱依赖性;8聚类结果的可解释性和实用性;9增加限制条件后的聚类分析能力。 基因算法起源于对生物系统进行的计算机模拟研究,是一种受生物进化启发,使用计算机模拟生物进化的学习方法。基因算法是模拟生物进化过程的计算模型,是自然遗传学与计算机科学互相结合、互相渗透而形成的新的计算方法。基因算法的最大优点是问题求解与初始条件无关,搜索最优解的能力极强。从数学的角度看,基因算法是一种概率型搜索算法:从工程学角度看,它是一种自适应的迭代寻优过程。基因算法需要完成两种数据转换,算法实施之前进行从表现型到基因型的转换,即将搜索空间中的参数或可行解转化成遗传空间中的染色体或个体,完成编码操作;在算法

数据挖掘文献综述

湘潭大学 本科生专业文献综述 题目: 数据挖掘文献综述 姓名: 林勇 学院: 信心工程学院学院 专业: 自动化 班级: 一班 学号: 2010550113 指导教师: 张莹

0前言 随着计算机技术的迅猛发展,人类正在步入信息社会。面对今天浩如烟海的信息,如何帮助人们有效地收集和选择所感兴趣的信息,更关键的是如何帮助用户在日益增多的信息中自动发现新的概念并自动分析它们之间的关系,使之能够真正地做到信息处理的自动化,这已成为信息技术领域的热点问题。数据挖掘就是为满足这种要求而产生并迅速发展起来的,可用于开发信息资源的一种新的数据处理技术。 1什么是数据挖掘 数据挖掘(Data Mining),也叫数据开采,数据采掘等,是按照既定的业务目标从海量数据中提取出潜在、有效并能被人理解的模式的高级处理过程。在较浅的层次上,它利用现有数据库管理系统的查询、检索及报表功能,与多维分析、统计分析方法相结合,进行联机分析处理,从而得出可供决策参考的统计分析数据。在深层次上,则从数据库中发现前所未有的、隐含的知识。OLAF'的出现早于数据挖掘,它们都是从数据库中抽取有用信息的方法,就决策支持的需要而言两者是相辅相成的。OLAP可以看作一种广义的数据挖掘方法,它旨在简化和支持联机分析,而数据挖掘的目的是便这一过程尽可能自动化。数据挖掘基于的数据库类型主要有:关系型数据库、面向对象数据库、事务数据库、演绎数据库、时态数据库、多媒体数据库、主动数据库、空间数据库、遗留数据库、异质数据库、文本型、Internet信息库以及新兴的数据仓库(Data Warehouse)等。而挖掘后获得的知识包括关联规则、特征规则、区分规则、分类规则、总结规则、偏差规则、聚类规则、模式分析及趋势分析等。 1.1 数据挖掘的任务 数据挖掘的两个高层目标是预测和描述。前者指用一些变量或数据库的若干已知字段预测其它感兴趣的变量或字段的未知的或未来的值;后者指找到描述数据的可理解模式。根据发现知识的不同,我们可以将数据挖掘任务归纳为以下几类: (1)特征规则。从与学习任务相关的一组数据中提取出关于这些数据的特征式,这些特征式表达了该数据集的总体特征.例如可以从某种疾病的症状中提取

数据挖掘综述

数据挖掘综述 1、产生背景 随着计算机的产生和大量数字化的存储方法的出现,我们借助计算机来收集和分类各种数据资料,但是不同存储结构存放的大量数据集合很快被淹没,便导致了结构化数据库以及DBMS的产生。 但是随着信息时代的到来,信息量远远超过了我们所能处理的范围,从商业交易数据、科学资料到卫星图片、文本报告和军事情报,以及生活中各种信息,这也就是“数据爆炸但知识贫乏”的网络时代,面对巨大的数据资料,出现了新的需求,希望能够更好的利用这些数据,进行更高层次的分析,从这些巨大的数据中提取出对我们有意义的数据,这就是知识发现(KDD,Knowledge Discovery in Databases),数据挖掘应运而生。 2、数据库系统技术的演变 1)20世纪60年代和更早 这个时期是数据收集和数据库创建的过程,原始文件的处理2)20世纪70年代---80年代初期 有层次性数据库、网状数据库、关系数据库系统 3)20世纪80年代中期—现在 高级数据库系统,可以应用在空间、时间的、多媒体的、主动的、流的和传感器的、科学的和工程的。 4)20世纪80年代后期—现在

高级数据分析:数据仓库和数据挖掘 5)20世纪90年代—现在 基于web的数据库,与信息检索和数据信息的集成6)现在---将来 新一代的集成数据域信息系统 3、数据挖掘概念 数据挖掘(Data Mining),就是从大量数据中获取有效的、新颖的、潜在的有用的,最终可以理解的模式的非平凡过程。数据挖掘,又称为数据库中知识发现(KDD,Knowledge Discovery in Databases),也有人把数据挖掘作为数据库中知识发现过程的一个基本步骤。 数据挖掘基于的数据库类型主要有:关系型数据库、面向对象数据库、事务数据库、演绎数据库、时态数据库、多媒体数据库、主动数据库、空间数据库、遗留数据库、异质数据库、文本型、Internet信息库以及新兴的数据仓库等。 4、数据挖掘特点和任务 4.1数据挖掘具有以下几个特点: 1)处理的数据规模十分庞大,达到GB,TB数量级,甚至更大2)查询一般是决策制定者(用户)提出的即时随机查询,往往不能形成精确的查询要求,需要靠系统本身寻找其可能感兴 趣的东西。 3)在一些应用(如商业投资等)中,由于数据变化迅速,因此

数据挖掘中的软计算方法及应用综述

摘要文章对数据挖掘中软计算方法及应用作了综述。对模糊逻辑、遗传算法、神经网络、粗集等软计算方法,以及它们的混合算法的特点进行了分析,并对它们在数据挖掘中的应用进行了分类。 关键词数据挖掘;软计算;模糊逻辑;遗传算法;神经网络;粗集 1 引言 在过去的数十年中,随着计算机软件和硬件的发展,我们产生和收集数据的能力已经迅速提高。许多领域的大量数据集中或分布的存储在数据库中[1][2],这些领域包括商业、金融投资业、生产制造业、医疗卫生、科学研究,以及全球信息系统的万维网。数据存储量的增长速度是惊人的。大量的、未加工的数据很难直接产生效益。这些数据的真正价值在于从中找出有用的信息以供决策支持。在许多领域,数据分析都采用传统的手工处理方法。一些分析软件在统计技术的帮助下可将数据汇总,并生成报表。随着数据量和多维数据的进一步增加,高达109的数据库和103的多维数据库已越来越普遍。没有强有力的工具,理解它们已经远远超出了人的能力。所有这些显示我们需要智能的数据分析工具,从大量的数据中发现有用的知识。数据挖掘技术应运而生。 数据挖掘就是指从数据库中发现知识的过程。包括存储和处理数据,选择处理大量数据集的算法、解释结果、使结果可视化。整个过程中支持人机交互的模式[3]。数据挖掘从许多交叉学科中得到发展,并有很好的前景。这些学科包括数据库技术、机器学习、人工智能、模式识别、统计学、模糊推理、专家系统、数据可视化、空间数据分析和高性能计算等。数据挖掘综合以上领域的理论、算法和方法,已成功应用在超市、金融、银行[4]、生产企业 [5]和电信,并有很好的表现。 软计算是能够处理现实环境中一种或多种复杂信息的方法集合。软计算的指导原则是开发利用那些不精确性、不确定性和部分真实数据的容忍技术,以获得易处理、鲁棒性好、低求解成本和更好地与实际融合的性能。通常,软计算试图寻找对精确的或不精确表述问题的近似解[6]。它是创建计算智能系统的有效工具。软计算包括模糊集、神经网络、遗传算法和粗集理论。 2 数据挖掘中的软计算方法 目前,已有多种软计算方法被应用于数据挖掘系统中,来处理一些具有挑战性的问题。软计算方法主要包括模糊逻辑、神经网络、遗传算法和粗糙集等。这些方法各具优势,它们是互补的而非竞争的,与传统的数据分析技术相比,它能使系统更加智能化,有更好的可理解性,且成本更低。下面主要对各种软计算方法及其混合算法做系统性的阐述,并着重强调它们在数据挖掘中的应用情况。 2.1 模糊逻辑 模糊逻辑是1965年由泽德引入的,它为处理不确定和不精确的问题提供了一种数学工具。模糊逻辑是最早、应用最广泛的软计算方法,模糊集技术在数据挖掘领域也占有重要地位。从数据库中挖掘知识主要考虑的是发现有兴趣的模式并以简洁、可理解的方式描述出来。模糊集可以对系统中的数据进行约简和过滤,提供了在高抽象层处理的便利。同时,数据挖掘中的数据分析经常面对多种类型的数据,即符号数据和数字数据。nauck[7]研究了新的算法,可以从同时包含符号数据和数字数据中生成混合模糊规则。数据挖掘中模糊逻辑主要应用于以下几个方面: (1)聚类。将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程被称为聚类。聚类分析是一种重要的人类行为,通过聚类,人能够识别密集的和稀疏的区域,因而发现全局的分布模式,以及数据属性之间有趣的关系。模糊集有很强的搜索能力,它对发现的结构感兴趣,这会帮助发现定性或半定性数据的依赖度。在数据挖掘中,这种能力可以帮助

数据挖掘分类算法研究综述终板

数据挖掘分类算法研究综述 程建华 (九江学院信息科学学院软件教研室九江332005 ) 摘要:随着数据库应用的不断深化,数据库的规模急剧膨胀,数据挖掘已成为当今研究的热点。特别是其中的分类问题,由于其使用的广泛性,现已引起了越来越多的关注。对数据挖掘中的核心技术分类算法的内容及其研究现状进行综述。认为分类算法大体可分为传统分类算法和基于软计算的分类法两类。通过论述以上算法优缺点和应用范围,研究者对已有算法的改进有所了解,以便在应用中选择相应的分类算法。 关键词:数据挖掘;分类;软计算;算法 1引言 1989年8月,在第11届国际人工智能联合会议的专题研讨会上,首次提出基于数据库的知识发现(KDD,Knowledge DiscoveryDatabase)技术[1]。该技术涉及机器学习、模式识别、统计学、智能数据库、知识获取、专家系统、数据可视化和高性能计算等领域,技术难度较大,一时难以应付信息爆炸的实际需求。到了1995年,在美国计算机年会(ACM)上,提出了数据挖掘[2](DM,Data Mining)的概念,由于数据挖掘是KDD过程中最为关键的步骤,在实践应用中对数据挖掘和KDD这2个术语往往不加以区分。 基于人工智能和信息系统,抽象层次上的分类是推理、学习、决策的关键,是一种基础知识。因而数据分类技术可视为数据挖掘中的基础和核心技术。其实,该技术在很多数据挖掘中被广泛使用,比如关联规则挖掘和时间序列挖掘等。因此,在数据挖掘技术的研究中,分类技术的研究应当处在首要和优先的地位。目前,数据分类技术主要分为基于传统技术和基于软计算技术两种。 2传统的数据挖掘分类方法 分类技术针对数据集构造分类器,从而对未知类别样本赋予类别标签。在其学习过程中和无监督的聚类相比,一般而言,分类技术假定存在具备环境知识和输入输出样本集知识的老师,但环境及其特性、模型参数等却是未知的。 2.1判定树的归纳分类 判定树是一个类似流程图的树结构,其中每个内部节点表示在一个属性上的测试,每个分支代表一个测试输出,而每个树叶节点代表类或类分布。树的最顶层节点是根节点。由判定树可以很容易得到“IFTHEN”形式的分类规则。方法是沿着由根节点到树叶节点的路径,路径上的每个属性-值对形成“IF”部分的一个合取项,树叶节点包含类预测,形成“THEN”部分。一条路径创建一个规则。 判定树归纳的基本算法是贪心算法,它是自顶向下递归的各个击破方式构造判定树。其中一种著名的判定树归纳算法是建立在推理系统和概念学习系统基础上的ID3算法。 2.2贝叶斯分类 贝叶斯分类是统计学的分类方法,基于贝叶斯公式即后验概率公式。朴素贝叶斯分类的分类过程是首先令每个数据样本用一个N维特征向量X={X1,X2,?X n}表示,其中X k是属性A k的值。所有的样本分为m类:C1,C2,?,C n。对于一个类别的标记未知的数据记录而言,若P(C i/X)>P(C j/X),1≤ j≤m,j≠i,也就是说,如果条件X下,数据记录属于C i类的概率大于属于其他类的概率的话,贝叶斯分类将把这条记录归类为C i类。 建立贝叶斯信念网络可以被分为两个阶段。第一阶段网络拓扑学习,即有向非循环图的——————————————————— 作者简介:程建华(1982-),女,汉族,江西九江,研究生,主要研究方向为数据挖掘、信息安全。

数据挖掘技术及应用综述

作者简介:韩少锋,男,1980年生,中北大学在读硕士研究生。研究方向:人工智能技术。 引言 “人类正被信息淹没,却饥渴于知识.”这是1982年 趋势大师JohnNaisbitt的首部著作《大趋势》(Mega-trends)中提到的。 随着数据库技术的迅速发展,如何从含有海量信息的数据库中提取更有价值、更直观的信息和知识?人们结合统计学﹑数据库﹑机器学习﹑神经网络﹑模式识别﹑模糊数学﹑粗糙集理论等技术,提出‘数据挖掘’这一新的数据处理技术来解决这一难题。数据挖掘(DataMining)就是从大量的﹑不完全的﹑有噪声的﹑模糊的﹑随机的数据中,提取隐含在其中的﹑人们事先不知道的﹑但又是潜在的有用的信息和知识的过程。这些数据可以是:结构化的,半结构化的,分布在网络上的异构性数据。数据挖掘在许多领域得到了成功的应用,使数据库技术进入了一个更高级的发展阶段,很多专题会议也把数据挖掘和知识发现列为议题之一。 1数据挖掘技术概述 1.1数据挖掘的概念 数据挖掘的概念有多种描述,最常见的有两种:(1)G.PiatetskyShapior,W.J.Frawley数据挖掘定义为:从数据库的大量数据中揭示出隐含的、先进而未知的、潜在有用信息的频繁过程。(2)数据挖掘的广义观点:数据挖掘是从存放在数据库、数据仓库或其他信息库中的大量数据中挖掘有趣知识的过程。数据挖掘的特点有:1)用户需要借助数据挖掘技术从大量的信息中找到感兴趣的信息;2)处理的数据量巨大;3)要求对数据的变化做出及时的响应;4)数据挖掘既要发现潜在的规则,也要管理和维护规则,规则的改变随着新数据的不断更新而更新;5)数据挖掘规则的发现基于统计规律,发现的规则不必适用于全部的数据。 数据挖掘要面对的是巨大的信息来源;通过数据挖 掘,有价值的知识、规则或高层次的信息就能从数据库的相关数据集合中抽取出来,并从不同角度显示,从而使大型数据库作为一个丰富可靠的资源为知识归纳服务。 1.2数据挖掘的简史 从数据库中知识发现(KDD)一词首先出现在1989 年举行的第十一届国际联合人工智能学术会议上。目前为止,由美国人工智能协会主办的KDD国际研讨会已经召开了8次,规模由原来的专题讨论会发展到国际学术大会,研究重点也从发现方法转向系统应用。1999年,亚太地区在北京召开的第三届PAKDD会议收到158篇论文,研讨空前热烈。 目前,数据挖掘技术在零售业的购物篮分析﹑金融风险预测﹑产品质量分析﹑通讯及医疗服务﹑基因工程研究等许多领域得到了成功的应用。 1.3数据挖掘的对象 数据挖掘的对象包含大量数据信息的各种类型数 据库。如关系数据库,面向对象数据库等,文本数据数据源,多媒体数据库,空间数据库,时态数据库,以及 Internet等类型数据或信息集均可作为数据挖掘的对 象。 1.4数据挖掘的工具 许多软件公司和研究机构,根据商业的实际需要 开发出许多数据挖掘工具。例如:有多种数据操控和转换特点的SASEnterpriseMiner;采用决策树、神经网络和聚类技术综合的数据挖掘工具集-IBMInterlligentMiner;可以提供多种统计分析、 决策树和回归方法,在Teradata数据库管理系统上原地挖掘的Teradata WarehouseMiner;以及同时具有数据管理和数据概括能力,能够用于多种商业平台的SPSSClementine。以上 主流数据挖掘工具都能提供常用的挖掘过程和挖掘模 数据挖掘技术及应用综述 韩少锋 陈立潮 (中北大学计算机科学与技术系 山西 太原 030051) 【摘要】介绍了数据挖掘技术的背景、概念、流程、数据挖掘算法,并阐述了数据挖掘技术的应用现状。 【关键词】数据挖掘 知识发现 人工智能 数据仓库 【中图分类号】TP311.138 【文献标识码】B 【文章编号】1003-773X(2006)02-0023-02 第2期(总第89期)机械管理开发 2006年4月No.2(SUMNo.89)MECHANICALMANAGEMENTANDDEVELOPMENT Apr.2006 23??

相关文档