文档库 最新最全的文档下载
当前位置:文档库 › 数据结构与应用统计学关系

数据结构与应用统计学关系

数据结构与应用统计学关系

数据挖掘与应用统计学的关系

一、数据挖掘是众多学科与统计学学科交叉产生的一门新兴学科

数据挖掘,顾名思义就是从大量的数据中挖掘出有用的信息。DM(数据挖掘)是揭示存

在于数据里的模式及数据间的关系的学科,它强调对大量观测到的数据库的处理。它是涉及数据库管理,人工智能,机器学习,模式识别,及数据可视化等学科的边缘学科。

二、数据挖掘与统计学的共同特征

2.1统计学和数据挖掘有着共同的目标:发现数据中的结构。

数据挖掘与统计学一样包含了大量的数学模型,都试图通过对数据的描述,建立模型找出数据之间的关系,从而解决商业问题。

2.2数据挖掘与统计学,有共用模型线性回归、logistic 回归、聚类、时间序列、主成分分析等模型是统计学与数据挖掘共用的模型。

三、数据挖掘与统计学的不同之处

3.1 领个学科所用的思想不一样

数据挖掘还应用了其它领域的思想、工具和方法,尤其是计算机学科,例如数据库技术和机器学习,而且它所关注的某些领域和统计学家所关注的有很大不同。它比较注重经验,认为不一定要有精确的理论支撑,只要是有用的,能够解决问题的方式,都可以用来处理数据。而统计学是一门比较保守的学科,所沿用的模型一定要强调有理论依据(数学原理或经济学理论) 3.2 处理数据量不一样,统计分析是以样本推断总体。统计学通常使用样本数据,通过对样本数据的估计来估算总体变量。数据挖掘使用的往往是总体数据。数据挖掘由于采用了数据库原理和计算机技术,它可以处理大数据量,并且使大数据量的获得成为了可能,它往往处理的数据量高达上G,甚至有些达到了TB级别。3.3 发现的知识方式不一样

数据挖掘发现的知识可能是非预期的。很多情况下,数据挖掘的本质是很偶然的发现非预期但很有价值的信息。这说明数据挖掘过程本质上是实验性的。这和确定性的分析是不同的。统计学强调确定性分析。确定性分析着眼于寻找一个最适合的模型——建立一个推荐模型,这个模型也许不能很好的解释观测到的数据。

相关文档