当前位置：文档库 › 数据结构与应用统计学关系

数据结构与应用统计学关系

数据挖掘与应用统计学的关系

一、数据挖掘是众多学科与统计学学科交叉产生的一门新兴学科

数据挖掘，顾名思义就是从大量的数据中挖掘出有用的信息。DM（数据挖掘）是揭示存

在于数据里的模式及数据间的关系的学科，它强调对大量观测到的数据库的处理。它是涉及数据库管理，人工智能，机器学习，模式识别，及数据可视化等学科的边缘学科。

二、数据挖掘与统计学的共同特征

2.1统计学和数据挖掘有着共同的目标：发现数据中的结构。

数据挖掘与统计学一样包含了大量的数学模型，都试图通过对数据的描述，建立模型找出数据之间的关系，从而解决商业问题。

2.2数据挖掘与统计学，有共用模型线性回归、logistic 回归、聚类、时间序列、主成分分析等模型是统计学与数据挖掘共用的模型。

三、数据挖掘与统计学的不同之处

3.1 领个学科所用的思想不一样

数据挖掘还应用了其它领域的思想、工具和方法，尤其是计算机学科，例如数据库技术和机器学习，而且它所关注的某些领域和统计学家所关注的有很大不同。它比较注重经验，认为不一定要有精确的理论支撑，只要是有用的，能够解决问题的方式，都可以用来处理数据。而统计学是一门比较保守的学科，所沿用的模型一定要强调有理论依据（数学原理或经济学理论） 3.2 处理数据量不一样，统计分析是以样本推断总体。统计学通常使用样本数据，通过对样本数据的估计来估算总体变量。数据挖掘使用的往往是总体数据。数据挖掘由于采用了数据库原理和计算机技术，它可以处理大数据量，并且使大数据量的获得成为了可能，它往往处理的数据量高达上G,甚至有些达到了TB级别。3.3 发现的知识方式不一样

数据挖掘发现的知识可能是非预期的。很多情况下，数据挖掘的本质是很偶然的发现非预期但很有价值的信息。这说明数据挖掘过程本质上是实验性的。这和确定性的分析是不同的。统计学强调确定性分析。确定性分析着眼于寻找一个最适合的模型——建立一个推荐模型，这个模型也许不能很好的解释观测到的数据。