当前位置：文档库 › 大数据时代数据挖掘与分析讲义

大数据时代数据挖掘与分析讲义

《大数据时代下的数据挖掘》试题及答案要点

《海量数据挖掘技术及工程实践》题目一、单选题（共80题） 1)( D )的目的缩小数据的取值范围，使其更适合于数据挖掘算法的需要，并且能够得到和原始数据相同的分析结果。 A.数据清洗 B.数据集成 C.数据变换 D.数据归约 2)某超市研究销售纪录数据后发现，买啤酒的人很大概率也会购买尿布，这种属于数据挖掘的哪类问题？(A) A. 关联规则发现 B. 聚类 C. 分类 D. 自然语言处理 3)以下两种描述分别对应哪两种对分类算法的评价标准？ (A) (a)警察抓小偷，描述警察抓的人中有多少个是小偷的标准。 (b)描述有多少比例的小偷给警察抓了的标准。 A. Precision,Recall B. Recall,Precision A. Precision,ROC D. Recall,ROC 4)将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务？(C) A. 频繁模式挖掘 B. 分类和预测 C. 数据预处理 D. 数据流挖掘 5)当不知道数据所带标签时，可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离？(B) A. 分类 B. 聚类 C. 关联分析 D. 隐马尔可夫链 6)建立一个模型，通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务？(C) A. 根据内容检索 B. 建模描述 C. 预测建模 D. 寻找模式和规则 7)下面哪种不属于数据预处理的方法？ (D) A.变量代换 B.离散化

C.聚集 D.估计遗漏值 8)假设12个销售价格记录组已经排序如下：5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。等频（等深）划分时，15在第几个箱子内？ (B) A.第一个 B.第二个 C.第三个 D.第四个 9)下面哪个不属于数据的属性类型：(D) A.标称 B.序数 C.区间 D.相异 10)只有非零值才重要的二元属性被称作：( C ) A.计数属性 B.离散属性 C.非对称的二元属性 D.对称属性 11)以下哪种方法不属于特征选择的标准方法： (D) A.嵌入 B.过滤 C.包装 D.抽样 12)下面不属于创建新属性的相关方法的是： (B) A.特征提取 B.特征修改 C.映射数据到新的空间 D.特征构造 13)下面哪个属于映射数据到新的空间的方法？ (A) A.傅立叶变换 B.特征加权 C.渐进抽样 D.维归约 14)假设属性income的最大最小值分别是12000元和98000元。利用最大最小规范化的方法将属性的值映射到0至1的范围内。对属性income的73600元将被转化为：(D) A.0.821 B.1.224 C.1.458 D.0.716 15)一所大学内的各年纪人数分别为：一年级200人，二年级160人，三年级130人，四年级110人。则年级属性的众数是： (A) A.一年级 B.二年级 C.三年级 D.四年级

大数据时代的数据挖掘

大数据时代的数据挖掘大数据是2012的时髦词汇，正受到越来越多人的关注和谈论。大数据之所以受到人们的关注和谈论，是因为隐藏在大数据后面超千亿美元的市场机会。大数据时代，数据挖掘是最关键的工作。以下内容供个人学习用，感兴趣的朋友可以看一下。智库百科是这样描述数据挖掘的“数据挖掘又称数据库中的知识发现，是目前人工智能和数据库领域研究的热点问题，所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。数据挖掘是一种决策支持过程，它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等，高度自动化地分析企业的数据，做出归纳性的推理，从中挖掘出潜在的模式，帮助决策者调整市场策略，减少风险，做出正确的决策。数据挖掘的定义技术上的定义及含义数据挖掘（Data Mining ）就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。这个定义包括好几层含义：数据源必须是真实的、大量的、含噪声的；发现的是用户感兴趣的知识；发现的知识要可接受、可理解、可运用；并不要求发现放之四海皆准的知识，仅支持特定的发现问题。与数据挖掘相近的同义词有数据融合、人工智能、商务智能、模式识别、机器学习、知识发现、数据分析和决策支持等。 ----何为知识从广义上理解，数据、信息也是知识的表现形式，但是人们更把概念、规则、模式、规律和约束等看作知识。人们把数据看作是形成知识的源泉，好像从矿石中采矿或淘金一样。原始数据可以是结构化的，如关系数据库中的数据；也可以是半结构化的，如文本、图形和图像数据；甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的，也可以是非数学的；可以是演绎的，也可以是归纳的。发现的知识可以被用于信息管理，查询优化，决策支持和过程控制等，还可以用于数据自身的维护。因此，数据挖掘是一门交叉学科，它把人们对数据的应用从低层次的简单查询，提升到从数据中挖掘知识，提供决策支持。在这种需求牵引下，汇聚了不同领域的研究者，尤其是数据库技术、人工智能技术、数理统计、可视化技术、并行计算等方面的学者和工程技术人员，投身到数据挖掘这一新兴的研究领域，形成新的技术热点。这里所说的知识发现，不是要求发现放之四海而皆准的真理，也不是要去发现崭新的自然科学定理和纯数学公式，更不是什么机器定理证明。实际上，所有发现的知识都是相对的，是有特定前提和约束条件，面向特定领域的，同时还要能够易于被用户理解。最好能用自然语言表达所发现的结果。n x _s u x i a n g n i n g

大数据处理技术的总结与分析

数据分析处理需求分类 1 事务型处理在我们实际生活中,事务型数据处理需求非常常见,例如：淘宝网站交易系统、1２306网站火车票交易系统、超市ＰOＳ系统等都属于事务型数据处理系统。这类系统数据处理特点包括以下几点: 一就是事务处理型操作都就是细粒度操作,每次事务处理涉及数据量都很小。二就是计算相对简单，一般只有少数几步操作组成，比如修改某行得某列; 三就是事务型处理操作涉及数据得增、删、改、查,对事务完整性与数据一致性要求非常高。四就是事务性操作都就是实时交互式操作,至少能在几秒内执行完成；五就是基于以上特点,索引就是支撑事务型处理一个非常重要得技术. 在数据量与并发交易量不大情况下,一般依托单机版关系型数据库,例如OＲＡＣLＥ、MＹSQL、SQＬSERVER,再加数据复制（DataGurａd、RＭAＮ、ＭｙSQＬ数据复制等)等高可用措施即可满足业务需求。在数据量与并发交易量增加情况下，一般可以采用ORＡLＣＥRAC集群方式或者就是通过硬件升级（采用小型机、大型机等，如银行系统、运营商计费系统、证卷系统)来支撑. 事务型操作在淘宝、1230６等互联网企业中,由于数据量大、访问并发量高，必然采用分布式技术来应对,这样就带来了分布式事务处理问题，而分布式事务处理很难做到高效，因此一般采用根据业务应用特点来开发专用得系统来解决本问题。

２数据统计分析数据统计主要就是被各类企业通过分析自己得销售记录等企业日常得运营数据,以辅助企业管理层来进行运营决策。典型得使用场景有:周报表、月报表等固定时间提供给领导得各类统计报表;市场营销部门,通过各种维度组合进行统计分析,以制定相应得营销策略等．数据统计分析特点包括以下几点: 一就是数据统计一般涉及大量数据得聚合运算，每次统计涉及数据量会比较大。二就是数据统计分析计算相对复杂，例如会涉及大量goｕpbｙ、子查询、嵌套查询、窗口函数、聚合函数、排序等；有些复杂统计可能需要编写ＳQＬ脚本才能实现．三就是数据统计分析实时性相对没有事务型操作要求高。但除固定报表外,目前越来越多得用户希望能做做到交互式实时统计；传统得数据统计分析主要采用基于ＭＰP并行数据库得数据仓库技术.主要采用维度模型,通过预计算等方法，把数据整理成适合统计分析得结构来实现高性能得数据统计分析，以支持可以通过下钻与上卷操作,实现各种维度组合以及各种粒度得统计分析。另外目前在数据统计分析领域,为了满足交互式统计分析需求，基于内存计算得数据库仓库系统也成为一个发展趋势,例如SAP得HANA平台。 3 数据挖掘数据挖掘主要就是根据商业目标，采用数据挖掘算法自动从海量数据中发现隐含在海量数据中得规律与知识。

大数据、数据分析和数据挖掘的区别

大数据、数据分析和数据挖掘的区别大数据、数据分析、数据挖掘的区别是，大数据是互联网的海量数据挖掘，而数据挖掘更多是针对内部企业行业小众化的数据挖掘，数据分析就是进行做出针对性的分析和诊断，大数据需要分析的是趋势和发展，数据挖掘主要发现的是问题和诊断。具体分析如下： 1、大数据(big data)：指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产; 在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中大数据指不用随机分析法(抽样调查)这样的捷径，而采用所有数据进行分析处理。大数据的5V特点(IBM提出)：Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)Veracity(真实性) 。 2、数据分析：

是指用适当的统计分析方法对收集来的大量数据进行分析，提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。这一过程也是质量管理体系的支持过程。在实用中，数据分析可帮助人们作出判断，以便采取适当行动。数据分析的数学基础在20世纪早期就已确立，但直到计算机的出现才使得实际操作成为可能，并使得数据分析得以推广。数据分析是数学与计算机科学相结合的产物。 3、数据挖掘(英语：Data mining)：又译为资料探勘、数据采矿。它是数据库知识发现(英语：Knowledge-Discovery in Databases，简称：KDD)中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关，并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。简而言之：大数据是范围比较广的数据分析和数据挖掘。按照数据分析的流程来说，数据挖掘工作较数据分析工作靠前些，二者又有重合的地方，数据挖掘侧重数据的清洗和梳理。数据分析处于数据处理的末端，是最后阶段。数据分析和数据挖掘的分界、概念比较模糊，模糊的意思是二者很难区分。大数据概念更为广泛，是把创新的思维、信息技术、统计学等等技术的综合体，每个人限于学术背景、技术背景，概述的都不一样。

大数据挖掘与分析

大数据挖掘与分析数据挖掘(Data Mining)是通过分析每个数据，从大量数据中寻找其规律的技术，主要有数据准备、规律寻找和规律表示3个步骤。数据挖掘的任务有关联分析、聚类分析、分类分析、异常分析、特异群组分析和演变分析等。数据挖掘是通过分析每个数据，从大量数据中寻找其规律的技术，主要有数据准备、规律寻找和规律表示3个步骤。数据准备是从相关的数据源中选取所需的数据并整合成用于数据挖掘的数据集；规律寻找是用某种方法将数据集所含的规律找出来；规律表示是尽可能以用户可理解的方式（如可视化）将找出的规律表示出来。数据挖掘完整的步骤如下： ①理解数据和数据的来源（understanding）。 ②获取相关知识与技术（acquisition）。 ③整合与检查数据（integration and checking）。 ④去除错误或不一致的数据（data cleaning）。 ⑤建立模型和假设（model and hypothesis development）。 ⑥实际数据挖掘工作（data mining）。 ⑦测试和验证挖掘结果（testing and verification）。 ⑧解释和应用（interpretation and use）。数据挖掘常用的方法 (1)分类。分类是找出数据库中的一组数据对象的共同特点并按照分类模式将其

划分为不同的类，其目的是通过分类模型，将数据库中的数据项映射到摸个给定的类别中。可以应用到涉及到应用分类、趋势预测中，如淘宝商铺将用户在一段时间内的购买情况划分成不同的类，根据情况向用户推荐关联类的商品，从而增加商铺的销售量。 (2)回归分析。回归分析反映了数据库中数据的属性值的特性，通过函数表达数据映射的关系来发现属性值之间的依赖关系。它可以应用到对数据序列的预测及相关关系的研究中去。在市场营销中，回归分析可以被应用到各个方面。如通过对本季度销售的回归分析，对下一季度的销售趋势作出预测并做出针对性的营销改变。 (3)聚类。聚类类似于分类，但与分类的目的不同，是针对数据的相似性和差异性将一组数据分为几个类别。属于同一类别的数据间的相似性很大，但不同类别之间数据的相似性很小，跨类的数据关联性很低。 (4)关联规则。关联规则是隐藏在数据项之间的关联或相互关系，即可以根据一个数据项的出现推导出其他数据项的出现。关联规则的挖掘过程主要包括两个阶段：第一阶段为从海量原始数据中找出所有的高频项目组;第二极端为从这些高频项目组产生关联规则。关联规则挖掘技术已经被广泛应用于金融行业企业中用以预测客户的需求，各银行在自己的ATM 机上通过捆绑客户可能感兴趣的信息供用户了解并获取相应信息来改善自身的营销。 (5)神经网络方法。神经网络作为一种先进的人工智能技术，因其自身自行处理、分布存储和高度容错等特性非常适合处理非线性的以及那些以模糊、不完整、不严密的知识或数据为特征的处理问题，它的这一特点十分适合解决数据挖掘的问题。典型的神经网络模型主要分为三大类：第一类是以用于分类预测和模式识别的前馈式神经网络模型，其主要代表为函数型网络、感知机;第二类是用于联想记忆和优化算法的反馈式神经网络模型，以Hopfield 的离散模型和连续模型为代表。第三类是用于聚类的自组织映射方法，以ART 模型为代表。虽然神经网络有多种模型及算法，但在特定领域的数据挖掘中使用何种模型及算法并没有统一的规则，而且人们很难理解网络的学习及决策过程。 (6)Web数据挖掘。Web数据挖掘是一项综合性技术，指Web 从文档结构和使用的集合C 中发现隐含的模式P，如果将C看做是输入，P 看做是输出，那么

地理信息大数据挖掘与分析

Data Base Technique ? 数据库技术Electronic Technology & Software Engineering 电子技术与软件工程? 175【关键词】地理信息大数据数据挖掘1 地理信息大数据的特征随着信息技术的发展，各种地理地质探索程度的加深，每天都会产生大量的地理信息大数据，对于这些大数据的特征进行分析，开展实际应用具有极为重要的意义。 1.1 数据量巨大且多样化随着地理信息数据收集手段的日益丰富使得地理信息的数据呈现出几何倍的增长，以全国4000个基准站计算显示，其总的数据规模已经超过了250GB ，如果扩大到全球的范围内，每天产生的数据量更是巨大。同时随着测绘技术、运动网络以及智能终端的应用，地理信息的数据来源越来越多，应用的技术越来越高超。人们可以通过无人机、卫星、气球拍摄等影响数据，手机、定位车等移动设备获得实时的信息，数据的来源以及种类越来越多样化。 1.2 数据产生较为快速对于数据信息的获取上，高分辨率的影像等数据信息可以实时的获取，高分二号的重复采样周期为4天，资源三号的采样周期缩短到5天，对于传感器等相关移动设备获取信息的周期为实时，在对于这些信息的处理上，都是以秒来计算，同时数据的实效性可以依据分钟来计算，为此可见地理信息数据的产生与分析速度极为快速。 1.3 数据的应用价值极高地理信息内部蕴含着巨大的财富，可以有效的指导人们的生产与生活活动，依据相关的数据显示，地理信息大数据可以人给服务商带来的收入超过1500亿美元，为用户带来的价值将会超过8000亿美元。 1.4 同传统地理信息的比较首先为地位不同，传统的地理信息主要服务于政府，而大数据信息则面向于大众开展的应用服务。地理信息的数据产生部门也从相关单位，专业部门转变为每个人都是大数据地理信息的收集者，数据的量也从MB 发展到地理信息大数据挖掘与分析文/曾航唐险峰谭龙生 PB ，部分的实效数据已经实现了实时的更新。2 地理信息大数据挖掘系统云平台分析地理信息大数据已经为证明其具有较大的应用基础，同时数据挖掘分析能力成为智慧应用的关键，为此数据的挖掘与分析能力显得尤为重要。针对于目前地理信息的特征，要想实现大数据到智慧应用的转变，需要应用到云储存技术、关系与非关系型数据库储存量巨大，通过人工智能以及云计算技术等，通过一定的排列剔除可信度低、未经过检测的数据，经过清洗以及转换之后得到可以利用的地理信息数据。最后通过统计分析、数据挖掘等分析未来的情况，这些操作实现的平台为地理信息处理云平台。地理信息系统的云平台不仅仅支持的为桌面端以及Web 端的应用，为企业以及政府部门提供提供服务，其还是一个服务性以及跨部门的云平台。地理信息云平台含有各种趋势化的技术与数据，在数据管理层面支持3D 数据、公共地理框架数据以及街景、实时位置以及感知数据等，在支持数据格式层面含含有关系型数据、表格、图片以及非关系型数据等几种格式，地理信息数据服务系统还加入了网络社会媒体，网络设备传输的流数据等。对于实际功能层面，处理具有传统的可视化查询、编辑以及分析等功能之外，同时还可以提供的为在线的地理信息触发、地理信息围栏筛选等功能，经过处理之后需要的信息可以通过列消息、邮件以及地图成果等传递给用户。在具体使用的时候，用户可以根据各种类型终端实时的范围地理信息云平台，同时依据云平台获得订阅自身需要的素具信息，并不需要关系数据是如何采集与获取就可以得到较好的服务。3 地理信息大数据的挖掘与应用探析地理信息云平台可以轻而易举的实现各种信息资源的共享，使用地理信息资源的模式从推动应用转变为利用信息挖掘应用，可以为政府、企业以及社会公众等的决策提供支持服务。3.1 城市人文信息的挖掘一个城市夜晚的灯光水平会直接的反应该城市的工业化水平，人口的分布情况等，通过遥感卫星夜间的影响可以获得各个城市经济的要素信息。比如利用夜光减少的情况，分析居民的大规模迁移与战争的发展情况，通过经济统计数据、夜光影响以及土地覆盖类型的数据等，可以得到网格化的GDP 数据，对于政府制定经济发展政策具有较大的帮助。3.2 公安应急应用针对于开放式的广场，公安部门难以掌握好人口的聚集程度，进而难以给出科学的人口流量控制方法，较为容易出现踩踏的事故。为此可以借助于手机热点的大数据计算得到每平方米内部聚集人口的数量，之后结合手机热点的流动趋势，可以精确的判断出每平方米人口的聚集量变化趋势，进而可以及时的做出相关应急措施，避免由于人口超负荷的汇聚带来较大的伤亡。3.3 环境与卫生监测在卫生领域，可以判断流感蔓延的实际情况，对于用户在相关搜索引擎输入的咳嗽、发烧等热点检索信息，具体的分析流感疫情实际的蔓延情况，进而为政府部门快速的应对疾病的蔓延提供第一手珍贵的资料。同时还可以在环保领域的雾霾监测应用，对于污染企业帆布的信息、风向的具体走势以及道路分布，交流流量、人群轨迹等大量的数据开展开展汇集、处理以及实时分析，进而可以获得可视化的雾霾分布图以及雾霾的变化趋势图，进而为政府部门提前的应对雾霾天气、开展环境整治等方面的工作提供必要的指导。3.4 交通出行规划应用人们在出行时通常会考虑当时的路况，绕开拥堵路段，去选宽松路段，但这些宽松路段便会由于车辆的增加而逐渐成为新的拥堵路段，所以导航系统的应用能够通过以往的大量数据，来以现阶段车辆行驶的大概趋势为基础，对用户合理的行驶路线进行分析，以此帮助用户有效避开拥挤路段。4 结束语伴随着地理信息数据获取手段的逐渐增加，地理信息数据也开始进入到大数据时代，地理信息大数据中，用户不在为地理信息数据资源的覆盖性以及发展趋势等担心，而是需要关注于数据如何的组织管理，如何的获取可靠的数据信息，需要花费更多的经理在数据的应用挖掘上，更好的服务于政府、企事业单位以及社会大众。同时我们还需要注意的为，在大数据时代个人隐私面临较为严峻的挑战，如何的防止私人信息泄密是值得关注话题，为此我们今后需要做的就是积极的完善地理信息云平台，深入的挖掘数据内部含有的价值，促进信息产业的发展与进步。参考文献[1]周星,桂德竹.大数据时代测绘地理信息服务面临的机遇和挑战[J].地理信息世界,2013(05):17-20.[2]周顺平,徐枫.大数据环境下地理信息产业发展的几点思考[J].地理信息世界,2014(01):45-50.[3]武长安,姜楠.大数据时代测绘地理信息服务面临的机遇与挑战[J].住宅与房地产,2017(23).[4]刘纪平,张福浩,王亮等.面向大数据的空间信息决策支持服务研究与展望[J].测绘科学,2014,39(05):8-12.[5]曾元武,陈泽鹏,方晓乐等.大数据时代下地理信息公共平台建设展望[J].测绘通报,2015(11):84-87.作者单位重庆市规划信息服务中心重庆市 401121

教育大数据挖掘与分析系统用户需求

第一包：教育大数据挖掘与分析系统用户需求 1项目概况 1.1项目背景当前，上海已基本实现教育现代化，正朝着率先全面实现教育现代化的目标大步迈进。为贯彻落实党的十八大精神和教育规划纲要，立足中华优秀传统文化，弘扬社会主义核心价值观，促进中小学生全面发展和健康成长，根据国家教育部《关于中小学生综合素质评价工作的实施意见》，国务院《关于深化考试招生制度改革的实施意见》、《关于推进中小学教育质量综合评价改革的意见》（教基(2013)2号）《上海市深化高等学校考试招生综合改革实施方案》等文件精神，结合上海市实际情况，上海市教委开展了中小学生综合素质评价的研究工作，启动了综合素质评价应用推进工作，2014年发布了《上海市普通高中学生综合素质评价实施办法（试行）》的通知(沪教委基〔2015〕30号)，2015年上海市普通高中学生综合素质评价信息管理系统正式上线，计划2017年完成初中生综合素质评价内容研究，2020年开始全面实施具有上海特色和时代要求的中小学综合素质评价体系。 1.2项目名词解释本文档涉及到的主要系统名词解释如下： ●上海市高中名校慕课（MOOC）该平台面向所有初高中学生分享优质、特色拓展型和研究型课程资源的网络学习平台，其主要建设目标在于：一是提升中学生信息化环境下的学习能力；二是推进高中学校特色多样发展；三是培养推进信息技术与教育教学融合的师资队伍。平台提供了学习分析和数据支持服务，收集了学生学习过程的行为数据，为基于大数据的教育治理和决策提供了科学依据。 ●研究性学习系统（MOOR） MOOR，即大规模在线开放研究性学习，以“教育”+“互联网”的理念，为上海市普通高中生搭建一个自主探索，智能学习环境。围绕学生的研究兴趣和个性特长，系统采用人工智能和大数据学习分析技术，解决了研究性学习的自适应教学问题、管理问题和评价方式。 ●上海市基础教育学生信息管理系统提供上海市基础教育阶段的学生综合管理与服务，内容涵盖学生基本信息、学籍信息、电子学生证信息、学生行为信息、学生表现与评价信息等综合信息。 ●上海市普通学生高中综合素质评价信息管理平台针对上海市普通高中学生提供综合素质评价信息采集、管理和展现的信息化平台。 ●上海市基础教育学籍管理系统对上海市基础教育阶段学生的学籍管理工作提供信息化支撑的平台，并作为全市唯一权威的学籍数据来源。 ●上海市基础教育统一身份认证系统以学籍数据作为权威的底层数据源，提供统一的用户管理、用户认证及安全保障等服务，用户经由统一身份认证系统登录，在完成身份认证后无再次登录就可以使用所有支持统一身份认证服务的其它信息服务系统提供的服务。 ●上海市中小学专题教育为上海市中小学生提供各方面专题知识的专业在线学习平台。 1.3建设目标和服务对象基于教育部加强和改进综合素质评价的意见要求，立足于项目实际应用情况，本项目的

大数据分析方法

1 大数据是2012的时髦词汇，正受到越来越多人的关注和谈论。大数据之所以受到人们的关注和谈论，是因为隐藏在大数据后面超千亿美元的市场机会。大数据时代，数据挖掘是最关键的工作。以下内容供个人学习用，感兴趣的朋友可以看一下。智库百科是这样描述数据挖掘的“数据挖掘又称数据库中的知识发现，是目前人工智能和数据库领域研究的热点问题，所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。数据挖掘是一种决策支持过程，它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等，高度自动化地分析企业的数据，做出归纳性的推理，从中挖掘出潜在的模式，帮助决策者调整市场策略，减少风险，做出正确的决策。数据挖掘的定义技术上的定义及含义数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。这个定义包括好几层含义：数据源必须是真实的、大量的、含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用;并不要求发现放之四海皆准的知识，仅支持特定的发现问题。与数据挖掘相近的同义词有数据融合、人工智能、商务智能、模式识别、机器学习、知识发现、数据分析和决策支持等。 ----何为知识从广义上理解，数据、信息也是知识的表现形式，但是人们更把概念、规则、模式、规律和约束等看作知识。人们把数据看作是形成知识的源泉，好像从矿石中采矿或淘金一样。原始数据可以是结构化的，如关系数据库中的数据;也可以是半结构化的，如文本、图形和图像数据;甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的，也可以是非数学的;可以是演绎的，也可以是归纳的。发现的知识可以被用于信息管理，查询优化，决策支持和过程控制等，还可以用于数据自身的维护。因此，数据挖掘是一门交叉学科，它把人们对数据的应用从低层次的简单查询，提升到从数据中挖掘知识，提供决策支持。在这种需求牵引下，汇聚了不同领域的研究者，尤其是数据库技术、人工智能技术、数理统计、可视化技术、并行计算等方面的学者和工程技术人员，投身到数据挖掘这一新兴的研究领域，形成新的技术热点。这里所说的知识发现，不是要求发现放之四海而皆准的真理，也不是要去发现崭新的自然科学定理和纯数学公式，更不是什么机器定理证明。实际上，所有发现的知识都是相对的，是有特定前提和约束条件，面向特定领域的，同时还要能够易于被用户理解。最好能用自然语言表达所发现的结果。

大数据时代数据挖掘与分析 讲义