文档库 最新最全的文档下载
当前位置:文档库 › 数据挖掘原理与实践 蒋盛益 答案

数据挖掘原理与实践 蒋盛益 答案

数据挖掘原理与实践 蒋盛益 答案
数据挖掘原理与实践 蒋盛益 答案

习题参考答案

第1 章绪论

1.1 数据挖掘处理的对象有哪些?请从实际生活中举出至少三种。

答:数据挖掘处理的对象是某一专业领域中积累的数据,对象既可以来自社会科学,又可以来自自然科学产生的数据,还可以是卫星观测得到的数据。数据形式和结构也各不相同,

可以是传统的关系数据库,可以是面向对象的高级数据库系统,也可以是面向特殊应用的

数据库,如空间数据库、时序数据库、文本数据库和多媒体数据库等,还可以是Web 数据

信息。

实际生活的例子:

①电信行业中利用数据挖掘技术进行客户行为分析,包含客户通话记录、通话时间、所

开通的服务等,据此进行客户群体划分以及客户流失性分析。

②天文领域中利用决策树等数据挖掘方法对上百万天体数据进行分类与分析,帮助天文

学家发现其他未知星体。

③制造业中应用数据挖掘技术进行零部件故障诊断、资源优化、生产过程分析等。

④市场业中应用数据挖掘技术进行市场定位、消费者分析、辅助制定市场营销策略等。

1.2 给出一个例子,说明数据挖掘对商务的成功是至关重要的。该商务需要什么样的数据挖掘功能?它们能够由数据查询处理或简单的统计分析来实现吗?

答:例如,数据挖掘在电子商务中的客户关系管理起到了非常重要的作用。随着各个电子商务网站的建立,企业纷纷地从“产品导向”转向“客户导向”,如何在保持现有的客户

同时吸引更多的客户、如何在客户群中发现潜在价值,一直都是电子商务企业重要任务。但是,传统的数据分析处理,如数据查询处理或简单的统计分析,只能在数据库中进行

一些简单的数据查询和更新以及一些简单的数据计算操作,却无法从现有的大量数据中

挖掘潜在的价值。而数据挖掘技术却能使用如聚类、关联分析、决策树和神经网络等多

种方法,对数据库中庞大的数据进行挖掘分析,然后可以进行客户细分而提供个性化服务、可以利用挖掘到的历史流失客户的特征来防止客户流失、可以进行产品捆绑推荐等,从而使电子商务更好地进行客户关系管理,提高客户的忠诚度和满意度。

1.3 假定你是Big-University 的软件工程师,任务是设计一个数据挖掘系统,分析学校课程数据库。该数据库包括如下信息:每个学生的姓名、地址和状态(例如,本科生或研究生)、所修课程,以及他们的GPA。描述你要选取的结构,该结构的每个成分的作用是什么?答:任务目的是分析课程数据库,那么首先需要有包含信息的关系型数据库系统,以便查找、提取每个属性的值;在取得数据后,需要有特征选择模块,通过特征选择,找出要分析

的属性;接下来需要一个数据挖掘算法,或者数据挖掘软件,它应该包含像分类、聚类、关联分析这样的分析模块,对选择出来的特征值进行分析处理;在得到结果后,可以用

可视化软件进行显示。

1.4 假定你作为一个数据挖掘顾问,受雇于一家因特网搜索引擎公司。通过特定的例子说明,数据挖掘可以为公司提供哪些帮助,如何使用聚类、分类、关联规则挖掘和离群点检测

等技术为企业服务。

答:

(1) 使用聚类发现互联网中的不同群体,用于网络社区发现;

第2 页共27 页

(2) 使用分类对客户进行等级划分,从而实施不同的服务;

(3) 使用关联规则发现大型数据集中间存在的关系,用于推荐搜索。如大部分搜索了“广外”的人都会继续搜索“信息学院”,那么在搜索“广外”后会提示是否进进一步搜

索“信息学院”。

(4) 使用离群点挖掘发现与大部分对象不同的对象,用于分析针对网络的秘密收集信息

的攻击。

1.5 定义下列数据挖掘功能:关联、分类、聚类、演变分析、离群点检测。使用你熟悉的生活中的数据,给出每种数据挖掘功能的例子。

答:关联是指发现样本间或样本不同属性间的关联。例如,一个数据挖掘系统可能发现

的关联规则为:maj or(X, “comput i ng sci ence”)?owns(X, “personal comput er”)

[ support =12%, conf i dence=98%] 其中,X是一个表示学生的变量。该规则指出主修计

算机科学并且拥有一台个人计算机的学生所占比例为12%,同时,主修计算机专业的学

生有98%拥有个人计算机。

分类是构造一系列能描述和区分数据类型或概念的模型(或功能),分类被用作预测

目标数据的类的标签。例如,通过对过去银行客户流失与未流失客户数据的分析,得到

一个预测模型,预测新客户是否可能会流失。

聚类是将数据划分为相似对象组的过程,使得同一组中对象相似度最大而不同组中

对象相似度最小。例如,通过对某大型超市客户购物数据进行聚类,将客户聚类细分为

低值客户、高值客户以及普通客户等。

数据演变分析描述和模型化随时间变化的对象的规律或趋势,尽管这可能包括时间

相关数据的特征化、区分、关联和相关分析、分类、或预测,这种分析的明确特征包括

时间序列数据分析、序列或周期模式匹配、和基于相似性的数据分析。

离群点检测就是发现与众不同的数据。可用于发现金融领域的欺诈检测。

1.6 根据你的观察,描述一个可能的知识类型,它需要由数据挖掘方法发现,但本章未列出。它需要一种不同于本章列举的数据挖掘技术吗?

答:建立一个局部的周期性作为一种新的知识类型,只要经过一段时间的偏移量在时间序列中重复发生,那么在这个知识类型中的模式是局部周期性的。需要一种新的数据挖掘技

术解决这类问题。

1.7 讨论下列每项活动是否是数据挖掘任务:

(1)根据性别划分公司的顾客。

(2)根据可赢利性划分公司的顾客。

(3)计算公司的总销售额。

(4)按学生的标识号对学生数据库排序。

(5)预测掷一对骰子的结果。

(6)使用历史记录预测某公司未来的股票价格。

(7)监视病人心率的异常变化。

(8)监视地震活动的地震波。

(9)提取声波的频率。

答:(1) 不是,这属于简单的数据库查询。

(2) 不是,这个简单的会计计算;但是新客户的利润预测则属于数据挖掘任务。

(3) 不是,还是简单的会计计算。

第3 页共27 页

(4) 不是,这是简单的数据库查询。

(5) 不是,由于每一面都是同等概率,则属于概率计算;如概率是不同等的,根据历

史数据预测结果则更类似于数据挖掘任务。

(6) 是,需要建立模型来预测股票价格,属于数据挖掘领域中的预测模型。可以使用

回归来建模,或使用时间序列分析。

(7) 是,需要建立正常心率行为模型,并预警非正常心率行为。这属于数据挖掘领域

的异常检测。若有正常和非正常心率行为样本,则可以看作一个分类问题。

(8) 是,需要建立与地震活动相关的不同波形的模型,并预警波形活动。属于数据挖

掘领域的分类。

(9) 不是,属于信号处理。

第2 章数据处理基础

2.1 将下列属性分类成二元的、分类的或连续的,并将它们分类成定性的(标称的或序数的) 或定量的(区间的或比率的)。

例子:年龄。回答:分类的、定量的、比率的。

(a)用AM 和PM 表示的时间。

(b)根据曝光表测出的亮度。

(c)根据人的判断测出的亮度。

(d)医院中的病人数。

(e)书的ISBN 号。

(f)用每立方厘米表示的物质密度。

答:(a)二元,定量,比率;

(b)连续,定量,比率;

(c)分类,定性,标称;

(d)连续,定量,比率;

(e)分类,定性,标称;

(f)连续,定量,比率。

2.2 你能想象一种情况,标识号对于预测是有用的吗?

答:学生的I D号可以预测该学生的毕业日期。

2.3 在现实世界的数据中,元组在某些属性上缺失值是常有的。请描述处理该问题的各种方法。

答:处理遗漏值问题的策略有如下几种。

(1) 删除数据对象或属性。一种简单而有效的策略是删除具有遗漏值的数据对象。然而,即使部分给定的数据对象也包含一些信息,并且,如果许多对象都有遗漏值,则很

难甚至不可能进行可靠的分析。尽管如此,如果一个数据集只有少量的对象具有遗

漏值,则忽略他们可能是合算的。一种相关的策略是删除具有遗漏值的属性。然而,

做这件事要小心,因为被删除的属性可能对分析是至关重要的。

(2) 估计遗漏值。有时,遗漏值可以可靠地估计。例如,在考虑以较平滑的方式变化的

具有少量但大大分散的遗漏值的时间序列,遗漏值可以使用其他值来估计(插值)。

作为另一个例子,考虑一个具有许多相似数据点的数据集。在这种情况下,与具有

遗漏值的点邻近的点的属性值常常可以用来估计遗漏的值。如果属性是连续的,则

可以使用最近邻的平均属性值;如果属性是分类的,则可以取最近邻中最常出现的

第4 页共27 页

属性值。

(3) 在分析时忽略遗漏值。许多数据挖掘方法都可以修改,忽略遗漏值。例如。假定正

在对数据对象聚类,需要计算数据对象间的相似性;如果对于某属性,两个对象之

一或两个对象都有遗漏值,则可以仅使用没有遗漏值的属性来计算相似性。当然,

这种相似性只是紧邻的,但是除非整个属性数目很少,或者遗漏值的数量很大,否

则这种误差影响不大。同样的,许多分类方法都可以修改,处理遗漏值。

2.4 以下规范方法的值域是什么?

(a) min-max 规范化。

(b) z-score 规范化。

(c) 小数定标规范化。

答:(a)[ new_mi n, new_max] ;

(b)(-∞, + ∞);

(c)(-1. 0,1. 0)。

2.5 假定用于分析的数据包含属性age,数据元组中age 的值如下(按递增序):

13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,33,35,35,35,35,36,40,45,46,52,70。(a) 使用按箱平均值平滑对以上数据进行平滑,箱的深度为3。解释你的步骤。评论对于给定的数据,该技术的效果。

(b) 对于数据平滑,还有哪些其它方法?

答:(a)已知数据元组中age 的值如下(按递增序):

13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,33,35,35,35,35,36,40,45,46,52,70,

且箱的深度为3,划分为(等频)箱:

箱1:13,15,16

箱2:16,19,20

箱3:20,21,22

箱4:22,25,25

箱5:25,25,30

箱6:33,33,33

箱7:35,35,35

箱8:35,36,40

箱9:45,46,52

箱10:70

用箱均值光滑:

箱1:15,15,15

箱2:18,18,18

箱3:21,21,21

箱4:24,24,24

箱5:27,27,37

箱6:33,33,33

箱7:35,35,35

箱8:37,37,37

箱9:48,48,48

箱10:70;

第5 页共27 页

(b)对于数据平滑,其它方法有:

(1)回归:可以用一个函数(如回归函数)拟合数据来光滑数据;

(2)聚类:可以通过聚类检测离群点,将类似的值组织成群或簇。直观地,落在簇集合之外的值视为离群点。

2.6 使用习题2.5 给出的age 数据,回答以下问题:

(a) 使用min-max 规范化,将age 值35 转换到[0.0,1.0]区间。

(b) 使用z-score 规范化转换age 值35,其中,age 的标准偏差为12.94 年。

(c) 使用小数定标规范化转换age 值35。

(d) 指出对于给定的数据,你愿意使用哪种方法。陈述你的理由。

答:(a)已知最大值为70,最小值为13,则可将35 规范化为:386

. 0

13 - 70

13 - 35

= ;

(b)已知均值为30,标准差为12.94,则可将35 规范化为:386 . 0

4 .9 12

30 - 35

= ;

(c)使用小数定标规范化可将35 规范化为:35 . 0

100

35

= ;

(d)对于给定的数据,你愿意使用min-max 规范化。理由是计算简单。

2.7 使用习题2.5 给出的age 数据

(a) 画一个宽度为10 的等宽的直方图。

(b) 为以下每种抽样技术勾画例子:有放回简单随机抽样,无放回简单随机抽样,聚类

抽样,分层抽样。使用大小为5 的样本和层“青年”,“中年”和“老年”。

答:(a)如下为宽度为10 的等宽的直方图:

(b)已知样本大小为5 和层“青年”,“中年”和“老年”,

(1)有放回简单随机抽样:30,33,30,25,30

(2)无放回简单随机抽样:30,33,33,35,25

(3)聚类抽样:16,25,33,35,46

(4)分层抽样:25,35,52

2.8 以下是一个商场所销售商品的价格清单(按递增顺序排列,括号中的数表示前面数字出现

次数)1(2)、5(5)、8(2)、10(4)、12、14(3)、15(5)、18(8)、20(7)、21(4)、25(5)、28、30(3)。请分别用等宽的方法和等高的方法对上面的数据集进行划分。

答:(1)等宽方法:划分为3个数据集,每个数据集的宽度为价格10。价格在1—10之间出

现次数为13;价格在11—20之间出现的次数为24;价格在21—30之间出现的次数

为13。

(2)等高方法:划分为2 个数据集,每个数据集的高度为出现的次数4。出现次数1—4

第6 页共27 页

之间的价格为1、8、10、12、14、21、28、30,共8 个数据;出现次数5—8 之间

的价格为5、15、18、20、25,共5个数据。

2.9 讨论数据聚合需要考虑的问题。

答:数据聚合需要考虑的问题有:

(1)模式识别:这主要是实体识别问题;

(2)冗余:一个属性是冗余的,即它能由另一个表导出,如果属性或维的命名不一致,

也可能导致冗余,可以用相关分析来检测;

(3)数据值冲突的检测与处理:有些属性因表示比例或编码不同,会导致属性不同。

2.10 假定我们对一个比率属性x 使用平方根变换,得到一个新属性x*。作为分析的一部

你识别出区间(a, b),在该区间内,x*与另一个属性y 具有线性关系。

(a)换算成x, (a, b)的对应区间是什么?

(b)给出y 关联x 的方程。

答:(a)(a^2,b^2);

(b)Y=kx^0.5 +C (k, C 是常数)。

2.11 讨论使用抽样减少需要显示的数据对象个数的优缺点。简单随机抽样(无放回)是一种好的抽样方法吗?为什么是,为什么不是?

答:抽样减少需要显示的数据对象个数的优点是减少处理数据的费用和时间。缺点是不能利用总体的已知信息和代表总体数据的信息。简单随机抽样(无放回)不是一种好的抽样方法,不能充分地代表不太频繁出现的对象类型和每个对象被选中的概率不一样。

2.12 给定m 个对象的集合,这些对象划分成K 组,其中第i 组的大小为m i 。如果目标是得

到容量为n

(a)从每组随机地选择n×m i /m 个元素。

(b)从数据集中随机地选择n 个元素,而不管对象属于哪个组。

答:(a)组保证了可以在每个组里面得到等比例的样本,而(b)组在每个组里面抽取的样本的个数是随机的,不能保证每个组都能抽到样本。

2. 13 一个地方公司的销售主管与你联系,他相信他已经设计出了一种评估顾客满意度的方法。他这样解释他的方案:“这太简单了,我简直不敢相信,以前竟然没有人想到,我

只是记录顾客对每种产品的抱怨次数,我在数据挖掘的书中读到计数具有比率属性,因此,我的产品满意度度量必定具有比率属性。但是,当我根据我的顾客满意度度量评估

产品并拿给老板看时,他说我忽略了显而易见的东西,说我的度量毫无价值。我想,他

简直是疯了,因为我们的畅销产品满意度最差,因为对它的抱怨最多。你能帮助我摆平

他吗?”

(a)谁是对的,销售主管还是他的老板?如果你的答案是他的老板,你做些什么来修正

满意度度量?

(b)对于原来的产品满意度度量的属性类型,你能说些什么?

答: (a) 老板是对的。更好的衡量方法应该如下:

不满意率(产品)=每种产品的抱怨次数/ 该产品的总销售量

(b) 原来衡量方法的属性类型是没有意义的。例如,两件商品有相同的顾客满意度可能

会有不同的抱怨次数,反之亦然。

第7 页共27 页

2.14 考虑一个文档-词矩阵,其中

ij

tf 是第i 个词(术语)出现在第j 个文档中的频率,而m 是

文档数。考虑由下式定义的变量变换:

i

ij ij

df

m

tf tf log

'

? =

i

df 是出现i 个词的文档数,称作词的文档频率(document frequency)。该变换称作

逆文档频率变换(inverse document frequency)。

(a)如果出现在一个文档中,该变换的结果是什么?如果术语出现在每个文档中呢?

(b)该变换的目的可能是什么?

答:(a) 如果该词出现在每一个文档中,它的词权就会为0,但是如果这个词仅仅出现在一

个文档中,它就有最大的词权,例如,log m 。

(b) 这个变换反映了以下一个现象:当一个词出现在每一个文档中,对于文档与文档之间,该词没有区分能力,但是那些只是某一两篇文档出现的词,其区分文档的能

力就较强。

2.15 对于下面的向量x 和y,计算指定的相似性或距离度量。

(a)x=(1,1,1,1),y=(2,2,2,2) 余弦相似度、相关系数、欧几里得。

(b) x=(0,1,0,1),y=(1,0,1,0) 余弦相似度、相关系数、欧几里得、Jaccard 系数。

(c) x=(2,-1,0,2,0,-3),y=(-1,1,-1,0,0,-1) 余弦相似度、相关系数。

答:(a) 余弦相似度、相关系数、欧几里得分别是0.5,0,2;

(b) 余弦相似度、相关系数、欧几里得、Jaccard 系数分别是0,1,2,0;

(c) 余弦相似度、相关系数分别是0,0。

2.16 简单地描述如何计算由以下类型的变量描述的对象间的相异度:

(a) 不对称的二元变量

(b) 分类变量

(c) 比例标度型(ratio-scaled)变量

(d) 数值型变量

答:

(a) 使用Jaccard 系数计算不对称的二元变量的相异度;

(b) 采用属性值匹配的方法(属性值匹配,相似度为1,否则为0)可以计算用分类变量

描述的对象间的相异度;

(c) 对比例标度变量进行对数变换,对变换得到的值采用与处理区间标度变量相同的方

法来计算相异度;

(d) 可采用欧几里得距离公式或曼哈顿距离公式计算。

2.17 给定两个向量对象,分别表示为p1(22,1,42,10),p2(20,0,36,8):

(a) 计算两个对象之间的欧几里得距离

(b) 计算两个对象之间的曼哈顿距离

(c) 计算两个对象之间的切比雪夫距离

(d) 计算两个对象之间的闵可夫斯基距离,用x=3

答:

(a) 计算两个对象之间的欧几里得距离

45 8 10 36 42 0 1 20 22

2 2 2 2

12

= ? + ? + ? + ? = ) ( ) ( ) ( ) ( d

第8 页共27 页

(b) 计算两个对象之间的曼哈顿距离

11 8 10 36 42 0 1 20 22

12

= ? + ? + ? + ? = | | | | | | | | d

(c) 计算两个对象之间的闵可夫斯基距离,其中参数r=3

3 3 3 3 3 3

12

233 8 10 36 42 0 1 20 22 = ? + ? + ? + ? = | | | | | | | | d

2.18 以下表格包含了属性name,gender,trait-1,trait-2,trait-3,及trait-4,这里的name 是

对象的id,gender 是一个对称的属性,剩余的trait 属性是不对称的,描述了希望找到

的笔友的个人特点。假设有一个服务是试图发现合适的笔友。

name gender trait-1 trait-2 trait-3 trait-4

Keavn M N P P N

Caroline F N P P N

Erik M P N N P

对不对称的属性的值,值P 被设为1,值N 被设为0。

假设对象(潜在的笔友)间的距离是基于不对称变量来计算的。

(a) 计算对象间的简单匹配系数;

(b) 计算对象间的Jaccard 系数;

(c) 你认为哪两个人将成为最佳笔友?哪两个会是最不能相容的?

(d) 假设我们将对称变量gender 包含在我们的分析中。基于Jaccard 系数,谁将是最和

谐的一对?为什么?

答:

(a) 计算对象间的简单匹配系数

SMC (Keavn, Caroline) = (2+2)/( 0+0+2+2) = 1

SMC(Keavn, Erik) = (0+0)/( 2+2+0+0) = 0

SMC(Caroline,Erik) = (0+0)/( 2+2+0+0) = 0

(b) 计算对象间的Jaccard 系数

Jaccard (Keavn, Caroline) = 2/(2+0+0) = 1

Jaccard (Keavn, Erik) = 0/(0+2+2) = 0

Jaccard (Caroline,Erik) = 0/(0+2+2) = 0

(c) 根据属性的匹配程度,Keavn 和Caroline 将成为最佳笔友,Caroline 和Erik 会是最

不能相容的。

(d) 若将对称变量gender 包含在分析中,设值M 被设为1,值F 被设为0,

Jaccard (Keavn, Caroline) = 2/(2+1+0) = 2/3

Jaccard (Keavn, Erik) = 1/(1+2+2) = 1/5

Jaccard (Caroline,Erik) = 0/(0+2+3) = 0

因为Jaccard (Keavn, Caroline)最大,因此,Keavn 和Caroline 是最和谐的一对。

2.19 给定一个在区间[0,1]取值的相似性度量,描述两种将该相似度变换成区间[0,∞]中的相异度的方法。

答:取倒数减一:1

) , (

1

) , ( ? =

q p s

q p d

第9 页共27 页

取对数:)) , ( log( ) , ( q p s q p d ? =

第3 章分类与回归

3.1 简述决策树分类的主要步骤。

答:决策树生成的过程如下:

(1)对数据源进行数据预处理, 得到训练集和测试集;

(2)对训练集进行训练;

(3)对初始决策树进行树剪枝;

(4)由所得到的决策树提取分类规则;

(5)使用测试数据集进行预测,评估决策树模型;

3.2 给定决策树,选项有:(1)将决策树转换成规则,然后对结果规则剪枝,或(2)对决策树剪枝,然后将剪枝后的树转换成规则。相对于(2),(1)的优点是什么?

答:相对于(2),(1)的优点是:由于第一种方法已经将决策树转换成规则,通过规则,可以很快速的评估决策树以及其子树紧凑程度,不能提高规则的估计准确率的任何条件都可

以减掉,从而泛化规则;

3.3 计算决策树算法在最坏情况下的时间复杂度是重要的。给定数据集D,具有m 个属性和

|D|个训练记录,证明决策树生长的计算时间最多为) log( D D m ××。

答:假设训练集拥有|D|实例以及m 个属性。我们需要对树的尺寸做一个假设,假设树的深

度是由log |D| 决定,即O(log |D|)。考虑一个属性在树的所有节点上所要做的工作量。当然不必在每一个节点上考虑所有的实例。但在树的每一层,必须考虑含有|D|个实例的整个数据集。由于树有log |D|个不同的层,处理一个属性需要的工作量是

) log(D D ×

在每个节点上所有属性都要被考虑,因此总的工作量为

) log(D D m × ×

3.4 考虑表3-23所示二元分类问题的数据集。

表3-23 习题3. 4数据集

A B 类标号

T F +

T T +

T T +

T F -

T T +

F F -

F F -

F F -

T T -

T F -

(1) 计算按照属性A 和B 划分时的信息增益。决策树归纳算法将会选择那个属性?

(2) 计算按照属性A 和B 划分时Gini 系数。决策树归纳算法将会选择那个属性?

第10 页共27 页

答:

按照属性A 和B 划分时,数据集可分为如下两种情况:

A=T A=F

+ 4 0

- 3 3

(1)

划分前样本集的信息熵为E=-0.4log 2 0.4-0.6log 2 0.6=0.9710

按照属性A 划分样本集分别得到的两个子集(A 取值T 和A 取值F)的信息熵分别为: 0.9852

7

3

log

7

3

7

4

log

7

4

E

2 2 T A

= ? ? =

=

3

log

3

3

3

log

3

3

E

2 2 F A

= ? ? =

=

按照属性A 划分样本集得到的信息增益为:2813 . 0

10

3

10

= ? ? = ?

= = F A T A

E E E

按照属性B 划分样本集分别得到的两个子集(B 取值T 和B 取值F)的信息熵分别为: 0.8113

4

1

log

4

1

4

3

log

4

3

E

2 2 T B

= ? ? =

=

0.6500

6

5

log

6

5

6

1

log

6

1

E

2 2 F B

= ? ? =

=

按照属性B 划分样本集得到的信息增益为:0.2565

10

6

10

4

= ? ? = ?

= = F B T B

E E E

因此,决策树归纳算法将会选择属性A。

划分前的Gini 值为G=1-0.4 2 -0.6 2 =0.48 按照属性A 划分时Gini 指标:

0.4898

7

3

7

4

1 G

2 2

T A

?

? =

=

3

3

3

1 G

2 2

F A

?

? =

=

Gini 增益0.1371

10

3

10

7

= ? ? = ?

= = F A T A

G G G

按照属性B 划分时Gini 指标: 0.3750

4

3

4

1

1 G

2 2

T B

?

? =

=

0.2778

6

5

6

1

1

2 2

?

? =

=F B

G

Gini 增益0.1633

10

6

10

4

= ? ? = ?

= = F B T B

G G G

因此,决策树归纳算法将会选择属性B。

3.5 证明:将结点划分为更小的后续结点之后,结点熵不会增加。

证明:根据定义可知,熵值越大,类分布越均匀;熵值越小,类分布越不平衡。假设原有的结点属于各个类的概率都相等,熵值为1,则分出来的后续结点在各个类上均匀分布,

此时熵值为1,即熵值不变。假设原有的结点属于个各类的概率不等,因而分出来的

B=T B=F

+ 3 1

- 1 5

第11 页共27 页

后续结点不均匀地分布在各个类上,则此时的分类比原有的分类更不均匀,故熵值减

少。

3.6 为什么朴素贝叶斯称为“朴素”?简述朴素贝叶斯分类的主要思想。

答:朴素贝叶斯之所以称之为朴素是因为,它假设属性之间是相互独立的。

朴素贝叶斯分类的主要思想为:利用贝叶斯定理,计算未知样本属于某个类标号值的概率,根据概率值的大小来决定未知样本的分类结果。

(通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,即该对象属于某一类的

概率,选择具有最大后验概率的类作为该对象所属的类。)

3.7 考虑表3-24数据集,请完成以下问题:

表3-24 习题3. 7数据集

记录号 A B C 类

1 0 0 0 +

2 0 0 1 -

3 0 1 1 -

4 0 1 1 -

5 0 0 1 +

6 1 0 1 +

7 1 0 1 -

8 1 0 1 -

9 1 1 1 +

10 1 0 1 +

(1) 估计条件概率) | ( + A P ,) | ( + B P ,) | ( + C P ,) | ( ? A P ,) | ( ? B P ,) | ( ? C P 。

(2) 根据(1)中的条件概率,使用朴素贝叶斯方法预测测试样本(A=0,B=1,C=0)的类

标号;

(3) 使用Laplace 估计方法,其中p=1/2,l=4,估计条件概率) | ( + A P ,) | ( + B P ,) | ( + C P ,

) | ( ? A P ,) | ( ? B P ,) | ( ? C P 。

(4) 同(2),使用(3)中的条件概率

(5) 比较估计概率的两种方法,哪一种更好,为什么?

答:(1) ) | ( + A P =3/5

) | ( + B P =1/5

) | ( ? A P =2/5

) | ( ? B P =2/5

) | ( ? C P =1

(2) 假设P(A=0,B=1,C=0)=K

则K 属于两个类的概率为:

P(+|A=0,B=1,C=0)=P(A=0,B=1,C=0)×P(+)/K

=P(A=0|+)P(B|+)P(C=0|+)×P(+)/K=0.4×0.2×0.2×0.5/K=0.008/K

P(-|A=0,B=1,C=0)=P(A=0,B=1,C=0)×P(-)/K

=P(A=0|-)P(B|-)P(C=0|-)×P(-)/K=0.4×0.2×0×0.5/K=0/K

则得到,此样本的类标号是+。

第12 页共27 页

(3) P(A|+)=(3+2)/(5+4)=5/9

P(A|-)=(2+2)/(5+4)=4/9

P(B|+)=(1+2)/(5+4)=1/3

P(B|-)=(2+2)/(5+4)=4/9

P(C|-)=(0+2)/(5+4)=2/9

(4) 假设P(A=0,B=1,C=0)=K

则K 属于两个类的概率为:

P(+|A=0,B=1,C=0)=P(A=0,B=1,C=0)×P(+)/K

=P(A=0|+)P(B|+)P(C=0|+)×P(+)/K

=(4/9) ×(1/3) ×(1/3) ×0.5/K=0.0247/K

P(-|A=0,B=1,C=0)=P(A=0,B=1,C=0)×P(-)/K

=P(A=0|-)P(B|-)P(C=0|-)×P(-)/K

=(5/9) ×(4/9) ×(2/9) ×0.5/K=0.0274/K

则得到,此样本的类标号是-。

(5) 当条件概率为0 的时候,条件概率的预测用Laplace 估计方法比较好,因为我们不

想整个条件概率计算结果为0.

3.8 考虑表3-25 中的一维数据集。

表3-25 习题3.8 数据集

X 0.5 3.0 4.5 4.6 4.9 5.2 5.3 5.5 7.0 9.5

Y - - + + + - - + - -

根据1-最近邻、3-最近邻、5-最近邻、9-最近邻,对数据点x=5.0 分类,使用多数表决。答:1-最近邻:+

3-最近邻:-

5-最近邻:+

9-最近邻:-

3.9 表3-26 的数据集包含两个属性X 与Y,两个类标号“+”和“-”。每个属性取三个不同

值策略:0,1 或2。“+”类的概念是Y=1,“-”类的概念是X=0 and X=2。

表3-26 习题3.9 数据集

实例数

X Y

+ -

0 0 0 100

1 0 0 0

2 0 0 100

1 1 10 0

2 1 10 100

0 2 0 100

1 2 0 0

2 2 0 100

第13 页共27 页

(1) 建立该数据集的决策树。该决策树能捕捉到“+”和“-”的概念吗?

(2) 决策树的准确率、精度、召回率和F1 各是多少?(注意,精度、召回率和F1 量均是对“+”类定义)

(3) 使用下面的代价函数建立新的决策树,新决策树能捕捉到“+”的概念么?

+ = ? =

+

?

? = + =

=

=

j i

j i

j i C

,

, 1

) , (

如果

实例个数

实例个数

如果

如果

(提示:只需改变原决策树的结点。)

答:(1)在数据集中有20 个正样本和500 个负样本,因此在根节点处错误率为520

20

)

520

500

,

520

20

max( 1 = ? = E

如果按照属性X 划分,则:

X=0 X=1 X=2

+ 0 10 10

- 200 0 300

E X=0 =0/310=0

E X=1 =0/10=0

E X=2 =10/310

520

10

310

10

520

310

520

10

520

200

= × ? × ? × ? = ? E

如果按照属性Y 划分,则:

Y=0 Y=1 Y=2

+ 0 20 0

- 200 100 200

E Y=0 =0/200=0

E Y=1 =20/120

E Y=2 =0/200=0

120

20

520

120

= × ? = ? E

X

因此X 被选为第一个分裂属性,因为X=0 和X=1 都是纯节点,所以使用Y 属性去分割不纯节点X=2。

Y=0 节点包含100 个负样本,Y=1 节点包含10 个正样本和100 个负样本,Y=2 节点包含100 个负样本,所以子节点被标记为“—”。整个结果为:

类标记=

?

= +

其他,

1 , X

(2)

预测类

+ -

+ 10 10 实际类

- 0 500

第14 页共27 页

accuracy:

520

510

=0.9808,precision:

10

10

=1.0

recall:

20

10

=0.5 ,F-measure:

0 . 1 5 . 0 2

+

??

=0.6666

(3)由题可得代价矩阵为

预测类

+ -

+ 0 500/20=25 实际类

- 1 0

决策树在(1)之后还有 3 个叶节点,X=2∧Y=0,X=2∧Y=1,X=2∧Y=2。其中

X=2∧Y=1 是不纯节点,误分类该节点为“+”类的代价为:10 ? 0+100 ? 1=100,误分

该节点为“—”类的代价为:10 ? 25+100 ? 0=250。所以这些节点被标记为“+”类。

分类结果为:

( )

?

= ∧= ∨= +

=

其他

类标记

1 2 1 Y X X

3.10 什么是提升?陈述它为何能提高决策树归纳的准确性?

答:提升是指给每个训练元组赋予权重,迭代地学习k 个分类器序列,学习得到分类器M i

之后,更新权重,使得其后的分类器M i+1 “更关注”M i 误分的训练元组,最终提升的分类器M*组合每个个体分类器,其中每个分类器投票的权重是其准确率的函数。在提

升的过程中,训练元组的权重根据它们的分类情况调整,如果元组不正确地分类,则它

的权重增加,如果元组正确分类,则它的权重减少。元组的权重反映对它们分类的困难

程度,权重越高,越可能错误的分类。根据每个分类器的投票,如果一个分类器的误差

率越低,提升就赋予它越高的表决权重。在建立分类器的时候,让具有更高表决权重的

分类器对具有更高权重的元组进行分类,这样,建立了一个互补的分类器系列。所以能

够提高分类的准确性。

3.11 表3-27 给出课程数据库中学生的期中和期末考试成绩。

表3-27 习题3.11 数据集

期中考试期末考试

X Y

72 84

50 63

81 77

74 78

94 90

59 49

83 79

65 77

33 52

88 74

第15 页共27 页

81 90

(1) 绘制数据的散点图。X 和Y 看上去具有线性联系吗?

(2) 使用最小二乘法,由学生课程中成绩预测学生的期末成绩的方程式。

(3) 预测期中成绩为86 分的学生的期末成绩。

答:(1)数据图如下所示:

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

系列1

X 和Y 具有线性联系。

(2)

Y = a + b*X

a = Y 0 + b*X 0

b = (∑x i y i -nX 0 Y 0 )/(∑x i 2 -nX 0 2 )

X 0 = (∑x i )/n

Y 0 = (∑y i )/n

求得a = 32.0279,b = 0.5816。

(3) 由(2)中表可得,预测成绩为86 分的学生的期末成绩为82.0455。

3.12 通过对预测变量变换,有些非线性回归模型可以转换成线性模型。指出如何将非线性回

归方程

β

ax y = 转换成可以用最小二乘法求解的线性回归方程。

X Y X*Y X^2 预测Y

1 7

2 84 6048 5184 73. 9031

2 50 6

3 3150 2500 61. 1079

3 81 77 6237 6561 79. 1375

4 74 78 5772 5476 75. 0663

数据挖掘原理与实践蒋盛益版期末复习

第一章 数据挖掘定义 技术层面:数据挖掘就是从大量数据中,提取潜在有用的信息和知识的过程。 商业层面:数据挖掘就是一种商业信息处理技术,其主要特点是对大量业务数据进行抽取、转换、分析和建模处理,从中提取辅助商业决策的关键性数据。 数据挖掘任务 预测任务 根据其它属性的值预测特定属性的值,如分类、回归、离群点检测。 描述任务 寻找概括数据中潜在联系的模式,如聚类分析、关联分析、演化分析、序列模式挖掘。 (1) 分类(Classification)分析 分类分析,通过分析示例数据库中的数据为每个类别做出准确的描述或建立分析模型或挖掘出分类规则,然后用此分类规则对其它数据库中的记录进行分类。 分类分析广泛应用于用户行为分析(受众分析)、风险分析、生物科学等。 (2) 聚类(Clustering)分析 “物以类聚,人以群分”。聚类分析技术试图找出数据集中的共性和差异,并将具有共性的对象聚合在相应的类中。聚类可以帮助决定哪些组合更有意义,广泛应用于客户细分、定向营销、信息检索等等。 (3) 回归(Regression )分析 回归分析是确定两种或两种以上变数间相互依赖的定量关系的一种分析方法。其可应用于风险分析、作文自动评分等领域。 (4) 关联(Association)分析 关联分析,发现特征之间的相互依赖关系,通常是从给定的数据集中发现频繁出现的模式知识(又称为关联规则)。关联分析广泛用于市场营销、事务分析等领域。 聚类与分类的主要区别 聚类与分类是容易混淆的两个概念,聚类是一种无指导的观察式学习,没有预先定义的类。而分类问题是有指导的示例式学习,预先定义的类。 数据挖掘过程 数据挖掘和知识发现紧密相连。知识发现是从数据中发现有用知识的整个过程 ?知识发现的主要步骤: ?数据清洗。其作用是清除数据噪声和与挖掘主题明显无关的数据。 ?数据集成。其作用是将来自多数据源中的相关数据组合到一起。 ?数据转换。其作用是将数据转换为易于进行数据挖掘的数据存储形式。 ?数据挖掘。其作用是利用智能方法挖掘数据模式或规律知识。 ?模式评估。其作用是根据一定评估标准从挖掘结果筛选出有意义的相关知识。 ?知识表示。其作用是利用可视化和知识表达技术,向用户展示所挖掘的相关知识

数据挖掘试题与答案

一、解答题(满分30分,每小题5分) 1. 怎样理解数据挖掘和知识发现的关系?请详细阐述之 首先从数据源中抽取感兴趣的数据,并把它组织成适合挖掘的数据组织形式;然后,调用相应的算法生成所需的知识;最后对生成的知识模式进行评估,并把有价值的知识集成到企业的智能系统中。 知识发现是一个指出数据中有效、崭新、潜在的、有价值的、一个不可忽视的流程,其最终目标是掌握数据的模式。流程步骤:先理解要应用的领域、熟悉相关知识,接着建立目标数据集,并专注所选择的数据子集;再作数据预处理,剔除错误或不一致的数据;然后进行数据简化与转换工作;再通过数据挖掘的技术程序成为模式、做回归分析或找出分类模型;最后经过解释和评价成为有用的信息。 2. 时间序列数据挖掘的方法有哪些,请详细阐述之 时间序列数据挖掘的方法有: 1)、确定性时间序列预测方法:对于平稳变化特征的时间序列来说,假设未来行为与现在的行为有关,利用属性现在的值预测将来的值是可行的。例如,要预测下周某种商品的销售额,可以用最近一段时间的实际销售量来建立预测模型。 2)、随机时间序列预测方法:通过建立随机模型,对随机时间序列进行分析,可以预测未来值。若时间序列是平稳的,可以用自回归(Auto Regressive,简称AR)模型、移动回归模型(Moving Average,简称MA)或自回归移动平均(Auto Regressive Moving Average,简称ARMA)模型进行分析预测。 3)、其他方法:可用于时间序列预测的方法很多,其中比较成功的是神经网络。由于大量的时间序列是非平稳的,因此特征参数和数据分布随着时间的推移而变化。假如通过对某段历史数据的训练,通过数学统计模型估计神经网络的各层权重参数初值,就可能建立神经网络预测模型,用于时间序列的预测。

管理学理论与实践

什么是管理学 管理学是一门研究人类社会管理活动中各种现象及规律的学科,是在近代社会化大生产条件下和自然科学与社会科学日益发展的基础上形成的。 管理学是在自然科学和社会科学两大领域的交叉点上建立起来的一门综合性交叉学科,涉及数学(概率论、统计学、运筹学等),社会科学(政治学、经济学、社会学、心理学、人类学、生理学、伦理学、哲学、法学),技术科学(计算机科学,工业技术等),新兴科学(系统论、信息科学、控制论、耗散结构论、协同论,突变论),以及领导学、决策科学、未来学、预测学、创造学、战略学、科学学等。 管理活动自有人群出现便有之,与此同时管理思想也就逐步产生。事实上,无论是在东方还是在西方,我们均可以找到古代哲人在管理思想方面的精彩论述。现代管理学的诞生是以弗雷德里克·温斯洛·泰罗(Frederick Winslow Taylor)的名著《科学管理原理》(1911年)以及法约尔(H.Fayol)的名著《工业管理和一般管理》(1916年)为标志。现代意义上的管理学诞生以来,管理学有了长足的进步与发展,管理学的研究者、管理学的学习者、管理学方面的著作文献等等均呈指数上升,显示了作为一门年轻学科勃勃向上的生机和兴旺发达的景象。进入21世纪,随着人类文明的进步,管理学仍然需要大力发展其内容和形式。 [编辑] 管理学概念的发展[1] 早在1911年出版的《科学管理原理》的引言中,泰罗就开宗明义地指出,这篇论文的宗旨之一是“论证最佳的管理是一门实在的科学,基础建立在明确规定的纪律、条例和原则上,并进一步表明,科学管理的根本原理适用于人的行为——从人们最简单的个人行为到我们大公司的业务运行”。他还深信:“同样的原则能以等量的威力适用于所有的社会行为上,在我们的家庭管理上,在我们的农场管理上,在我们的大小商人、我们的教育、我们的慈善机构、我们的大学和我们的政府各部门的业务管理上。” 在大西洋彼岸,与泰罗同时代的法国工业企业家法约尔创立了一般管理学理论。1916年,他在其代表作《工业管理和一般管理》中,从工业企业管理实践的经验总结与理论概括及企业经营职能(包括技术、商业、财务、安全和会计五大职能)中分离出独立的管理活动,提出了经过经验检验的普遍适用的一般管理理论,定义管理是实行计划、组织、指挥、协调和控制,由此确定了管理活动的5种职能和14条管理原则。他认为,这种一般管理理论与方法不仅适用于工商企业,而且适用于政府、军事部门与社会团体。法约尔由此基本上构建了关于管理活动的原则、标准、方法和程序的知识体系,因此,也可以说法约尔奠立了一般管理学的理论基石。法约尔把管理与经营区别开来,意味着管理学是不包含企业经营活动内容的狭义管理学,而同时又提出了普遍适用的一般管理学。

厦门大学数据挖掘原理及实践课程习题

2013教育部-IBM产学合作专业综合改革项目 厦门大学《数据挖掘原理及实践》课程习题 第4章数据仓库与数据的概念描述 1. 数据仓库的定义是什么? 数据仓库有哪些显著特征? 2. 请简述数据概化的过程和基本方法。 3. 假定数据仓库包含三维: time, doctor, patient, 和两个度量: count和charge, 其中charge是医生对病人一次诊治的收费。 (1) 列举三种流行的数据仓库建模模式。 (2) 使用(1) 列举的模式之一, 画出上面的数据仓库的模式图。 (3) 由基本方体[day, doctor, patient]开始, 为列出2004年每位医生的收费总数, 应当执行哪些OLAP操作。 4. 假定BigUniversity的数据仓库包含如下4维: student, course, semester和instructor;2个度量: count和avg_grade。在最低的概念层(例如: 对于给定的学生. 课程. 学期和教师的组合), 度量avg_grade存放学生的实际课程成绩。在较高的概念层, avg_grade存放给定组合的平均成绩。 (1) 该数据仓库画出雪花型模型图。 (2) 由基本方体[student, course, semester, instructor]开始, 为列出BigUniversity 每个学生的CS课程的平均成绩, 应当使用哪些特殊的OLAP操作。 (3) 如果每维有5层(包含all), 如“student

《数据挖掘》试题与标准答案

一、解答题(满分30分,每小题5分) 1. 怎样理解数据挖掘和知识发现的关系?请详细阐述之 首先从数据源中抽取感兴趣的数据,并把它组织成适合挖掘的数据组织形式;然后,调用相应的算法生成所需的知识;最后对生成的知识模式进行评估,并把有价值的知识集成到企业的智能系统中。 知识发现是一个指出数据中有效、崭新、潜在的、有价值的、一个不可忽视的流程,其最终目标是掌握数据的模式。流程步骤:先理解要应用的领域、熟悉相关知识,接着建立目标数据集,并专注所选择的数据子集;再作数据预处理,剔除错误或不一致的数据;然后进行数据简化与转换工作;再通过数据挖掘的技术程序成为模式、做回归分析或找出分类模型;最后经过解释和评价成为有用的信息。 2.时间序列数据挖掘的方法有哪些,请详细阐述之 时间序列数据挖掘的方法有: 1)、确定性时间序列预测方法:对于平稳变化特征的时间序列来说,假设未来行为与现在的行为有关,利用属性现在的值预测将来的值是可行的。例如,要预测下周某种商品的销售额,可以用最近一段时间的实际销售量来建立预测模型。 2)、随机时间序列预测方法:通过建立随机模型,对随机时间序列进行分析,可以预测未来值。若时间序列是平稳的,可以用自回归(Auto Regressive,简称AR)模型、移动回归模型(Moving Average,简称MA)或自回归移动平均(Auto Regressive Moving Average,简称ARMA)模型进行分析预测。 3)、其他方法:可用于时间序列预测的方法很多,其中比较成功的是神经网络。由于大量的时间序列是非平稳的,因此特征参数和数据分布随着时间的推移而变化。假如通过对某段历史数据的训练,通过数学统计模型估计神经网络的各层权重参数初值,就可能建立神经网络预测模型,用于时间序列的预测。

数据仓库与数据挖掘课后习题答案

数据仓库与数据挖掘 第一章课后习题 一:填空题 1)数据库中存储的都是数据,而数据仓库中的数据都是一些历史的、存档的、归纳的、计算的数据。 2)数据仓库中的数据分为四个级别:早起细节级、当前细节级、轻度综合级、高度综合级。3)数据源是数据仓库系统的基础,是整个系统的数据源泉,通常包括业务数据和历史数据。4)元数据是“关于数据的数据”。根据元数据用途的不同将数据仓库的元数据分为技术元数据和业务元数据两类。 5)数据处理通常分为两大类:联机事务处理和联机事务分析 6)Fayyad过程模型主要有数据准备,数据挖掘和结果分析三个主要部分组成。 7)如果从整体上看数据挖掘技术,可以将其分为统计分析类、知识发现类和其他类型的数据挖掘技术三大类。 8)那些与数据的一般行为或模型不一致的数据对象称做孤立点。 9)按照挖掘对象的不同,将Web数据挖掘分为三类:web内容挖掘、web结构挖掘和web 使用挖掘。 10)查询型工具、分析型工具盒挖掘型工具结合在一起构成了数据仓库系统的工具层,它们各自的侧重点不同,因此适用范围和针对的用户也不相同。 二:简答题 1)什么是数据仓库?数据仓库的特点主要有哪些? 数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支

持管理决策。 主要特点:面向主题组织的、集成的、稳定的、随时间不断变化的、数据的集合性、支持决策作用 2)简述数据挖掘的技术定义。 从技术角度看,数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际数据中,提取隐含在其中的、人们不知道的、但又是潜在有用的信息和知识的过程。 3)什么是业务元数据? 业务元数据从业务角度描述了数据仓库中的数据,它提供了介于使用者和实际系统之间的语义层,使得不懂计算机技术的业务人员也能够读懂数据仓库中的数据 4)简述数据挖掘与传统分析方法的区别。 本质区别是:数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先前未知、有效和实用三个特征。 5)简述数据仓库4种体系结构的异同点及其适用性。 a.虚拟的数据仓库体系结构 b.单独的数据仓库体系结构 c.单独的数据集市体系结构 d.分布式数据仓库结构

管理原理与实践

管理原理与实践(主编—陈琳) 第一章导论 1.(论述管理的概念和职能)管理的概念:管理就是在特定的环境下,对组织所拥有 的资源进行有效的计划、组织、领导、控制,以便达成既定的组织目标的过程。这个定义包括以下四层含义: ①管理服务于组织目标实现的一项有意识、有目的的活动。 ②管理工作要通过综合运用组织中的各种资源来实现组织的目标。 ③管理的过程是由一系列相互关联,连续进行的活动构成的,这些活动包括计划、组织、领导、控制等,它们成为管理的基本职能 ④管理工作是在一定环境条件下开展的,有效的管理必须充分考虑组织外的特定条件。 可见,管理的主体是管理者,管理的客体是组织资源,管理的载体是组织,管理的职能是计划、组织、领导和控制。古典学派如泰罗,法约尔等认为,管理就是计划、组织、指挥、协调和控制等职能活动。 决策学派的代表美国管理学家赫伯特-A-西蒙认为,管理就是决策。P3--P4 2.管理的特征:(论述) a.管理是科学性和艺术性的统一 首先管理是一门科学,它是以反映客观规律的管理理论和方法为指导,有一套分析问题和解决问题的科学的发方法论。管理的科学性是指管理反映了管理活动的自身特点和客观规律。管理的艺术性是指管理者在管理的实践活动中对管理原理运用的灵活性和对管理方式和方法选择的技巧性。管理既离不开科学性,又离不开艺术性。管理的科学性与艺术性之间不是一种排斥的关系,而是一种互补的关系。不注重管理的科学性只强调管理的艺术性,这种艺术性将会导致管理的随意性;不注重管理的艺术性只强调管理的科学性,管理科学将变成僵硬的教条。总之,管理的科学性和艺术性是统一于实践之中的。 b.管理是效率与效果的统一 管理通过计划、组织、协调、和控制,指导人们“正确的做事”,已达到管理效效率的目的。管理通过目标的的选择和资源的分配,引导人们“做正确的事”已达到管理效果上的目的,所以管理的目的是效率和效果的统一。P5 3.管理的性质P6 管理二重性的含义:管理二重性就是指管理具有与生产力相联系的自然属性和与生产关系相联系的社会属性。 4.管理者的概念与分类:管理活动通常是由人来承担的,人是管理的主体,因此把执行 管理任务的人通常称为管理者。按管理者的层次划分可把管理者分为高层管理人员、中层管理人员、基层管理人员、作业人员;按管理人员的领域划分可分为综合管理人员和专业管理人员。P7 5.管理者的素质:素质通常是指事物内在的特征。狭义的说,素质是指生理与心理范畴 内人的先天遗传的解剖生理特点;广义讲,素质包括素养、性格、品质和能力。 罗伯特-卡茨提出有效的管理者应当具备三种基本的技能:技术性技能、人际性技能、概念性技能。P11 6.组织与环境之间的关系。P13--P14 ①环境是组织管理系统建立的客观基础。组织的使命是组织存在的依据,它来自于环境对组织的要求。

大数据挖掘(8):朴素贝叶斯分类算法原理与实践

数据挖掘(8):朴素贝叶斯分类算法原理与实践 隔了很久没有写数据挖掘系列的文章了,今天介绍一下朴素贝叶斯分类算法,讲一下基本原理,再以文本分类实践。 一个简单的例子 朴素贝叶斯算法是一个典型的统计学习方法,主要理论基础就是一个贝叶斯公式,贝叶斯公式的基本定义如下: 这个公式虽然看上去简单,但它却能总结历史,预知未来。公式的右边是总结历史,公式的左边是预知未来,如果把Y看出类别,X看出特征,P(Yk|X)就是在已知特征X的情况下求Yk类别的概率,而对P(Yk|X)的计算又全部转化到类别Yk的特征分布上来。举个例子,大学的时候,某男生经常去图书室晚自习,发现他喜欢的那个女生也常去那个自习室,心中窃喜,于是每天买点好吃点在那个自习室蹲点等她来,可是人家女生不一定每天都来,眼看天气渐渐炎热,图书馆又不开空调,如果那个女生没有去自修室,该男生也就不去,每次男生鼓足勇气说:“嘿,你明天还来不?”,“啊,不知道,看情况”。然后该男生每天就把她去自习室与否以及一些其他情况做一下记录,用Y表示该女生是否去自习室,即Y={去,不去},X是跟去自修室有关联的一系列条件,比如当天上了哪门主课,蹲点统计了一段时间后,该男生打算今天不再蹲点,而是先预测一下她会不会去,现在已经知道了今天上了常微分方法这么主课,于是计算P(Y=去|常微分方

程)与P(Y=不去|常微分方程),看哪个概率大,如果P(Y=去|常微分方程) >P(Y=不去|常微分方程),那这个男生不管多热都屁颠屁颠去自习室了,否则不就去自习室受罪了。P(Y=去|常微分方程)的计算可以转为计算以前她去的情况下,那天主课是常微分的概率P(常微分方程|Y=去),注意公式右边的分母对每个类别(去/不去)都是一样的,所以计算的时候忽略掉分母,这样虽然得到的概率值已经不再是0~1之间,但是其大小还是能选择类别。 后来他发现还有一些其他条件可以挖,比如当天星期几、当天的天气,以及上一次与她在自修室的气氛,统计了一段时间后,该男子一计算,发现不好算了,因为总结历史的公式: 这里n=3,x(1)表示主课,x(2)表示天气,x(3)表示星期几,x(4)表示气氛,Y仍然是{去,不去},现在主课有8门,天气有晴、雨、阴三种、气氛有A+,A,B+,B,C五种,那么总共需要估计的参数有8*3*7*5*2=1680个,每天只能收集到一条数据,那么等凑齐1 680条数据大学都毕业了,男生打呼不妙,于是做了一个独立性假设,假设这些影响她去自习室的原因是独立互不相关的,于是 有了这个独立假设后,需要估计的参数就变为,(8+3+7+5)*2 = 46个了,而且每天收集的一条数据,可以提供4个参数,这样该男生就预测越来越准了。

大数据时代下的数据挖掘试题和答案及解析

A. 变量代换 B. 离散化 海量数据挖掘技术及工程实践》题目 、单选题(共 80 题) 1) ( D ) 的目的缩小数据的取值范围,使其更适合于数据挖掘算法的需要,并且能够得 到 和原始数据相同的分析结果。 A. 数据清洗 B. 数据集成 C. 数据变换 D. 数据归约 2) 某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数 据挖 掘的哪类问题 (A) A. 关联规则发现 B. 聚类 C. 分类 D. 自然语言处理 3) 以下两种描述分别对应哪两种对分类算法的评价标准 (A) (a) 警察抓小偷,描述警察抓的人中有多少个是小偷的标准。 (b) 描述有多少比例的小偷给警察抓了的标准。 据相分离 (B) 哪一类任务 (C) A. 根据内容检索 B. 建模描述 7) 下面哪种不属于数据预处理的方法 (D) A. Precision,Recall B. Recall,Precision A. Precision,ROC D. Recall,ROC 4) 将原始数据进行集成、 变换、维度规约、数值规约是在以下哪个步骤的任务 (C) 5) A. 频繁模式挖掘 C. 数据预处理 B. D. 当不知道数据所带标签时, 分类和预测 数据流挖掘 可以使用哪种技术促使带同类标签的数据与带其他标签的数 6) A. 分类 C. 关联分析 建立一个模型, B. D. 聚类 隐马尔可夫链 通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的 C. 预测建模 D. 寻找模式和规则

C.聚集 D. 估计遗漏值 8) 假设12 个销售价格记录组已经排序如下:5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。等频(等深)划分时,15 在第几个箱子内(B) A. 第一个 B. 第二个 C. 第三个 D. 第四个 9) 下面哪个不属于数据的属性类型:(D) A. 标称 B. 序数 C.区间 D. 相异 10) 只有非零值才重要的二元属性被称作:( C ) A. 计数属性 B. 离散属性 C.非对称的二元属性 D. 对称属性 11) 以下哪种方法不属于特征选择的标准方法:(D) A. 嵌入 B. 过滤 C.包装 D. 抽样 12) 下面不属于创建新属性的相关方法的是:(B) A. 特征提取 B. 特征修改 C. 映射数据到新的空间 D. 特征构造 13) 下面哪个属于映射数据到新的空间的方法(A) A. 傅立叶变换 B. 特征加权 C. 渐进抽样 D. 维归约 14) 假设属性income 的最大最小值分别是12000元和98000 元。利用最大最小规范化的方 法将属性的值映射到0 至 1 的范围内。对属性income 的73600 元将被转化为:(D) 15) 一所大学内的各年纪人数分别为:一年级200人,二年级160人,三年级130 人,四年 级110 人。则年级属性的众数是:(A) A. 一年级 B. 二年级 C. 三年级 D. 四年级 16) 下列哪个不是专门用于可视化时间空间数据的技术:(B) A. 等高线图 B. 饼图

管理学原理与方法课后习题答案11905

第一章 1.人类活动的特点是什么?为什么管理实践与人类历史同样悠久? 答:三个基本特点:目的性、依存性、知识性。这三个特点为人类的管理实践提供了客观条件,所以管理实践与人类历史同样悠久。 2.何谓管理?管理的基本特征是什么? 答:管理是管理者为了有效地实现组织目标、个人发展和社会责任,运用管理职能进行协调的过程。特征:1、管理是人类有意识有目的的活动2、管理应当是有效的3、管理的本质是协调4、协调是运用各种管理职能的过程。 3. 管理活动具有哪些基本职能?它们之间的关系是什么? 答:基本职能有:计划、组织、领导、控制、创新。每一项管理工作一般都是从计划开始,经过组织、领导到控制结束。各职能之间同时相互交叉渗透,控制的结果可能又导致新的计划,开始又一轮新的管理循环。创新在这管理循环之中处于轴心的地位,成为推动管理循环的原动力。 4.分析管理二重性的基本内容。 答:管理的自然属性,管理的出现是由人类活动的特点决定的,管理性质并不以人的意志为转移,也不因社会制度意识形态的不同而有所改变。管理的社会属性,管理是为了达到预期目的而进行的具有特殊职能的活动,是为了使人与人之间的关系以及国家、集体和个人的关系更加和谐。 5.一个有效的管理者需要扮演哪些角色?需要具备哪些技能? 答:有人际角色、信息角色、决策角色。技能:技术技能、人际技能、概念技能。 6.分析管理学的研究对象及其方法目标。 答:各种管理工作中普遍适用的原理和方法。方法:归纳法、实验法、演绎法。 第二章 1.理解中国古代管理思想要点的主要内容,并思考对现代企业经营有何启示。比如,中国古代法制思想的基本原则是什么? 答:顺“道”、重人、人和、守信、利器、求实、对策、节俭、法治。现代企业做到这几点才能在企业中得人心,每个人都积极做好自己的工作,企业工作效率才会提高。“明法、一法”明法是法律公布于世。一法是在法律面前人人平等。 2.请综合分析斯密与巴贝奇关于劳动分工的研究。 答:斯密认为日用必需品供应情况的好坏,决定于两个因素:一是这个国家的人民的劳动熟练程度、劳动技巧和判断力的高低;二是从事游泳劳动的人数和从事无用劳动人数的比例。巴贝奇提出了“边际熟练”原则认为分工可以减少支付工资这一好处。 3.科学管理理论为什么会在19世纪末的美国产生?泰罗为什么要研究并提出科学管理理论?其理论的实质是什么?其理论的主要内容是什么?并谈谈科学管理理论对目前我国企业管理的启发。 答:因为当时随着生产的发展,科学技术的进步,自由竞争的资本主义也逐步走向垄断的资本主义。单凭经验进行生产和管理已经不能适应这种剧烈争夺的局面了。泰罗认为单凭经验进行管理的方法是不科学的,必须加以改变。实质是谋求最高工作效率。内容:1.对工人提出科学的操作方法,以便合理利用工时,提高工效。2.在工资制度上实行差别计件制。3.对工人进行科学的选择、培训和提高。4.制定科学的工艺规程,并用文件形式固定下来以利推广。5.使管理和劳动分离,把管理工作称为计划职能,工人的劳动称为执行职能。

数据挖掘原理与实践-蒋盛益-答案

习题参考答案 第1 章绪论 1.1 数据挖掘处理的对象有哪些?请从实际生活中举出至少三种。 答:数据挖掘处理的对象是某一专业领域中积累的数据,对象既可以来自社会科学,又可以来自自然科学产生的数据,还可以是卫星观测得到的数据。数据形式和结构也各不相同, 可以是传统的关系数据库,可以是面向对象的高级数据库系统,也可以是面向特殊应用的 数据库,如空间数据库、时序数据库、文本数据库和多媒体数据库等,还可以是Web 数据 信息。 实际生活的例子: ①电信行业中利用数据挖掘技术进行客户行为分析,包含客户通话记录、通话时间、所 开通的服务等,据此进行客户群体划分以及客户流失性分析。 ②天文领域中利用决策树等数据挖掘方法对上百万天体数据进行分类与分析,帮助天文 学家发现其他未知星体。 ③制造业中应用数据挖掘技术进行零部件故障诊断、资源优化、生产过程分析等。 ④市场业中应用数据挖掘技术进行市场定位、消费者分析、辅助制定市场营销策略等。 1.2 给出一个例子,说明数据挖掘对商务的成功是至关重要的。该商务需要什么样的数据挖掘功能?它们能够由数据查询处理或简单的统计分析来实现吗? 答:例如,数据挖掘在电子商务中的客户关系管理起到了非常重要的作用。随着各个电子商务网站的建立,企业纷纷地从“产品导向”转向“客户导向”,如何在保持现有的客户 同时吸引更多的客户、如何在客户群中发现潜在价值,一直都是电子商务企业重要任务。但是,传统的数据分析处理,如数据查询处理或简单的统计分析,只能在数据库中进行 一些简单的数据查询和更新以及一些简单的数据计算操作,却无法从现有的大量数据中 挖掘潜在的价值。而数据挖掘技术却能使用如聚类、关联分析、决策树和神经网络等多 种方法,对数据库中庞大的数据进行挖掘分析,然后可以进行客户细分而提供个性化服务、可以利用挖掘到的历史流失客户的特征来防止客户流失、可以进行产品捆绑推荐等,从而使电子商务更好地进行客户关系管理,提高客户的忠诚度和满意度。 1.3 假定你是Big-University 的软件工程师,任务是设计一个数据挖掘系统,分析学校课程数据库。该数据库包括如下信息:每个学生的姓名、地址和状态(例如,本科生或研究生)、所修课程,以及他们的GPA。描述你要选取的结构,该结构的每个成分的作用是什么?答:任务目的是分析课程数据库,那么首先需要有包含信息的关系型数据库系统,以便查找、提取每个属性的值;在取得数据后,需要有特征选择模块,通过特征选择,找出要分析 的属性;接下来需要一个数据挖掘算法,或者数据挖掘软件,它应该包含像分类、聚类、关联分析这样的分析模块,对选择出来的特征值进行分析处理;在得到结果后,可以用 可视化软件进行显示。 1.4 假定你作为一个数据挖掘顾问,受雇于一家因特网搜索引擎公司。通过特定的例子说明,数据挖掘可以为公司提供哪些帮助,如何使用聚类、分类、关联规则挖掘和离群点检测 等技术为企业服务。 答: (1) 使用聚类发现互联网中的不同群体,用于网络社区发现; 第2 页共27 页 (2) 使用分类对客户进行等级划分,从而实施不同的服务; (3) 使用关联规则发现大型数据集中间存在的关系,用于推荐搜索。如大部分搜索了“广外”的人都会继续搜索“信息学院”,那么在搜索“广外”后会提示是否进进一步搜 索“信息学院”。

数据挖掘试卷及答案

12/13 年第2学期《数据挖掘与知识发现》期末考试试卷及答案 一、什么是数据挖掘?什么是数据仓库?并简述数据挖掘的步骤。(20分) 数据挖掘是从大量数据中提取或发现(挖掘)知识的过程。 数据仓库是面向主题的、集成的、稳定的、不同时间的数据集合,用于支持经营管理中的决策制定过程。 步骤: 1)数据清理(消除噪声或不一致数据) 2) 数据集成(多种数据源可以组合在一起) 3 ) 数据选择(从数据库中检索与分析任务相关的数据) 4 ) 数据变换(数据变换或统一成适合挖掘的形式,如通过汇总或聚集操作) 5) 数据挖掘(基本步骤,使用智能方法提取数据模式) 6) 模式评估(根据某种兴趣度度量,识别表示知识的真正有趣的模式;) 7) 知识表示(使用可视化和知识表示技术,向用户提供挖掘的知识) 二、元数据的定义是什么?元数据包括哪些内容?(20分) 元数据是关于数据的数据。在数据仓库中, 元数据是定义仓库对象的数据。 元数据包括: 数据仓库结构的描述,包括仓库模式、视图、维、分层结构、导出数据的定义, 以及数据集市的位置和内容。 操作元数据,包括数据血统(移植数据的历史和它所使用的变换序列)、数据流通(主动的、档案的或净化的)、管理信息(仓库使用统计量、错误报告和审计跟踪)。 汇总算法,包括度量和维定义算法, 数据所处粒度、划分、主题领域、聚集、汇总、预定义的查询和报告。 由操作环境到数据仓库的映射,包括源数据库和它们的内容,网间连接程序描述, 数据划分, 数据提取、清理、转换规则和缺省值, 数据刷新和净化规则, 安全 (用户授权和存取控制)。 关于系统性能的数据,刷新、更新定时和调度的规则与更新周期,改善数据存取和检索性能的索引和配置。 商务元数据,包括商务术语和定义, 数据拥有者信息和收费策略。 三、在 O L A P 中,如何使用概念分层? 请解释多维数据模型中的OLAP上卷 下钻切片切块和转轴操作。(20分) 在多维数据模型中,数据组织成多维,每维包含由概念分层定义的多个抽象层。这种组织为用户从不同角度观察数据提供了灵活性。有一些 O L A P 数据立方体操作用来物化这些不同视图,允许交互查询和分析手头数据。因此, O L A P 为交互数据分析提供了友好的环境。 上卷:上卷操作通过一个维的概念分层向上攀升或者通过维归约,在数据立方体上进行聚集。 下钻:下钻是上卷的逆操作,它由不太详细的数据到更详细的数据。下钻可以通过沿维的概念分层向下或引入新的维来实现。 切片:在给定的数据立方体的一个维上进行选择,导致一个子方。 切块:通过对两个或多个维执行选择,定义子方。

数据仓库与数据挖掘_课程教学实践与探索

2011年1月第1期 高教论坛 H igher Education Forum Jan 2011 No 1 数据仓库与数据挖掘 课程教学实践与探索 韦艳艳,张超群 (广西民族大学 数学与计算机科学学院,广西 南宁 530006) 摘要:本文从 数据仓库与数据挖掘 课程的本科教学特点出发,讨论了在授课过程中遇到的一些实际问题,介绍了理论教学环节和实验教学环节的各项内容及侧重点,并给出具体的实验教学方案。 关键词:教学实践;数据仓库;数据挖掘 中图分类号:G642 文献标识码:A 文章编号:1671-9719(2011)01-0094-03 作者简介:韦艳艳(1974-),女,广西贵港人,讲师,主要研究方向为数据挖掘、机器学习。 收稿日期:2010-10-11 一、前言 数据仓库与数据挖掘技术出现于20世纪80年代,90年代有了突飞猛进的发展。这是信息和数据深度处理的必然需要,也是体现信息价值的重要工具。现在, 数据仓库与数据挖掘 作为一门既有理论基础又有实际应用价值的学科,已经成为计算机、信息系统等很多专业本科生的学习内容之一,由此可见这门学科在当今科学中的重要性以及应用的广泛性。 本课程是计算机科学与技术本科生在第三学年开设的选修课程。作为一门前沿性学科,数据仓库与数据挖掘有许多技术和方法是开放式、或仍处于探索阶段的。因此,学生除了掌握基本的概念与方法之外,对该门学科中许多面临的问题、有待拓展的研究方向应有所了解,这样有助于为学生提供对该学科的一个广博且适度的概览,提高自主学习的能力,并为有志于在该领域进行深入研究的学生提供一个学习的机会。 由于该课程原本属于研究生阶段开设的专业课程,教材也大多侧重于介绍体系结构、算法原理、效率分析与改进等理论知识,其中所涉及的内容大多比较深,许多知识都超出了本科生的接受范围;此外,教材对相关理论在实际应用方面的说明也比较少,不利于安排实验教学。因此,要实现 数据仓库与数据挖掘 课程的教学目标,必须在理论教学和实验教学环节综合考虑学时多少、教学条件以及学生的接受情况等因素,灵活地加以选择安排[1-2]。 二、课程的教学内容 本课程的任务主要是从数据库角度出发,全面、系统地介绍数据仓库与数据挖掘的基本概念、基本方法以及该领域的最新进展。通过本课程的学习,使学生对数据仓库与数据挖掘的整体结构、概念和技术有深入的认识和了解,并且熟悉相关算法的基本原理,提高学生分析数据的思维能力与计算能力。 教材方面,我们采用的是清华大学出版社出版,由安淑芝等编著 数据仓库与数据挖掘 ,同时还向学生推荐阅读韩家炜编著的 数据挖掘:概念与技术 ,这是一本得到业内广泛认可的的经典教科书[3]。 该课程理论课时共22学时,各章节授课学时安排如表1所示。 表1 各章节的授课学时 章节学时第一章 绪论2 第二章 数据仓库7 第三章 数据预处理3 第四章 数据挖掘的基础知识2 第五章 数据挖掘的常用算法8 表2 实验教学内容 实验内容课时 数据仓库的基本构造方法及实施联机分析 处理 4 构建N or thwind数据仓库系统4 数据收集及预处理2 各类数据挖掘及分析8 实验课时共18学时,实验内容主要配合教学环节来设置。具体安排如表2所示。 三、理论教学环节 数据仓库与数据挖掘 这门课程所涉及的是多

(完整word版)数据挖掘题目及答案

一、何为数据仓库?其主要特点是什么?数据仓库与KDD的联系是什么? 数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。 特点: 1、面向主题 操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织的。 2、集成的 数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。 3、相对稳定的 数据仓库的数据主要供企业决策分析之用,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。 4、反映历史变化 数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。 所谓基于数据库的知识发现(KDD)是指从大量数据中提取有效的、新颖的、潜在有用的、最终可被理解的模式的非平凡过程。数据仓库为KDD提供了数据环境,KDD从数据仓库中提取有效的,可用的信息 二、 数据库有4笔交易。设minsup=60%,minconf=80%。 TID DATE ITEMS_BOUGHT T100 3/5/2009 {A, C, S, L} T200 3/5/2009 {D, A, C, E, B} T300 4/5/2010 {A, B, C} T400 4/5/2010 {C, A, B, E} 使用Apriori算法找出频繁项集,列出所有关联规则。 解:已知最小支持度为60%,最小置信度为80% 1)第一步,对事务数据库进行一次扫描,计算出D中所包含的每个项目出现的次数,生成候选1-项集的集合C1。

数据仓库与数据挖掘考试试题

一、填空题(15分) 1.数据仓库的特点分别是面向主题、集成、相对稳定、反映历史变化。 2.元数据是描述数据仓库内数据的结构和建立方法的数据。根据元数据用途的不同可将元数据分为技术元数据和业务元数据两类。 3.OLAP技术多维分析过程中,多维分析操作包括切片、切块、钻取、旋转等。 4.基于依赖型数据集市和操作型数据存储的数据仓库体系结构常常被称为“中心和辐射”架构,其中企业级数据仓库是中心,源数据系统和数据集市在输入和输出范围的两端。 5.ODS实际上是一个集成的、面向主题的、可更新的、当前值的、企业级的、详细的数据库,也叫运营数据存储。 二、多项选择题(10分) 6.在数据挖掘的分析方法中,直接数据挖掘包括(ACD) A 分类 B 关联 C 估值 D 预言 7.数据仓库的数据ETL过程中,ETL软件的主要功能包括(ABC) A 数据抽取 B 数据转换 C 数据加载 D 数据稽核 8.数据分类的评价准则包括( ABCD ) A 精确度 B 查全率和查准率 C F-Measure D 几何均值 9.层次聚类方法包括( BC ) A 划分聚类方法 B 凝聚型层次聚类方法 C 分解型层次聚类方法 D 基于密度聚类方法 10.贝叶斯网络由两部分组成,分别是( A D ) A 网络结构 B 先验概率 C 后验概率 D 条件概率表 三、计算题(30分) 11.一个食品连锁店每周的事务记录如下表所示,其中每一条事务表示在一项收款机业务中卖出的项目,假定sup min=40%,conf min=40%,使用Apriori算法计算生成的关联规则,标明每趟数据库扫描时的候选集和大项目集。(15分) 解:(1)由I={面包、果冻、花生酱、牛奶、啤酒}的所有项目直接产生1-候选C1,计算其支持度,取出支持度小于sup min的项集,形成1-频繁集L1,如下表所示:

大数据时代下的数据挖掘试题及答案

《海量数据挖掘技术及工程实践》题目 一、单选题(共80题) 1)( D )的目的缩小数据的取值范围,使其更适合于数据挖掘算法的需要,并且能够得到和原始数据相同的分析结果。 A.数据清洗 B.数据集成 C.数据变换 D.数据归约 2)某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题(A) 3) A. 关联规则发现 B. 聚类 4) C. 分类 D. 自然语言处理 5)以下两种描述分别对应哪两种对分类算法的评价标准 (A) 6) (a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准。 7) (b)描述有多少比例的小偷给警察抓了的标准。 8) A. Precision,Recall B. Recall,Precision 9) A. Precision,ROC D. Recall,ROC 10)将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务 (C) 11) A. 频繁模式挖掘 B. 分类和预测 C. 数据预处理 D. 数据流挖掘 12)当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离(B) 13) A. 分类 B. 聚类 C. 关联分析 D. 隐马尔可夫链 14)建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务(C) 建模描述 B. 根据内容检索 A. 15). 16) C. 预测建模 D. 寻找模式和规则 17)下面哪种不属于数据预处理的方法 (D) 18) A.变量代换 B.离散化 C.聚集 D.估计遗漏值 19)假设12个销售价格记录组已经排序如下:5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。等频(等深)划分时,15在第几个箱子内 (B) 20) A.第一个 B.第二个 C.第三个 D.第四个 21)下面哪个不属于数据的属性类型:(D) 22) A.标称 B.序数 C.区间 D.相异

山大自考管理学原理强化实践作业答案

第一章管理与管理学 管理理论来源于管理实践,并指导实践,同时管理实践中不断修正、丰富和完善管理学。理论联系实际的方法,具体说可以是案例的调查和分析、边学习边实践,以及带着问题学习等多种方式、通过这种方法,有助于提高学习者运用管理的基本理论的方法去发现问题、分析问题和解决问题的能力,这样做往往能够提高学习研究管理学的效果。 第二章管理学的形成与发展 我觉得泰罗提出科学管理理论最开始的目的是降低成本,提高生产效率,以谋求企业更大的利润。而这个目的适用于从古到今的每个企业,所以对于我国的企业也不例外。所以,重拾泰罗精神对于我国企业的发展是很有必要的。 而提高生产效率工作效率就要从工厂一线工人下手。泰罗观察到,以前工人都是凭着自身的经验进行生产劳动,而每个工人自身的素质、能力都是参差不齐的,从而造成工作效率的低下。因此,制定一套科学标准的工作章程,以规范工人工作的时间、方法、方式,并指派负责人去监督领导是很必要的。现在很多工厂车间都是分小组的,而且每个小组都有组长,这种做法便是渗透了泰罗的科学管理思想。这种做法同样适用于公司中高层。对公司的每个部门设置问责制,在公司大的规章制度背景下,每个部门又有结合自身部门的规章制度,这样便形成了一种企业运作的模式,员工能在一种井然有序的状态下工作,日积月累还会变成一种企业文化,让员工与公司产生感情,更能让员工为企业效益的提高出力。所以泰罗提出管理要科学化、标准化,进行动作研究,确定操作规程和动作规范,确定劳动时间定额,完善科学的操作方法,以提高工效,这些是十分必要的。 工人努力工作的动力是工资。而在车间生产实行计件工资,超额劳动,超额报酬可以提高工人的积极性。据我了解,我国很多私营的中小企业生产一线都是实行计件制度。这种多劳多得的方法对于我国避免了旧中国大跃进时期大锅饭,虚假的共产主义现象的发生。生产多少就相应得到多少报酬,这样便能追求公平原则,激发工人的劳动积极性。 虽然泰罗这一制度似乎是在帮助资本家更大程度地剥削工人阶级以实现最大利润,但是在另一个层次上又实现劳资双方利益一致。劳资双方必须认识到提高劳动生产率对两者都有利,因为雇主关心的是降低成本、增加利润,工人关心的是提高工资,而只有劳资双方转变观念,树立团结协作的精神,共同奋斗,努力提高劳动生产率,增加经济效益,使“蛋糕”更大更多,才能满足劳资双方的各自利益。 第三章管理环境、社会责任与管理道德 企业道德是指在企业这一特定的社会经济组织中,依靠社会舆论、传统习惯和内心信念来维持的,以善恶评价为标推的道德原则、道德规范和道德活动的综合。按照道德活动主体的不同,可分为企业的组织道德和员工个人的职业道德。企业道德既是社会道德体系的重要组成部分,也是社会道德原则在企业中的具体体现。它是人格化了的企业,在生产经营活动中,在自然求索.社会交往中,所应遵循的旨在调节企业与国家.企业与他企业.企业与他单位.企业与竞争对象.企业与服务对象以及企业内部各方面关系的行为规范总和。 商业道德实质商家企业社会责任普遍股市反应良莠齐制度性建设泛滥要从企业家、企业管理层树立正确社会价值观开始好比患者再好医疗设备和药品及医生都离开患者自身积极主动地配合离开患者对健康强烈追求 第四章计划工作概述 计划工作是一个指导性、科学性、预见性很强的管理活动,也是一项复杂困难的任务,在实

相关文档
相关文档 最新文档