文档库 最新最全的文档下载
当前位置:文档库 › 决策树练习题

决策树练习题

决策树练习题
决策树练习题

决策树作业题

公司拟建一预制构件厂,一个方案是建大厂,需投资300万元,建成后如销路好

每年可获利100万元,如销路差,每年要亏损20万元,该方案的使用期均为10年;另一个方案是建小厂,需投资170万元,建成后如销路好,每年可获利40万元,如销路差每年可获利30万元;若建小厂,则考虑在销路好的情况下三年以后再扩建,扩建投资130万元,可使用七年,每年盈利85万元。假设前3年销路好的概率是0.7,销路差的概率是0.3,后7年的销路情况完全取决于前3年;为了适应市场的变化,投资者又提出了第三个方案,即先小规模投资160万元,生产3年后,如果销路差,则不再投资,继续生产7年;如果销路好,则再作决策是否再投资140万元扩建至大规模(总投资300万元),生产7年。前3年和后7年销售状态的概率见表16,大小规模投资的年损益值同习题58。试用决策树法选择最优方案。

决策树例题

1. 某投资者预投资兴建一工厂,建设方案有两种:①大规模投资300万元;②小规模投

资160万元。两个方案的生产期均为10年,其每年的损益值及销售状态的规律见下表。试用决策树法选择最优方案。

(2)计算各状态点的期望收益值

节点②:[100*0.7+(-20)*0.3]*10-300=340 ;

节点③:[60*0.7+20*0.3]*10-160=320 ;

将各状态点的期望收益值标在圆圈上方。

(3)决策

比较节点②与节点③的期望收益值可知,大规模投资方案优于小规模投资方案,故

应选择大规模投资方案,用符号“ 〃”在决策树上“剪去”被淘汰的方案。

2. 某项目有两个备选方案A和B,两个方案的寿命期均为10年,生产的产品也完全相

同,但投资额及年净收益均不相同。A方案的投资额度为500万元,其年净收益在产品销售好时为150万元,销售差时为50万元;B方案的投资额度为300万元,其年净收益在产品销售好时为100万元,销售差时为10万元,根据市场预测,在项目

寿命期内,产品销路好时的可能性为 70%销路差的可能性为30%试根据以上资 料对方案进行比较。

此题中冇 个决嵌点,两亍备用)隊 何个方案乂面鹉科两种优鮎因此可以闻1皿沈笫树

3、公司拟建一预制构件厂,一个方案是建大厂,需投资 300万元,建成后如销路好每

年可获利100万元,如销路差,每年要亏损20万元,该方案的使用期均为10年;另一 个方案是建小厂,需投资170万元,建成后如销路好,每年可获利 40万元,如销路差 每年可获利30万元;若建小厂,则考虑在销路好的情况下三年以后再扩建,扩建投资 130万元,可使用七年,每年盈利85万元。假设前3年销路好的概率是0.7,销路差的 概率是0.3,后7年的销路情况完全取决于前3年;试用决策树法选择方案。

解:这个问题可以分前3年和后7年两期考虑,属于多级决策类型,如图所示。

销路好0.7

点②:净收益=(283.84+194.74 ) X 0.7+40 X(P/A , 10%,3) X 0.7+3

前3年

10) X 0.3-170 = 345.62 (万元)

决策树图示

IU

考虑资金的时间价值,各点益损期望值计算如销路:好07

点①:净收益遅大厂Q X O0P/A ,J0 X 0.3] -300=93.35(万元)

点③:净收

点④:净收益 ,10) X 0.7+( -20) X( P/A ,10%,10)

销路差0.3

)X 1.0-130=销8路差84(万元

4

-20 X 10

-

30 X 10

40 X 7

元)

150

a 2决餓厨结构罔

10%, 85X( P/A ,

7) X 1.0=

194.74(

万元)扩建(130)

点n 3勺期望值为 40X ( P/A , 可知决策点n ?涵小厂如70) 10

2

100 X 10

P=

1

85 X 7

478.58 (万’ --------

3

283.84+194.

不扩建

P=1

(P/A ,10%,

后7年/°'

由上可知,最合理的方案是先建小厂,如果销路好,再进行扩建。在本例中,有两个决策点I和U,在多级决策中,期望值计算先从最小的分枝决策开始,逐级决定取舍到决策能选定为止。

管理学盈亏平衡分析和决策树计算题

盈亏平衡分析 某建筑工地需抽除积水保证施工顺利进行,现有A 、B 两个方案可供选择。 A 方案:新建一条动力线,需购置一台2.5W 电动机并线运转,其投资为1400元,第四年 末残值为200元,电动机每小时运行成本为0.84元,每年预计的维护费用120元, 因设备完全自动化无需专人看管。 B 方案:购置一台3.86KW 的(5马力)柴油机,其购置费用为550元,使用寿命为4年, 设备无残值。运行每小时燃料费为0.42元,平均每小时维护费为0.15元,每小 时的人工成本为0.8元。 若寿命都为4年,基准折现率为10%,试比较A 、B 方案的优劣。 解:两方案的总费用都与年开机小时数t 有关,故两方案的年成本均可表示t 的函数。 )4%,10,/(200)4%,10,/(1400F A P A C A -=t t 84.056.51884.0120+=++ t P A C B )8.015.042.0()4%,10,/(550+++= t 37.151.175+= 令C A =C B ,即518.56+0.84t=173.51+1.37t 可解出:t =651(h),所以在t =651h 这一点上, C A =C B =1065.4(元) A 、 B 两方案的年成本函数如图13所示。从图中可见,当年开机小时数低于651h ,选B 方案有利;当年开机小时数高于651h 则选A 方案有利。 图13 A 、B 方案成本函数曲线

决策树问题 55.某建筑公司拟建一预制构件厂,一个方案是建大厂,需投资300万元,建成后如销路 好每年可获利100万元,如销路差,每年要亏损20万元,该方案的使用期均为10年; 另一个方案是建小厂,需投资170万元,建成后如销路好,每年可获利40万元,如销路差每年可获利30万元;若建小厂,则考虑在销路好的情况下三年以后再扩建,扩建投资130万元,可使用七年,每年盈利85万元。假设前3年销路好的概率是0.7,销路差的概率是0.3,后7年的销路情况完全取决于前3年;试用决策树法选择方案。 决策树图示 考虑资金的时间价值,各点益损期望值计算如下: 点①:净收益=[100×(P/A,10%,10)×0.7+(-20)×(P/A,10%,10)×0.3]-300=93.35(万元) 点③:净收益=85×(P/A,10%,7)×1.0-130=283.84(万元) 点④:净收益=40×(P/A,10%,7)×1.0=194.74(万元) 可知决策点Ⅱ的决策结果为扩建,决策点Ⅱ的期望值为283.84+194.74=478.58(万元)点②:净收益=(283.84+194.74)×0.7+40×(P/A,10%,3)×0.7+30×(P/A,10%,10)×0.3-170=345.62(万元) 由上可知,最合理的方案是先建小厂,如果销路好,再进行扩建。在本例中,有两个决策点Ⅰ和Ⅱ,在多级决策中,期望值计算先从最小的分枝决策开始,逐级决定取舍到决策能选定为止。 56.某投资者预投资兴建一工厂,建设方案有两种:①大规模投资300万元;②小规模投 资160万元。两个方案的生产期均为10年,其每年的损益值及销售状态的规律见表15。 试用决策树法选择最优方案。 表15 各年损益值及销售状态

C4.5 分类决策树

C4.5是一系列用在机器学习和数据挖掘的分类问题中的算法。它的目标是监督学习:给定一个数据集,其中的每一个元组都能用一组属性值来描述,每一个元组属于一个互斥的类别中的某一类。C4.5的目标是通过学习,找到一个从属性值到类别的映射关系,并且这个映射能用于对新的类别未知的实体进行分类。 C4.5由J.Ross Quinlan在ID3的基础上提出的。ID3算法用来构造决策树。决策树是一种类似流程图的树结构,其中每个内部节点(非树叶节点)表示在一个属性上的测试,每个分枝代表一个测试输出,而每个树叶节点存放一个类标号。一旦建立好了决策树,对于一个未给定类标号的元组,跟踪一条有根节点到叶节点的路径,该叶节点就存放着该元组的预测。决策树的优势在于不需要任何领域知识或参数设置,适合于探测性的知识发现。 从ID3算法中衍生出了C4.5和CART两种算法,这两种算法在数据挖掘中都非常重要。下图就是一棵典型的C4.5算法对数据集产生的决策树。 数据集如图1所示,它表示的是天气情况与去不去打高尔夫球之间的关系。

图1 数据集 图2 在数据集上通过C4.5生成的决策树 算法描述

C4.5并不一个算法,而是一组算法—C4.5,非剪枝C4.5和C4.5规则。下图中的算法将给出C4.5的基本工作流程: 图3 C4.5算法流程 我们可能有疑问,一个元组本身有很多属性,我们怎么知道首先要对哪个属性进行判断,接下来要对哪个属性进行判断?换句话说,在图2中,我们怎么知道第一个要测试的属性是Outlook,而不是Windy?其实,能回答这些问题的一个概念就是属性选择度量。 属性选择度量 属性选择度量又称分裂规则,因为它们决定给定节点上的元组如何分裂。属性选择度量提供了每个属性描述给定训练元组的秩评定,具有最好度量得分的属性被选作给定元组的分裂属性。目前比较流行的属性选择度量有--信息增益、增益率和Gini指标。

造价师案例辅导:决策树(法)概念考试试卷

造价师案例辅导:决策树(法)概念考试试卷 一、单项选择题(共25题,每题2分,每题的备选项中,只有1个事最符合题意) 1、工程竣工后,由于洪水等不可抗力造成的损坏,承担包修费用的单位是__。A.施工单位 B.设计单位 C.建设单位 D.监理单位 2、在国产离心泵的型号表示法中,100D45×8表示__。 A.泵的流量100m3/h,单级扬程45m水柱,8级分段多级离心水泵 B.泵的流量为45×8=360m3/h,扬程为100m的多级式离心水泵 C.泵的入口直径为100mm,单级扬程为45m水柱,8级分段式多级离心水泵D.泵的入口直径为100mm,总扬程为45m水柱,8段多级离心水泵 3、解决价值工程的研究对象这个问题是在价值工程活动中__环节完成。 A.对象选择和收集资料 B.对象选择和功能定义 C.功能定义和功能整理 D.收集资料和功能定义 4、安全阀的阀座内径应()。 A.视情况确定 B.等于25mm C.大于25mm D.小于25mm 5、根据《建设工程施工合同(示范文本)》的规定,工程进度款支付内容包括合同中规定的__。 A.初始收入 B.初始收入加因合同变更构成的收入 C.初始收入加因合同变更、索赔、奖励等构成的收入 D.初始收入加因合同变更、索赔、奖励等构成的收入减应扣回的预付款 6、关于施工组织设计表述正确的是()。 A.施工组织设计主要用于项目管理 B.施工组织设计由设计单位编制 C.“标后设计”由企业管理层在合同签订之前完成 D.“标前设计”是规划性设计,由项目管理层编制 7、功能评价的目标是()。 A.找出低价值功能区域 B.找出高价值功能区域 C.找出产品使用功能 D.找出产品美学功能 8、__是指技术工种劳动定额内不包括而在预算定额内又必须考虑的用工。A.额外用

决策树算法介绍(DOC)

3.1 分类与决策树概述 3.1.1 分类与预测 分类是一种应用非常广泛的数据挖掘技术,应用的例子也很多。例如,根据信用卡支付历史记录,来判断具备哪些特征的用户往往具有良好的信用;根据某种病症的诊断记录,来分析哪些药物组合可以带来良好的治疗效果。这些过程的一个共同特点是:根据数据的某些属性,来估计一个特定属性的值。例如在信用分析案例中,根据用户的“年龄”、“性别”、“收入水平”、“职业”等属性的值,来估计该用户“信用度”属性的值应该取“好”还是“差”,在这个例子中,所研究的属性“信用度”是一个离散属性,它的取值是一个类别值,这种问题在数据挖掘中被称为分类。 还有一种问题,例如根据股市交易的历史数据估计下一个交易日的大盘指数,这里所研究的属性“大盘指数”是一个连续属性,它的取值是一个实数。那么这种问题在数据挖掘中被称为预测。 总之,当估计的属性值是离散值时,这就是分类;当估计的属性值是连续值时,这就是预测。 3.1.2 决策树的基本原理 1.构建决策树 通过一个实际的例子,来了解一些与决策树有关的基本概念。 表3-1是一个数据库表,记载着某银行的客户信用记录,属性包括“姓名”、“年龄”、“职业”、“月薪”、......、“信用等级”,每一行是一个客户样本,每一列是一个属性(字段)。这里把这个表记做数据集D。 银行需要解决的问题是,根据数据集D,建立一个信用等级分析模型,并根据这个模型,产生一系列规则。当银行在未来的某个时刻收到某个客户的贷款申请时,依据这些规则,可以根据该客户的年龄、职业、月薪等属性,来预测其信用等级,以确定是否提供贷款给该用户。这里的信用等级分析模型,就可以是一棵决策树。在这个案例中,研究的重点是“信用等级”这个属性。给定一个信用等级未知的客户,要根据他/她的其他属性来估计“信用等级”的值是“优”、“良”还是“差”,也就是说,要把这客户划分到信用等级为“优”、“良”、“差”这3个类别的某一类别中去。这里把“信用等级”这个属性称为“类标号属性”。数据集D中“信用等级”属性的全部取值就构成了类别集合:Class={“优”,

决策树ID3算法在高校教师教育技术培训中的应用研究

决策树ID3算法在高校教师教育技术培训中的应用研究 摘要: 高校教师教育技术培训存在培训形式单一、内容安排不够合理、评价体系不够健全等问题。针对参训教师在知识层次、学科背景、思想意识等方面存在的差异,应坚持“先分类后培训”的思想,以学校教师历年参训情况构造ID3决策树,利用分类技术从中挖掘出一些潜在的、隐藏的知识,为将来参训教师的分类、培训的具体实施做好充分的准备工作。实验表明,该方法具有一定的可行性。 关键词:高校教师教育技术培训;决策树ID3算法;应用 信息技术的迅猛发展引起了教育的深刻变革。为此,提高教师的信息素养已成为推动我国高等教育信息化建设的必由之路。高教司于2000年发出的《关于开展高校教师教育技术培训工作的通知》(高教司【2000】79号)[1]中指出,“教育技术培训”是“新世纪教改工程”和“现代远程教育工程”的重要组成部分,是深化教学改革、提高教学质量的重要举措。 常熟理工学院自2001年6月开始,对教师进行教育技术培训,2003年1月起申报江苏省教育技术培训点,次年申报成功。2007年,学校正式下发的《常熟理工学院讲师等中级职称资格条件》(常理工[2007]73号)第二章第七条规定:教师申报教学系列、思政系列的中级职称应参加学校现代教育技术培训并取得合格证书。近几年来,学校先后举办了十期教师教育技术中级培训班,共400多名中青年教师参加了培训,极大地提高了教师的多媒体教学水平,加快了学校信息化建设的步伐。 一、高校教师教育技术培训存在的问题 教师教育技术培训的研究对象是教学过程与教学资源,研究范畴包括对教学过程的设计以及教学资源的开发、应用、管理与评价。目前,各高校的教师教育技术培训工作虽已取得了一定的成绩,但从培训的实际效果来看,仍存在着一些问题,主要表现在以下三个方面。 1.培训时间安排不够合理 目前,教师教育培训基本采用集体面授的方式。由于参训教师自身所承担的教学工作和科研任务比较繁重,很难抽出一段相对集中的时间来参加教育技术培训。为解决上述矛盾,高校通常会选择利用寒暑假时间安排培训,这需要牺牲培训教师和参训教师的许多休息时间,容易引发不满情绪,严重影响了教师参训的积极性,极大地降低了培训效果。 2.培训内容安排不科学 由于培训内容是根据全校教师需求统一安排的,基本没有考虑到参训教师自身所具备的知识层次、学科背景、思想意识等方面的差异,因此很难体现学科差别。各学科教师混合在一起集中学习,导致理论知识讲解过多而与教学实际联系较少,参训教师难以从根本上真正掌握教育技术。 3.考核方式单一,培训评价体系不健全 目前,高校教师培训采取的考核方式往往比较单一,通常以参加理论考试或者提交相关论文、作业等作为培训的最终考核结果。此外,各级培训机构大多未能及时地对培训过程做出评价,同时缺少参训教师的自我评价环节,因而不利于教育技术培训工作的后续支持和进一步开展。如此看来,建立和完善培训评价体系显得尤为重要,这也是建立教师培训长效机制的关键所在。 二、分类技术与决策树ID3 算法的相关理论

(完整word版)管理学决策树习题及答案

注意答卷要求: 1.统一代号:P 为利润,C 为成本,Q 为收入,EP 为期望利润 2.画决策树时一定按照标准的决策树图形画,不要自创图形 3.决策点和状态点做好数字编号 4.决策树上要标出损益值 某企业似开发新产品,现在有两个可行性方案需要决策。 I 开发新产品A ,需要追加投资180万元,经营期限为5年。此间,产品销路好可获利170万元;销路一般可获利90万元;销路差可获利-6万元。三种情况的概率分别为30%,50%,20%。 II.开发新产品B ,需要追加投资60万元,经营期限为4年。此间,产品销路好可获利100万元;销路一般可获利50万元;销路差可获利20万元。三种情况的概率分别为60%,30%,10%。 (1)画出决策树 销路好 0.3 170 90 -6 100 50 20

(2)计算各点的期望值,并做出最优决策 求出各方案的期望值: 方案A=170×0.3×5+90×0.5×5+(-6)×0.2×5=770(万元) 方案B=100×0.6×4+50×0.3×4+20×0.1×4=308(万元) 求出各方案的净收益值: 方案A=770-180=590(万元) 方案B=308-60=248(万元) 因为590大于248大于0 所以方案A最优。 某企业为提高其产品在市场上的竞争力,现拟定三种改革方案:(1)公司组织技术人员逐渐改进技术,使用期是10年;(2)购买先进技术,这样前期投入相对较大,使用期是10年;(3)前四年先组织技术人员逐渐改进,四年后再决定是否需要购买先进技术,四年后买入技术相对第一年便宜一些,收益与前四年一样。预计该种产品前四年畅销的概率为0.7,滞销的概率为0.3。如果前四年畅销,后六年畅销的概率为0.9;若前四年滞销,后六年滞销的概率为0.1。相关的收益数据如表所示。 (1)画出决策树 (2)计算各点的期望值,并做出最优决策 投资收益 表单位:万元 解(1)画出决策树,R为总决策,R1为二级决策。

届南开大学《管理学》试题及答案

17秋学期(1709)《经管学》在线作业一 一、单选题(共30道试卷,共60分。)1.(C)是进行组织设计的基本出发点。 A. 人员配备 B. 组织文化 C. 组织目标 D. 组织结构满分:2分2.领导的特质理论告诉我们. A A. 领导是天生的 B. 领导的行为决定了领导才能 C. 下属的服从是领导之所以为领导的关键 D. 领导行为是可以模仿的满分:2分3.决策方法中的“硬技术”是指(A)。 A. 计量决策方法 B. 专家意见法 C. 定性决策法 D. 决策树法满分:2分4.(B )是指企业经管系统随着企业内外部环境的变化,而不断更新自己的经营理念、经营方针和经营目标,为达此目的,必须相应的改变有关的经管方法和手段,使其与企业的经营目标相适应。 A. 激励原理 B. 动态原理 C. 创新原理 D. 可持续发展原理满分:2分5.被称为“科学经管之父”的经管学家是(A)。 A. 泰勒 B. 法约尔 C. 德鲁克 D. 西蒙满分:2分6.现在很多大公司都实行所谓的“门户开放”政策(比如IBM),即鼓励各级员工通过多种途径直接向公司高层领导反映意见、提出建议,公司总裁也会设立专门的信箱,以接收这些意见或者抱怨。这里的沟通渠道可以看成是一种(B)。 A. 下行沟通 B. 上行沟通 C. 对角沟通 D. 横向沟通满分:2分7.非程序化决策往往是有关企业重大战略问题的决策,主要由(B)承担。 A. 一线工人 B. 上层经管人员 C. 中层经管人员 D. 低层经管人员满分:2分8.下面关于内部招聘的说法不正确的是(B)。 A. 内部员工的竞争结果必然有胜有败,可能影响组织的内部团结。 B. 内部招聘人员筛选难度大,成本高。 C. 可能在组织中滋生“小集团”,削弱组织效能。 D. 组织内的“近亲繁殖”现象,可能不利于个体创新。满分:2分9.(D)是指依靠企业各级行政组织的法定权力,通过命令、指示、规定、制度、规范以及具有约束性的计划等行政手段来经管企业的方法。 A. 教育方法 B. 经济方法 C. 法制方法 D. 行政方法满分:2分10.目标经管的提出者是(C)。 A. 泰罗 B. 法约尔 C. 德鲁克 D. 巴纳德满分:2分11.解决复杂问题应采用的沟通方式是(D)。 A. 链式 B. 轮式 C. 环式 D. 全通道式满分:2分12.(D)就是对一系列典型的事物进行观察分析,找出各种因素之间的因果关系,从中找出事物发展变化的一般规律,这种从典型到一般的研究方法也称为实证研究。 A. 演绎法 B. 调查法 C. 实验法 D. 归纳法满分:2分13.泰罗经管理论的代表着作是(B)。

决策树归纳的理论介绍_光环大数据培训

https://www.wendangku.net/doc/bd4153105.html, 决策树归纳的理论介绍_光环大数据培训 光环大数据培训机构了解到,什么是分类? 银行贷款员需要分析数据,以便搞清楚哪些贷款申请者是“安全”那些是“有风险”的。销售经理需要数据分析,以便帮助他猜测哪些顾客会购买计算机。再或者医学研究人员需要分析乳腺癌数据,以便预测病人应当接受三种治疗中的哪一种。在上面的例子中,数据分析任务都是分类,都需要构造一个模型来预测一个类别型数据。譬如安全或者不安全、会购买与不会购买、那种治疗都是类别型。分类是一种重要的数据分析形式,它提取刻画重要数据类的模型,用来预测(离散的、无序的)类标号。 决策树是一种类似于流程图的树结构,其中,每个内部节点(非树叶节点)表示在一个属性上的测试,每个分支代表该测试的一个输出,而每个树叶节点(或终端节点)存放一个类标号。树的最顶层节点是根节点。 比如我们想要决定要不要给一个用户贷款,第一个分裂准则可以定义为age 年龄,年龄底下有三个分枝,Youth,middle_aged和Senior。年轻人中再以是否为大学生作为一个分裂节点,如果是学生就给贷款,yes就是这条枝子上的叶子节点,也就是最后的类标号。 数据分类过程:a) 学习,及建立树的阶段。用分类算法分析训练数据,学

https://www.wendangku.net/doc/bd4153105.html, 习的模型以分类规则(Splitting criterian)或者叫属性选择度量形式提供; b) 分类。检验数据用于评估分类规则的准确率,如果准确率是可以接受的,则规则用于新的数据元组分类。 属性选择度量是一种选择分裂标准,把给定类标记的训练元组的数据分区D “最好地”划分成单独类的启发方式,比如量——信息增益、增益率和基尼指数。 1、用信息增益进行决策树归纳 看不懂公式可以直接看下面例子 该度量基于Claude Shannon在研究消息的值或“信息内容”的信息论方面的先驱工作。设计节点N代表或存放分区D的元组。选择具有最高信息增益的属性作为节点N的分裂属性。该属性使结果分区中对元组分类所需要的信息量最小,并反映这些分区中的最小随机性或“不纯性”。这种方法使得对一个对象的分类所需要的期望测试数目最小,并确保找到一颗简单的(但不必是最简单的)树。 现在我们假设要按某属性A划分D中的元组,其中属性A根据训练数据的观测具有v个不同的值{a1,a2, …, av}。理想情况下我们希望该划分产生的元组的准确分类,即我们希望每个分区都是纯的。然而这些分区多半是不纯的(例如,分区可能包含来自不同类而不是来自单个类的元组)。为了得到准确的分类,我们需要下式度量:

2021年管理学决策树习题及答案

注意答卷要求: 欧阳光明(2021.03.07) 1.统一代号:P为利润,C为成本,Q为收入,EP为期望利润2.画决策树时一定按照标准的决策树图形画,不要自创图形3.决策点和状态点做好数字编号 4.决策树上要标出损益值 某企业似开发新产品,现在有两个可行性方案需要决策。 I开发新产品A,需要追加投资180万元,经营期限为5年。此间,产品销路好可获利170万元;销路一般可获利90万元;销路差可获利-6万元。三种情况的概率分别为30%,50%,20%。 II.开发新产品B,需要追加投资60万元,经营期限为4年。此间,产品销路好可获利100万元;销路一般可获利50万元;销路差可获利20万元。三种情况的概率分别为60%,30%,10%。 (1)画出决策树

(2)计算各点的期望值,并做出最优决策 求出各方案的期望值: 方案A=170×0.3×5+90×0.5×5+(-6)×0.2×5=770(万元) 方案B=100×0.6×4+50×0.3×4+20×0.1×4=308(万元) 求出各方案的净收益值: 方案A=770-180=590(万元) 方案B=308-60=248(万元) 因为590大于248大于0 所以方案A 最优。 某企业为提高其产品在市场上的竞争力,现拟定三种改革方案:(1)公司组织技术人员逐渐改进技术,使用期是10年;(2)购 销路好 0.3 170 90 -6 100 50 20

买先进技术,这样前期投入相对较大,使用期是10年;(3)前四年先组织技术人员逐渐改进,四年后再决定是否需要购买先进技术,四年后买入技术相对第一年便宜一些,收益与前四年一样。预计该种产品前四年畅销的概率为0.7,滞销的概率为0.3。如果前四年畅销,后六年畅销的概率为0.9;若前四年滞销,后六年滞销的概率为0.1。相关的收益数据如表所示。 (1)画出决策树 (2)计算各点的期望值,并做出最优决策 投资收益表单位:万元 解(1)画出决策树,R为总决策,R1为二级决策。

如何运用决策树进行分类分析

如何运用决策树进行分类分析 前面我们讲到了聚类分析的基本方法,这次我们来讲讲分类分析的方法。 所谓分类分析,就是基于响应,找出更好区分响应的识别模式。分类分析的方法很多,一般而言,当你的响应为分类变量时,我们就可以使用各种机器学习的方法来进行分类的模式识别工作,而决策树就是一类最为常见的机器学习的分类算法。 决策树,顾名思义,是基于树结构来进行决策的,它采用自顶向下的贪婪算法,在每个结点选择分类的效果最好的属性对样本进行分类,然后继续这一过程,直到这棵树能准确地分类训练样本或所有的属性都已被使用过。 建造好决策树以后,我们就可以使用决策树对新的事例进行分类。我们以一个生活小案例来说什么是决策树。例如,当一位女士来决定是否同男士进行约会的时候,她面临的问题是“什么样的男士是适合我的,是我值得花时间去见面再进行深入了解的?” 这个时候,我们找到了一些女生约会对象的相关属性信息,例如,年龄、长相、收入等等,然后通过构建决策树,层层分析,最终得到女士愿意去近一步约会的男士的标准。 图:利用决策树确定约会对象的条件

接下来,我们来看看这个决策的过程什么样的。 那么,问题来了,怎样才能产生一棵关于确定约会对象的决策树呢?在构造决策树的过程中,我们希望决策树的每一个分支结点所包含的样本尽可能属于同一类别,即结点的”纯度”(Purity )越来越高。 信息熵(Information Entropy )是我们度量样本集合纯度的最常见指标,假定当前样本集合中第K 类样本所占的比例为P k ,则该样本集合的信息熵为: Ent (D )=?∑p k |y| k=1 log 2p k 有了这个结点的信息熵,我们接下来就要在这个结点上对决策树进行裁剪。当我们选择了某一个属性对该结点,使用该属性将这个结点分成了2类,此时裁剪出来的样本集为D 1和D 2, 然后我们根据样本数量的大小,对这两个裁剪点赋予权重|D 1||D|?,|D 2||D|?,最后我们就 可以得出在这个结点裁剪这个属性所获得的信息增益(Information Gain ) Gain(D ,a)=Ent (D )?∑|D V ||D |2 v=1Ent(D V ) 在一个结点的裁剪过程中,出现信息增益最大的属性就是最佳的裁剪点,因为在这个属性上,我们获得了最大的信息增益,即信息纯度提升的最大。 其实,决策树不仅可以帮助我们提高生活的质量,更可以提高产品的质量。 例如,我们下表是一组产品最终是否被质检接受的数据,这组数据共有90个样本量,数据的响应量为接受或拒绝,则|y|=2。在我们还没有对数据进行裁剪时,结点包含全部的样本量,其中接受占比为p 1= 7690,拒绝占比为p 2=1490,此时,该结点的信息熵为: Ent (D )=?∑p k |y|k=1log 2p k =-(7690log 27690+1490log 21490)=0.6235

管理学盈亏平衡分析和决策树计算题

盈亏平衡分析 某建筑工地需抽除积水保证施工顺利进行,现有A 、B 两个方案可供选择。 A 方案:新建一条动力线,需购置一台2.5W 电动机并线运转,其投资为1400元,第四年 末残值为200元,电动机每小时运行成本为0.84元,每年预计的维护费用120元,因设备完全自动化无需专人看管。 B 方案:购置一台3.86KW 的(5马力)柴油机,其购置费用为550元,使用寿命为4年, 设备无残值。运行每小时燃料费为0.42元,平均每小时维护费为0.15元,每小时的人工成本为0.8元。 若寿命都为4年,基准折现率为10%,试比较A 、B 方案的优劣。 解:两方案的总费用都与年开机小时数t 有关,故两方案的年成本均可表示t 的函数。 )4%,10,/(200)4%,10,/(1400F A P A C A -=t t 84.056.51884.0120+=++ t P A C B )8.015.042.0()4%,10,/(550+++= t 37.151.175+= 令C A =C B ,即518.56+0.84t=173.51+1.37t 可解出:t =651(h),所以在t =651h 这一点上, C A =C B =1065.4(元) A 、 B 两方案的年成本函数如图13所示。从图中可见,当年开机小时数低于651h ,选B 方案有利;当年开机小时数高于651h 则选A 方案有利。 图13 A 、B 方案成本函数曲 线

决策树问题 55.某建筑公司拟建一预制构件厂,一个方案是建大厂,需投资300万元,建成后如销路 好每年可获利100万元,如销路差,每年要亏损20万元,该方案的使用期均为10年; 另一个方案是建小厂,需投资170万元,建成后如销路好,每年可获利40万元,如销路差每年可获利30万元;若建小厂,则考虑在销路好的情况下三年以后再扩建,扩建投资130万元,可使用七年,每年盈利85万元。假设前3年销路好的概率是0.7,销路差的概率是0.3,后7年的销路情况完全取决于前3年;试用决策树法选择方案。 决策树图示 考虑资金的时间价值,各点益损期望值计算如下: 点①:净收益=[100×(P/A,10%,10)×0.7+(-20)×(P/A,10%,10)×0.3]-300=93.35(万元) 点③:净收益=85×(P/A,10%,7)×1.0-130=283.84(万元) 点④:净收益=40×(P/A,10%,7)×1.0=194.74(万元) 可知决策点Ⅱ的决策结果为扩建,决策点Ⅱ的期望值为283.84+194.74=478.58(万元)点②:净收益=(283.84+194.74)×0.7+40×(P/A,10%,3)×0.7+30×(P/A,10%,10)×0.3-170=345.62(万元) 由上可知,最合理的方案是先建小厂,如果销路好,再进行扩建。在本例中,有两个决策点Ⅰ和Ⅱ,在多级决策中,期望值计算先从最小的分枝决策开始,逐级决定取舍到决策能选定为止。 56.某投资者预投资兴建一工厂,建设方案有两种:①大规模投资300万元;②小规模投 资160万元。两个方案的生产期均为10年,其每年的损益值及销售状态的规律见表15。 试用决策树法选择最优方案。 表15 各年损益值及销售状态

决策树分类-8页文档资料

基于专家知识的决策树分类 概述 基于知识的决策树分类是基于遥感影像数据及其他空间数据,通过专家经验总结、简单的数学统计和归纳方法等,获得分类规则并进行遥感分类。分类规则易于理解,分类过程也符合人的认知过程,最大的特点是利用的多源数据。 如图1所示,影像+DEM就能区分缓坡和陡坡的植被信息,如果添加其他数据,如区域图、道路图土地利用图等,就能进一步划分出那些是自然生长的植被,那些是公园植被。 图1.JPG 图1 专家知识决策树分类器说明图 专家知识决策树分类的步骤大体上可分为四步:知识(规则)定义、规则输入、决策树运行和分类后处理。 1.知识(规则)定义 规则的定义是讲知识用数学语言表达的过程,可以通过一些算法获取,也可以通过经验总结获得。 2.规则输入

将分类规则录入分类器中,不同的平台有着不同规则录入界面。 3.决策树运行 运行分类器或者是算法程序。 4.分类后处理 这步骤与监督/非监督分类的分类后处理类似。 知识(规则)定义 分类规则获取的途径比较灵活,如从经验中获得,坡度小于20度,就认为是缓坡,等等。也可以从样本中利用算法来获取,这里要讲述的就是C4.5算法。 利用C4.5算法获取规则可分为以下几个步骤: (1)多元文件的的构建:遥感数据经过几何校正、辐射校正处理后,进行波段运算,得到一些植被指数,连同影像一起输入空间数据库;其他空间数据经过矢量化、格式转换、地理配准,组成一个或多个多波段文件。 (2)提取样本,构建样本库:在遥感图像处理软件或者GIS软件支持下,选取合适的图层,采用计算机自动选点、人工解译影像选点等方法采集样本。 (3)分类规则挖掘与评价:在样本库的基础上采用适当的数据挖掘方法挖掘分类规则,后基于评价样本集对分类规则进行评价,并对分类规则做出适当的调整和筛选。这里就是C4.5算法。 4.5算法的基本思路基于信息熵来“修枝剪叶”,基本思路如下: 从树的根节点处的所有训练样本D0开始,离散化连续条件属性。计算增益比率,取GainRatio(C0)的最大值作为划分点V0,将样本分为两个部分D11和D12。对属性C0的每一个值产生一个分支,分支属性值的相应样本子集被移到新生成的子节点上,如果得到的样本都属于同一个类,那么直接得到叶子结点。相应地将此方法应用于每个子节点上,直到节点的所有样本都分区到某个类中。到达决策树的叶节点的每条路径表示一条分类规则,利用叶列表及指向父结点的指针就可以生成规则表。

决策树分类算法

决策树分类算法 决策树是一种用来表示人们为了做出某个决策而进行的一系列判断过程的树形图。决策树方法的基本思想是:利用训练集数据自动地构造决策树,然后根据这个决策树对任意实例进行判定。 1.决策树的组成 决策树的基本组成部分有:决策节点、分支和叶,树中每个内部节点表示一个属性上的测试,每个叶节点代表一个类。图1就是一棵典型的决策树。 图1 决策树 决策树的每个节点的子节点的个数与决策树所使用的算法有关。例如,CART算法得到的决策树每个节点有两个分支,这种树称为二叉树。允许节点含有多于两个子节点的树称为多叉树。 下面介绍一个具体的构造决策树的过程,该方法

是以信息论原理为基础,利用信息论中信息增益寻找数据库中具有最大信息量的字段,建立决策树的一个节点,然后再根据字段的不同取值建立树的分支,在每个分支中重复建立树的下层节点和分支。 ID3算法的特点就是在对当前例子集中对象进行分类时,利用求最大熵的方法,找出例子集中信息量(熵)最大的对象属性,用该属性实现对节点的划分,从而构成一棵判定树。 首先,假设训练集C 中含有P 类对象的数量为p ,N 类对象的数量为n ,则利用判定树分类训练集中的对象后,任何对象属于类P 的概率为p/(p+n),属于类N 的概率为n/(p+n)。 当用判定树进行分类时,作为消息源“P ”或“N ”有关的判定树,产生这些消息所需的期望信息为: n p n log n p n n p p log n p p )n ,p (I 22++-++- = 如果判定树根的属性A 具有m 个值{A 1, A 2, …, A m },它将训练集C 划分成{C 1, C 2, …, C m },其中A i 包括C 中属性A 的值为A i 的那些对象。设C i 包括p i 个类P 对象和n i 个类N 对象,子树C i 所需的期望信息是I(p i , n i )。以属性A 作为树根所要求的期望信息可以通过加权平均得到

管理学决策树习题及答案

. 注意答卷要求: EP为期望利润P1.统一代号:为利润,C为成本,Q为收入,2.画决策树时一定按照标准的决策树图形画,不要自创图形 3.决策点和状态点做好数字编号.决策树上要标出损益值4 某企业似开发新产品,现在有两个可行性方案需要决策。年。此间,产品销路好5I开发新产品A,需要追加投资180万元,经营期限为万元。三种情况的90可获利170万元;销路一般可获利万元;销路差可获利-6 概率分别为30%,50%,20%。年。此间,产品销路好开发新产品B,需要追加投资万元,经营期限为460II.三种情况的万元。万元;销路差可获利2050可获利100万元;销路一般可获利,10%。,概率分别为60%30%(1)画出决策树0.3 销路好 170 0.5销路一90 2 0.1 销路差-6 A 开发产品1 0.6 销路好 100 B 开发产品0.3 销路一般 3 50 0.1

销路差 20 4 / 1 . (2)计算各点的期望值,并做出最优决策 求出各方案的期望值: 方案A=170×0.3×5+90×0.5×5+(-6)×0.2×5=770(万元) 方案B=100×0.6×4+50×0.3×4+20×0.1×4=308(万元) 求出各方案的净收益值: 方案A=770-180=590(万元) 方案B=308-60=248(万元) 因为590大于248大于0 所以方案A最优。 某企业为提高其产品在市场上的竞争力,现拟定三种改革方案:(1)公司组织技术人员逐渐改进技术,使用期是10年;(2)购买先进技术,这样前期投入相对较大,使用期是10年;(3)前四年先组织技术人员逐渐改进,四年后再决定是否需要购买先进技术,四年后买入技术相对第一年便宜一些,收益与前四年一样。预计该种产品前四年畅销的概率为0.7,滞销的概率为0.3。如果前四年畅销,后六年畅销的概率为0.9;若前四年滞销,后六年滞销的概率为0.1。相关的收益数据如表所示。 (1)画出决策树 (2)计算各点的期望值,并做出最优决策 投资收益 为总决策,)画出决策树,1(解 RR1为二级决策。 4 / 2

决策树分类的定义以及优缺点 (1)

决策树分类 决策树(Decision Tree)又称为判定树,是运用于分类的一种树结构。其中的每个内部结点(internal node)代表对某个属性的一次测试,每条边代表一个测试结果,叶结点(leaf)代表某个类(class)或者类的分布(class distribution),最上面的结点是根结点。决策树分为分类树和回归树两种,分类树对离散变量做决策树,回归树对连续变量做决策树。 构造决策树是采用自上而下的递归构造方法。决策树构造的结果是一棵二叉或多叉树,它的输入是一组带有类别标记的训练数据。二叉树的内部结点(非叶结点)一般表示为一个逻辑判断,如形式为(a = b)的逻辑判断,其中a 是属性,b是该属性的某个属性值;树的边是逻辑判断的分支结果。多叉树(ID3)的内部结点是属性,边是该属性的所有取值,有几个属性值,就有几条边。树的叶结点都是类别标记。 使用决策树进行分类分为两步: 第1步:利用训练集建立并精化一棵决策树,建立决策树模型。这个过程实际上是一个从数据中获取知识,进行机器学习的过程。 第2步:利用生成完毕的决策树对输入数据进行分类。对输入的记录,从根结点依次测试记录的属性值,直到到达某个叶结点,从而找到该记录所在的类。 问题的关键是建立一棵决策树。这个过程通常分为两个阶段: (1) 建树(Tree Building):决策树建树算法见下,可以看得出,这是一个递归的过程,最终将得到一棵树。 (2) 剪枝(Tree Pruning):剪枝是目的是降低由于训练集存在噪声而产生的起伏。 决策树方法的评价。 优点 与其他分类算法相比决策树有如下优点: (1) 速度快:计算量相对较小,且容易转化成分类规则。只要沿着树根向下一直走到叶,沿途的分裂条件就能够唯一确定一条分类的谓词。 (2) 准确性高:挖掘出的分类规则准确性高,便于理解,决策树可以清晰的显示哪些字段比较重要。 缺点 一般决策树的劣势: (1) 缺乏伸缩性:由于进行深度优先搜索,所以算法受内存大小限制,难于处理大训练集。一个例子:在Irvine机器学习知识库中,最大可以允许的数据集仅仅为700KB,2000条记录。而现代的数据仓库动辄存储几个G-Bytes的海量数据。用以前的方法是显然不行的。

管理学决策树习题及答案

管理学决策树习题及答案-标准化文件发布号:(9456-EUATWK-MWUB-WUNN-INNUL-DDQTY-KII

注意答卷要求: 1.统一代号:P为利润,C为成本,Q为收入,EP为期望利润 2.画决策树时一定按照标准的决策树图形画,不要自创图形 3.决策点和状态点做好数字编号 4.决策树上要标出损益值 某企业似开发新产品,现在有两个可行性方案需要决策。 I开发新产品A,需要追加投资180万元,经营期限为5年。此间,产品销路好可获利170万元;销路一般可获利90万元;销路差可获利-6万元。三种情况的概率分别为30%,50%,20%。 II.开发新产品B,需要追加投资60万元,经营期限为4年。此间,产品销路好可获利100万元;销路一般可获利50万元;销路差可获利20万元。三种情况的概率分别为60%,30%,10%。 (1)画出决策树

(2)计算各点的期望值,并做出最优决策 求出各方案的期望值: 方案A=170×0.3×5+90×0.5×5+(-6)×0.2×5=770(万元) 方案B=100×0.6×4+50×0.3×4+20×0.1×4=308(万元) 求出各方案的净收益值: 方案A=770-180=590(万元) 方案B=308-60=248(万元) 因为590大于248大于0 所以方案A 最优。 170 90 -6 100 50 20

某企业为提高其产品在市场上的竞争力,现拟定三种改革方案:(1)公司组织技术人员逐渐改进技术,使用期是10年;(2)购买先进技术,这样前期投入相对较大,使用期是10年;(3)前四年先组织技术人员逐渐改进,四年后再决定是否需要购买先进技术,四年后买入技术相对第一年便宜一些,收益与前四年一样。预计该种产品前四年畅销的概率为0.7,滞销的概率为0.3。如果前四年畅销,后六年畅销的概率为0.9;若前四年滞销,后六年滞销的概率为 0.1。相关的收益数据如表所示。 (1)画出决策树 (2)计算各点的期望值,并做出最优决策 投资收益 表单位:万元 解(1)画出决策树,R为总决策,R1为二级决策。

管理学决策树习题及答案

注意答卷要求: 1.统一代号:P为利润,C为成本,Q为收入,EP为期望利润 2.画决策树时一定按照标准的决策树图形画,不要自创图形 3.决策点和状态点做好数字编号 4.决策树上要标出损益值 某企业似开发新产品,现在有两个可行性方案需要决策。 I开发新产品A,需要追加投资180万元,经营期限为5年。此间,产品销路好可获利170万元;销路一般可获利90万元;销路差可获利-6万元。三种情况的概率分别为30%,50%, 20%。 II.开发新产品B,需要追加投资60万元,经营期限为4年。此间,产品销路好可获利100万元;销路一般可获利50万元;销路差可获利20万元。 三种情况的概率分别为60%,30%,10%。 (1)画出决策树 170 90 -6 100 50 20

(2)计算各点的期望值,并做出最优决策 求出各方案的期望值: 方案 A=170X0.3 >5+90X0.5 >5+(-6)区.2 >5=770(万元) 方案 B=100X0.6 >4+50X 0.3 >4+20X 0.1 >4=308(万元) 求出各方案的净收益值: 方案 A=770-180=590(万元) 方案 B=308-60=248(万元) 因为590大于248大于0 所以方案A 最优。 某企业为提高其产品在市场上的竞争力,现拟定三种改革方案:( 1)公司组织 技术人员逐渐改进技术,使用期是10年;(2)购买先进技术,这样前期投入相 对较大,使用期是10年;(3)前四年先组织技术人员逐渐改进,四年后再决定 是否需要购买先进技术,四年后买入技术相对第一年便宜一些, 收益与前四年一 样。预计该种产品前四年畅销的概率为 0.7,滞销的概率为0.3。如果前四年畅 销,后六年畅销的概率为0.9 ;若前四年滞销,后六年滞销的概率为 0.1。相关 的收益数据如表所示。 (1)画出决策树 (2)计算各点的期望值,并做出最优决策 表 解(1)画出决策树,R 为总决策,R1为二级决策。 投资收益 单位:万元

分类决策树

分类决策树 原理 决策树(Decision Tree)是一种简单但是广泛使用的分类器。通过训练数据构建决策树,对未知的数据进行分类。如何预测, 先看看下面的数据表格: 上表根据历史数据,记录已有的用户是否可以偿还债务,以及相关的信息。通过该数据,构建的决策树如下: 如新来一个用户:无房产,单身,年收入55K,那么根据上面的决策树,可以预测他无法偿还债务(蓝色虚线路径)。从上面的决策树,还可以知道是否拥有房产可以很大的决定用户是否可以偿还债务,对借贷业务具有指导意义。 决策树构建的基本步骤如下: 1. 开始所有记录看作一个节点 2. 遍历每个变量的每一种分割方式,找到最好的分割点 3. 分割成两个节点N1和N2

4. 对N1和N2分别继续执行2-3步,直到每个节点足够“纯”为止 构建决策树的变量可以有两种: 1)连续型:如前例中的“年收入”。用“>=”,“>”,“<”或“<=”作为分割条件(排序后,利用已有的分割情况,可以优化分割算法的时间复杂度)。 2)分类型:如前例中的“婚姻情况”,使用“=”来分割。 如何评估分割点的好坏?如果一个分割点可以将当前的所有节点分为两类,使得每一类都很“纯”,也就是同一类的记录较多,那么就是一个好分割点。比如上面的例子,“拥有房产”,可以将记录分成了两类,“是”的节点全部都可以偿还债务,非常“纯”;“否”的节点,可以偿还贷款和无法偿还贷款的人都有,不是很“纯”,但是两个节点加起来的纯度之和与原始节点的纯度之差最大,所以按照这种方法分割。构建决策树采用贪心算法,只考虑当前纯度差最大的情况作为分割点。 纯度计算 前面讲到,决策树是根据“纯度”来构建的,如何量化纯度呢?这里介绍三种纯度计算方法。如果记录被分为n类,每一类的比例P(i)=第i类的数目/总数目。还是拿上面的例子,10个数据中可以偿还债务的记录比例为P(1) = 7/10 = 0.7,无法偿还的为 P(2) = 3/10 = 0.3,N = 2。 Gini不纯度: 熵(Entropy): 错误率: 上面的三个公式均是值越大,表示越“不纯”,越小表示越“纯”。三种公式只需要取一种即可,对最终分类准确率的影响并不大,一般使用熵公式。 纯度差,也称为信息增益(Information Gain),公式如下: 其中,I代表不纯度(也就是上面三个公式的任意一种),K代表分割的节点数,一般K = 2。vj表示子节点中的记录数目。上面公式实际上就是当前节点的不纯度减去子节点不纯度的加权平均数,权重由子节点记录数与当前节点记录数的比例决定。 停止条件 决策树的构建过程是一个递归的过程,所以需要确定停止条件,否则过程将不会结束。一种最直观的方式是当每个子节点只有一种类型的记录时停止,但是这样往往会使得树的节点过多,导致过度拟合(Overfitting)。另一种可行的方法是当前节点中的记录数低于一个最小的阀值,那么就停止分割,将max(P(i))对应的分类作为当前叶节点的分类。

相关文档