决策树方法及其应用
1.什么是决策树:
决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干,故称决策树。
2.决策树的组成:
决策树由决策点,状态节点和结果节点三种节点组成。
决策点:在图中由矩形框表示,是对几种可能方案最后选择的最佳方案,如果有多级决策,则决策树中可以有多个决策点,以决策树根部的决策点为最终的决策方案。
状态节点:在图中用圆圈表示,代表备选方案的效果,通过各状态节点的效果的对比,按照一定的决策标准就可以选出最佳方案。由状态节点引出的分支称为概率枝,概率枝的数目表示可能出现的自然状态数目,每个分枝上要注明该状态出现的概率。
终结点:通常用三角形来表示,将每个方案在各种自然状态下取得的损益值标注一结果结点的旁边。
如:加图~~~~
3.决策树的类型:
决策树有几种产生方法:
(1)分类树:分析是当预计结果可能为离散类型(例如三个种类的花,输赢等)使用的概念。
(2)会归树:分析是当局域结果可能为实数(例如房价,患者住院时间等)使用的概念。
(3)CART:分析是结合了上述二者的一个概念。CART是Classification And Regression Trees的缩写.
4.决策树的剪枝:
剪枝是决策树停止分支的方法之一,剪枝又分预先剪枝和后剪枝两种。
预先剪枝是在树的生长过程中设定一个指标,当达到该指标时就停止生长,这样做容易产生“视界局限”,就是一旦停止分支,使得节点N成为叶节点,就断绝了其后继节点进行“好”的分支操作的任何可能性。不严格的说这些已停止的分支会误导学习算法,导致产生的树不纯度降差最大的地方过分靠近根节点。
后剪枝中树首先要充分生长,直到叶节点都有最小的不纯度值为止,因而可以克服“视界局限”。然后对所有相邻的成对叶节点考虑是否消去它们,如果消去能引起令人满意的不纯度增长,那么执行消去,并令它们的公共父节点成为新的叶节点。这种“合并”叶节点的做法和节点分支的过程恰好相反,经过剪枝后叶节点常常会分布在很宽的层次上,树也变得非平衡。
后剪枝技术的优点是克服了“视界局限”效应,而且无需保留部分样本用于交叉验证,所以可以充分利用全部训练集的信息。但后剪枝的计算量代价比预剪枝方法大得多,特别是在大样本集中,不过对于小样本的情况,后剪枝方法还是优于预剪枝方法的。
5.决策树的熵:
熵:Entropy = 系统的凌乱程度,使用算法ID3, C4.5和C5.0生成树算法使用熵。这一度量是基于信息学理论中熵的概念。
6.决策树的优缺点:
优点:
决策树易于理解和实现,人们在学习过程中不需要使用者了解很多的背景知识,这同时是它的能够直接体现数据的特点,只要通过解释后都有能力去理解决策树所表达的意义。
对于决策树,数据的准备往往是简单或者是不必要的,而且能够同时处理数据型和常规型属性,在相对短的时间内能够对大型数据源做出可行且效果良好的结果
易于通过静态测试来对模型进行评测,可以测定模型可信度;如果给定一个
观察的模型,那么根据所产生的决策树很容易推出相应的逻辑表达式。
缺点:
1)对连续性的字段比较难预测。
2)对有时间顺序的数据,需要很多预处理的工作。
3)当类别太多时,错误可能就会增加的比较快。
7.决策树的应用:
机器学习中,决策树是一个预测模型;他代表的是对象属性与对象值之间的一种映射关系。数据挖掘中决策树是一种经常要用到的技术,可以用于分析数据,同样也可以用来作预测。
决策树经常在运筹学中使用,特别是在决策分析中,它帮助确定一个能最可能达到目标的策略。如果在实际中,决策不得不在没有完备知识的情况下被在线采用,一个决策树应该平行概率模型作为最佳的选择模型或在线选择模型算法。决策树的另一个使用是作为计算条件概率的描述性手段。
决策树是数据挖掘分类算法的一个重要方法。在各种分类算法中,决策树是最直观的一种。