当前位置：文档库 › 基于不平衡数据集的改进随机森林算法研究

基于不平衡数据集的改进随机森林算法研究

收稿日期:2018-07-21 修回日期:2018-11-14 网络出版时间:2019-03-06

基金项目:中央高校基本科研业务费专项资金项目(2017ZYXS09)

作者简介:刘耀杰(1992-),男,硕士研究生,研究方向为机器学习二数据挖掘二深度学习;刘独玉,博士,副教授,研究方向为数据挖掘二鲁棒稳定

性控制三

网络出版地址:https://www.wendangku.net/doc/389279297.html, /kcms /detail /61.1450.TP.20190306.0952.068.html 基于不平衡数据集的改进随机森林算法研究

刘耀杰,刘独玉

(西南民族大学电气信息工程学院,四川成都610041)

摘　要:随机森林算法在多种应用场景与数据集中都实现了良好的模型分类效果,但该算法在应用于不平衡二分类数据集时,受限于样本数据量本身的好坏比倾斜与决策子树叶节点投票机制,对样本量占相对少数的小类属样本不能很好地对分类进行表决三对此,文中对原有随机森林算法的节点分类规则进行改进三在模型训练过程中,综合考虑度量节点样本分类占比与节点深度,增加有利于少量类样本分类信息,从而提高了少数样本类的分类准确率三通过在不同数据集上进行随机森林改进算法的效果测试,证明改进算法相对于传统算法在不平衡数据集上有更好的模型表现,大样本条件下少量类样本分类准确率有显著提升三

关键词:不平衡数据集;随机森林;决策树;节点分裂;分类准确率

中图分类号:TP301.6 文献标识码:A 文章编号:1673-629X (2019)06-0100-05

doi:10.3969/j.issn.1673-629X.2019.06.021

Research on Improved Random Forest Algorithm Based on Unbalanced Datasets

LIU Yao -jie ,LIU Du -yu

(School of Electrical and Information Engineering ,Southwest Minzu University ,Chengdu 610041,China )

Abstract :Random forest algorithm has achieved a great classification effect in a variety of scenarios and datasets ,but when applied in the unbalanced binary classification datasets ,it is restricted to the imbalance of sample data itself and the leaf node voting mechanism ,the sample which size of relatively few samples can ’t vote on classification very well.For this ,we improve the node classification rules of o?riginal random forest algorithm.In model training ,by considering sample classification proportion and the depth of the measurement nodes comprehensively ,and increasing classified information in favor for the small amount of samples ,the accuracy of the few sample classification can be raised.After testing on different datasets ,it proves that the improved algorithm on unbalanced dataset has better per?formance than the traditional algorithm ,and that the few sample classification accuracy has been increased significantly under the condition of large amount of dataset.

Key words :imbalance data ;random forest ;decision tree ;node split ;classification accuracy

0　引　言

随机森林算法(random forest ,RF )是一种集成机

器学习方法,利用随机重采样技术Bootstrap 和节点随

机分裂技术构建多棵决策树,通过投票得到最终分类

结果[1]三RF 算法在含有缺失值和噪声的数据集上表现出良好的鲁棒性,并且可以利用并行计算方式加快

学习速度,目前广泛应用于分类问题中三

分类是数据挖掘中最常见的任务,利用数据挖掘的方法充分发掘数据潜在信息应用于分类预测中,建立预测模型,可以对待解决问题进行有效预测[2]三在现实场景中,大量的分类问题数据集分布并不均衡,而且每个分类的重要程度也不尽相同三然而大量的实践经历和研究表明,随机森林算法在样本数量不均衡的情况下,由于算法追求全部样本集分类精度最大化,导致对少类样本分类和预测的准确率远低于对多类样本分类和预测的准确率,即算法偏向于多类[3-4]三国内第29卷　第6期2019年6月计算机技术与发展COMPUTER TECHNOLOGY AND DEVELOPMENT

Vol.29　No.6June　2019