您还没有绑定微信,更多功能请点击绑定

浅析决策树在六西格玛项目中的应用

本帖最后由 小知间间 于 2011-6-5 14:39 编辑

在日常工作和项目中发现决策树有着很强的实用性,却不常见于工具列表中,所以撰写此文做个简单介绍。纰漏之处,万望指教。

什么是决策树?它与经典统计学方法有哪些联系和区别?

决策树是一个分类模型。

先讲一个生活中浅显常见的例子,某家银行在收到信用卡申请时会衡量四个因素:申请人的月收入、信用卡一年内申请数、有无恶意透支和三年内迟还款记录。当申请者的月收入超过两万,银行会进一步考虑信用卡最近一年内是否申请超过3张,如果是的话则拒绝办理,否的话接受办理,如果月收入低于两万,那银行会依次考虑有无背负循环利息,三年内迟还款记录。。。类似如下树形结构:
申请人月收入
------信用卡一年内申请数:接受申请
------信用卡一年内申请数:拒绝申请
申请人月收入
------三年内还款逾期次数
------------背负循环利息:拒绝申请
------------背负循环利息:接受申请
------三年内还款逾期次数:接受申请

统计学中相近的是Logisitic回归:它的因变量为分类变量,自变量既可以是连续的,也可以是分类的。此外,决策树的构造理论基础和热力学里面的熵概念非常接近。简言之,数据分类结果越是平均,其类别所包含的信息增益越是少。

决策树如何帮助你完成六西格玛项目?

在六西格玛的分析改进阶段中,如何识别并且模型化过程输入和输出的关系是关键。

我们经常使用经典的实验设计来完成这个目标,经典实验设计所用的正交表有两大特性,即“均匀分散性,整齐可比”。这样造成一个局限:无法实现考虑A因素出于某个水平时候,B因素显著,而A处于另外一个水平时候,C和D因素显著。在产品设计和过程控制中,这种分类讨论的问题是很常见的。

此外,在很多时候我们可能已经拥有大量观察数据,比如银行信用卡申请人的属性和信用记录,也需要考虑如何选取重要的因素构造一个合理的决策树来进行分类预测并且控制好这些因素。


哪些免费的软件可以从大量数据中生成决策树?

这里提供了两个非常有名且免费的决策树构造工具:

R-Project: R是属于GNU系统的一个自由、免费、开放源代码的软件,是一个用于统计计算、数据分析和统计制图的优秀工具,其中有分类回归树CART的包,因变量甚至也可以是连续变量。
Weka: WEKA的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis),其作为一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器学习算法,其中包含了决策树几种不同的算法实现。
对“好”的回答一定要点个"赞",回答者需要你的鼓励!
已邀请:

ganyoucheng0807 (威望:4) (广西 玉林) 汽车制造相关 经理 - 静以修身,俭以养德。

赞同来自:

学习中!!!!!!!!!!!!

1 个回复,游客无法查看回复,更多功能请登录注册

发起人

扫一扫微信订阅<6SQ每周精选>