另辟蹊径:使用 CART 作为分析分类调查数据的替代方法
尝试了解客户/患者行为是一件很有挑战的事。研究人员往往会使用调查数据并频繁使用 Minitab 中的回归功能对其进行分析。但是,若结果变量是分类数据,而不是定量数据,则无法非常直接或直观地解释逻辑回归的结果。
有没有其他选项可用来分析 Minitab 中的调查数据?最新版 Minitab 中提供了一种解释性的、基于树的机器学习技术——CART®(分类和回归树)。探究 CART 的丰富功能!
什么是 CART?
CART 是一种决策树算法,它会创建一组“是/否”规则,然后利用这些规则并基于预测变量或输入设置将目标或结果变量拆分到多个分区。产生的模型以决策树形式呈现,以展示如何基于输入设置对目标或结果变量进行分区。
Minitab 的 CART 算法可自动查找最优数目的末端节点(也称为拆分或最终分组),目的就是尽可能地提高模型的预测能力。
最出色的表现是什么?完成分析后,CART 的输出包含直观的可视解释,因此,您不必是数据科学家,也能从数据中收获极有价值的见解。
(图像下层:注意:默认情况下,Minitab 会显示具体的 CART 树。右键单击树并选择结点拆分视图,可查看上层简要视图。)
借助 CART 充分发挥免预约诊所数据的作用
了解 CART 是什么之后,接下来我们看下它的工作原理。
连锁免预约诊所收集患者的调查数据,询问了他们未来有多大可能性会再次光顾诊所:极有可能、有可能或不可能。诊所员工还会记录患者的年龄、从家里到诊所的距离(以英里为单位)以及就业状态。诊所的地区经理尤其关注到底是什么因素在影响无预约患者再次来诊所接受服务的意愿。
如图显示数据子集,还有一个条形图展示了诊所无预约患者给出的响应。
我们可以使用 CART 来预测分类结果的似然性,在这个案例中,指的就是患者再次光顾诊所的可能性。Minitab 的 CART 分类引擎提供的直观界面可以处理二元结果(两组)或多项式结果(至少三组)。
经理将她的数据输入 Minitab 后,选择统计 > 预测分析 > CART® 分类,界面上随后显示了以下内容:
由于存在至少三组,因此她先选择多项式响应,然后在响应中选择“再次光顾的意向”,这也是她想预测的目标。接着,依次快速输入连续预测变量和分类预测变量或者要用来进行预测的其他输入,填写好对话框。
CART 会自动处理缺失值,而且对极端异常值不敏感,也不会假定存在要检查的分布、p 值或残差。因此,CART 十分简单易用,即便是初学者也能快速上手。此外,Minitab 的 CART 功能会仔细、谨慎地将数据分区为两组:一部分数据用于构建模型(学习数据),而另一部分数据则用于评估模型执行新预测的能力(测试数据)。
针对每一个目标变量对,CART 分析的输出会显示大于或等于 0.93 的 (ROC) 曲线下的面积值。ROC 可以帮助经理将模型预测患者再次光顾诊所的意愿的准确性进行可视化。该图显示了敏感性(正确预测为正类的正类)与特异性(正确预测为负类的负类)之间的关系。
这个模型能够如此准确地预测患者未来再次光顾诊所的意愿,经理感到非常满意。
经理之前认为,患者与诊所之间的距离是影响此人再次光顾诊所的意愿的最佳预测变量。但令她吃惊的是,结果并非如此。在 CART 的相对变量重要性图中,清晰显示了每一个预测变量对于决定患者是否再次光顾诊所的对应重要性。
最终结果
快速评估上方变量重要性图后发现,患者的年龄才是影响他们是否会再次光顾诊所的意愿的最佳预测变量,距离的影响程度紧随其后,而就业状态的重要性最低。
通过深入了解患者行为,将有助于地区经理创建再次光顾诊所可能性高的客户的个人资料,这样诊所中心也就能有针对性地发送额外宣传单和推出激励措施,从而确保这些客户再次光顾。例如,不满 43 岁而且与诊所距离不到 11 英里的患者,无论就业状态如何,都极有可能再次光顾。年龄介于 71 到 82 岁之间的患者,无论距离或就业状态如何,都有可能再次光顾。相比之下,年龄介于 67 到 71 岁之间的那些患者,若与诊所的距离超过 11 英里,无论其他因素如何,他们都不大可能再次光顾。