什么时候适合使用逐步回归?
我发现了一个很有意思的例子,是关于识别某制造厂的主要能源使用来源。
什么时候适合使用逐步回归?
当您有许多变量并且想确认有用的预测变量子集时,逐步回归就是一种合适的分析方法。在 Minitab 中,标准的逐步回归程序每次都只添加和删除一个预测变量。当模型中未包含的所有变量的 p 值都大于指定的入选用 Alpha 值,且模型中所有变量的 p 值都小于或等于指定的删除用 Alpha 值时,Minitab 停止。除了标准逐步法外,Minitab 还提供另两种逐步程序:
* 向前选择法: Minitab 以模型中没有任何预测变量开始,并为每个步骤添加最显著的变量。当模型中未包含的所有变量的 p 值都大于指定的入选用 Alpha 值,Minitab 将停止。
* 向后消元法: Minitab 以模型中包含所有预测变量开始,并删除每个步骤的最小显著项。当模型中包含的所有变量的 p 值都小于或等于指定的删除用 Alpha 值时,Minitab 将停止。
逐步回归示例
本示例使用逐步回归识别主要的能源使用来源。制造厂的分析师考虑了以下预测变量:生产产品总数、设备总运行时间、员工人数、平均室外温度、最低室外温度、最高室外温度、日照百分率以及设备平均寿命。但值得注意的是,当预测变量达到 100 个以上时,逐步回归会非常有用!
他们的目的是将这些变量缩小到能源使用的主要预测变量列表中。为得到最终模型,在 Minitab 中选择统计 > 回归 > 逐步,并输入响应“能源”和上面的预测变量列表来完成对话框。
他们的目的是将这些变量缩小到能源使用的主要预测变量列表中。为得到最终模型,在 Minitab 中选择统计 > 回归 > 逐步,并输入响应“能源”和上面的预测变量列表来完成对话框。
他们得到了下面的模型,该模型中包含了设备总运行时间、最高温度和设备平均寿命三个预测变量。Minitab 删除了其他变量,因为这些变量的 p 值大于入选用 Alpha 值。
为获得最终模型,分析师选择统计 > 回归 > 回归,并通过将“能源”作为响应,且三个显著变量作为预测变量来完成对话框。(要检查残差图,在对话框中选择图形,然后在残差图下,选择四合一。)
以下回归方程表明,随着设备总运行时间、最高温度和设备平均寿命的增加,能源使用也相应增加:
根据 T 统计值,设备总运行时间的影响最大,最高温度次之,然后是设备平均寿命。
通过分析,分析师可以得出这样的结论:由于大量使用空调,能源使用显著增高;而较新的设备看上去降低了能源使用。工厂可能想要在持续使用空调的高峰期限制设备的运行,并考虑在夏季来临前购置新设备。
P逐步回归的陷阱
虽然逐步回归能帮助我们了解很多,但也存在一些需要注意的潜在陷阱:
· 如果两个独立变量高度相关,那么即使他们都很重要,模型中可能只包含其中一个。
· 由于该程序可以拟合许多模型,因此可能只是偶然的选择了恰好拟合数据的模型。
· 对于给定数量的预测变量,逐步回归可能不会总是以具有最高 R2 值的模型结束。
· 自动程序无法考虑分析师可能掌握对数据的特殊知识。因此,所选的模型可能不是最实用的。
· 根据响应来绘制单个预测变量图通常具有误导性,因为图形没有考虑模型中的其他预测变量。
什么时候适合使用逐步回归?
当您有许多变量并且想确认有用的预测变量子集时,逐步回归就是一种合适的分析方法。在 Minitab 中,标准的逐步回归程序每次都只添加和删除一个预测变量。当模型中未包含的所有变量的 p 值都大于指定的入选用 Alpha 值,且模型中所有变量的 p 值都小于或等于指定的删除用 Alpha 值时,Minitab 停止。除了标准逐步法外,Minitab 还提供另两种逐步程序:
* 向前选择法: Minitab 以模型中没有任何预测变量开始,并为每个步骤添加最显著的变量。当模型中未包含的所有变量的 p 值都大于指定的入选用 Alpha 值,Minitab 将停止。
* 向后消元法: Minitab 以模型中包含所有预测变量开始,并删除每个步骤的最小显著项。当模型中包含的所有变量的 p 值都小于或等于指定的删除用 Alpha 值时,Minitab 将停止。
逐步回归示例
本示例使用逐步回归识别主要的能源使用来源。制造厂的分析师考虑了以下预测变量:生产产品总数、设备总运行时间、员工人数、平均室外温度、最低室外温度、最高室外温度、日照百分率以及设备平均寿命。但值得注意的是,当预测变量达到 100 个以上时,逐步回归会非常有用!
他们的目的是将这些变量缩小到能源使用的主要预测变量列表中。为得到最终模型,在 Minitab 中选择统计 > 回归 > 逐步,并输入响应“能源”和上面的预测变量列表来完成对话框。
他们的目的是将这些变量缩小到能源使用的主要预测变量列表中。为得到最终模型,在 Minitab 中选择统计 > 回归 > 逐步,并输入响应“能源”和上面的预测变量列表来完成对话框。
他们得到了下面的模型,该模型中包含了设备总运行时间、最高温度和设备平均寿命三个预测变量。Minitab 删除了其他变量,因为这些变量的 p 值大于入选用 Alpha 值。
为获得最终模型,分析师选择统计 > 回归 > 回归,并通过将“能源”作为响应,且三个显著变量作为预测变量来完成对话框。(要检查残差图,在对话框中选择图形,然后在残差图下,选择四合一。)
以下回归方程表明,随着设备总运行时间、最高温度和设备平均寿命的增加,能源使用也相应增加:
根据 T 统计值,设备总运行时间的影响最大,最高温度次之,然后是设备平均寿命。
通过分析,分析师可以得出这样的结论:由于大量使用空调,能源使用显著增高;而较新的设备看上去降低了能源使用。工厂可能想要在持续使用空调的高峰期限制设备的运行,并考虑在夏季来临前购置新设备。
P逐步回归的陷阱
虽然逐步回归能帮助我们了解很多,但也存在一些需要注意的潜在陷阱:
· 如果两个独立变量高度相关,那么即使他们都很重要,模型中可能只包含其中一个。
· 由于该程序可以拟合许多模型,因此可能只是偶然的选择了恰好拟合数据的模型。
· 对于给定数量的预测变量,逐步回归可能不会总是以具有最高 R2 值的模型结束。
· 自动程序无法考虑分析师可能掌握对数据的特殊知识。因此,所选的模型可能不是最实用的。
· 根据响应来绘制单个预测变量图通常具有误导性,因为图形没有考虑模型中的其他预测变量。