您还没有绑定微信,更多功能请点击绑定

多元线性回归

前一段时间在公司的内部培训中,讲到多元线性回归的共线性取舍及模型精简时,使用了以前某著名公司的案例数据,结果有个很细心的员工发现一个问题,即散点矩阵图里和Y(飞行速度)相关性明显的X因子和模型的P值不能完全对应。

step1: 散点矩阵图发现多个因子相关性明显。
Step2: 通过最佳子集,VIF和R方等删掉温度因子。
Step3: 根据P值对模型做进一删减,最后仅保留燃油空气比和ICR两个因子。
Step4: 最后检查残差等。

有学员提出,在矩阵图里明显第一个因子比第三个和Y的相关性强,各因子单独和Y做回归也证实了第一个的P值比第三个小, 这是为何?

Flight Speed Altitude Turbine Angle Fuel/Air ratio ICR Temp
618 783.35 33.53 40.55 16.66 10.06
600 748.45 36.50 36.19 16.46 11.26
542 684.45 34.66 37.31 17.66 13.34
524 827.80 33.13 32.52 17.50 6.53
572 860.45 35.75 33.71 16.40 7.15
586 875.15 34.46 34.14 16.28 7.56
600 909.45 34.60 34.85 16.06 8.42
605 905.55 35.38 35.89 15.93 9.24
520 756.00 35.85 33.53 16.60 6.70
544 769.35 35.68 33.79 16.41 6.95
586 793.50 35.35 34.72 16.17 7.69
585 801.65 35.04 35.22 15.92 8.36
607 819.65 34.07 36.50 16.04 9.60
607 808.55 32.20 37.60 16.19 10.56
590 774.95 34.32 37.89 16.62 11.40
546 711.85 31.08 37.71 17.37 13.18
516 694.85 35.73 37.00 18.12 13.54
445 638.10 34.11 36.76 18.53 14.31
633 774.55 34.79 34.62 15.54 9.93
619 757.90 35.77 35.40 15.70 10.63
608 753.35 36.44 35.96 16.45 11.79
578 704.70 37.82 36.26 17.62 12.94
510 666.80 35.07 36.34 18.12 13.90
412 568.55 35.26 35.90 19.05 14.73
517 653.10 35.56 31.84 16.51 6.60
576 704.05 35.73 33.16 16.02 7.52
598 709.60 36.46 33.83 15.89 8.36
604 726.90 36.26 34.89 15.83 9.33
599 697.15 37.20 36.27 16.71 11.20

个人猜想:矩阵图或单独X对Y回归,都是把X看作是独立的,即各X对Y的影响是无论从实际情况还是数据处理都是互不相干的,各自最小二乘去拟合最小的残差乘积和。而放在一起做多元回归,软件处理认为各X之间不是独立的,根据JEFF WU书里提到的效应三原则:1.效应稀疏 2.效应排序 3.效应遗传。首先把Y用对其影响最大的X进行拟合,再把初次拟合后的残差用对该残差影响最大的某个X进行拟合得到残差的残差,然后对残差的残差进行再次拟合,,以此类推。故才出现矩阵图的相关明显和多元回归模型对应P值不一致的情况。所以, 只看图形可能会坑人.

以上属个人看法,请高手确认和指正。
对“好”的回答一定要点个"赞",回答者需要你的鼓励!
已邀请:

SONGROC (威望:0) (北京 朝阳区) 机械制造 工程师 - 质量体系,质量改进,客户质量处理,客户抱怨

赞同来自:

1.图形就是大概看看,关键还是得量化。2.单独对某一项做回归,然后比较P值大小,我意义不大。

9 个回复,游客无法查看回复,更多功能请登录注册

发起人

davidliy
davidliy

what is quality, why SPC, how to do DOEs, etc

扫一扫微信订阅<6SQ每周精选>