作者: Stevenli
在回归分析中有R2和R2(adj),即调整后的R2,它的主要含义是什么?或者说它与R2的最大区别在哪里?
philip答:
R2=1-SSerror/SStotal
R2(adj)=1-(SSerror/(n-p))/(SStotal/(n-1)),n为总项数,p为回归式中的项数。
两个值越接近越好。两个值越大越好,越大说明你的回归式越好。
lhg821答:
当给模型增加自变量时,复决定系数也随之逐步增大,然而复决定系数的增大代价是自由度的减少,因为残差自由度等于样本个数与自变量个数之差。自由度小意味着估计和预测的可靠性低。这表明一个回归方程涉及的自变量很多时,回归模型的拟合在外表上是良好的,而区间预报和区间估计的幅度则变大,以至失去实际意义。这里回归模型的拟合良好掺进了一些虚假的成分。为了克服样本决定系数的这一缺点,我们设法把R2给予适当的修正,使得只有加入"有意义"的变量时,经过修正的样本决定系数才会增加,这才是所谓的自由度调整复决定系数。R(a)2=1-(n-1)(1-R2)/(n-p-1)
可以看出,尽管1-R2随着自变量的增加而减少,但由于其前面的系数(n-1)/(n-p-1)起折扣作用,才使R(a)2随着自变量的增加不一定增大。当所增加的自变量对回归的贡献很小时,R(a)2反而可能减少。
以上是人大版的何晓群编的《应用回归分析》中 自变量选择与逐步回归一章的解释。