一、直线回归分析
直线回归是用直线回归方程表示两个数量变量间依存关系的统计分析方法,属双变量分析的范畴。
1. 直线回归方程的求法
(1)回归方程的概念:
直线回归方程的一般形式是Ý(音y hat)=a+bx,其中x为自变量,一般为资料中能精确测定和控制的量,Y为应变量,指在x规定范围内随机变化的量。a为截距,是回归直线与纵轴的交点,b为斜率,意为x每改变一个单位时,Ý的变化量。
(2)直线回归方程的求法
确定直线回归方程利用的是最小二乘法原理,基本步骤为:
1)先求 b,基本公式为b=lxy/lxx=SSxy/SSxx ,其中lxy为X,Y的离均差积和,lxx为X的离均差平方和;
2)再求a,根据回归方程 a等于Y的均值减去x均值与b乘积的差值。
(3)回归方程的图示:
根据回归方程,在坐标轴上任意取相距较远的两点,连接上述两点就可得到回归方程的图示。应注意的是,连出的回归直线不应超过x的实测值范围.
2. 回归关系的检验
回归关系的检验又称回归方程的检验,其目的是检验求得的回归方程在总体中是否成立,即是否样本代表的总体也有直线回归关系。方法有以下两种:
(1)方差分析
其基本思想是将总变异分解为SS回归和SS剩余,然后利用F检验来判断回归方程是否成立。
(2)t检验
其基本思想是利用样本回归系数b与总体均数回归系数ß进行比较来判断回归方程是否成立,实际应用中因为回归系数b的检验过程较为复杂,而相关系数r的检验过程简单并与之等价,故一般用相关系数r的检验来代替回归系数b的检验。
3. 直线回归方程的应用
(1)描述两变量之间的依存关系;
利用直线回归方程即可定量描述两个变量间依存的数量关系
(2)利用回归方程进行预测;
把预报因子(即自变量x)代入回归方程对预报量(即因变量Y)进行估计,即可得到个体Y值的容许区间。
(3)利用回归方程进行统计控制
规定Y值的变化,通过控制x的范围来实现统计控制的目标。如已经得到了空气中NO2的浓度和汽车流量间的回归方程,即可通过控制汽车流量来控制空气中NO2的浓度。
4. 应用直线回归的注意事项
(1)做回归分析要有实际意义;
(2)回归分析前,最好先作出散点图;
(3)回归直线不要外延。
二、直线相关分析
1. 直线相关的概念
直线相关分析是描述两变量间是否有直线关系以及直线关系的方向和密切程度的分析方法。用以描述两变量间相关关系的指标是相关系数(常用r表示),两变量间相关关系的种类有正相关(0<r<1)、负相关(-1<r<0)、零相关(r=0)、完全相关(|r|=1)等。相关分析对资料的要求是两变量(x,y)均是符合正态分布的随机变量。
2. 相关系数的计算
相关系数是x,Y的离均差积和lxy除以X的离均差平方和lxx与Y的离均差平方和lyy之积的算术平方根的商。故此相关系数又被称为积差相关系数。
3.相关系数的假设检验
相关系数检验的目的是判断两变量的总体是否有相关关系,方法有t检验和查表法,t检验法是样本与总体的比较,查表法是直接查相关系数界值表得到相应的概率p。
三、直线相关与回归的区别与联系
区别:1. 相关说明相关关系,回归说明依存关系;
2. r与b有区别;
3. 资料要求不同。
联系:1. r与b值可相互换算;
2. r与b正负号一致;
3. r与b的假设检验等价;
4. 回归可解释相关。相关系数的平方r2(又称决定系数)是回归平方和与总的离均差平方和之比,故回归平方和是引入相关变量后总平方和减少的部分。
四、等级相关分析
等级相关分析适用于资料不是正态双变量或总体分布未知,数据一端或两端有不确定值的资料或等级资料。常用的Spearman等级相关系数rs是利用x,Y的秩次来进行直线相关分析的。因此当x,Y的相同秩次较多时,计算出的rs需矫正。同样的,等级相关系数rs也需要进行假设检验。
五、相关分析应用中的注意事项
1. 相关分析要有实际意义;
2. 相关关系不一定都是“因果”关系;
3. 相关系数r假设检验中p的大小不能说明相关的密切程度;
4. 直线相关和等级相关有各自不同的适用条件。