前言
岭回归:岭回归分析是在构建多重线性回归模型时,对基于“最小二乘原理”推导出的估计回归系数的计算公式作一下校正,使回归系数更稳定。
当自变量之间存在较强的多重共线性时,求得的多重线性回归模型很不稳定;尤其是某些自变量回归系数的正负号与实际问题的专业背景不吻合时,岭回归分析可以很好地解决这一问题。
1实施的一般步骤
1岭回归分析通常要先对X变量作中心化和标准化处理,以使不同自变量处于同样数量级上而便于比较。
2确定k值
①岭迹图
岭迹法主要是通过将β(k)的分量βi(k)的岭迹画在同一幅图上,从图中选择尽可能小的k值,使得各回归系数的岭估计大体稳定,即各分量在图上的岭迹曲线趋于平行于X轴。
选择k值的一般原则主要有:①各回归系数的岭估计基本稳定;②用最小二乘估计时符号不合理的回归系数,其岭估计的符号将变得合理;③回归系数的大小要与实际相符,即从专业上讲对因变量影响较大的自变量其系数的绝对值也较大;④均方误差增大不太多。
②方差膨胀因子法
方差膨胀因子cjj度量了多重共线性的严重程度,一般当cjj>10时,模型就有严重的多重共线性。
3根据岭迹图进行变量筛选及重新确定k值
把岭迹应用于回归分析中自变量的选择,其基本原则为:
(1)去掉岭回归系数比较稳定且绝对值比较小的自变量。这里岭回归系数可以直接比较大小,因为设计阵X是假定已经中心标准化了的。
(2)去掉岭回归系数不稳定但随着k值的增加迅速趋于零的自变量。
(3)去掉一个或若干个具有不稳定岭回归系数的自变量。如果不稳定的岭回归系数很多,究竟去掉几个,去掉哪几个,并无一般原则可遵循。这要结合已找出的复共线性关系以及去掉后重新进行岭回归分析的效果来决定。
4对模型进行表达及作出专业结论
在进行岭估计后,应根据所估计的参数写出回归方程,并结合专业知识判断方程中各自变量的系数及正负号是否符合实际情况。最后根据回归系数的大小来判断各自变量对因变量影响的大小及根据所求得的回归方程进行预测。
2案例分析
以下为11名儿童的智力测试数据,试以IQ为因变量拟合多重线性回归模型。其中,变量常识(X1)、算数(X2)、理解(X3)、拼图(X4)、积木(X5)、译码(X6),IQ(Y)。
数据类型:自变量(X1~X6),因变量Y均为定量资料;根据研究目的,试采用多重线性回归模型来分析。
3SPSS操作
(Ⅰ)先拟合多重线性回归模型
(Ⅱ)输出结果
为了说明问题,只列出系数表;
变量X1~X6,p-value均大于0.05,即纳入多重线性回归模型中无统计学意义;其次,共线性诊断中,VIF(variationinflationfactor)均大于10,提示变量间存在多重共线性。
由于多重共线性的存在,使得多重线性回归模型不稳定,而岭回归分析可以很好地解决这个问题。
4SPSS之岭回归
在SPSS中没有专门的菜单模块来做岭回归分析,但可以通过额外编写了一个程序文件:,用户可以编写一段代码来调用该程序做岭回归分析。
其中,
INCLUDE'文件所在路径'.
RIGDEREGENTER=自变量
/DEP=因变量
/START=k值起始值
/STOP=k值终末值
/INC=k值步长
【运行】单击Run☞ALL
运行结果:
岭回归:岭迹图,从图中大致看出k≧0.1时,岭迹曲线趋于稳定。
输出的变量X1~X6不同K值情况下的回归系数
(在SPSS中,原始数据已标准化)
验证当k=0.1时的模型,
验证结果:
本结果拟合得不太理想,仅供参考~~~
因此可以写出岭回归方程式:y=~~~~
版权声明:本站所有作品(图文、音视频)均由用户自行上传分享,仅供网友学习交流,不声明或保证其内容的正确性,如发现本站有涉嫌抄袭侵权/违法违规的内容。请举报,一经查实,本站将立刻删除。