岭回归(RidgeRegression)是回归方法的一种,属于统计方法。在机器学习中也称作权重衰减。也有人称之为Tikhonov正则化。
岭回归主要解决的问题是两种:一是当预测变量的数量超过观测变量的数量的时候(预测变量相当于特征,观测变量相当于标签),二是数据集之间具有多重共线性,即预测变量之间具有相关性。
一般的,回归分析的(矩阵)形式如下:
其中,x是预测变量,y是观测变量,βj和β0是待求的参数。而β0可以理解成偏差(Bias)。
一般情况下,使用最小二乘法求解上述回归问题的目标是最小化如下的式子:
这里的1,⋯,N是训练集中的样本。
那么,岭回归就是要在上述最小化目标中加上一个惩罚项
这里的λ也是待求参数。也就是说,岭回归是带二范数惩罚的最小二乘回归。岭回归的这种估计目标叫做收缩估计器(shrinkageestimator)。
传统的回归分析我们需要使用t检验来确定预测变量是否显著,如果不显著则剔除该预测变量,然后继续回归,如此往复得到最终结果。而岭回归不需要这样,只要它的系数β能向0“收缩”即可减小该变量对最终的影响。
版权声明:本站所有作品(图文、音视频)均由用户自行上传分享,仅供网友学习交流,不声明或保证其内容的正确性,如发现本站有涉嫌抄袭侵权/违法违规的内容。请举报,一经查实,本站将立刻删除。