极大似然和最小平方误差等价关系
看了一下机器学习这一节,感觉有点乱,人生观乱了,原来如此。建议本文与贝叶斯一起看。
我们设想一个问题如下:学习器工作在X的实例空间和假设空间H,我们现在的任务就是根据实例空间X,然后在H空间中学习出h满足:y = h(x)。现在我们给出了训练样集D,但是D含有随机噪声,而且此噪声服从高斯分布。即满足:
根据贝叶斯理论,我们可以利用先验概率去估计后验概率p(h|d),就是利用观察的结果得到一些先验概率去估计h。假设H空间中含有(h1,h2,h3…..,hn),那么最大后验概率估计的思想,当hi满足p(hi|d)有最大的后验概率,我们就能得出hi就是我们估计的结果。下面推导一下:
【注】MAP最大后验概率的意思
上面这个公式的意思就是说p(hi|d)达到最大时等价于p(d|hi)达到最大,这就是最大似然估计(maximum likelihood)。对于连续的变量我们用概率密度来刻画。
由于误差服从正态分布,结合di = h(xi) + ei,那么有如下推导:
上面这个式子,m表示m个训练样例,这样我们对上面的公式取对数(常用),就可以得到:
等价于
这正好就是说明,当hi-di的误差达到最小时,则hi就是我们学习到的结果。即最小平方误差的学习(梯度下降)就是最大似然估计,该结论成立的前提是di = h(xi)+ei,ei一定是高斯误差。
最小平方误差用于神经网络权重学习,线性回归以及多项式拟合以及曲线逼近。