用最大似然来学习数据中的模式时,当数据点数远小于参数数量时,会出现过拟合(因自由度远高于数据点数而导致的某些项被过度调参的情况,当出现这种情况时会导致模型的泛化能力急剧下降)的问题,所以不得不根据可得到的训练集的规模限制参数的数量。这种由表象得出的问题及其解决方案,很明显无法说明最大似然与过拟合的关联性,所以解决方案也显得非常不合逻辑(更为合理的解决方法似乎应是根据待解决问题的复杂性来限制参数的数量),下面以一个例子来说明最大似然与过拟合的内在联系:
假设要估计的
而当用最大似然来做模式识别时,
对
建模,通过最大化样本的出现概率(直接拟合)求解模型参数,没有先后验一说。
似然函数为:
最终得到拟合的估计分布为
对
建模,通过最大化参数的后验概率求解模型参数。
由
故最大化后验概率等价于最小化该函数
MLE、MAP是选择相对最好的一个模型(point estimation), 贝叶斯方法则是通过观测数据来估计后验分布(posterior distribution),并通过后验分布做群体决策,所以后者的目标并不是在去选择某一个最好的模型,贝叶斯估计复杂度大,通常用MCMC等近似算法来近似,这样做模型的ensemble的优点是它可以reduce variance。
首先建立数据的参数模型