过度拟合

过度拟合是机器学习中常见的统计误差。过拟合指一个模型过于靠近某个数据集,因此缺乏普适性,就像一个人只是通过背诵“学会”了某样东西,但并未真正理解。他/她将无法回答之前未见过的问题,即使与见过的问题很像。

统计的原则非常简单:根据样本中的实际数据构建能适用于各种情况的模型。然而,当选定的模型自由度较大,能记往每次观察的独特性,但并未真正理解背后的现象时,也会发生过度拟合问题。因此,模型发回的规则可能不适用,即使是面对最微小的变化也十分敏感。

例如,一个过度拟合的模型如果涉及年龄因素,即使两个人的出生时间只相距几天,也会产生截然不同的结果。

/
还想再来一杯茶吗?