『述评』机器学习中的模型评价、模型选择与算法选择

来源(原作者)： | 发布时间：2022-10-31

↷

模型评估、模型选择和算法选择技术的正确使用在学术性机器学习研究和诸多产业环境中异常关键。下文回顾了用于解决以上三项任务中任何一个的不同技术，并参考理论和实证研究讨论了每一项技术的主要优势和劣势。进而，给出建议以促进机器学习研究与应用方面的最佳实践。本文涵盖了用于模型评估和选择的常见方法，比如留出方法，但是不推荐用于小数据集。不同风格的bootstrap技术也被介绍，以评估性能的不确定性，以作为通过正态空间的置信区间的替代，如果bootstrapping在计算上是可行的。在讨论偏差-方差权衡时，把leave-one-out交叉验证和k折交叉验证进行对比，并基于实证证据给出 k 的最优选择的实际提示，并展示了用于算法对比的不同统计测试，以及处理多种对比的策略（比如综合测试、多对比纠正）。最后，当数据集很小时，本文推荐替代方法（比如 5×2cv 交叉验证和嵌套交叉验证）以对比机器学习算法。

阅读原文

翻译:https://mp.weixin.qq.com/s/57L94_8CgYY81c0FEEUVjA