摘要: 清除标注错误的数据 监督学习问题的数据由输入\(x\)和输出标签 \(y\) 构成,如果观察一下的数据,并发现有些输出标签 \(y\) 是错的。的数据有些标签是错的,是否值得花时间去修正这些标签呢? 看看在猫分类问题中,图片是猫,\(y=1\);不是猫,\(y=0\)。a56爆大奖在线娱乐假设看了一些数据样本,发现 阅读全文
posted @ 2024-06-13 15:04 Oten 阅读(14) 评论(0) 推荐(0) 编辑
摘要: 从一个例子开始讲吧。 假设正在调试猫分类器,然后取得了90%准确率,相当于10%错误,,开发集上做到这样,这离希望的目标还有很远。也许的队员看了一下算法分类出错的例子,注意到算法将一些狗分类为猫,看看这两只狗,它们看起来是有点像猫,至少乍一看是。a56爆大奖在线娱乐也许的队友给一个建议,如何针对狗的图片优化算法。试 阅读全文
posted @ 2024-06-07 17:52 Oten 阅读(21) 评论(0) 推荐(0) 编辑
摘要: 如何改善模型的表现 学过正交化,如何设立开发集和测试集,用人类水平错误率来估计贝叶斯错误率以及如何估计可避免偏差和方差。现在把它们全部组合起来写成一套指导方针,如何提高学习算法性能的指导方针。 a56爆大奖在线娱乐想要让一个监督学习算法达到实用,基本上希望或者假设可以完成两件事情。首先,的算法对训练集的拟合很好,这 阅读全文
posted @ 2024-06-06 10:47 Oten 阅读(26) 评论(0) 推荐(0) 编辑
摘要: 超过人的表现 讨论过机器学习进展,会在接近或者超越人类水平的时候变得越来越慢。举例谈谈为什么会这样。 假设有一个问题,一组人类专家充分讨论辩论之后,达到0.5%的错误率,单个人类专家错误率是1%,然后训练出来的算法有0.6%的训练错误率,0.8%的开发错误率。a56爆大奖在线娱乐在这种情况下,可避免偏差是多少?这个 阅读全文
posted @ 2024-05-31 09:40 Oten 阅读(3) 评论(0) 推荐(0) 编辑
摘要: 理解人的表现 人类水平表现这个词在论文里经常随意使用,但现在告诉这个词更准确的定义,特别是使用人类水平表现这个词的定义,可以帮助推动机器学习项目的进展。还记得上个博客中,用过这个词“人类水平错误率”用来估计贝叶斯误差,那就是理论最低的错误率,任何函数不管是现在还是将来,能够到达的最低值。先记住这点, 阅读全文
posted @ 2024-05-30 09:52 Oten 阅读(23) 评论(0) 推荐(0) 编辑
摘要: 可避免偏差 如果希望学习算法能在训练集上表现良好,但有时实际上并不想做得太好。得知道人类水平的表现是怎样的,可以确切告诉算法在训练集上的表现到底应该有多好,或者有多不好,让a56爆大奖在线娱乐说明是什么意思吧。 经常使用猫分类器来做例子,比如人类具有近乎完美的准确度,a56爆大奖在线娱乐人类水平的错误是1%。在这种情况下,如果您的学 阅读全文
posted @ 2024-05-29 14:05 Oten 阅读(9) 评论(0) 推荐(0) 编辑
摘要: 为什么是人的表现? 在过去的几年里,更多的机器学习团队一直在讨论如何比较机器学习系统和人类的表现,为什么呢? 认为有两个主要原因,首先是因为深度学习系统的进步,机器学习算法突然变得更好了。在许多机器学习的应用领域已经开始见到算法已经可以威胁到人类的表现了。其次,事实证明,当试图让机器做人类能做的事情 阅读全文
posted @ 2024-05-14 09:46 Oten 阅读(18) 评论(0) 推荐(0) 编辑
摘要: 什么时候该改变开发/测试集和指标? 有时候在项目进行途中,可能意识到,目标的位置放错了。这种情况下,应该移动的目标。 来看一个例子,假设在构建一个猫分类器,试图找到很多猫的照片,向的爱猫人士用户展示,决定使用的指标是分类错误率。a56爆大奖在线娱乐算法\(A\)和\(B\)分别有3%错误率和5%错误率,a56爆大奖在线娱乐算法\( 阅读全文
posted @ 2024-05-09 10:44 Oten 阅读(11) 评论(0) 推荐(0) 编辑
摘要: 在深度学习时代,设立开发集和测试集的方针也在变化。 可能听说过一条经验法则,在机器学习中,把取得的全部数据用70/30比例分成训练集和测试集。或者如果必须设立训练集、开发集和测试集,会这么分60%训练集,20%开发集,20%测试集。在机器学习的早期,这样分是相当合理的,特别是以前的数据集大小要小得多 阅读全文
posted @ 2024-05-07 11:02 Oten 阅读(88) 评论(0) 推荐(0) 编辑
摘要: 训练/开发/测试集划分 设立训练集,开发集和测试集的方式大大影响了或者团队在建立机器学习应用方面取得进展的速度。同样的团队,即使是大公司里的团队,在设立这些数据集的方式,真的会让团队的进展变慢而不是加快,看看应该如何设立这些数据集,让团队效率最大化。 在此,想集中讨论如何设立开发集和测试集,开发(d 阅读全文
posted @ 2024-03-04 09:59 Oten 阅读(127) 评论(0) 推荐(1) 编辑