深度学习:L1 L2正则化为什么可以解决过拟合问题
moboyou 2025-05-15 19:40 30 浏览
限时打折
正文
如何解决过拟合问题?一种方式就是增加足够多的训练数据,另外一种方式就是使用正则化的方式,本节课程将讲解为什么正则化可以解决过拟合?为什么它可以减少高方差问题?
我们先来看一下欠拟合、正常拟合、过拟合这三种情况:
上面的三张图中第一个是欠拟合(高偏差)。第二个是正常集合。第三个是过拟合(高方差)
假如现在对于上面的数据,我们有一个过拟合的神经网络如下所示:
那么此时我们为了解决这个神经网络的过拟合的问题,我们可以为我们的神经网络的代价函数添加正则化项(是弗罗贝尼乌斯范数):
当为损失函数添加好了正则化项的时候,确实能够有效的解决过拟合的问题,那么此时的问题就是为什么缩2范数,或者弗罗贝尼乌斯范数或者参数可以减少过拟合?
直观上理解就是如果正则化设置得足够大,权重矩阵就会被设置为接近于 0 的值,直观理解就是把多隐藏单元的权重设为 0,于是基本上消除了这些隐藏单元的许多影响(下图中画×的神经元)。如果是这种情况,这个被大大简化了的神经网络会变成一个很小的网络,小到如同一个逻辑回归单元,可是深度却很大,它会使这个网络从过度拟合的状态更接近左图的高偏差状态。
但是并不会足够大,而是会存在一个中间值,于是会有一个接近"Just Right"的中间状态:
现在我们应该大概知道了为什么使用正则化可以解决过拟合的问题了,因为使用正则化可以让神经网络中的一部分神经元失去作用,使得原本复杂的神经网络变得简单,神经网络变得简单就意味着参数w变少了,那么神经网络的过拟合问题就得到解决了。
其实也不能说一部分神经元失去了作用,实际上是该神经网络的所有隐藏单元依然存在,但是它们的影响变得更小了。神经网络变得更简单了,貌似这样更不容易发生过拟合
为了帮助大家对正则化解决神经网络过拟合的问题有一个更加深刻的理解,我们再来直观感受一下,正则化为什么可以预防过拟合,假设我们用的是这样的双曲线(tanh)激活函数。
g(z)=tanh(z),我们仔细观察这个图像,我们可以发现只要非常小(2位置),那么激活函数几乎可以看成为线性的,当z变大的时候(1、3位置)激活函数开始变得非线性。
那么我们现在来看一下当λ变大的时候发生了什么?当lambda变大的时候,w一定会变小,而z=wa+b,所以z也会变小
如过z变小,然后z在这个位置的话(被圈起来的位置)
如果的值最终在这个范围内,都是相对较小的值,()大致呈线性,神经网络中每层几乎都是线性的,和线性回归函数一样。如果每层都是线性的,那么整个网络就是一个线性网络,即使是一个非常深的深层网络,因具有线性激活函数的特征,最终我们只能计算线性函数,因此,它不适用于非常复杂的决策,以及过度拟合数据集的非线性决策边界(如同过度拟合高方差的情况),就是说使用正则化之后下图这样的非线性决策边界计算不出来了。
所以如果正则化参数变得很大,参数很小, 也会相对变小,此时忽略的影响,会相对变小,实际上,的取值范围很小,这个激活函数,也就是曲线函数h会相对呈线性,整个神经网络会计算离线性函数近的值,这个线性函数非常简单,并不是一个极复杂的高度非线性函数,那么就不会发生过拟合。
如果我们使用的是梯度下降函数,在调试梯度下降时,其中一步就是把代价函数设计成这样一个函数,它代表梯度下降的调幅数量(梯度下降的次数和损失的关系)。
可以看到,代价函数对于梯度下降的每个调幅都单调递减。我们需要的就是这样的图像,要想出现这样的图像我们需要使用正则化的损失函数:
如果你用的是原函数,你可能看不到单调递减现象,
所以为了调试梯度下降,请务必使用新定义的函数
相关推荐
- 原神:“天理”是什么?至今还有很多玩家没搞明白
-
原神已经更新到层岩巨渊,关于提瓦特的秘密却越来越多。然而,直到今天还有很多玩家不明白天理以及天理维系者的关系。这并不怪大家,因为剧情里根本没提,只能靠玩家去猜。天理是什么?在看完渊下宫的剧情之后,不少...
- 《原神》爆火3年仍无竞品:它的“致命武器”竟不是开放世界?
-
#原神的最大特点是什么?#《原神》爆火3年仍无竞品:它的“致命武器”竟不是开放世界?【独家观察】2023年8月,《原神》4.0版本“枫丹”上线首日登顶68国畅销榜,这个现象级产品再次向行业抛出灵魂拷问...
- 原神:每个人都是氪金大佬?除非在梦里!或许还有一种方法
-
游戏中的笔杆王者,每日靠玩游戏过日子,玩网游也有20个年头,我有自己独特的见解,作为一个10年不脱坑的老玩家,如果文章写的有什么问题,请重喷!如果大家觉得好,请转发加点赞!非常感谢!原神每个人都是氪金...
- 原神:丝柯克,又传新消息!入池时间,武器确定!第八元素无了!
-
原神:丝柯克,又传新消息!入池时间,武器确定!第八元素无了!新角色丝柯克已经确定会在5.7版本入池!作为公子的师傅,早在公子14岁时,丝柯克就已经是一位畅行于深渊的剑客了,如今成为执行官的公子,却只希...
- 原神服务端架构搭建工具+环境配置资料
-
我是艾西,今天给大家分享一份详细的原神服务端结构资料教程,从服务端的获取到端口的使用以及安卓和ios的DAIL签名等一文让你明白怎么架设原神服务端,哪些工具资料又代表着什么意思(保姆级教学)Grass...
- 在原神里钓鱼,有人竟然用上了深度强化学习,还把它开源了
-
机器之心报道机器之心编辑部还愁在《原神》里钓不到鱼吗?这有一份迟到的提瓦特钓鱼指南。在游戏圈,你可以没有玩过,但一定听过《原神》。虽然这是一款口碑两极分化的游戏,但不得不承认《原神》是当前最为火热的游...
- BetterGI:让原神游戏更便捷的自动化工具
-
技术背景BetterGI是一个基于计算机视觉技术的项目,旨在让原神游戏变得更加便捷。它利用视觉算法和模拟操作,实现了多种游戏内的自动化功能,帮助玩家节省时间和精力。实现步骤系统要求操作系统:Wind...
- 原神:2.6服务端泄露?9999纠缠之缘秒到账,米哈游跻身全球15强
-
首先,恭喜米哈游凭借原神跻身全球应用开发商第14名,这个榜单记录了全球开发商在iOS&GooglePlay综合收入前52名的数据,第一腾讯第二网易,字节跳动第7,米哈游则排14名。值得一提的是,这个...
- 观鸣潮1.3前瞻有感,《原神》是屎山代码?七个问题拷打米哈游!
-
哈喽大家好啊。前天看完鸣潮1.3直播后,感触良多啊。虽然我对1.3的前瞻内容觉得中规中矩,没有太满意,但是对面策划的态度让我看到了差距。所以今天来拷打一下原神。就是对比隔壁策划面对玩家的反馈,所回答的...
- PHP中的九大缓存技术(php中的九大缓存技术是什么)
-
1、全页面静态化缓存也就是将页面全部生成html静态页面,用户访问时直接访问的静态页面,而不会去走php服务器解析的流程。此种方式,在CMS系统中比较常见,比如dedecms;一种比较常用的实现方式是...
- 使用PhpStorm将代码同步到开发环境
-
配置步骤1、选择Tools>Deployment>Configuration:2、选择SFTP:3、输入servername:4、配置SSHconfiguration:5、配置...
- PM小技术:使用SAE发布在线Axure文档
-
俗话说,不会写代码的产品经理不是好的射鸡湿。关于产品经理与技术之间的微妙关系,扯开了讲可是长篇大论,比如知乎上这个问题:IT行业产品经理(尤其是创业的)需要懂技术吗?懂到什么程度?,以及这个:产品经...
- PHP新手如何提高代码质量(php代码教程)
-
1.不要使用相对路径常常会看到:require_once('../../lib/some_>该方法有很多缺点:它首先查找指定的php包含路径,然后查找当前目录.因此会检查过多路径.如果该脚本...
- PHP代码中常用的优化策略(php性能优化及安全策略)
-
1、如果能将类的方法定义成static,就尽量定义成static,它的速度会提升将近4倍。2、$row['id']的速度是$row[id]的7倍。3、echo比print快,并...
- PHP 没你想的那么差(php ml)
-
PHP现在名声很糟糕,因为它曾经是“可怕”的。本文试着回答一些常见的关于PHP的断言,目的是向非技术人员解释,PHP并不像许多人所说的那么糟糕。它是不是鼓励糟糕的实践?不再是了。过去,许多开发者...
- 一周热门
- 最近发表
- 标签列表
-
- 外键约束 oracle (36)
- oracle的row number (32)
- 唯一索引 oracle (34)
- oracle in 表变量 (28)
- oracle导出dmp导出 (28)
- oracle两个表 (20)
- oracle 数据库 字符集 (20)
- oracle安装补丁 (19)
- matlab化简多项式 (20)
- 多线程的创建方式 (29)
- 多线程 python (30)
- java多线程并发处理 (32)
- 宏程序代码一览表 (35)
- c++需要学多久 (25)
- c语言编程小知识大全 (17)
- css class选择器用法 (25)
- css样式引入 (30)
- html5和css3新特性 (19)
- css教程文字移动 (33)
- php简单源码 (36)
- php个人中心源码 (25)
- 网站管理平台php源码 (19)
- php小说爬取源码 (23)
- github好玩的php项目 (18)
- 云电脑app源码 (22)