最近火到出圈的一篇数学论文,到底说了什么?为什么能掀起波澜?
moboyou 2025-05-18 14:31 49 浏览
四月,arXiv上出现了一篇题为《KAN: Kolmogorov-Arnold Networks》的论文。该论文获得约5000个赞,对于一篇学术论文来说,可谓是相当火爆。随附的GitHub库已有7600多个星标,且数字还在持续增长。
Kolmogorov-Arnold 网络(KAN)是一种全新的神经网络构建块。它比多层感知器(MLP)更具表达力、更不易过拟合且更易于解释。多层感知器在深度学习模型中无处不在。例如,我们知道它们被用于GPT-2、3以及(可能的)4等模型的Transformer模块之间。对MLP的改进将对机器学习世界产生广泛的影响。
MLP
MLP实际上是一种非常古老的架构,可以追溯到50年代。其设计初衷是模仿大脑结构;由许多互联的神经元组成,这些神经元将信息向前传递,因此得名前馈网络(feed-forward network)。
MLP通常通过类似上图的示意图来展示。对于外行来说,这很有用,但在我看来,它并没有传达出真正正在发生的事情的深刻理解。用数学来表示它要容易得多。
假设有一些输入x和一些输出y。一个两层的MLP将如下所示:
其中W是可学习权重的矩阵,b是偏差向量。函数f是一个非线性函数。看到这些方程,很明显,一个MLP是一系列带有非线性间隔的线性回归模型。这是一个非常基本的设置。
尽管基本,但它表达力极强。有数学保证,MLP是通用逼近器,即:它们可以逼近任何函数,类似于所有函数都可以用泰勒级数来表示。
为了训练模型的权重,我们使用了反向传播(backpropagation),这要归功于自动微分(autodiff)。我不会在这里深入讨论,但重要的是要注意自动微分可以对任何可微函数起作用,这在后面会很重要。
MLP的问题
MLP在广泛的用例中被使用,但存在一些严重的缺点。
- 因为它们作为模型极其灵活,可以很好地适应任何数据。结果,它们很可能过拟合。
 - 模型中往往包含大量的权重,解释这些权重以从数据中得出结论变得非常困难。我们常说深度学习模型是“黑盒”。
 - 拥有大量的权重还意味着它们的训练可能会很长,GPT-3的大部分参数都在MLP层中。
 
Kolmogorov-Arnold 网络
Kolmogorov-Arnold 表示定理
Kolmogorov-Arnold 表示定理的目标类似于支撑MLP的通用逼近定理,但前提不同。它本质上说,任何多变量函数都可以用1维非线性函数的加法来表示。例如:向量v=(x1, x2)的除法运算可以用对数和指数代替:
为什么这会有用呢?这究竟实现了什么?
这为我们提供了一种不同但简单的范式来开始构建神经网络架构。作者声称,这种架构比使用多层感知器(MLP)更易于解释、更高效地使用参数,并且具有更好的泛化能力。在MLP中,非线性函数是固定的,在训练过程中从未改变。而在KAN中,不再有权重矩阵或偏差,只有适应数据的一维非线性函数。然后将这些非线性函数相加。我们可以堆叠越来越多的层来创建更复杂的函数。
B样条(B-splines)
在KAN中表示非线性的方式中有一点重要的是需要注意的。与MLP中明确定义的非线性函数(如ReLU()、Tanh()、silu()等)不同,KAN的作者使用样条。这些基本上是分段多项式。它们源自计算机图形领域,在该领域中,过度参数化并不是一个问题。
样条解决了在多个点之间平滑插值的问题。如果你熟悉机器学习理论,你会知道要在n个数据点之间完美插值,需要一个n-1阶的多项式。问题是高阶多项式可能变得非常曲折,看起来不平滑。
- 10个数据点被一个9阶多项式完美拟合
 
通过将分段多项式函数适应于数据点之间的部分,样条解决了这个问题。这里我们使用三次样条。
- 三次样条插值更好,但不能泛化
 
对于三次样条(样条的一种类型),为了确保平滑,需要在数据点(或结点)的位置对一阶和二阶导数设置约束。数据点两侧的曲线必须在数据点处具有匹配的一阶导数和二阶导数。
KAN使用的是B样条,另一种类型的样条,具有局部性(移动一个点不会影响曲线的整体形状)和匹配的二阶导数(也称为C2连续性)的特性。这样做的代价是实际上不会通过这些点(除了在极端情况下)。
- 3条B样条对应5个数据点。注意曲线是如何不通过数据点的。
 
在机器学习中,特别是在应用于物理学时,不经过每一个数据点是可以接受的,因为我们预计测量会有噪声。
这就是在KAN的计算图的每一个边缘发生的事情。一维数据用一组B样条进行拟合。
进入KAN
因此,现在我们在计算图的每个边缘都有一个分段的参数曲线。在每个节点,这些曲线被求和:我们之前看到,可以通过这种方式逼近任何函数。
为了训练这样的模型,我们可以使用标准的反向传播。在这种情况下,作者使用的是LBFGS(Limited-memory 
Broyden-Fletcher-Goldfarb-Shanno),这是一种二阶优化方法(与Adam这种一阶方法相比)。另一个需要注意的细节是:在每个代表一维函数的边上,有一个B样条,但作者还增加了一个非线性函数:silu函数。
对此的解释不是很清楚,但很可能是由于梯度消失(这是我的猜测)。
我们来试用一下
我打算使用作者提供的代码,它运行得非常出色,有许多示例可以帮助我们更好地理解它。
他们使用由以下函数生成的合成数据:
定义模型
model = KAN(width=[2,5,1], grid=5, k=3, seed=0)这里定义了三个参数:
- 宽度,其定义方式与多层感知器(MLP)类似:一个列表,其中每个元素对应一个层,元素值是该层的宽度。在这种情况下,有三层;输入维度为2,有5个隐藏维度,输出维度为1
 - 网格与B样条相关,它描述了数据点之间的网格可以有多细致。增加这个参数可以创建更多曲折的函数。
 - k是B样条的多项式阶数,一般来说,三次曲线是个不错的选择,因为三次曲线对样条有很好的属性。
 - seed,随机种子:样条的权重用高斯噪声随机初始化(就像在常规MLP中一样)。
 
训练
model.train(dataset, opt="LBFGS", steps=20, lamb=0.01, lamb_entropy=10.0)该库的API非常直观,我们可以看到我们正在使用LBFGS优化器,训练20步。接下来的两个参数与网络的正则化相关。
训练后的下一步是修剪模型,这会移除低于相关性阈值的边和节点,完成后建议重新训练一下。然后将每个样条边转换为符号函数(log、exp、sin等)。这可以手动或自动完成。库提供了一个极好的工具,借助model.plot()方法可以看到模型内部的情况。
# Code to fit symbolic functions to the fitted splines
if mode == "manual":
    # manual mode
    model.fix_symbolic(0, 0, 0, "sin")
    model.fix_symbolic(0, 1, 0, "x^2")
    model.fix_symbolic(1, 0, 0, "exp")
elif mode == "auto":
    # automatic mode
    lib = ["x", "x^2", "x^3", "x^4", "exp", "log", "sqrt", "sin", "abs"] 
    model.auto_symbolic(lib=lib)一旦在每个边上设置了符号函数,就会进行最终的再训练,以确保每个边的仿射参数是合理的。
整个训练过程在下面的图表中总结。
- 使用KAN进行符号回归的示例。图片来自论文。
 
完整的训练代码如下所示:
# Define the model
model = KAN(width=[2, 5, 1], grid=5, k=3, seed=0)
# First training
model.train(dataset, opt="LBFGS", steps=20, lamb=0.01, lamb_entropy=10.0)
# Prune edges that have low importance
model = model.prune() 
# Retrain the pruned model with no regularisation
model.train(dataset, opt="LBFGS", steps=50) 
# Find the symbolic functions
model.auto_symbolic(lib=["x", "x^2", "x^3", "x^4", "exp", "log", "sqrt", "sin", "abs"])
# Find the afine parameters of the fitted functions without regularisation
model.train(dataset, opt="LBFGS", steps=50) 
# Display the resultant equation
model.symbolic_formula()[0][0] # Print the resultant symbolic function一些思考
模型中有相当多的超参数可以调整。这些可以产生非常不同的结果。例如,在上面的示例中:将隐藏神经元的数量从5改为6意味着KAN找不到正确的函数。
在机器学习中,“超参数”(hyperparameters)是指那些在学习过程开始之前需要设置的参数。这些参数控制着训练过程的各个方面,但它们并不是通过训练数据自动学习得到的。超参数的设置对模型的性能和效率有着重要的影响。
- 由KAN[2,6,1]找到的结果函数
 
这种变化性是预期的,因为这种架构是全新的。花了几十年时间,人们才找到了调整MLP超参数(如学习率、批大小、初始化等)的最佳方式。
结论
MLP已经存在很长时间了,早该升级了。我们知道这种改变是可能的,大约6年前,LSTMs在序列建模中无处不在,后来被transformers作为标准的语言模型架构构建块所取代。如果MLP也能发生这种变化,那将是令人兴奋的。另一方面,这种架构仍然不稳定,而且运行效果并不是非常出色。时间将告诉我们,否能找到一种方法来绕过这种不稳定性并释放KAN的真正潜力,或者KAN是否会被遗忘,成为机器学习的一个小知识点。
我对这种新架构感到非常兴奋,但我也持怀疑态度。
相关推荐
- Excel技巧:SHEETSNA函数一键提取所有工作表名称批量生产目录
 - 
        
首先介绍一下此函数:SHEETSNAME函数用于获取工作表的名称,有三个可选参数。语法:=SHEETSNAME([参照区域],[结果方向],[工作表范围])(参照区域,可选。给出参照,只返回参照单元格...
 
- Excel HOUR函数:“小时”提取器_excel+hour函数提取器怎么用
 - 
        
一、函数概述HOUR函数是Excel中用于提取时间值小时部分的日期时间函数,返回0(12:00AM)到23(11:00PM)之间的整数。该函数在时间数据分析、考勤统计、日程安排等场景中应用广泛。语...
 
- Filter+Search信息管理不再难|多条件|模糊查找|Excel函数应用
 - 
        
原创版权所有介绍一个信息管理系统,要求可以实现:多条件、模糊查找,手动输入的内容能去空格。先看效果,如下图动画演示这样的一个效果要怎样实现呢?本文所用函数有Filter和Search。先用filter...
 
- FILTER函数介绍及经典用法12:FILTER+切片器的应用
 - 
        
EXCEL函数技巧:FILTER经典用法12。FILTER+切片器制作筛选按钮。FILTER的函数的经典用法12是用FILTER的函数和切片器制作一个筛选按钮。像左边的原始数据,右边想要制作一...
 
- office办公应用网站推荐_office办公软件大全
 - 
        
以下是针对Office办公应用(Word/Excel/PPT等)的免费学习网站推荐,涵盖官方教程、综合平台及垂直领域资源,适合不同学习需求:一、官方权威资源1.微软Office官方培训...
 
- WPS/Excel职场办公最常用的60个函数大全(含卡片),效率翻倍!
 - 
        
办公最常用的60个函数大全:从入门到精通,效率翻倍!在职场中,WPS/Excel几乎是每个人都离不开的工具,而函数则是其灵魂。掌握常用的函数,不仅能大幅提升工作效率,还能让你在数据处理、报表分析、自动...
 
- 收藏|查找神器Xlookup全集|一篇就够|Excel函数|图解教程
 - 
        
原创版权所有全程图解,方便阅读,内容比较多,请先收藏!Xlookup是Vlookup的升级函数,解决了Vlookup的所有缺点,可以完全取代Vlookup,学完本文后你将可以应对所有的查找难题,内容...
 
- 批量查询快递总耗时?用Excel这个公式,自动计算揽收到签收天数
 - 
        
批量查询快递总耗时?用Excel这个公式,自动计算揽收到签收天数在电商运营、物流对账等工作中,经常需要统计快递“揽收到签收”的耗时——比如判断某快递公司是否符合“3天内送达”的服务承...
 
- Excel函数公式教程(490个实例详解)
 - 
        
Excel函数公式教程(490个实例详解)管理层的财务人员为什么那么厉害?就是因为他们精通excel技能!财务人员在日常工作中,经常会用到Excel财务函数公式,比如财务报表分析、工资核算、库存管理等...
 
- Excel(WPS表格)Tocol函数应用技巧案例解读,建议收藏备用!
 - 
        
工作中,经常需要从多个单元格区域中提取唯一值,如体育赛事报名信息中提取唯一的参赛者信息等,此时如果复制粘贴然后去重,效率就会很低。如果能合理利用Tocol函数,将会极大地提高工作效率。一、功能及语法结...
 
- Excel中的SCAN函数公式,把计算过程理清,你就会了
 - 
        
Excel新版本里面,除了出现非常好用的xlookup,Filter公式之外,还更新一批自定义函数,可以像写代码一样写公式其中SCAN函数公式,也非常强大,它是一个循环函数,今天来了解这个函数公式的计...
 
- Excel(WPS表格)中多列去重就用Tocol+Unique组合函数,简单高效
 - 
        
在数据的分析和处理中,“去重”一直是绕不开的话题,如果单列去重,可以使用Unique函数完成,如果多列去重,如下图:从数据信息中可以看到,每位参赛者参加了多项运动,如果想知道去重后的参赛者有多少人,该...
 
- Excel(WPS表格)函数Groupby,聚合统计,快速提高效率!
 - 
        
在前期的内容中,我们讲了很多的统计函数,如Sum系列、Average系列、Count系列、Rank系列等等……但如果用一个函数实现类似数据透视表的功能,就必须用Groupby函数,按指定字段进行聚合汇...
 
- Excel新版本,IFS函数公式,太强大了!
 - 
        
我们举一个工作实例,现在需要计算业务员的奖励数据,右边是公司的奖励标准:在新版本的函数公式出来之前,我们需要使用IF函数公式来解决1、IF函数公式IF函数公式由三个参数组成,IF(判断条件,对的时候返...
 
- Excel不用函数公式数据透视表,1秒完成多列项目汇总统计
 - 
        
如何将这里的多组数据进行汇总统计?每组数据当中一列是不同菜品,另一列就是该菜品的销售数量。如何进行汇总统计得到所有的菜品销售数量的求和、技术、平均、最大、最小值等数据?不用函数公式和数据透视表,一秒就...
 
- 一周热门
 
- 最近发表
 - 
- Excel技巧:SHEETSNA函数一键提取所有工作表名称批量生产目录
 - Excel HOUR函数:“小时”提取器_excel+hour函数提取器怎么用
 - Filter+Search信息管理不再难|多条件|模糊查找|Excel函数应用
 - FILTER函数介绍及经典用法12:FILTER+切片器的应用
 - office办公应用网站推荐_office办公软件大全
 - WPS/Excel职场办公最常用的60个函数大全(含卡片),效率翻倍!
 - 收藏|查找神器Xlookup全集|一篇就够|Excel函数|图解教程
 - 批量查询快递总耗时?用Excel这个公式,自动计算揽收到签收天数
 - Excel函数公式教程(490个实例详解)
 - Excel(WPS表格)Tocol函数应用技巧案例解读,建议收藏备用!
 
 
- 标签列表
 - 
- 外键约束 oracle (36)
 - oracle的row number (32)
 - 唯一索引 oracle (34)
 - oracle in 表变量 (28)
 - oracle导出dmp导出 (28)
 - 多线程的创建方式 (29)
 - 多线程 python (30)
 - java多线程并发处理 (32)
 - 宏程序代码一览表 (35)
 - c++需要学多久 (25)
 - css class选择器用法 (25)
 - css样式引入 (30)
 - css教程文字移动 (33)
 - php简单源码 (36)
 - php个人中心源码 (25)
 - php小说爬取源码 (23)
 - 云电脑app源码 (22)
 - html画折线图 (24)
 - docker好玩的应用 (28)
 - linux有没有pe工具 (34)
 - 可以上传视频的网站源码 (25)
 - 随机函数如何生成小数点数字 (31)
 - 随机函数excel公式总和不变30个数据随机 (33)
 - 所有excel函数公式大全讲解 (22)
 - 有动图演示excel函数公式大全讲解 (32)
 
 
