机器之心报道编辑:张潜模型的架构可能比之前想象的更重要。约翰·霍普金斯大学最近的一项研究发现,在 1,100 多个不同的神经网络中,即使在具有不同初始化和超参数的完全不同的数据集上进行训练,最终学习到的权重也会收敛到共享的低维子空间。这似乎表明存在一个所有神经网络都近似的“先验”数学结构。训练不是“创造”某种东西,而是“发现”已经存在的几何形状。也就是说,“神经网络想要学习什么”似乎是非常一致的,它能学习什么是由架构决定的,架构比数据更具影响力。这一发现有助于解释许多“神秘”现象。例如,为什么过度参数化模型(参数比训练样本多得多)可以被泛化。为什么不同的初始化最终会导致lea正在寻找类似的表示? LoRA 和权重共享技术为何有效?如果神经网络真正在共享子空间内学习,这提供了一种解释,支持隐式正则化、可转移性和稀疏训练技术的有效性,同时为高效聚类、新优化技术以及更快、更高效的学习和推理等应用铺平道路。文章标题:THE UNIVERSAL WEIGHT SUBSPACE HYPOTHESIS 文章链接:https://www.arxiv.org/pdf/2512.05117 这篇文章在 Alphaxiv、X 等平台上获得了大量关注,一度登上 Alphaxiv 榜单榜首。有人说柏拉图又赢了。 (注:柏拉图的理念论认为,我们所看到的某些事物(桌子、马、圆)只是“理念”(形式/理念)的不完美投射。真正的完美圆存在于抽象思想的世界中,而真正的圆是它们的模仿者。不是太多。另一个核心主张是 ab抽象结构先于具体示例。 )有些人可能还会从中看到一些令人担忧的迹象。如果所有模型收敛到相同的子空间,则意味着存在独特的概念。当前的架构有一个上限:无论你有多少数据和计算能力,它们都只是在同一个“盆地”中旋转。文章摘要 在具体研究中,作者首先关注易于大量训练和收获的 LoRA 适配器。在 Mistral 7B 模型的大约 500 个适配器中观察到通用子空间的出现。然后,该研究扩展到完整的权重空间,并提取了类似的低秩通用子空间。大约有 500 个 Vision Transformer 模型和 50 个 LLaMA3-8B 模型,每个模型都使用不同的数据集和初始化方法进行训练。有很多线索都指向这一现象。神经正切核理论表明,在无限宽度的限制下,网络训练的动态由核 f 主导基本上独立于特定任务的功能。机制可解释性研究表明,它在视觉网络的特定层中重复发生。电路图案;彩票假设和模式连通性也表明了低维可重用结构。 2012 年,人们观察到卷积网络的第一层学习类似 Gabor 的滤波器来处理各种视觉任务。然而,这些工作侧重于表示级别或没有处理不同模型之间参数属性的收敛。这项研究的独特之处在于,它首次在权重层面提供了具体的证据和明确的一般假设,为深度神经网络参数空间中“普遍性”的存在提供了最严格的经验证据。这种普遍性的根本原因仍有待调查,但即使是初步的理解也会产生深远的影响。共享子空间可实现大规模ale 模型压缩(仅需要存储子空间系数而不是完整权重)、快速适应学习子空间内的新任务、泛化边界和优化景观。它有望通过减少训练和推理的计算要求来带来环境效益。此外,这种几何通用性还为研究泛化、格洛克、灾难性遗忘和数据效率等基本问题提供了新的视角。作者还承认一些悬而未决的问题:不同架构的通用子空间有何不同?可以通过显式设计架构来优化子空间的几何形状吗?更根本的是,当所有网络崩溃到同一个子空间时,共同的偏差、功能限制和故障模式将被继承。这种缺乏多样性本身是一个根本瓶颈吗?我们是否需要开发特殊的方法来打破这种趋同?方法总结结果 作者证明,通用的依赖于架构的分层子空间继续出现在各种神经模型中。无论模型是从头开始训练、完全拟合还是低秩拟合,通用子空间假设的实现都是稳健的并且没有显着偏差。这种现象在不同的初始化策略、模式、数据格式和数据集内容中持续存在。请注意,提取的子空间的准确性与可用模型的数量和质量有关。基于此,作者推断存在一个特定于每种架构的“理想”通用子空间,模型的每个实例都收敛到该子空间。作者假设更好的算法、更干净的数据和更有效的优化策略可以使模型更接近这种理想状态。尽管本文没有正式检验“理想通用子空间”假设,但作者认为这个子空间代表了最通过反向传播训练的现代神经网络的稳定配置,因此该规则的例外可能为未来的研究提供肥沃的土壤。分析方法 目前,还没有比较不同架构模型子空间的形式,因此作者重点关注使用 LoRA 适配器、Transformer 和 CNN 在同一架构上训练的大量模型。我们分析 的传统权重。除非另有说明,所有实验中仅执行1-2阶高阶奇异值分解(HOSVD),以确保该方法即使在最简单的情况下也能起作用。光谱分析基于高效的光谱分解库,该库也可以在 CPU 上运行,并且作者的所有分析和实验都是在单个 Nvidia A5000 上执行的。它是在 GPU 上制作的。通过分析数千个公开可用的模型,作者能够在无需培训成本的情况下提取通用子空间。算法实现作者得到的结果是: 联合子空间分析的结果 在 CNN 实验中,作者开始使用 ResNet-50 和超级数据集(CIFAR-10、CIFAR-100、ImageNet、Oxford-IIIT Pets 和 EuroSAT)对图像进行分类。我们对模型的小问题进行了专门的分析,以帮助对普遍范围内的空间进行进一步的估计,CNN 的研究将进一步限制模型的大小,包括在工作室中。然而,我们对 ResNet-50 的各种变化进行了分析(图 2b),揭示了不同地区之间的内在结构。也就是说,大多数信息仅存在于 16 个(或更少)不同的子空间地址中。 Además, después de proyectar el modelo en este subespacio para obtener un ResNet-50 de bajo rango (reduciendo así los parámetros), su rendimiento sigue siendo competitivo con考虑到关节子空间的存在和实用性(图2a)。为了在现实世界中进行大规模实验,作者选择对公共领域丰富的 LoRA 模型进行子空间分析。 LoRA 模型明确地捕获了特定于任务的方向,并且与原始权重不太一致,这使其成为假设检验的良好替代模型。在第一个实验中,作者使用LoWe使用的RA模型。每个 LoRA 的秩至少为 16。分析结果(图 3)表明,所有 500 个模型的参数都可以很好地近似为低秩有限子空间,并且这种模式在所有层中都是一致的。为了测试通用子空间的表达能力,作者通过将可见(IID)和不可见(OOD)任务的随机选择的 LoRA 参数投影到通用子空间上来分析重建它们。结果(图4)表明,通用子空间模型在这两种情况下都可以正常工作。为了进行比较,使用谱分解的剩余分量(称为二次子空间)重新进行实验会显着降低性能。值得注意的是,由于不再需要存储 500 个 LoRA,整个子空间模型的存储效率提高了 19 倍。然后,作者使用 Stable Diffusion-XL 将分析进一步扩展到 Vincent 图任务。当我们从 HuggingFace 上发布的 LoRA 中提取公共子空间并将单个 LoRA 投影到该子空间时,生成的图像将保持其视觉质量和风格(图 5)。基于 CLIP 的评估表明,在某些情况下,通用子空间优于单个 LoRA,这可归因于之前研究中观察到的去噪效果。利用将多个模型归纳为一个需要测试的通用子空间的能力,作者将他们的方法与最先进的方法进行了比较模型匹配技术,例如 RegMean、任务算术、TIES、DARE-TIES、KnOTS-TIES 和 KnOTS-DARE-TIES。这些基准测试技术通常需要调整缩放因子、修剪阈值或对验证集进行迭代调整。相比之下,通用子空间方法不需要迭代验证或拟合数据,并且仅基于模型之间识别的共享低秩子空间几何结构来分析计算聚类因子。由于子空间本质上是低秩的,因此联合模型的参数明显少于单个模型。实验结果(表2)表明,我们的方法实现了更高的平均精度,同时减少了参数数量,并允许更好地组合可扩展和鲁棒的模型,而无需启发式剪枝或验证开销。这四组实验共同为通用子空间假说提供了强有力的实证支持,并证明了其实际好处内存效率、模型融合、模型重用以及跨任务和模式的可扩展实现。然而,一些人警告说,虽然这篇论文很有价值,但其结论需要经过更严格的测试。首先,任务的多样性不够现实。在这项研究中,真正的异构任务(例如 MIDI 生成、英文文本、MNIST 像素生成)之间没有发现共享子空间。所以发现的可能只是“任务子宇宙的特定子空间”,而不是真正的通用子空间。其次,无法比较架构,也无法证明 ViT 和 LLaMA3 具有相同的子空间。为什么会出现通用子空间?在文章中,作者还对泛子空间出现的原因提供了自己的推理。他们认为,几个理论因素可能促成这些共享结构的出现。首先,众所周知,神经网络对低频函数 p 表现出频谱偏好产生特征值的多项式衰减,并将学习动力集中在几个主要方向上。其次,现代架构施加了强烈的归纳偏差,限制了解决方案空间。卷积结构自然有利于局部类 Gabor 模式,而注意力机制则有利于迭代关系循环。第三,基于梯度的优化方法(由无限宽度约束主导,主要由与任务无关的核函数主导)的多功能性本质上有利于流体解决方案,将不同的学习轨迹引向共享的几何流形。如果这些假设成立,那么通用子空间可能会捕获超出特定任务的基本计算模式,这可以解释迁移学习的有效性以及为什么各种问题通常受益于类似的架构改进。这是可以解释的。
特别提示:以上内容(包括图片和视频,如有)由用户上传发布拥有自有媒体平台“网易号”。本平台仅提供信息存储服务。
注:以上内容(包括图片和视频,如有)由网易号用户上传并发布,该社交媒体平台仅提供存储服务信息。