2025_NIPS_Measure gradients, not activations! Enhancing neuronal activity in deep reinforcement lear
2026/4/6 16:14:58 网站建设 项目流程
文章总结与翻译一、主要内容该研究聚焦深度强化学习(Deep RL)中普遍存在的神经元活性丧失问题——随着训练推进,部分神经元逐渐休眠,导致网络学习能力下降、难以适应新环境或数据分布。现有解决方案(如ReDo)依赖基于激活值的指标(τ-休眠神经元比率)识别休眠神经元,但在残差网络、扩散模型等复杂架构中效果不佳。核心原因是激活值仅反映神经元的“表达能力”(当前输出强度),无法准确衡量其“学习能力”(通过梯度更新适应新数据的潜力)。为此,研究提出:GraMa指标:基于梯度幅度的神经元活性度量方法,通过归一化梯度幅度量化神经元学习能力,具有轻量、与架构无关的特性,不额外增加计算负担;ReGraMa机制:以GraMa为指导的神经元重置策略,选择性重新初始化学习能力低下的神经元,避免灾难性遗忘。实验验证表明,ReGraMa在MuJoCo、DeepMind Control Suite等基准测试中,针对残差网络(BRO-net)、扩散模型(DACER)、不同激活函数(ReLU、Sigmoid、Tanh)的架构均能稳定提升学习性能,且在网络深度扩展时表现更稳健。二、创新点视角转换:首次将神经元活性评估的核心从“激活值”转向“梯度幅度”,解决了复杂架构中激活值与学习能力脱节的关键问题;

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询