Tianyuan Mathematical Centerin Southwest China

Tianyuan Mathematical Centerin Southwest China

宽度视角下的神经网络

几何景观研究

报告专家：丁添（深圳市大数据研究院）

报告时间：2025年1月7日（星期二）下午2：30-3：30

报告地点：国家天元数学西南中心516报告厅

报告摘要：本报告将从宽度视角探讨神经网络损失函数的几何景观性质。在人工智能实践中，研究者观察到宽网络的训练表现显著优于窄网络，因此，增加宽度被视为一种改善网络训练的有效方法。学术界的一个经典观点认为，在一定条件下，足够宽的神经网络不存在次优的局部最小点，因此容易被训练至全局最优。然而，我们证明了对于全连接网络，无论深度与宽度如何，次优的局部最小点都可能存在，证否了这一经典观点。同时，我们证明了网络宽度的真正优势在于其能够消除次优的局部“盆地”，即损失景观中的一种特殊几何结构。我们进一步揭示了这种消除机制的原理：随着网络宽度增加，盆地中的局部最优点逐步被转化为鞍点，导致了盆地结构的消解。最后，我们将简要讨论这一理论发现与大语言模型训练现象的联系。

专家简介：丁添博士是深圳市大数据研究院、深圳国际工业与应用数学中心的研究科学家。丁博士2014年本科毕业于清华大学自动化系，2019年于香港中文大学信息工程系获得博士学位。曾于2019年到2023年就职于华为公司中央研究院理论研究部，期间多项研究成果成功落地并实现商用。曾多次获得华为无线产品线“总裁奖”、华为中央研究院“创新先锋”嘉奖等。目前，他的研究方向包括人工智能大模型、深度学习理论、AI与运筹学的交叉领域等。

邀请人：王治国

1.7丁添-01.jpg

回到顶部