宽度视角下的神经网络
几何景观研究
报告专家:丁添(深圳市大数据研究院)
报告时间:2025年1月7日(星期二)下午2:30-3:30
报告地点:国家天元数学西南中心516报告厅
报告摘要:本报告将从宽度视角探讨神经网络损失函数的几何景观性质。在人工智能实践中,研究者观察到宽网络的训练表现显著优于窄网络,因此,增加宽度被视为一种改善网络训练的有效方法。学术界的一个经典观点认为,在一定条件下,足够宽的神经网络不存在次优的局部最小点,因此容易被训练至全局最优。然而,我们证明了对于全连接网络,无论深度与宽度如何,次优的局部最小点都可能存在,证否了这一经典观点。同时,我们证明了网络宽度的真正优势在于其能够消除次优的局部“盆地”,即损失景观中的一种特殊几何结构。我们进一步揭示了这种消除机制的原理:随着网络宽度增加,盆地中的局部最优点逐步被转化为鞍点,导致了盆地结构的消解。最后,我们将简要讨论这一理论发现与大语言模型训练现象的联系。
专家简介:丁添博士是深圳市大数据研究院、深圳国际工业与应用数学中心的研究科学家。丁博士2014年本科毕业于清华大学自动化系,2019年于香港中文大学信息工程系获得博士学位。曾于2019年到2023年就职于华为公司中央研究院理论研究部,期间多项研究成果成功落地并实现商用。曾多次获得华为无线产品线“总裁奖”、华为中央研究院“创新先锋”嘉奖等。目前,他的研究方向包括人工智能大模型、深度学习理论、AI与运筹学的交叉领域等。
邀请人:王治国