个人简介:刘军民,西安交通大学数学与统计学院教授、博士生导师。主要从事机器学习与图像处理等方面的研究,在该领域主持国家自然科学基金3项、国家重点研发计划子课题2项以及省部级项目、横向项目等十余项,参与国家自然科学基金重大、重点、面上等项目多项;在IEEE TIP、IEEE TNNLS、IEEE TGRS、CVPR、IJCAI等国内外著名期刊与会议上发表论文40余篇;申请国家发明专利9项,已授权4项。。
摘要:近年来,深度神经网络在众多领域都取得了巨大的成功,但是其模型和性能表现缺乏可解释性和理论支撑。这在一定程度上限制了其在实际中的应用。大量的实验表明,在神经网络模型的优化过程中随机梯度下降算法在平坦区域内寻找到的局部极小值泛化性一般更好。本报告将从随机微分方程的角度分析随机梯度下降算法在深度神经网络中的动力学行为,刻画其在陷入局部极小区域后随机梯度下降算法的逃逸行为。此外,深度神经网络模型的“过参数化”与其良好的泛化现象与经典的统计机器学习理论产生了“明显悖论”。本报告还将从随机梯度下降算法的优化路径出发,通过优化路径的平滑程度定量地给出一个新的泛化度量和泛化误差界。