2023年7月12日(周三)上午11点「智源Live第45期丨
去中心化以泛化?用去中心化算法解放深度学习的泛化潜能
」将在线举办,本期活动邀请了浙江大学朱同天进行线上报告,题目为《Decentralize to Generalize? On the Asymptotic Equivalence of Decentralized SGD and Average-direction SAM》,欢迎预约观看并参与线上交流。
朱同天
浙江大学
朱同天同学是浙江大学计算机系的博士生,师从宋明黎和陈纯教授,目前专注于去中心化学习和深度学习理论的研究。
思维链如何解锁并释放大模型的隐藏能力
同时优化通讯效率、隐私保护性以及泛化性是可行的吗?在这个报告中,作者将介绍详细一种全新的训练范式——去中心化训练,以及的其潜在泛化优势。
模型去中心化因其在降低通信瓶颈和增强隐私保护方面的显著优势,逐渐成为一个具有巨大潜力的研究领域。然而,现有的泛化理论认为去中心化训练将不可避免地削弱模型的泛化能力。在本研究中,我们挑战了该传统观点,为理解去中心化学习提供了全新的视角。我们在非常弱的非凸非β-平滑假设下证明,去中心化SGD(D-SGD)隐式地进行了sharpness-aware minimization。这一惊人的渐近等价性揭示了去中心中存在的正则化-优化的trade-off,以及去中心化的三个优势:(1)D-SGD中存在一个用于改进后验估计的不确定性的评估机制;(2)去中心D-SGD表现出一种梯度平滑效果;(3)D-SGD的sharpness正则化效应不会随着batch size大小的增加而减小,这证明了在大batch size场景下去中心算法相对于中心化算法的潜在的泛化优势。我们的研究首次建立了D-SGD与平均方向SAM的渐进等价性,揭示了去中心化学习与集中式学习算法之间的直接联系。我们希望这些全新的见解将有助于连通去中心化学习和SAM的社群,并助力于快速且具有泛化能力的新一代去中心化学习算法的研发。
活动时间:7
月12日(周三)11:00-12:00(上午)
活动形式:
线上直播,点击“阅读原文”进行预约;
扫描二维码进入交流群
交流群