信息论视角下的神经网络规模法则:理论与实践
摘要
本文由斯坦福大学的Hong Jun Jeon和Benjamin Van Roy共同撰写,旨在为神经网络的规模法则提供严格的信息论基础。神经规模法则旨在描述模型和训练数据集大小对样本外误差的影响,从而指导计算资源在模型和数据处理之间的分配以最小化误差。然而,现有的理论支持缺乏严谨性和清晰度,混淆了信息和优化的角色。本文通过开发严格的信息论基础,能够描述由无限宽度的两层神经网络生成的数据的规模法则。研究发现,数据和模型大小的最优关系是线性的,这与大规模实证研究相吻合。这些简洁而普遍的结果可能为这一主题带来清晰度,并指导未来的研究。
Read more...








