经典之作PPO算法：曾被NeurIPS拒了

令人感到意外的是，Proximal Policy Optimization (PPO) 这一如今在强化学习（RLHF）和大型模型训练中广泛应用的经典算法，在 2017 年曾被 NIPS 会议拒绝。

这一信息由 PPO 的作者 John Schulman 近期披露。他简要回顾了这段经历，表示 PPO 当年未能被 NIPS 2017 录用。

这篇于 2017 年 7 月初次发表的论文，当时被视为一种更为简便且工程友好的策略优化方法。其设计初衷在于，在保持 TRPO 算法稳定性的同时，简化实现难度，从而使强化学习训练过程更加易于调试和应用。

然而，几年之后，真正将 PPO 推向更广阔舞台的并非传统的强化学习任务，如 Atari 游戏或机器人控制，而是大型语言模型。

从 RLHF 到如今的 RLVR，PPO 已成为大型模型后期训练中不可或缺的基础算法之一。据 Schulman 所述，PPO 在大模型时代迎来的第二次高峰，其影响甚至超出了论文最初的设想。

这似乎并非 Schulman 在抱怨当年的拒稿经历，更像是一种事后感悟：一项技术的真正价值，往往会以发明者意想不到的方式显现出来。

许多人因此好奇 PPO 当年被拒的原因。

Schulman 解释道，当时的评审认为该论文的创新性不足，且相比现有基线方法的改进并不显著。

有网友评论指出，这反映了学术评价体系与实际产业需求之间可能存在的脱节。学术界倾向于关注新颖性以及在受控小规模实验中的提升；而现实世界则更看重方法的规模化能力、在复杂系统中的稳定性以及实际可操作性。

Schulman 对此表现得很坦然。他表示，那已经是过去的事情了，并希望随着时间的推移，学术界能够逐渐理解并接纳这种“简洁而可规模化”的算法设计理念。

他真正感到意外的是，PPO 论文及其目标函数能够产生如此持久的影响。一项算法的改动是会迅速被遗忘和取代，还是会成为系统中的长期基础组件，往往难以在初期判断。PPO 的故事恰恰印证了这一点。

事实上，AI 历史上不少后来被证明具有深远影响的研究成果，在最初提交时都曾被顶级会议拒之门外。

LSTM (Long Short-Term Memory)：在 1996 年被 NIPS 拒稿，当时被认为过于复杂且缺乏生物学依据。但它后来成为了语音识别、机器翻译等序列建模任务的核心技术。
SIFT (Scale-Invariant Feature Transform)：曾被 ICCV 1997 和 CVPR 1998 拒稿，理由是其工程步骤繁琐，不够简洁。然而，它在深度学习兴起之前，统治了计算机视觉领域十余年。
Dropout：于 2012 年被 NIPS 拒稿，被认为像是一种工程上的“hack”，理论解释不够严谨。但它后来成为了深度神经网络最重要的正则化方法之一，并获得了 NeurIPS 的时间检验奖。

有时，时间才是最严苛也最公正的评审者。

本文来源于微信公众号“机器之心”（ID：almosthuman2014），作者为关注RL的。36氪经授权发布。