
2026-06-21
令人感到意外的是,Proximal Policy Optimization (PPO) 这一如今在强化学习(RLHF)和大型模型训练中广泛应用的经典算法,在 2017 年曾被 NIPS 会议拒绝。
这一信息由 PPO 的作者 John Schulman 近期披露。他简要回顾了这段经历,表示 PPO 当年未能被 NIPS 2017 录用。
这篇于 2017 年 7 月初次发表的论文,当时被视为一种更为简便且工程友好的策略优化方法。其设计初衷在于,在保持 TRPO 算法稳定性的同时,简化实现难度,从而使强化学习训练过程更加易于调试和应用。
然而,几年之后,真正将 PPO 推向更广阔舞台的并非传统的强化学习任务,如 Atari 游戏或机器人控制,而是大型语言模型。
从 RLHF 到如今的 RLVR,PPO 已成为大型模型后期训练中不可或缺的基础算法之一。据 Schulman 所述,PPO 在大模型时代迎来的第二次高峰,其影响甚至超出了论文最初的设想。
这似乎并非 Schulman 在抱怨当年的拒稿经历,更像是一种事后感悟:一项技术的真正价值,往往会以发明者意想不到的方式显现出来。
许多人因此好奇 PPO 当年被拒的原因。
Schulman 解释道,当时的评审认为该论文的创新性不足,且相比现有基线方法的改进并不显著。
有网友评论指出,这反映了学术评价体系与实际产业需求之间可能存在的脱节。学术界倾向于关注新颖性以及在受控小规模实验中的提升;而现实世界则更看重方法的规模化能力、在复杂系统中的稳定性以及实际可操作性。
Schulman 对此表现得很坦然。他表示,那已经是过去的事情了,并希望随着时间的推移,学术界能够逐渐理解并接纳这种“简洁而可规模化”的算法设计理念。
他真正感到意外的是,PPO 论文及其目标函数能够产生如此持久的影响。一项算法的改动是会迅速被遗忘和取代,还是会成为系统中的长期基础组件,往往难以在初期判断。PPO 的故事恰恰印证了这一点。
事实上,AI 历史上不少后来被证明具有深远影响的研究成果,在最初提交时都曾被顶级会议拒之门外。
- LSTM (Long Short-Term Memory):在 1996 年被 NIPS 拒稿,当时被认为过于复杂且缺乏生物学依据。但它后来成为了语音识别、机器翻译等序列建模任务的核心技术。
- SIFT (Scale-Invariant Feature Transform):曾被 ICCV 1997 和 CVPR 1998 拒稿,理由是其工程步骤繁琐,不够简洁。然而,它在深度学习兴起之前,统治了计算机视觉领域十余年。
- Dropout:于 2012 年被 NIPS 拒稿,被认为像是一种工程上的“hack”,理论解释不够严谨。但它后来成为了深度神经网络最重要的正则化方法之一,并获得了 NeurIPS 的时间检验奖。
有时,时间才是最严苛也最公正的评审者。
本文来源于微信公众号“机器之心”(ID:almosthuman2014),作者为关注RL的。36氪经授权发布。



