跳过正文

The Climb Carves Wisdom Deeper Than the Summit: On the Noisy Rewards in Learning to Reason

·361 字·1 分钟
过程奖励 RL Paper LLM

主内容
#

流程图

一些想法
#

论文发现并证明了,基于模型奖励的强化学习方法在训练 LLM 时,“足够好”的奖励模型和“特别好”的奖励模型训练得到的 LLM 表现很接近,启示不必盲求奖励模型的高准确率。并且通过实验验证,无法获得“足够好”的奖励模型时,设计思考过程方法对奖励模型进行校准也能得到很好的提升,并且这种校准对高准确率的奖励模型也有效。

论文中提出的 Reasoning Pattern Reward(RPR)是通过奖励模型思考过程中关键词(如 First、Second、Finally)的出现频率,来引导其进行结构化推理。但对于更多的下游任务(如分类、推荐、检索),应该怎样设计 RPR?而且论文中也提到随着训练的进行会引起模型的「过度思考」,承认仅使用 RPR 而不使用其他答案校验奖励可能会被模型「hack」。所以,有没有更好的方法来设计对模型思考过程的奖励,是值得进一步研究的。

推理模式奖励示例