AI Insight Hub
图片转PPT
Image2PPT
图片转PPT神器
首页
分类
关于
管理后台
首页
分类
关于
管理后台
来源:ArXiv AI
2026-04-13 04:00
翻译成中文
SPPO:用于长视野推理任务的序列级 PPO
PPO
推理
序列
任务
模型
arXiv:2604.08865v1 公告类型:新 摘要:近端策略优化 (PPO) 是将推理任务中的大型语言模型 (LLM) 与可验证的奖励相结合的核心。然而,由于长期思想链(CoT)范围内时间信用分配的不稳定以及价值模型的过高内存成本,标准代币级 PPO 在这种情况下陷入困境。虽然 GRPO 等不受批评的替代方案可以缓解这些问题,但它们需要多个样本进行基线估计,从而产生大量计算开销,严重限制了训练吞吐量。在本文中,我们介绍了序列级 PPO(SPPO),这是一种可扩展的算法,可以协调 PPO 的样本效率与基于结果的更新的稳定性。 SPPO 将推理过程重新表述为序列级上下文强盗问题,采用解耦标量值函数来导出低方差优势信号,而无需多次采样。对数学基准的大量实验表明,SPPO 显着超越了标准 PPO,并且与计算量大的基于组的方法的性能相匹配,为调整推理 LLM 提供了一个资源高效的框架。
查看原始链接
相关文章推荐
您的块在生产中未能通过 RAG
2026-04-16
只有在 ASI 被全球禁止的情况下,您才能构建安全的 ASI
2026-04-16
构建我自己的个人 AI 助理:编年史,第 2 部分
2026-04-16
返回首页