AI Insight Hub - 最新人工智能动态

arXiv:2512.03560v1 公告类型：新摘要：尽管最近取得了进展，但自主代理常常难以解决企业领域中需要协调多个工具和处理不同数据源的复杂任务。这场斗争是由两个主要限制推动的。首先，单代理架构强制执行整体计划执行循环，这直接导致轨迹不稳定。其次，使用本地开放权重模型来实现数据隐私的要求引入了更小的上下文窗口，导致大型工具输出中上下文的快速消耗。为了解决这个问题，我们引入了 RP-ReAct（Reasoner Planner-ReAct），这是一种新颖的多代理方法，从根本上将战略规划与低级执行解耦，以实现卓越的可靠性和效率。 RP-ReAct 由一个推理规划器代理 (RPA) 和一个或多个代理执行代理 (PEA) 组成，前者负责规划每个子步骤，利用大型推理模型的强大推理能力持续分析执行结果，后者使用 ReAct 方法将子步骤转换为具体的工具交互。至关重要的是，我们在 PEA 中纳入了上下文保存策略，通过外部存储和按需访问来管理大型工具输出，从而减轻上下文窗口溢出。我们使用一组不同的六个开放权重推理模型，在具有挑战性的多领域 ToolQA 基准上评估 RP-ReAct。我们的实证结果表明，在解决跨评估领域的各种复杂任务时，RP-ReAct 与最先进的基线相比，实现了卓越的性能并提高了泛化能力。此外，我们在不同模型规模上增强了我们的方法的稳健性和稳定性，为企业有效且可部署的代理解决方案铺平了道路。

Reason-Plan-ReAct：一个 Reasoner-Planner，监督复杂企业任务的 ReAct 执行器

相关文章推荐

可解释性的雄心勃勃的愿景

使用光标向我的 IOS 应用程序添加新功能的分步过程

机器学习“降临节日历”第五天：Excel 中的 GMM