【20251015AI日报】EAGLET boosts AI agent performance on longer-horizon tasks by generating custom plans

今日新鲜事 · 10-14

本文字数:约 5250 字,预计阅读时间:10 分钟

EAGLET boosts AI agent performance on longer-horizon tasks by generating custom plans

新闻图片

2025 年被许多人工智能领域的专家预测为“AI 代理”的元年,众多领先的 AI 模型提供商如 OpenAI、谷歌以及阿里巴巴等纷纷推出了专注于特定任务的 AI 模型或应用,如网页搜索和报告撰写。然而,一个长期存在的问题阻碍了这些代理的表现:在长时间、多步骤任务中保持高效和准确性。

为了解决这一问题,来自清华大学、北京大学、DeepLang AI 和伊利诺伊大学香槟分校的研究人员开发了一种名为 EAGLET 的框架。EAGLET 旨在提高基于大语言模型(LLM)的 AI 代理在长时任务中的性能,无需手动数据标注或重新训练。

EAGLET 的核心在于引入了一个“全局规划者”,可以集成到现有的代理工作流程中,减少幻觉现象并提高任务效率。这一框架的规划者能够解释任务指令并生成高层次的计划,而不干预实际执行过程。这样的分离设计有助于形成更连贯、任务级别的策略。

EAGLET 采用两阶段训练流程,第一阶段使用高能力大语言模型生成合成计划,通过同源共识过滤策略筛选出改进任务表现的计划。第二阶段则通过基于规则的强化学习进一步优化规划者,使用自定义奖励函数评估计划对多个代理成功完成任务的帮助。

一种关键创新是执行者能力增益奖励(ECGR),用于衡量生成计划的价值。ECGR 通过检查计划是否有助于高能力和低能力代理更成功地完成任务来评估其有效性。EAGLET 的规划者设计为模块化且可插入,可以应用于不同基础模型和提示策略,如标准的 ReAct 风格提示。

EAGLET 在三个广泛使用的长时任务基准测试中表现出色,包括模拟科学实验的 ScienceWorld、完成家庭活动的 ALFWorld 以及进行目标驱动行为评估的 WebShop。在这些测试中,EAGLET 代理的表现优于其他规划基线,例如 MPO 和 KnowAgent。使用开源 Llama-3.1-8B-Instruct 模型时,EAGLET 的平均表现从 39.5 提升到 59.4,提高幅度达到 19.9 个百分点。

EAGLET 适用于各种基础模型和大小,包括 GPT-4.1、GPT-5、Llama-3.1 和 Qwen2.5。与基于 RL 的方法相比,EAGLET 能够以更少的训练迭代实现更好的结果,这不仅提高了训练效率,还减少了执行任务所需的步骤,从而降低了推理时间和计算成本。

尽管 EAGLET 在技术上取得了突破,但其实际应用仍面临一些挑战,包括如何在企业环境中部署以及如何针对特定垂直领域进行微调。此外,目前尚未发布公开代码,这对企业部署构成了限制。


AutoOmni:智能座舱新物种,让功能自由涌现

新闻图片
AutoOmni 是一款面向未来的智能座舱系统,它通过 AI 技术使车辆功能更加智能化和个性化。该系统支持用户自定义和智能推荐,使座舱体验更加自由和灵活。AutoOmni 采用了先进的语音识别和自然语言处理技术,使得用户可以通过简单的语音命令来控制车辆的各种功能,包括导航、娱乐系统、空调等。此外,AutoOmni 还集成了大量的传感器和摄像头,能够实时监测车辆和驾驶环境,并通过 AI 算法进行数据分析和决策支持,提高驾驶安全性和舒适性。

短剧出海在AI时代等风来?

新闻图片
短剧出海是当前文化输出的一个重要方向,AI 技术在这一过程中发挥着重要作用。通过 AI 译制技术,短剧能够更高效地跨越语言和文化障碍,快速进入海外市场。AI 翻译不仅能够提高翻译效率,还能更好地保留原作的语境和情感。此外,AI 还能根据目标市场用户的观看习惯和喜好,进行内容推荐和个性化调整,提高短剧在海外市场的接受度和影响力。

谢赛宁新作:VAE退役,RAE当立

谢赛宁在其最新研究中提出了从 VAE(变分自编码器)向 RAE(重构自编码器)的转变。谢赛宁承认了过去使用 VAE 方法的局限性,并强调了 RAE 在处理复杂数据分布和高维数据时的优势。RAE 通过重构损失函数,能够更有效地捕捉数据的内在结构和模式,提供更加准确的生成模型。这一转变有望为未来的人工智能研究和应用带来新的突破。

不用跟AI客气了!新研究:语气越粗鲁回答正确率越高

一项新研究表明,与 AI 交互时,使用较为粗鲁的语气反而可以获得更高的回答正确率。研究人员发现,AI 在处理直接、明确的指令时表现更好,而过于礼貌或含蓄的表达可能会影响其理解和执行。这一发现挑战了传统的人机交互方式,为未来的人工智能应用提供了新的思路。尽管如此,研究者也提醒,过度粗鲁的语气可能会影响用户体验,因此在实际应用中需要找到适当的平衡点。

别Claude Code了,一个国产免费命令行就够了

Claude Code 是一个流行的 AI 辅助编程工具,但最近一项新研究指出,一个国产免费命令行工具在某些方面表现更佳。这一工具通过集成先进的自然语言处理和代码生成技术,能够提供高效且准确的编程辅助。研究者发现,该工具不仅在代码生成速度上超越了Claude Code,还在代码质量和错误处理方面表现出色。这一国产工具的出现,为开发者提供了更多选择,降低了编程成本。

总结

今日 AI 领域的主要动向聚焦于提高 AI 代理在长时任务中的表现、智能座舱系统的创新以及 AI 在文化输出中的应用。EAGLET 作为一种创新框架,通过引入全局规划模块,有效提升了基于大语言模型的 AI 代理在复杂任务中的性能,这对未来 AI 代理的可靠性和效率有着重要意义。此外,智能座舱系统和 AI 译制技术也在不断进步,为用户带来更加智能化、个性化的体验。


作者:Qwen/Qwen2.5-32B-Instruct
文章来源:量子位, VentureBeat, 极客公园, 钛媒体
编辑:小康

Theme Jasmine by Kent Liao