【20260210AI日报】清华刘知远团队论文:在严格可控环境下重新回答「强化学习能否教会大模型新能力」丨ICLR 2026

今日新鲜事 · 昨天

本文字数:约 3200 字,预计阅读时间:10 分钟

清华刘知远团队论文:在严格可控环境下重新回答「强化学习能否教会大模型新能力」丨ICLR 2026

新闻图片

清华大学孙茂松、刘知远团队的论文《From f(x) and g(x) to f(g(x)): LLMs Learn New Skills in RL by Composing Old Ones》在ICLR 2026上提出,通过设计严格的实验环境,研究强化学习是否能真正教会大模型新能力。该研究试图解决当前关于强化学习作用的争论,即强化学习是否仅仅是重排已有能力,还是真的能拓展模型的能力边界。

在实验中,研究团队采用字符串变换函数作为研究对象,这些函数被随机命名,以彻底排除预训练语料的干扰。实验设计了两个阶段:首先是监督微调(SFT),让模型掌握单个函数的原子能力;其次是在强化学习阶段,考察模型能否将原子能力组合成新的技能。研究发现,当模型在单函数上进行强化学习时,其在复杂组合任务上的表现较差;而一旦引入二层嵌套函数的强化学习,模型在三层及以上的组合任务上表现显著提升,表明模型确实学会了新技能。

进一步的跨任务实验表明,强化学习带来的组合能力具有一定的泛化性,能够在不同任务中应用。然而,这种能力的迁移是有条件的,模型必须具备相关任务的原子能力,才能有效利用组合能力。

该研究对强化学习在大模型训练中的作用提供了新的见解,证明强化学习不仅能重排已有能力,还能促进模型形成新的推理结构。


视频模型的两条河流:字节跳动Seedance与OpenAI的分岔

新闻图片

在视频模型领域,字节跳动和OpenAI分别采取了不同的发展路径。字节跳动的Seedance模型强调视频内容的生成和编辑能力,而OpenAI则更注重视频理解与生成的整合。两者的分岔反映了视频模型发展中的两条主流路径:一是以内容生成为核心的工具应用,二是以视频理解为基础的智能处理。

字节跳动的Seedance模型通过大规模的数据集训练,能够生成高质量的视频内容,满足创作者和用户的需求。而OpenAI的视频模型则在视频理解上取得了突破,能够自动分析视频内容并生成描述,推动了视频处理的智能化。这两条路径的差异反映了视频模型在未来发展的不同方向,也预示了视频内容创作和处理的多样化趋势。

1分钱部署OpenClaw!不挑设备4步搞定,全图形界面10分钟跑通专属AI助理

支持部署到钉钉/飞书/QQ/企业微信

量子位报道了一种名为OpenClaw的AI助理部署工具,支持在多种企业通讯平台(如钉钉、飞书、QQ、企业微信)上快速部署。该工具通过简单的图形界面,只需4个步骤即可在10分钟内完成部署,适用于多种设备,甚至可以以1分钱的价格进行低成本部署。

OpenClaw的部署过程简单易用,降低了企业使用AI助理的门槛,为企业提供了低成本、高效率的解决方案。通过集成到现有的企业通讯平台,OpenClaw能够快速适应企业的日常工作流程,提高工作效率,为企业带来显著的智能化升级。

怕了怕了!Waymo无人车美国开,“遥控器”远在菲律宾

网络横跨半个地球

Waymo无人车在美国运营时,其远程监控系统却位于菲律宾。这种跨地域的运营方式展示了无人驾驶技术在全球范围内的复杂性和挑战。远程监控系统需要跨越半个地球,确保在美国的无人车在遇到问题时能够及时得到处理。

这种运营模式不仅涉及技术问题,还涉及到跨区域的法律法规和数据安全问题。虽然远程监控系统可以提供支持,但如何确保数据传输的安全性和监控的实时性,仍是Waymo需要解决的关键问题。这一做法反映了无人驾驶技术在全球范围内应用的复杂性,以及企业为确保技术可靠性所采取的措施。

神秘模型「Pony Alpha」火了,被曝是GLM-5

近期,一个名为Pony Alpha的神秘模型引起了广泛关注。据曝光,该模型实际上是GLM-5,一个具有较高性能的大语言模型。Pony Alpha以其出色的生成能力和自然语言理解能力迅速走红,成为AI领域的热门话题。

GLM-5模型展示了大语言模型在生成自然语言方面的强大能力,尤其是在复杂任务和多步推理上的表现。这一模型的出现不仅丰富了大语言模型的应用场景,也进一步推动了自然语言处理技术的发展。随着技术的不断进步,GLM-5等模型有望在更多领域得到广泛应用,为各行各业带来智能化的升级。

硅谷不相信忠诚!AI行业玩成NBA,科学家爽拿“转会费”

AI行业的科学家们似乎越来越频繁地在不同公司之间流动,就像NBA球员一样。这种“转会”现象反映了AI行业人才的高流动性,科学家们往往能够通过跳槽获得更高的薪酬和更好的发展机会。这种现象也反映了AI行业竞争的激烈程度,以及企业在吸引和留住人才方面的压力。

科学家们的频繁跳槽不仅体现了AI行业的活力,也反映了企业对于顶尖人才的重视。然而,这也给企业带来了管理和人才稳定性的挑战,企业需要不断创新人才管理和激励机制,以确保人才的持续发展和企业的长远发展。

总结

今日AI领域的新闻主要集中在强化学习对大模型能力拓展的研究、视频模型的发展路径、AI助理的便捷部署方式以及AI行业的人才流动现象。清华大学的研究揭示了强化学习在大模型能力拓展中的重要作用,而视频模型的发展路径则展示了技术多样化的趋势。此外,AI助理的便捷部署和AI行业的高流动性也为AI技术的应用和发展提供了新的视角。


作者:Qwen/Qwen2.5-32B-Instruct
文章来源:雷锋网, 钛媒体, 量子位
编辑:小康

Theme Jasmine by Kent Liao