【20250329AI日报】英伟达团队发布最新具身模型 Cosmos-Reason1,在物理世界推理中碾压 Qwen、GPT-4o 等多个 VLM 模型

今日新鲜事 · 03-28

本文字数:约 3980 字,预计阅读时间:16 分钟

英伟达团队发布最新具身模型 Cosmos-Reason1,在物理世界推理中碾压 Qwen、GPT-4o 等多个 VLM 模型

新闻图片

英伟达在 GTC 大会上发布了名为 Cosmos-Reason1 的最新物理世界大模型。该模型旨在增强人工智能系统在物理世界中的推理能力,这包括感知、理解与执行复杂动作。Cosmos-Reason1 是 Cosmos 系列的一部分,专注于模型的推理能力。它不仅在物理常识基准测试中表现出色,还在具身推理方面取得了显著进展,超越了 Qwen2.5-VL-7B、Gemini 2.0 Flash 和 GPT-4o 等模型。

该模型由两个大模组成,分别是 80 亿参数的 Cosmos-Reason1-8B 和 560 亿参数的 Cosmos-Reason1-56B。模型的训练分为四个阶段:视觉预训练、通用 SFT、物理 AI SFT 和物理 AI 强化学习后训练。在评估过程中,研究人员制定了物理常识和具身推理的基准测试,以确保 Cosmos-Reason1 在这两个方向上的表现。

模型的训练采用了纯解码的多模态大模型架构,以及混合的 Mamba-MLP-Transformer 架构。英伟达团队特别指出,他们采用 Mamba 混合架构以弥补 Transformer 架构在空间理解方面的不足。为了提高模型的通用能力,英伟达团队采用了大量图像、视频和交互数据进行训练。

通过强化学习方法,Cosmos-Reason1 在物理世界的推理能力上得到了提升。它能够处理复杂的感官输入、预测行动效果、遵循物理约束并从交互中学习。这些能力使 Cosmos-Reason1 在物理世界中的表现优于其他大模型,尤其是在直观物理推理方面。总的来说,Cosmos-Reason1 的发布标志着人工智能在具身智能领域迈出了重要一步。

三大模型巨头比拼思考“幻觉”:DeepSeek 不敌 ChatGPT,Gemini 用词最少

新闻图片

智利大学 CIAE 教育研究所的研究员 Roberto Araya 对 Gemini 2.0 Flash、ChatGPT o3-mini 和 DeepSeek R1 三个大模型进行了测试,重点评估它们在处理“幻觉”问题上的性能。所谓幻觉,指的是模型生成的内容与现实世界事实或用户输入不一致的现象。在测试中,ChatGPT o3-mini 表现出了更强的灵活性和推理能力,能够更有效地处理幻觉问题。相比之下,DeepSeek R1 和 Gemini 2.0 Flash 在处理幻觉问题时表现较为不足。

研究团队设计了一系列实验,涉及贝叶斯推理问题,旨在考察大模型在面对特定问题时的推理过程和结果。实验结果显示,ChatGPT o3-mini 在无提示条件下的推理过程更为合理,但在提示条件下表现尤为突出,能够灵活切换推理方法并正确使用自然频率进行推理。而 DeepSeek R1 虽然最终也能得出正确结论,但其推理过程冗长且混乱。Gemini 2.0 Flash 则表现出了较为简单的推理过程,但存在一些逻辑上的错误。

研究结果表明,尽管大模型在某些情况下能够得出正确的结论,但它们在处理幻觉问题时仍存在局限。这反映了当前大模型技术距离实现真正的 AGI(通用人工智能)还有很长的路要走。此外,研究还指出,提升模型的鲁棒性、优化模型架构和算法,以及结合人类评估和反馈等方法,可以有效减少幻觉问题。

New approach to agent reliability, AgentSpec, forces agents to follow rules

新闻图片

新加坡管理大学的研究人员开发了一种新的领域特定语言(DSL),名为 AgentSpec,旨在提高智能代理的可靠性。AgentSpec 强制代理遵循预定的规则,从而确保其行为符合预期。这种新方法可以有效地减少代理在执行任务时的错误和不一致性,从而提升整体系统性能和用户体验。

AgentSpec 的主要优势在于其灵活性和可扩展性。它可以轻松地应用于不同的领域和场景,包括机器人、自动驾驶车辆和智能客服等。通过定义明确的行为规范,AgentSpec 使得代理能够更好地理解和执行复杂任务,同时降低了出错的风险。此外,AgentSpec 的规则定义方法还支持动态更新,可以根据实际需求进行调整和优化。

AgentSpec 的出现为智能代理的开发提供了新的思路和工具,有助于提升代理的可靠性,进而推动人工智能技术的发展和应用。未来,随着 AgentSpec 的不断完善和推广,其有望成为智能代理开发的重要组成部分。


Researchers warn of ‘catastrophic overtraining’ in LLMs

新闻图片

研究人员在比较两种版本的 OLMo-1b 语言模型时发现,预训练 3 万亿个 token 的模型比预训练 2.3 万亿个 token 的模型表现更差。这引发了关于“灾难性过度训练”的警告。过度训练可能导致模型在训练数据集上的性能提升,但在泛化能力上却出现下降,影响模型在未见过的数据上的表现。这提示我们在训练大模型时需要谨慎控制训练量,以避免出现灾难性过度训练现象。

Hands on with Gemini 2.5 Pro: why it might be the most useful reasoning model yet

新闻图片

Gemini 2.5 Pro 是一款在推理能力上表现出色的大模型,其拥有巨大的上下文窗口,能够处理复杂的多模态推理任务。此外,Gemini 2.5 Pro 的详细推理链也使得其推理过程更为透明,便于理解。这些特点使其成为当前最实用的推理模型之一,有望在多种应用场景中发挥重要作用。

解码美的集团增长韧性:科技力与全球化双轮驱动下的确定性逻辑 |看财报

美的集团通过持续的研发投入和技术壁垒的建立,在科技力和全球化布局的双轮驱动下实现了持续增长。这种增长逻辑的确定性,使得美的在面对市场周期性波动时依然能够保持稳健的发展态势。未来,美的将继续通过技术创新和市场拓展,实现持续的增长和价值创造。

建行2024年报:一半建行员工,用上了大模型|钛媒体金融

建行在2024年的年报中显示,超过一半的员工已经开始使用大模型进行工作。这标志着大模型在银行业务中的应用已经从理论走向实践,成为提升工作效率和客户体验的重要工具。随着技术的进一步成熟,大模型的应用范围和深度有望进一步扩大,为银行带来更多的创新和变革。

邬贺铨院士:智能驾驶需国家级模型协同,单车智能难撑全局

邬贺铨院士认为,智能驾驶的发展需要国家级模型的协同支持,而单车智能难以支撑全局的智能驾驶需求。这意味着未来智能驾驶技术的发展需要国家层面的支持和协调,通过构建统一的数据平台和模型,实现不同车辆之间的协同,从而推动智能驾驶技术的整体进步和发展。

农业银行2024年报:县域贷款余额占比超40%,科技与数字化运行管理人员翻倍|钛媒体金融

农业银行2024年的年报显示,县域贷款余额占比超过40%,科技与数字化运行管理人员数量翻倍。这反映出农业银行在县域市场上的持续投入和技术人才的大幅增加。这些措施有助于提升农业银行在县域市场的竞争力和服务能力,推动其数字化转型和业务创新。

邮储银行2024年报:净利润微增0.24%,绩后首日股价收跌2.44%|钛媒体金融

邮储银行2024年年报显示,净利润微增0.24%,但绩后首日股价却收跌2.44%。这表明尽管邮储银行的财务表现有所提升,但市场对其未来盈利前景仍持谨慎态度。存款定期化、消费贷“价格战”及净息差收窄的压力,可能会对邮储银行2025年的盈利造成挑战。

对话星纪魅族COO廖清红:AI要平权,手机是AI Device最大的终端

星纪魅族COO廖清红表示,AI技术的发展需要实现平权,而智能手机作为AI设备最大的终端,将在这一过程中发挥关键作用。随着AI技术的不断进步,智能手机将为用户提供更多智能化、个性化和人性化的服务,从而进一步提升用户体验和生活质量。

总结

今日AI领域的主要动向包括英伟达发布的物理世界大模型Cosmos-Reason1、三大模型巨头在处理幻觉问题上的表现对比、新加坡管理大学开发的AgentSpec方法以提高代理可靠性,以及研究人员对大模型过度训练现象的警告。此外,各金融机构和科技公司在AI技术的应用和进展也值得关注。总的来说,AI技术正在不断进步,并在各个领域展现出广泛的应用潜力。


作者:Qwen/Qwen2.5-32B-Instruct
文章来源:雷锋网, VentureBeat, 钛媒体
编辑:小康

Theme Jasmine by Kent Liao