【20251204AI日报】腾讯胡文博:引领 3D 视频世界模型新趋势丨GAIR 2025

今日新鲜事 · 2025-12-03
本文字数:约 3678 字,预计阅读时间:12 分钟

腾讯胡文博:引领 3D 视频世界模型新趋势丨GAIR 2025

2025年 12 月 12-13 日,由 GAIR 研究院与雷峰网联合主办的「第八届 GAIR 全球人工智能与机器人大会」将在深圳南山·博林天瑞喜来登酒店举办。今年大会将聚焦大模型、算力变革、世界模型等多个议题,描绘 AI 最前沿的探索群像。腾讯 ARC 实验室高级研究员胡文博将在《世界模型》论坛上带来《迈向三维感知的视频世界模型》的主题分享。

过去一年多,视频生成模型如Sora成为新的学术热点。这些模型本质上是一种世界模型,核心目的是生成一段逼真、连贯的视频。要达到这一目标,模型必须理解世界的运作方式,例如水往低处流、物体碰撞后的运动、人的合理动作等。胡文博正是世界模型研究领域的佼佼者,已发表20余篇论文。

在世界模型领域,胡文博的研究成果《Tri-MipRF》受到极大关注,该论文提出了一种新颖的Tri-Mip编码,实现神经辐射场的即时重建和抗锯齿高保真渲染。这项技术将预滤波后的3D特征空间分解为三个正交的mipmap,从而在不牺牲效率的前提下显著提升渲染质量。实验表明,与Instant-ngp相比,Tri-MipRF模型大小减少了25%。

2023年9月,胡文博发表的论文《Rolling Forcing: Autoregressive Long Video Diffusion in Real Time》展示了他们在流式生成长视频领域的最新成果。“滚动强制”设计了一种联合去噪方案,引入注意力汇聚机制,设计了一种高效的训练算法,实现了在单块GPU上实时流式生成长达数分钟的视频,同时显著减少误差累积。

胡文博的研究正引领 AI 从 2D 视频生成迈向三维空间理解的新时代。12 月 13 日,他将在世界模型分论坛上带来主题演讲《迈向三维感知的视频世界模型》,分享他的最新研究成果。


Tariff turbulence exposes costly blind spots in supply chains and AI

当关税税率在一夜之间发生变化时,公司需要在48小时内建模并采取行动。在Celonis的Celosphere 2025大会上,企业展示了如何将混乱转化为竞争优势。Vinmar International创建了一个实时数字孪生模型,大幅减少默认的紧急订单,改善了全球运营的交付灵活性。Florida Crystals通过消除手动工作流程,释放了数百万的工作资本,增强了供应链的弹性。ASOS通过全透明的端到端供应链,减少了过程变化,加速了上市速度,改善了客户体验。

这些公司的共同点是使用了过程智能来连接ERP、财务和物流系统中的操作点,这是传统ERP系统无法做到的。过程智能改变了动态,使企业能够实时建模,当关税变化时,能够在数小时内而不是数天内采取行动。这揭示了企业是否真正理解其供应链,并且其AI是否可以信任。

现代ERP系统虽然数据丰富,但缺乏洞察力。传统企业系统如SAP和Oracle捕获每一个交易,但当关税变化时,这些数据被孤立在不同的系统中。过程智能通过创建一个数字孪生模型,将订单、运输、发票和支付连接起来,揭示了传统的集成方法所遗漏的依赖关系。Celonis的Process Intelligence Graph提供了这种跨系统的实时可见性。

通过零拷贝集成与Databricks等平台的直接连接,Celonis消除了分析供应链数据时的数据延迟问题。这使企业能够即时建模,而不是在隔夜数据刷新周期后。这使企业能够在关税波动的市场中保持竞争优势。



刚刚,理想AI眼镜Livis正式发布,最强人工智能配件现售价1699元起

理想汽车正式发布了其AI眼镜Livis,这款眼镜旨在将车内智能体验延伸到穿戴设备上。Livis售价1699元起,它不仅是一款时尚的配饰,更是一款结合了人工智能技术的智能设备。Livis通过与汽车的无缝连接,为用户提供更加智能化的出行体验。这款眼镜的发布标志着理想汽车在人工智能领域的进一步探索,旨在通过穿戴设备为用户提供更加无缝、智能的出行解决方案。

AI时代,时空智能需求爆发式增长!千寻时空服务每月调用量突破万亿次

随着AI技术的快速发展,时空智能的需求也在不断增长。千寻时空服务每月调用量突破了万亿次,标志着时空智能在实际应用中的重要性日益凸显。时空智能技术为自动驾驶、智慧城市等领域的应用提供了精准的时空数据支持,极大地提升了这些系统的智能化水平。千寻时空服务的广泛应用,不仅体现了技术的成熟度,也为未来的智能应用奠定了坚实的基础。

突破具身智能任务规划边界,刷新具身大脑多榜单SOTA,中兴EmbodiedBrain模型让具身大脑学会「复杂规划」

中兴通讯发布了其最新的EmbodiedBrain模型,这一模型在具身智能任务规划方面取得了突破,刷新了多个榜单的SOTA记录。EmbodiedBrain模型通过引入新的算法和优化策略,使得机器人等具身智能系统能够处理更加复杂的任务规划,提升了其智能水平。这一成果为具身智能系统在实际应用中的推广提供了新的可能性,有望推动机器人等智能设备在更多领域的应用。

Li Auto Forays into Wearable-AI with Smart Glasses Livis Starting $283

理想汽车推出了其首款AI智能眼镜Livis,售价为283美元。Livis眼镜旨在为用户提供更加智能化的出行体验,其重量仅为36克,电池寿命可达18.8小时,并配备标准的蔡司镜头。这款眼镜结合了汽车智能与可穿戴技术,展示了理想汽车在AI领域的最新进展。Livis的发布标志着理想汽车在智能设备领域的进一步探索,旨在通过技术创新为用户提供更加无缝、智能的出行体验。

Robotics stocks Jump on Trump Admin. Reported to 'All-in' and Weigh Order to Boost Industry

据报道,特朗普政府计划全力支持机器人行业,并可能下达指令来推动该行业的发展。这一消息使得机器人股票大幅上涨。政府的支持将为机器人行业带来更多的投资和研发机会,有望推动该领域技术的进一步发展。这一举措不仅能够提升美国在机器人技术领域的竞争力,也为相关企业提供了更多的发展机会。

Nvidia Open Sources Latest VLA—Can It Break Through L4 Autonomous Driving Barriers?

英伟达推出了最新的VLA模型,并宣布将其开源。这一模型专为自动驾驶汽车设计,旨在成为自动驾驶领域的“Android”。英伟达希望通过这一开放策略,推动自动驾驶技术的发展,突破L4级别的自动驾驶技术瓶颈。这一举措不仅为自动驾驶领域的研究者和开发者提供了新的工具,也为推动自动驾驶技术的商业化应用带来了新的希望。

VLA、世界模型与一副AI眼镜:理想在押注怎样的未来?

理想汽车通过发布VLA模型、世界模型框架以及AI眼镜Livis,展示了其在AI领域的全面布局。这些技术不仅为自动驾驶提供了新的解决方案,还通过穿戴设备为用户提供更加智能化的出行体验。理想汽车押注于这些技术,旨在通过技术创新来提升其在智能出行领域的竞争力。这些举措展示了理想汽车对未来出行方式的愿景,也为智能出行领域的发展带来了新的可能性。

AI为漫剧开了金手指

AI技术在漫剧创作中的应用带来了巨大的变革。通过AI技术,漫剧制作过程中的成本显著降低,同时创作效率大幅提升。AI不仅可以帮助创作团队生成高质量的内容,还能够实现个性化推荐,为观众提供更加丰富的观看体验。这一技术的应用不仅降低了漫剧制作的成本,还为内容创作者提供了更多的创作可能性,有望引发内容创作的海啸。

AI「圈地」运动的开始

AI技术正在迅速渗透到各个行业,成为企业竞争的新焦点。腾讯与字节跳动等巨头纷纷布局AI领域,通过技术积累和应用拓展,抢占市场先机。这一“圈地”运动不仅推动了AI技术的发展,还为企业带来了新的增长点。通过在AI领域的持续投入和创新,这些企业有望在未来的市场竞争中占据更加有利的位置。

AI为漫剧创作带来的变革

AI技术在漫剧创作中的应用显著降低了创作成本,提高了创作效率。通过AI生成的内容不仅能够满足用户的需求,还能够实现个性化推荐,提升用户体验。这一技术的应用为漫剧制作带来了革命性的变革,不仅降低了制作成本,还为内容创作者提供了更多的创作可能性,有望引发内容创作的海啸。

AI「圈地」运动的开始

AI技术正迅速渗透至各个行业,成为企业竞争的新焦点。腾讯与字节跳动等巨头纷纷布局AI领域,通过技术积累和应用拓展,抢占市场先机。这一“圈地”运动不仅推动了AI技术的发展,还为企业带来了新的增长点。通过在AI领域的持续投入和创新,这些企业有望在未来的市场竞争中占据更加有利的位置。


总结

今日AI领域的新闻重点在于AI技术在视频生成、供应链管理、智能穿戴设备、自动驾驶以及内容创作等方面的最新进展。胡文博在3D视频世界模型领域的研究展示了AI技术在视频生成方面的新突破,而Celonis的案例则说明了AI在供应链管理中的应用价值。理想汽车发布的AI眼镜Livis展现了AI在智能穿戴设备领域的应用前景,英伟达的VLA模型则为自动驾驶技术带来了新的可能。AI技术的广泛应用不仅提升了行业效率,还为用户带来了更加智能化的体验。


作者:Qwen/Qwen2.5-32B-Instruct
文章来源:钛媒体, 雷锋网, VentureBeat, 机器之心
编辑:小康

Theme Jasmine by Kent Liao