【20251204AI日报】腾讯胡文博：引领 3D 视频世界模型新趋势丨GAIR 2025

本文字数：约 3678 字，预计阅读时间：12 分钟

腾讯胡文博：引领 3D 视频世界模型新趋势丨GAIR 2025
2025年 12 月 12-13 日，由 GAIR 研究院与雷峰网联合主办的「第八届 GAIR 全球人工智能与机器人大会」将在深圳南山·博林天瑞喜来登酒店举办。今年大会将聚焦大模型、算力变革、世界模型等多个议题，描绘 AI 最前沿的探索群像。腾讯 ARC 实验室高级研究员胡文博将在《世界模型》论坛上带来《迈向三维感知的视频世界模型》的主题分享。
过去一年多，视频生成模型如Sora成为新的学术热点。这些模型本质上是一种世界模型，核心目的是生成一段逼真、连贯的视频。要达到这一目标，模型必须理解世界的运作方式，例如水往低处流、物体碰撞后的运动、人的合理动作等。胡文博正是世界模型研究领域的佼佼者，已发表20余篇论文。
在世界模型领域，胡文博的研究成果《Tri-MipRF》受到极大关注，该论文提出了一种新颖的Tri-Mip编码，实现神经辐射场的即时重建和抗锯齿高保真渲染。这项技术将预滤波后的3D特征空间分解为三个正交的mipmap，从而在不牺牲效率的前提下显著提升渲染质量。实验表明，与Instant-ngp相比，Tri-MipRF模型大小减少了25%。
2023年9月，胡文博发表的论文《Rolling Forcing: Autoregressive Long Video Diffusion in Real Time》展示了他们在流式生成长视频领域的最新成果。“滚动强制”设计了一种联合去噪方案，引入注意力汇聚机制，设计了一种高效的训练算法，实现了在单块GPU上实时流式生成长达数分钟的视频，同时显著减少误差累积。
胡文博的研究正引领 AI 从 2D 视频生成迈向三维空间理解的新时代。12 月 13 日，他将在世界模型分论坛上带来主题演讲《迈向三维感知的视频世界模型》，分享他的最新研究成果。

Tariff turbulence exposes costly blind spots in supply chains and AI
当关税税率在一夜之间发生变化时，公司需要在48小时内建模并采取行动。在Celonis的Celosphere 2025大会上，企业展示了如何将混乱转化为竞争优势。Vinmar International创建了一个实时数字孪生模型，大幅减少默认的紧急订单，改善了全球运营的交付灵活性。Florida Crystals通过消除手动工作流程，释放了数百万的工作资本，增强了供应链的弹性。ASOS通过全透明的端到端供应链，减少了过程变化，加速了上市速度，改善了客户体验。
这些公司的共同点是使用了过程智能来连接ERP、财务和物流系统中的操作点，这是传统ERP系统无法做到的。过程智能改变了动态，使企业能够实时建模，当关税变化时，能够在数小时内而不是数天内采取行动。这揭示了企业是否真正理解其供应链，并且其AI是否可以信任。
现代ERP系统虽然数据丰富，但缺乏洞察力。传统企业系统如SAP和Oracle捕获每一个交易，但当关税变化时，这些数据被孤立在不同的系统中。过程智能通过创建一个数字孪生模型，将订单、运输、发票和支付连接起来，揭示了传统的集成方法所遗漏的依赖关系。Celonis的Process Intelligence Graph提供了这种跨系统的实时可见性。
通过零拷贝集成与Databricks等平台的直接连接，Celonis消除了分析供应链数据时的数据延迟问题。这使企业能够即时建模，而不是在隔夜数据刷新周期后。这使企业能够在关税波动的市场中保持竞争优势。

刚刚，理想AI眼镜Livis正式发布，最强人工智能配件现售价1699元起

理想汽车正式发布了其AI眼镜Livis，这款眼镜旨在将车内智能体验延伸到穿戴设备上。Livis售价1699元起，它不仅是一款时尚的配饰，更是一款结合了人工智能技术的智能设备。Livis通过与汽车的无缝连接，为用户提供更加智能化的出行体验。这款眼镜的发布标志着理想汽车在人工智能领域的进一步探索，旨在通过穿戴设备为用户提供更加无缝、智能的出行解决方案。

AI时代，时空智能需求爆发式增长！千寻时空服务每月调用量突破万亿次

随着AI技术的快速发展，时空智能的需求也在不断增长。千寻时空服务每月调用量突破了万亿次，标志着时空智能在实际应用中的重要性日益凸显。时空智能技术为自动驾驶、智慧城市等领域的应用提供了精准的时空数据支持，极大地提升了这些系统的智能化水平。千寻时空服务的广泛应用，不仅体现了技术的成熟度，也为未来的智能应用奠定了坚实的基础。

突破具身智能任务规划边界，刷新具身大脑多榜单SOTA，中兴EmbodiedBrain模型让具身大脑学会「复杂规划」

中兴通讯发布了其最新的EmbodiedBrain模型，这一模型在具身智能任务规划方面取得了突破，刷新了多个榜单的SOTA记录。EmbodiedBrain模型通过引入新的算法和优化策略，使得机器人等具身智能系统能够处理更加复杂的任务规划，提升了其智能水平。这一成果为具身智能系统在实际应用中的推广提供了新的可能性，有望推动机器人等智能设备在更多领域的应用。

Li Auto Forays into Wearable-AI with Smart Glasses Livis Starting $283

理想汽车推出了其首款AI智能眼镜Livis，售价为283美元。Livis眼镜旨在为用户提供更加智能化的出行体验，其重量仅为36克，电池寿命可达18.8小时，并配备标准的蔡司镜头。这款眼镜结合了汽车智能与可穿戴技术，展示了理想汽车在AI领域的最新进展。Livis的发布标志着理想汽车在智能设备领域的进一步探索，旨在通过技术创新为用户提供更加无缝、智能的出行体验。

Robotics stocks Jump on Trump Admin. Reported to 'All-in' and Weigh Order to Boost Industry

据报道，特朗普政府计划全力支持机器人行业，并可能下达指令来推动该行业的发展。这一消息使得机器人股票大幅上涨。政府的支持将为机器人行业带来更多的投资和研发机会，有望推动该领域技术的进一步发展。这一举措不仅能够提升美国在机器人技术领域的竞争力，也为相关企业提供了更多的发展机会。

Nvidia Open Sources Latest VLA—Can It Break Through L4 Autonomous Driving Barriers?

英伟达推出了最新的VLA模型，并宣布将其开源。这一模型专为自动驾驶汽车设计，旨在成为自动驾驶领域的“Android”。英伟达希望通过这一开放策略，推动自动驾驶技术的发展，突破L4级别的自动驾驶技术瓶颈。这一举措不仅为自动驾驶领域的研究者和开发者提供了新的工具，也为推动自动驾驶技术的商业化应用带来了新的希望。

VLA、世界模型与一副AI眼镜：理想在押注怎样的未来？

理想汽车通过发布VLA模型、世界模型框架以及AI眼镜Livis，展示了其在AI领域的全面布局。这些技术不仅为自动驾驶提供了新的解决方案，还通过穿戴设备为用户提供更加智能化的出行体验。理想汽车押注于这些技术，旨在通过技术创新来提升其在智能出行领域的竞争力。这些举措展示了理想汽车对未来出行方式的愿景，也为智能出行领域的发展带来了新的可能性。

AI为漫剧开了金手指

AI技术在漫剧创作中的应用带来了巨大的变革。通过AI技术，漫剧制作过程中的成本显著降低，同时创作效率大幅提升。AI不仅可以帮助创作团队生成高质量的内容，还能够实现个性化推荐，为观众提供更加丰富的观看体验。这一技术的应用不仅降低了漫剧制作的成本，还为内容创作者提供了更多的创作可能性，有望引发内容创作的海啸。

AI「圈地」运动的开始

AI技术正在迅速渗透到各个行业，成为企业竞争的新焦点。腾讯与字节跳动等巨头纷纷布局AI领域，通过技术积累和应用拓展，抢占市场先机。这一“圈地”运动不仅推动了AI技术的发展，还为企业带来了新的增长点。通过在AI领域的持续投入和创新，这些企业有望在未来的市场竞争中占据更加有利的位置。

AI为漫剧创作带来的变革

AI技术在漫剧创作中的应用显著降低了创作成本，提高了创作效率。通过AI生成的内容不仅能够满足用户的需求，还能够实现个性化推荐，提升用户体验。这一技术的应用为漫剧制作带来了革命性的变革，不仅降低了制作成本，还为内容创作者提供了更多的创作可能性，有望引发内容创作的海啸。

AI「圈地」运动的开始

AI技术正迅速渗透至各个行业，成为企业竞争的新焦点。腾讯与字节跳动等巨头纷纷布局AI领域，通过技术积累和应用拓展，抢占市场先机。这一“圈地”运动不仅推动了AI技术的发展，还为企业带来了新的增长点。通过在AI领域的持续投入和创新，这些企业有望在未来的市场竞争中占据更加有利的位置。

总结

今日AI领域的新闻重点在于AI技术在视频生成、供应链管理、智能穿戴设备、自动驾驶以及内容创作等方面的最新进展。胡文博在3D视频世界模型领域的研究展示了AI技术在视频生成方面的新突破，而Celonis的案例则说明了AI在供应链管理中的应用价值。理想汽车发布的AI眼镜Livis展现了AI在智能穿戴设备领域的应用前景，英伟达的VLA模型则为自动驾驶技术带来了新的可能。AI技术的广泛应用不仅提升了行业效率，还为用户带来了更加智能化的体验。

作者：Qwen/Qwen2.5-32B-Instruct
文章来源：钛媒体, 雷锋网, VentureBeat, 机器之心
编辑：小康