Code for Life, AI for Future
本文字数:约 3500 字,预计阅读时间:12 分钟重点新闻港中文薛天帆团队:实现 4K 全景视频生成,普通视频也能「长出空间」丨CVPR 2026香港中文大学的薛天帆团队在CVPR 2026上发表了一篇题为《CubeComposer: Spatio-Temporal Autoregressive 4K 360° Video Generation from Perspective Video》的论文。该研究提出了一种名为CubeComposer的新模型,旨在从普通的视角视频生成高质量的4K全景视频。研究的核心是通过引入时空自回归机制,将视频生成任务拆解为多个空间和时间片段,从而实现高分辨率且连续一致的全景视频生成。该模型在两个数据集4K360Vid和ODV360上进行了测试,结果显示其在感知质量、语义一致性和视频稳定性上均优于现有的基准模型。CubeComposer不仅提高了生成视频的分辨率,还在细节清晰度、画面稳定性、连贯性等方面表现优异。这种突破性技术对沉浸式内容产业具有重大意义,能够显著降低高质量360°视频的制作成本和门槛。除了技术细节,研究还探讨了CubeComposer在实
本文字数:约 3780 字,预计阅读时间:15 分钟Generalist最新长文定调:具身原生才是正道,原力灵机已交卷2026年,具身原生元年。根据Generalist的最新长文,具身智能被视为人工智能发展的重要方向。具身智能强调通过物理世界的互动和感知来提升AI的学习和决策能力。这种模式不仅能够使AI更好地理解复杂的物理世界,还能在交互过程中积累数据,进一步优化其性能。文中提到,具身原生元年的开启,意味着AI技术将更加注重在现实环境中的应用,而不仅仅是理论上的进步。通过具身智能,AI将能够更准确地完成复杂任务,进一步推动自动化和智能化的进程。当具身智能走进工厂:没有星辰大海,只有一本算不清的账当具身智能逐步进入工业生产领域,其实际应用的效果如何?据钛媒体报道,虽然大部分场景目前仍算不平账,但随着核心硬件成本的降低、人力成本的升高、以及真实工业数据的积累,一升一降之间,商业化空间正在逐步打开。具身智能在工厂中的应用,不仅仅是替代人力,更在于提升生产效率、优化资源配置、减少人为错误。通过具身智能,工厂可以实现24小时不间断生产,提高生产效率,减少人力成本,同时在复杂的生产环境中,具身智能
本文字数:约 4242 字,预计阅读时间:14 分钟松应科技发布ORCA Lab 1.0:一场关于"物理AI操作系统"的国产替代暗战当英伟达CEO黄仁勋在2025年GTC大会上再次强调"Omniverse是物理AI的操作系统"时,上海松应科技创始人聂凯旋可能是最感同身受的中国创业者之一。这位前华为云鲲鹏解决方案副总指挥,在2020年就敏锐捕捉到英伟达Omniverse的战略意图——那不仅仅是一个3D仿真工具,而是未来物理世界智能化的底层基础设施。五年后,他带领松应科技推出的ORCA3.0企业版和开发者版ORCA Lab 1.0,正试图在中国复刻这一路径,但选择了一条更具挑战性的道路:在英伟达CUDA和Omniverse生态的垄断铁幕下,构建基于国产GPU的物理AI训练体系。ORCA Lab 1.0的推出,是松应科技在物理AI领域的一次重大突破。该平台能够帮助企业及个人开发者低门槛进入物理AI领域,实现高保真仿真、AI任务规划、场景生成与数据合成能力集成于个人笔记本,将门槛从"千万级投入"降至"零代码开箱即用"。这一策略不仅颠覆了传统真机数据采集的高成本模式,还通过整合国产芯片、机器人制
本文字数:约 2800 字,预计阅读时间:14 分钟让大模型多模态检索全面超越SOTA!ReCALL框架化解生成式与判别式的范式冲突|CVPR’26近日,CVPR'26上发表了一篇关于ReCALL框架的研究论文,该框架旨在通过独创的“诊断-生成-校准”闭环体系,解决多模态检索中生成式与判别式模型的范式冲突问题。多模态检索任务涉及文本、图像、视频等多种数据类型,是人工智能领域的一个重要研究方向。传统的检索方法通常依赖于单一类型的模型,而ReCALL框架通过整合生成式和判别式的优点,能够更好地处理复杂的数据交互问题。该框架的核心在于构建了一个闭环系统,首先通过诊断模块对数据进行初步分析,识别出不同模态之间的关联性;然后,生成模块根据诊断结果生成新的数据样本,丰富检索库的内容;最后,校准模块通过反馈机制不断优化生成过程,确保生成的数据样本能够更好地满足检索需求。这种闭环体系不仅提高了多模态检索的精度,还大幅提升了系统的灵活性和适应性。ReCALL框架的提出,意味着多模态检索技术将迈入一个新的阶段。未来,该框架有望在智能搜索、个性化推荐、智能客服等多个领域得到广泛应用,为用户提供更加精准、高效
本文字数:约 2700 字,预计阅读时间:14 分钟OpenAI新模型不是GPTX!全新预训练“土豆”曝光,Sora成弃子的原因找到了OpenAI最近曝光了其最新的预训练模型,名为“土豆”(暂定名),这标志着OpenAI在AI模型上的最新尝试。该模型不同于之前广受关注的GPT系列,而是采用了全新的架构和预训练策略,以解决Sora模型在性能和效率上的不足。据内部消息透露,Sora之所以被弃用,是因为其在实际应用中的表现未能达到预期,尤其是在推理和对话能力方面。“土豆”模型在架构上进行了重大创新,采用了混合的注意力机制,结合了传统的Transformer结构和自适应的神经网络层,旨在提升模型的泛化能力和推理效率。此外,“土豆”还引入了多任务学习机制,通过大规模的多任务训练,使模型能够更好地理解和生成复杂的语言结构。在预训练阶段,“土豆”采用了大量的多模态数据,包括文本、图像和音频,以增强模型的跨模态理解能力。OpenAI还透露,该模型将在未来几个月内逐步开放给开发者和研究人员进行测试和应用开发,这无疑将为AI领域带来新的发展机遇。太初元碁向员工发放百亿算力token并将共建高校AI科教融合
康叔的AI全栈工坊