【20250326AI日报】增强版Sora生图模型发布：不仅能直接在ChatGPT用，还抢了梗图作者的饭碗

本文字数：约 3100 字，预计阅读时间：10 分钟

重点新闻

> ## 增强版Sora生图模型发布：不仅能直接在ChatGPT用，还抢了梗图作者的饭碗

在 DeepSeek 24 小时前刚刚发布了 V3 模型 0324 版本更新之后，OpenAI 在北京时间 3 月 26 日凌晨宣布了新产品的发布预告，展示了新版 Sora 图像生成模型。虽然有传言猜测本次有可能发布 GPT-5，但根据以往 OpenAI 的发布节奏来看，这次更新并不算重大，但仍展示了新版 Sora 图像生成模型的显著改进。新版 Sora 通过使用 GPT-4o「全模态」能力为基础，具备了图像、文本、音频和视频生成能力，用户可以直接说出需求或上传照片作为提示词，生成高质量的图像。在直播中，OpenAI 演示了 Sora 生成动漫风格版本的自拍照以及在图像上添加文本的能力，甚至生成了类似相对论漫画卡片的图像，展示了其在图像生成和文本渲染方面的显著提升。此外，新版 Sora 在属性和对象关系绑定能力方面也有显著提高，可以正确绑定多达 20 个对象的属性。尽管生成时间有所增加，但 OpenAI 认为这些改进提升了生成图像的质量和功能，弥补了额外等待的时间。新版 Sora 目前已开放给 Pro 和 Plus 订阅套餐的用户，并计划未来开放给免费版本和 API。

> ## Google releases ‘most intelligent model to date,’ Gemini 2.5 Pro

Google 最近发布了其最新的人工智能模型 Gemini 2.5 Pro，这是迄今为止最智能的模型之一。该模型具备 1 百万 token 的上下文窗口，代表了当前 AI 技术的最前沿。Gemini 2.5 Pro 拥有更强大的语言理解能力和更广泛的知识库，使得用户能够进行更复杂和更深入的对话。该模型的发布标志着 Google 在自然语言处理和对话 AI 领域的重大进步，为未来的 AI 应用提供了更强的性能和更广泛的应用场景。此外，Gemini 2.5 Pro 也为 Gemini Advanced 用户提供了更多的功能和更高的效率，进一步推动了 AI 技术的发展和应用。

> ## Insane: OpenAI introduces GPT-4o native image generation and it’s already wowing users

OpenAI 最近发布了 GPT-4o，这是一个能够直接生成图像的 AI 模型，引起了用户的广泛赞誉。GPT-4o 通过结合语言处理和图像生成能力，实现了对用户需求的精准理解和高质量图像的生成。用户可以输入文本描述或上传图片作为提示，GPT-4o 能够生成符合要求的图像，包括动漫风格的图像、带有特定文本的图像等。这一模型的发布不仅展示了 AI 在图像生成方面的巨大潜力，还为用户提供了更多的创作可能性。GPT-4o 通过其强大的文本生成能力，确保了图像上的文本准确清晰，同时在图像生成的质量和速度方面也实现了显著提升。这一进展对于 AI 图像生成技术的发展具有重要意义。

其他新闻

Beyond transformers: Nvidia’s MambaVision aims to unlock faster, cheaper enterprise computer vision

Nvidia 最近推出了 MambaVision，这是一种新型的计算机视觉模型，旨在提高企业的计算机视觉应用效率。MambaVision 结合了 Mamba 和变压器模型的优点，提高了模型的效率和性能。这一模型的发布意味着 Nvidia 在计算机视觉领域迈出了重要的一步，为用户提供更快、更便宜的解决方案。MambaVision 的引入不仅提升了图像处理的速度，还降低了计算资源的需求，使其更适合大规模部署。这对于需要高效处理大量图像数据的企业来说是一个巨大的福音，可以显著提高生产力和成本效益。

METASCALE improves LLM reasoning with adaptive strategies

METASCALE 通过引入自适应策略来改进大语言模型（LLM）的推理能力。这一技术采用三阶段方法，动态选择最合适的推理策略，从而提高模型的性能。自适应策略的引入使得 LLM 能够根据问题的复杂性和特点选择最佳的推理路径，从而提升推理的准确性和效率。这一进展对于提高 LLM 在复杂任务中的表现具有重要意义，也为未来的人工智能应用提供了新的可能性。通过这种自适应方法，METASCALE 有望在多种应用场景中发挥重要作用，推动 AI 技术的进步。

可灵AI收入过亿，程一笑全力押注视频大模型

快手旗下的可灵AI已经实现了收入过亿的里程碑，公司计划进一步推进视频大模型的研发，目标是成为全球第一的视频生成 AI 应用。可灵AI的成功表明，AI 在视频生成领域的商业潜力巨大。程一笑表示，未来将继续加大对视频大模型的投资，提升其性能和功能。这一举措不仅有助于巩固快手在视频生成领域的领先地位，还将推动整个行业的发展，为用户提供更多高质量的视频内容。

The new best AI image generation model is here: say hello to Reve Image 1.0!

Reve Image 1.0 是一款新的 AI 图像生成模型，以其强大的文本渲染能力而著称，解决了 AI 图像生成中常见的文本错误问题。该模型在图像生成和文本渲染方面表现出色，可以生成准确无误的图像内容。Reve Image 1.0 的发布标志着 AI 图像生成技术的进一步提升，为用户提供了更高质量的图像生成体验。这一进展不仅提升了图像生成的准确性和效率，还为未来 AI 图像生成技术的发展奠定了坚实的基础。

Security teams can respond 80% faster to events with Cyberhaven’s AI-powered data lineage tools

Cyberhaven 推出了 AI 驱动的数据血缘工具，使安全团队能够更快地响应事件，响应速度提高了 80%。这一工具通过构建特定的大血缘模型（LLiMs）来跟踪数据生命周期，检测影子 AI。Cyberhaven 的 AI 技术显著提升了安全团队的响应速度和效率，使他们能够更迅速地识别和应对安全威胁。这一进展对于提高数据安全和保护用户隐私具有重要意义，也为未来的安全防护提供了新的可能性。

Agentic AI is changing online meeting platforms: Moving from silent observer to active participant

Agentic AI 正在改变在线会议平台，从被动观察者转变为积极参与者。通过 Otter AI 和其他领先供应商的推动，Agentic AI 使会议更加高效和互动。这一技术不仅能够自动记录会议内容，还可以参与讨论并提供实时反馈。Agentic AI 的引入提升了会议的效率和质量，为企业提供了更多的便利和可能性。这一进展不仅改善了在线会议的用户体验，还推动了企业协作和决策的智能化。

总结

今日的 AI 领域新闻主要集中在图像生成、语言模型和企业应用等方面。新版 Sora 模型展示了图像生成方面的显著进步，不仅能够生成高质量的图像，还在文本渲染和属性绑定方面实现了突破。Google 发布的 Gemini 2.5 Pro 模型则展示了在语言理解和对话方面的提升。此外，Nvidia 的 MambaVision 和 METASCALE 的自适应策略改进，都在推动计算机视觉和大语言模型的发展。这些进展不仅提升了 AI 的性能和功能，也为未来的应用提供了新的可能性。

作者：Qwen/Qwen2.5-32B-Instruct
文章来源：钛媒体, 量子位, 极客公园, VentureBeat
编辑：小康