【20250326AI日报】增强版Sora生图模型发布:不仅能直接在ChatGPT用,还抢了梗图作者的饭碗

今日新鲜事 · 03-25
本文字数:约 3100 字,预计阅读时间:10 分钟

重点新闻

> ## 增强版Sora生图模型发布:不仅能直接在ChatGPT用,还抢了梗图作者的饭碗

新闻图片

在 DeepSeek 24 小时前刚刚发布了 V3 模型 0324 版本更新之后,OpenAI 在北京时间 3 月 26 日凌晨宣布了新产品的发布预告,展示了新版 Sora 图像生成模型。虽然有传言猜测本次有可能发布 GPT-5,但根据以往 OpenAI 的发布节奏来看,这次更新并不算重大,但仍展示了新版 Sora 图像生成模型的显著改进。新版 Sora 通过使用 GPT-4o「全模态」能力为基础,具备了图像、文本、音频和视频生成能力,用户可以直接说出需求或上传照片作为提示词,生成高质量的图像。在直播中,OpenAI 演示了 Sora 生成动漫风格版本的自拍照以及在图像上添加文本的能力,甚至生成了类似相对论漫画卡片的图像,展示了其在图像生成和文本渲染方面的显著提升。此外,新版 Sora 在属性和对象关系绑定能力方面也有显著提高,可以正确绑定多达 20 个对象的属性。尽管生成时间有所增加,但 OpenAI 认为这些改进提升了生成图像的质量和功能,弥补了额外等待的时间。新版 Sora 目前已开放给 Pro 和 Plus 订阅套餐的用户,并计划未来开放给免费版本和 API。


> ## Google releases ‘most intelligent model to date,’ Gemini 2.5 Pro

新闻图片

Google 最近发布了其最新的人工智能模型 Gemini 2.5 Pro,这是迄今为止最智能的模型之一。该模型具备 1 百万 token 的上下文窗口,代表了当前 AI 技术的最前沿。Gemini 2.5 Pro 拥有更强大的语言理解能力和更广泛的知识库,使得用户能够进行更复杂和更深入的对话。该模型的发布标志着 Google 在自然语言处理和对话 AI 领域的重大进步,为未来的 AI 应用提供了更强的性能和更广泛的应用场景。此外,Gemini 2.5 Pro 也为 Gemini Advanced 用户提供了更多的功能和更高的效率,进一步推动了 AI 技术的发展和应用。


> ## Insane: OpenAI introduces GPT-4o native image generation and it’s already wowing users

新闻图片

OpenAI 最近发布了 GPT-4o,这是一个能够直接生成图像的 AI 模型,引起了用户的广泛赞誉。GPT-4o 通过结合语言处理和图像生成能力,实现了对用户需求的精准理解和高质量图像的生成。用户可以输入文本描述或上传图片作为提示,GPT-4o 能够生成符合要求的图像,包括动漫风格的图像、带有特定文本的图像等。这一模型的发布不仅展示了 AI 在图像生成方面的巨大潜力,还为用户提供了更多的创作可能性。GPT-4o 通过其强大的文本生成能力,确保了图像上的文本准确清晰,同时在图像生成的质量和速度方面也实现了显著提升。这一进展对于 AI 图像生成技术的发展具有重要意义。


其他新闻

Beyond transformers: Nvidia’s MambaVision aims to unlock faster, cheaper enterprise computer vision

新闻图片

Nvidia 最近推出了 MambaVision,这是一种新型的计算机视觉模型,旨在提高企业的计算机视觉应用效率。MambaVision 结合了 Mamba 和变压器模型的优点,提高了模型的效率和性能。这一模型的发布意味着 Nvidia 在计算机视觉领域迈出了重要的一步,为用户提供更快、更便宜的解决方案。MambaVision 的引入不仅提升了图像处理的速度,还降低了计算资源的需求,使其更适合大规模部署。这对于需要高效处理大量图像数据的企业来说是一个巨大的福音,可以显著提高生产力和成本效益。


METASCALE improves LLM reasoning with adaptive strategies

新闻图片

METASCALE 通过引入自适应策略来改进大语言模型(LLM)的推理能力。这一技术采用三阶段方法,动态选择最合适的推理策略,从而提高模型的性能。自适应策略的引入使得 LLM 能够根据问题的复杂性和特点选择最佳的推理路径,从而提升推理的准确性和效率。这一进展对于提高 LLM 在复杂任务中的表现具有重要意义,也为未来的人工智能应用提供了新的可能性。通过这种自适应方法,METASCALE 有望在多种应用场景中发挥重要作用,推动 AI 技术的进步。


可灵AI收入过亿,程一笑全力押注视频大模型

新闻图片

快手旗下的可灵AI已经实现了收入过亿的里程碑,公司计划进一步推进视频大模型的研发,目标是成为全球第一的视频生成 AI 应用。可灵AI的成功表明,AI 在视频生成领域的商业潜力巨大。程一笑表示,未来将继续加大对视频大模型的投资,提升其性能和功能。这一举措不仅有助于巩固快手在视频生成领域的领先地位,还将推动整个行业的发展,为用户提供更多高质量的视频内容。


The new best AI image generation model is here: say hello to Reve Image 1.0!

新闻图片

Reve Image 1.0 是一款新的 AI 图像生成模型,以其强大的文本渲染能力而著称,解决了 AI 图像生成中常见的文本错误问题。该模型在图像生成和文本渲染方面表现出色,可以生成准确无误的图像内容。Reve Image 1.0 的发布标志着 AI 图像生成技术的进一步提升,为用户提供了更高质量的图像生成体验。这一进展不仅提升了图像生成的准确性和效率,还为未来 AI 图像生成技术的发展奠定了坚实的基础。


Security teams can respond 80% faster to events with Cyberhaven’s AI-powered data lineage tools

新闻图片

Cyberhaven 推出了 AI 驱动的数据血缘工具,使安全团队能够更快地响应事件,响应速度提高了 80%。这一工具通过构建特定的大血缘模型(LLiMs)来跟踪数据生命周期,检测影子 AI。Cyberhaven 的 AI 技术显著提升了安全团队的响应速度和效率,使他们能够更迅速地识别和应对安全威胁。这一进展对于提高数据安全和保护用户隐私具有重要意义,也为未来的安全防护提供了新的可能性。


Agentic AI is changing online meeting platforms: Moving from silent observer to active participant

新闻图片

Agentic AI 正在改变在线会议平台,从被动观察者转变为积极参与者。通过 Otter AI 和其他领先供应商的推动,Agentic AI 使会议更加高效和互动。这一技术不仅能够自动记录会议内容,还可以参与讨论并提供实时反馈。Agentic AI 的引入提升了会议的效率和质量,为企业提供了更多的便利和可能性。这一进展不仅改善了在线会议的用户体验,还推动了企业协作和决策的智能化。


总结

今日的 AI 领域新闻主要集中在图像生成、语言模型和企业应用等方面。新版 Sora 模型展示了图像生成方面的显著进步,不仅能够生成高质量的图像,还在文本渲染和属性绑定方面实现了突破。Google 发布的 Gemini 2.5 Pro 模型则展示了在语言理解和对话方面的提升。此外,Nvidia 的 MambaVision 和 METASCALE 的自适应策略改进,都在推动计算机视觉和大语言模型的发展。这些进展不仅提升了 AI 的性能和功能,也为未来的应用提供了新的可能性。


作者:Qwen/Qwen2.5-32B-Instruct
文章来源:钛媒体, 量子位, 极客公园, VentureBeat
编辑:小康

Theme Jasmine by Kent Liao