Code for Life, AI for Future
本文字数:约 3980 字,预计阅读时间:16 分钟英伟达团队发布最新具身模型 Cosmos-Reason1,在物理世界推理中碾压 Qwen、GPT-4o 等多个 VLM 模型英伟达在 GTC 大会上发布了名为 Cosmos-Reason1 的最新物理世界大模型。该模型旨在增强人工智能系统在物理世界中的推理能力,这包括感知、理解与执行复杂动作。Cosmos-Reason1 是 Cosmos 系列的一部分,专注于模型的推理能力。它不仅在物理常识基准测试中表现出色,还在具身推理方面取得了显著进展,超越了 Qwen2.5-VL-7B、Gemini 2.0 Flash 和 GPT-4o 等模型。该模型由两个大模组成,分别是 80 亿参数的 Cosmos-Reason1-8B 和 560 亿参数的 Cosmos-Reason1-56B。模型的训练分为四个阶段:视觉预训练、通用 SFT、物理 AI SFT 和物理 AI 强化学习后训练。在评估过程中,研究人员制定了物理常识和具身推理的基准测试,以确保 Cosmos-Reason1 在这两个方向上的表现。模型的训练采用了纯解码的多模态大模型架构,以及
本文字数:约 2300 字,预计阅读时间:10 分钟GRPO在《时空谜题》中击败o1、o3-mini和R1近日,OpenPipe平台发布了一项研究,展示了其如何通过GRPO在推理游戏《时空谜题》中超越R1、o1、o3-mini等模型。研究由Ender Research的强化学习研究员Brad Hilton和OpenPipe创始人Kyle Corbitt共同完成。研究中提到,GRPO不仅将模型与Sonnet 3.7的差距缩小至个位百分比,还实现了超过100倍的推理成本优化。研究详细介绍了任务设计与超参数调整的经验,并公开了基于torchtune框架构建的完整训练方案。该研究强调了强化学习在训练小型开源模型处理复杂演绎任务方面的巨大潜力。实验结果显示,仅需16个训练样本就能实现高达10-15%的性能提升,这意味着无需大量数据即可进行有效推理。ChatGPT gets smarter: OpenAI adds internal data referencingChatGPT Team用户现在可以添加内部数据库作为参考,使ChatGPT能够提供更丰富的上下文回应。这一新功能增强了ChatGPT
本文字数:约 2700 字,预计阅读时间:10 分钟营收上涨、净亏损扩大,小马智行发布上市后首份财报3月25日,小马智行披露了2024年第四季度及全年财报。数据显示,公司在2024年实现了营收再创新高,达到7500万美元。尽管如此,由于研发费用的增加,小马智行依然未能实现盈利,全年净亏损达到2.75亿美元。小马智行CEO彭建军表示,虽然当前仍处于亏损状态,但他对公司的盈利前景充满信心。他认为,在技术、法规、大规模生产和大规模运营方面,小马智行已经看到了大规模商业化的关键转折点。AI+能源掀起行业变革,蚂蚁数科能源电力时序大模型EnergyTS正式发布蚂蚁数科正式发布了EnergyTS,这是一个专为能源电力行业设计的时序大模型。该模型通过深度学习技术,能够对电力系统的运行数据进行精准预测和优化,帮助新能源企业制定更有效的经营策略。EnergyTS的推出,标志着AI技术在能源领域的应用迈出了重要一步,有望推动行业的数字化转型和智能化升级。Observe launches VoiceAI agents to automate customer call centers with realis
本文字数:约 3100 字,预计阅读时间:10 分钟重点新闻> ## 增强版Sora生图模型发布:不仅能直接在ChatGPT用,还抢了梗图作者的饭碗在 DeepSeek 24 小时前刚刚发布了 V3 模型 0324 版本更新之后,OpenAI 在北京时间 3 月 26 日凌晨宣布了新产品的发布预告,展示了新版 Sora 图像生成模型。虽然有传言猜测本次有可能发布 GPT-5,但根据以往 OpenAI 的发布节奏来看,这次更新并不算重大,但仍展示了新版 Sora 图像生成模型的显著改进。新版 Sora 通过使用 GPT-4o「全模态」能力为基础,具备了图像、文本、音频和视频生成能力,用户可以直接说出需求或上传照片作为提示词,生成高质量的图像。在直播中,OpenAI 演示了 Sora 生成动漫风格版本的自拍照以及在图像上添加文本的能力,甚至生成了类似相对论漫画卡片的图像,展示了其在图像生成和文本渲染方面的显著提升。此外,新版 Sora 在属性和对象关系绑定能力方面也有显著提高,可以正确绑定多达 20 个对象的属性。尽管生成时间有所增加,但 OpenAI 认为这些改进提升了生成图像的质
本文字数:约 3300 字,预计阅读时间:15 分钟DeepSeek 发布 V3 模型更新:除了编程能力大幅提升,还有更宽松的开源协议DeepSeek 于北京时间 3 月 24 日晚发布了其 V3 模型的更新,这次更新主要集中在提升前端编码能力以及采用更宽松的 MIT 开源许可。新版本模型在前端网站搭建测试中表现出了接近 Claude 3.7 的编程能力,这使得 V3 模型在编码能力上有了显著提升,用户体验也得到了改善。此外,新版 V3 的开源许可更新为 MIT,这意味着新版 V3 拥有了比初代 V3 更宽松的开源使用条件,对于希望在商业项目中使用新版 V3 模型的开发者而言,这无疑是一个重要的改变。他们正在用 AI,疯狂给互联网「下毒」近期,互联网上出现了一种新的现象:一些用户利用 AI 生成的极度诡异和猎奇视频,这些视频在各大短视频平台迅速传播。这些视频通常在十秒左右的时间内,通过突然的画风突变来制造极端的不适感。这些内容不仅引发了用户的精神污染,还导致了创作生态的恶化。例如,YouTuber Daniel Bitton 通过使用 AI 工具批量生成短视频,从而实现了巨大的流量和财
康叔的AI全栈工坊