【20251113AI日报】Weibo's new open source AI model VibeThinker-1.5B outperforms DeepSeek-R1 on $7,800 post-training budget

今日新鲜事 · 18 天前
本文字数:约 4253 字,预计阅读时间:14 分钟

Weibo's new open source AI model VibeThinker-1.5B outperforms DeepSeek-R1 on $7,800 post-training budget

新闻图片

在2025年晚些时候,中国社交网络公司微博发布了其开源人工智能模型VibeThinker-1.5B,这是一个基于阿里巴巴Qwen2.5-Math-1.5B的15亿参数大语言模型(LLM)。该模型免费下载并可供研究人员和企业开发者使用,包括商业用途,使用MIT许可发布在Hugging Face、GitHub和ModelScope上,并在arxiv.org上提供技术报告。尽管其参数规模较小,VibeThinker-1.5B在数学和代码任务的推理性能方面超越了其他模型,甚至超过了拥有671亿参数的DeepSeek R1。此外,VibeThinker-1.5B在推理方面也超越了Mistral AI的Magistral Medium,并与Anthropic的Claude Opus 4和OpenAI的gpt-oss-20B Medium相匹敌,而所需的基础设施和投资仅为后者的零头。

微博的模型在后训练阶段仅花费了7800美元的计算资源,这与通常需要数万甚至数十万美元来微调类似或更大规模模型的成本相比,是非常经济的。该模型的训练框架采用的是频谱到信号原则(SSP),即在监督微调(SFT)和强化学习(RL)之间分开两个阶段,前者侧重于多样性,后者侧重于正确性。这种设计使得小模型能够更有效地探索推理空间,从而在逻辑任务中超越更大的模型。

尽管参数规模较小,VibeThinker-1.5B在跨领域的推理性能上超过了多个更大规模的开源和商用模型。此外,模型在数学和编程任务上取得了与比自己大几百倍的模型相当的性能,但在通用知识推理方面则略逊一筹。这表明可能存在一种专业化权衡,即VibeThinker在结构化逻辑任务上表现出色,但在广泛的知识推理能力上则稍显不足。

该模型还建议了推荐的推理设置,这些设置使其能够在边缘设备上运行,包括移动电话和车载系统。这不仅使VibeThinker-1.5B成为一个研究上的成就,也使其成为一种潜在的低成本、本地部署推理系统的基石。


How Deductive AI saved DoorDash 1,000 engineering hours by automating software debugging

新闻图片

Deductive AI是一家使用强化学习技术自动诊断生产软件故障的初创公司,它最近宣布完成了750万美元的种子轮融资。该公司的系统能够通过构建代码库、遥测数据、工程讨论和内部文档的知识图谱,在几分钟内诊断并帮助解决软件故障。DoorDash的广告平台已将Deductive集成到其事件响应工作流程中,据称这已经为他们节省了超过1000小时的工程生产力。Deductive系统通过使用强化学习来不断学习,从而提高其诊断软件故障的准确性。它在生产环境中已经显示出显著的效果,例如在DoorDash,它帮助工程师快速识别了导致API延迟增加的根源问题。

随着AI生成代码的普及,软件变得越来越复杂,导致工程师们需要花费大量的时间来调试软件。Deductive AI的系统通过自动化这一过程,可以大幅提高软件调试的效率,使工程师们能够更加专注于产品开发而不是问题排查。这不仅有助于节省成本,还能够提高软件的质量和性能。


对话元理智能张帆:为什么「商业强化学习」,才是 AI To B 的新出路

新闻图片

张帆在访谈中探讨了AI技术从实验性走向实用性的转变,以及如何将AI真正融入企业业务逻辑。他认为,当前许多企业将AI视为工具,而真正的AI转型需要通过AI特性重构业务流程。张帆创立的元理智能专注于通过商业强化学习和模型性理解,将基础智能转化为企业的核心生产力。他提到,企业竞争的本质是创始人认知的竞争,因此需要理解和把握「模型人格」特性,特别是幻觉。通过强化学习,元理智能的目标是帮助企业在不显著增加模型规模的前提下,实现生产力的跃升。



优必选正式开启8亿订单量产交付

新闻图片

优必选科技宣布其首批数百台全尺寸工业人形机器人Walker S2正式进入量产阶段,标志着该公司在人形机器人领域的商业化进程迈出了关键一步。该系列机器人自2025年初以来累计订单金额已突破8亿元人民币。Walker S2的设计旨在满足工业领域对灵活度和多功能性的需求,展现了公司在人形机器人领域的技术积累和市场潜力。


建筑机器人湃特纳完成A轮融资,华创资本领投|融资首发

新闻图片

建筑机器人公司湃特纳最近完成了A轮融资,由华创资本领投。该公司致力于通过科技重塑建筑施工方式,旨在提高建筑行业的生产效率和施工质量。随着资本的注入,湃特纳将进一步推动其产品和技术的研发,加速在建筑机器人领域的布局和发展。


2025中国消费者图鉴:健康超收入,国货逆袭国际品牌

新闻图片

2025年中国消费者调查显示,健康成为消费者最关注的因素之一,超越了对收入的关注。此外,国产品牌在市场上的地位显著提升,对国际品牌的市场份额形成了有力挑战。这反映了中国消费者消费观念的变化,也表明了国货品牌通过不断改进产品质量和提升品牌价值,在市场上的竞争力不断增强。


2025世界动力电池大会在四川宜宾举行,签约180个项目金额861.3亿元

新闻图片

2025年世界动力电池大会在四川宜宾成功举办,共签约180个项目,总金额达861.3亿元。此次大会吸引了众多国内外动力电池领域的专家学者和企业代表参加,为推动全球动力电池产业的发展提供了重要平台。签约项目涵盖了动力电池的研发、生产、应用等多个环节,将为未来新能源汽车及储能市场的发展注入新的动力。


印度5G加速赶超,中国全球领先优势迎来最强挑战

新闻图片

印度在5G技术方面的加速推进对中国的领先地位构成了重大挑战。印度政府正积极投资5G基础设施建设,并推动本地5G产业的发展,旨在减少对中国技术和设备的依赖。这一举措不仅将促进印度本土科技产业的发展,还将增强其在全球通信市场的竞争力。面对这一挑战,中国需要尽快将5G的规模优势转化为实际效益,以保持其在全球5G领域的领先地位。


我们在996,而欧美游戏同行还没回办公室

新闻图片

中国游戏行业普遍采用996工作制,而欧美游戏公司则继续推行远程办公。这种差异反映了不同地区在工作文化、劳动法规以及行业特点上的差异。面对这种现状,中国游戏公司需要考虑如何在保持竞争力的同时,提高员工的工作满意度和生活质量,以应对未来可能出现的人才流失问题。


总结

今日AI领域的焦点在于技术创新与商业化应用。Weibo的开源模型VibeThinker-1.5B展示了小规模模型通过特定训练策略也能实现高效推理,对企业和研究者都具有重要意义。Deductive AI的自动化软件调试系统则为解决日益复杂的软件系统问题提供了新的思路,有助于提高开发效率和产品质量。此外,元理智能的商业强化学习概念,以及优必选的量产交付和湃特纳的融资成功,进一步推动了AI技术在不同行业中的实际应用,展示了AI技术如何在特定场景中创造价值。


作者:Qwen/Qwen2.5-32B-Instruct
文章来源:VentureBeat, 钛媒体, 极客公园, 雷锋网
编辑:小康

Theme Jasmine by Kent Liao