本文字数:约 3200 字,预计阅读时间:10 分钟重点新闻强化学习带来的改进只是「噪音」?最新研究预警:冷静看待推理模型的进展一项最新研究对当前强化学习(RL)的进展提出了警示,指出许多看似显著的改进实际上可能是“噪音”。研究者发现,虽然强化学习模型在某些任务上取得了进步,但这些进步在其他任务上并不稳定,有时甚至出现了退步。这一发现对于当前的AI研究领域具有重要意义,它提醒科研人员和开发者在评估模型性能时需要更加谨慎,避免对短期的、不稳定的改进过于乐观。研究者强调,为了确保AI技术的持续健康发展,需要更加深入地理解模型的稳定性和泛化能力,而不是仅仅追求表面的性能提升。这对未来AI技术的发展方向和研究方法提出了新的挑战。3710亿数学tokens,全面开放!史上最大高质量开源数学预训练数据集MegaMath发布机器之心报道了一则重大消息,史上最大规模的数学预训练数据集MegaMath正式发布。该数据集包含超过3710亿个数学tokens,极大地丰富了数学领域的预训练数据。这一数据集的开放,对推动数学领域的AI研究具有重要意义。研究人员可以利用这些高质量的数据集训练更强大的数学模型,从而
本文字数:约 2500 字,预计阅读时间:10 分钟算法不重要,AI的下一个范式突破,「解锁」新数据源才是关键近日,机器之心发布了一篇深度探讨AI未来的文章。文章指出,尽管算法创新一直是AI领域的重要推动力,但在未来的发展中,解锁新的数据源将是推动AI发展的关键因素。数据源的多样性、广度和深度将直接影响AI模型的学习效果和应用场景的扩展。通过引入新的数据源,AI能够更好地理解复杂环境,从而提升其在医疗、金融、制造业等多个领域的应用能力。此外,解锁新数据源也将促进跨学科合作,推动AI技术向更深层次发展。Bigger isn’t always better: Examining the business case for multi-million token LLMsVentureBeat发表了一篇探讨大型语言模型(LLM)规模与商业应用关系的文章。文章提出,虽然当前技术趋势倾向于开发更大规模的LLM,但其商业应用并不总是与规模成正比。大型LLM确实能够处理更加复杂的任务,但在实际应用中,它们也带来了更高的成本和资源消耗。因此,企业需要权衡规模与性能之间的关系,寻找最适合其业务需求的模型
本文字数:约 8900 字,预计阅读时间:15 分钟重点新闻Anthropic AI 最新研究成果发布:揭示大模型中的注意力回路语言模型如何“理解”特定词汇或概念?近日,Anthropic研究团队发布了一种揭示语言模型底层机制的方法。他们通过构建“归因图”展示了模型处理特定问题时的内部路径和逻辑。例如,对于输入“Fact: Michael Jordan plays the sport of __”,模型在处理“plays”和“sport”时,激活了与“basketball”相关的特征,从而推断出“basketball”作为正确答案。研究方法包括两步:首先,将特征作为识别模型计算中使用的可解释基础单元;其次,描述这些特征如何通过过程或回路相互作用以产生模型输出。Anthropic利用一种称为“跨层转码器(CLT)”的方法,将模型的原始神经元替换为稀疏激活的特征,从而创建一个可解释的替换模型。CLT的特征在多个层中激活,能够重建模型的MLP输出。此外,团队还开发了交互式归因图可视化界面,帮助研究人员追踪图中的关键路径,理解模型在特定提示下的行为。这项研究有望提高大模型的可解释性和透明度,为
本文字数:约 3500 字,预计阅读时间:15 分钟刚刚,商汤发布第六代大模型:6000亿参数多模态MoE,中长视频直接可推理商汤科技在2025年的最新发布会上推出了其第六代大模型,这个模型名为“多模态MoE”,具备6000亿参数,是一个规模庞大、功能强大的AI系统。MoE(Mixture of Experts)模型结构意味着它可以更高效地处理复杂的多模态数据,如文本、图像和视频等。此次发布的模型不仅能够处理大规模的文本和图像数据,还特别优化了对中长视频的推理能力。这意味着该模型可以在观看类似《柯南》这样的复杂剧情时直接进行推理,分析剧情的发展和人物关系,从而更好地理解视频内容并提供相关的分析和解释。这种技术的突破将大大提升视频内容的理解和分析能力,为娱乐、教育、医疗等多个领域带来革命性的变化。What’s inside the LLM? Ai2 OLMoTrace will ‘trace’ the source来自Ai2的开源工具OLMoTrace为大语言模型(LLM)的透明度和可追溯性带来了革命性的变化。此工具能够直接追踪LLM的输出,将这些输出追溯到原始训练数据。这项技术的实现,
本文字数:约 4200 字,预计阅读时间:14 分钟AI Agent 发展史:从 RL 驱动到大模型驱动 |AIR 2025在AI智能体推理与决策研讨会(AIR 2025)上,来自伦敦大学学院、新加坡南洋理工大学、Weco AI、Google DeepMind、Meta、华为、阿里等多家学术界和工业界的研究人员围绕强化学习(RL)、推理决策、AI智能体展开讨论。新加坡南洋理工大学的安波教授揭示了从基于强化学习的智能体到由大型语言模型(LLM)驱动的智能体的演变。他分享了团队的多项关于Agent的工作进展,其中包括Q算法,该算法以多步骤推理作为审慎规划。Q算法在学习Q值模型的过程中,需要经历离线强化学习以交替更新Q值标签并拟合QVM、使用表现最佳的回滚轨迹的奖励、使用与更强大LLM一起完成的轨迹的奖励三个关键步骤。此外,来自伦敦大学学院的宋研从DeepSeek切入,讨论了强化学习在大型语言模型推理中的作用,并指出当Agent使用某些关键词时,它们会进行各种回溯、自我报告和复杂推理。谷歌DeepMind研究员冯熙栋初步阐述了将强化学习的组成部分用自然语言描述的理念,尝试将策略、值函数、贝尔
康叔的AI全栈工坊
Code for Life, AI for Future