本文字数:约 4450 字,预计阅读时间:18 分钟清华刘知远团队论文:最小化结构改动,短文本到长文本丝滑升级 | ICLR 2026在大语言模型快速迈向更强推理能力与更复杂应用场景的过程中,“上下文长度”已经从一个模型配置参数,演变为制约系统能力上限的关键瓶颈。一方面,长文档理解、跨轮对话记忆、复杂规划与长链式推理等任务,对模型提出了远超传统 4k 或 8k 序列长度的需求;另一方面,主流 Transformer 架构中基于全注意力机制的计算模式,在序列长度增长时不可避免地带来平方级的时间与显存开销,使得“支持更长上下文”在现实工程中迅速转化为难以承受的成本问题。围绕这一矛盾,稀疏注意力几乎成为学术界与工业界的共识方向,但随之而来的,并不是问题的彻底解决,而是一系列新的结构性张力。过去数年中,大量工作尝试通过引入新的注意力结构、路由机制或可训练稀疏模块来缓解计算压力。这些方法在理论复杂度或特定评测上往往表现出色,但在真实模型训练与部署流程中,却逐渐暴露出一个被长期低估的问题:当前大语言模型几乎无一例外遵循“短序列预训练、长序列微调”的训练范式,而一些修改模型架构的稀疏注意力方案例如N

今日新鲜事 · 前天

本文字数:约 2700 字,预计阅读时间:10 分钟重点新闻众智FlagOS实现面壁新模型MiniCPM-o 4.5:“发布即适配”性能全面反超原生众智FlagOS近期成功实现了面壁智能的新模型MiniCPM-o 4.5,并宣布其性能在多个指标上全面超越了原生版本。这一新模型采用了更为高效的训练方法和算法优化,大幅提升了计算效率和模型精度。在多模态任务中,MiniCPM-o 4.5不仅能够进行图像和文本的理解,还具备了实时语音识别和生成能力,可以边看边听并主动抢答问题。这一成果标志着人工智能技术在多模态处理领域的重大进展,为未来的智能交互系统提供了强有力的技术支持。这一新模型不仅在技术上取得了突破,其发布策略也颇具创新性。“发布即适配”意味着用户可以在第一时间获取到最新的模型版本,并且无需额外的配置或调整,即可在多种应用场景中实现无缝部署。这对于推动人工智能技术在实际应用中的普及和推广具有重要意义,有望加速人工智能技术在教育、医疗、娱乐等领域的应用。首个大规模记忆湖发布,AI Infra跑步进入“记忆”时代陈天桥和邓亚峰团队宣布推出首个大规模记忆湖系统,该系统在短短四个月内达到了行业领

今日新鲜事 · 3 天前

本文字数:约 4500 字,预计阅读时间:15 分钟重点新闻上交大智能计算研究院论文:不只算对答案,大模型如何真正学会运筹建模丨ICLR 2026本文介绍了一项来自上海交通大学智能计算研究院葛冬冬、林江浩研究团队的研究成果。该研究主要探讨了大语言模型在运筹优化(OR)任务中的表现及其改进方法。研究指出,现有大模型在运筹优化任务中主要面临两个问题:一是仅依据最终求解结果进行奖励可能导致模型学习到错误的推理路径;二是传统的过程监督方法难以捕捉推理步骤之间的依赖关系。针对这些问题,研究团队提出了StepORLM框架,该框架结合了结果导向奖励和过程级监督,通过自进化机制来优化模型性能。实验结果显示,StepORLM在多个运筹优化基准数据集上显著优于其他模型,尤其在复杂场景中表现更佳。这一研究不仅提升了大模型在运筹优化任务中的可靠性,也为解决其他复杂推理任务提供了新思路。全产业大模型如何穿越概念迷雾?万联易达成立产业AI专委会破难题万联易达公司近期在北京举行了一场研讨会,旨在解决AI产业应用中的“结构性错配”问题。会议中,清华大学人工智能研究院常务副院长孙茂松等人组成的专家委员会正式成立,旨在推

今日新鲜事 · 5 天前
Theme Jasmine by Kent Liao