【20260207AI日报】清华刘知远团队论文:最小化结构改动,短文本到长文本丝滑升级 | ICLR 2026

今日新鲜事 · 昨天

本文字数:约 4450 字,预计阅读时间:18 分钟

清华刘知远团队论文:最小化结构改动,短文本到长文本丝滑升级 | ICLR 2026

新闻图片

在大语言模型快速迈向更强推理能力与更复杂应用场景的过程中,“上下文长度”已经从一个模型配置参数,演变为制约系统能力上限的关键瓶颈。一方面,长文档理解、跨轮对话记忆、复杂规划与长链式推理等任务,对模型提出了远超传统 4k 或 8k 序列长度的需求;另一方面,主流 Transformer 架构中基于全注意力机制的计算模式,在序列长度增长时不可避免地带来平方级的时间与显存开销,使得“支持更长上下文”在现实工程中迅速转化为难以承受的成本问题。围绕这一矛盾,稀疏注意力几乎成为学术界与工业界的共识方向,但随之而来的,并不是问题的彻底解决,而是一系列新的结构性张力。过去数年中,大量工作尝试通过引入新的注意力结构、路由机制或可训练稀疏模块来缓解计算压力。这些方法在理论复杂度或特定评测上往往表现出色,但在真实模型训练与部署流程中,却逐渐暴露出一个被长期低估的问题:当前大语言模型几乎无一例外遵循“短序列预训练、长序列微调”的训练范式,而一些修改模型架构的稀疏注意力方案例如NSA,在结构、参数或输出形式上与标准 dense attention 存在显著不对齐。正是在这一背景下,清华大学刘知远团队提出了《InfLLM-V2: Dense-Sparse Switchable Attention for Seamless Short-to-Long Adaptation》。与以往强调“引入新结构”或“增加可训练模块”的路径不同,这项研究将关注点前移至一个更基础的问题:稀疏注意力是否必须以改变模型结构为代价,才能获得长上下文效率?为此研究团队提出了一种 dense–sparse 可切换的注意力框架,试图在以原有 dense attention 参数作为起始点,保持输出形式不变,做到长短文本可同时训练,且能高效地实现从短上下文到长上下文的平滑过渡。值得一提的是,这项工作并未将重点放在单一指标的提升上,而是系统性地从性能保持、训练稳定性以及端到端推理效率三个层面,对这一设计思路进行了验证,从而为长上下文大语言模型的研究与工程实践提供了一条不同于以往的技术路线。

键盘长草,编程已死,agentic engineering时代已至

新闻图片

安德烈·卡帕西(Andrej Karpathy)建议以agentic engineering的名称来区别于vibe coding,而在新的范式下,agent已是默认设置,99%的情况下开发者不会直接编写代码,而是协调代理来编写代码并进行监督。agentic engineering的出现,标志着编程方式的重大变革,它强调了人工智能代理在软件开发中的主导角色。在这一范式下,人类开发者不再是主要的代码编写者,而是成为了协调者和监督者,通过与智能代理的互动,实现复杂系统的构建和优化。这不仅提高了开发效率,也使开发过程更加灵活,适应了快速变化的技术环境。

从质疑到追捧,AI制药成果落地加速

新闻图片

随着技术突破驱动产业融合,AI制药的估值逻辑正在重构。近年来,AI技术在制药领域的应用逐渐从理论研究阶段走向实际应用,通过大数据分析、机器学习算法和深度学习技术,AI能够加速药物发现过程,提高筛选效率,优化药物设计。这不仅显著缩短了药物研发周期,也降低了研发成本,使更多的创新药物能够快速进入临床试验阶段。AI制药的成功案例不断涌现,不仅吸引了资本市场的关注,也赢得了制药行业的认可。AI制药技术的进步,正逐步改变传统制药行业的格局,为新药研发带来新的机遇和挑战。


全国最大国产AI算力池来了:部署超3万卡,上千款应用接入

全国最大国产AI算力池的建立,标志着中国在人工智能硬件基础设施建设方面迈出了坚实的一步。这一算力池部署了超过3万张高性能计算卡,并且已经接入了上千款应用。这不仅提供了强大的计算能力支持,还为各类AI应用提供了多样化的测试和优化环境。随着AI技术的不断进步,算力需求也在迅速增长,因此,这一大规模算力池的建立将极大地促进AI技术的落地应用,推动各行各业的智能化转型。

中国第一,全球第二,视频大模型领军者生数科技完成超 6 亿元A+轮融资

生数科技作为视频大模型领域的领军者,完成了超6亿元的A+轮融资,显示出资本市场对其技术实力和市场前景的高度认可。生数科技专注于视频领域的深度学习模型,通过先进的算法和强大的计算能力,为用户提供高质量的视频内容生成、编辑和优化服务。此次融资将进一步推动其在技术研发、市场拓展和生态建设方面的投入,有望在2025年实现用户和收入超过10倍的增长,成为中国乃至全球视频AI领域的领导者。

钉钉AI群聊全面升级:每个群聊配备专属助理“AI小钉”

钉钉宣布AI群聊全面升级,每个群聊都将配备专属助理“AI小钉”。这一功能将显著提升群聊的协作体验,通过智能助手的介入,实现自动化管理和智能响应,帮助用户更高效地处理群聊中的事务。AI小钉不仅可以自动识别和归类信息,还能根据上下文提供智能建议和解决方案,为用户提供更加便捷和个性化的服务。这不仅提高了群聊的使用效率,也为未来AI在企业协作中的应用开辟了新的可能。

中东Robotaxi进入“千辆时代”,文远知行携手Uber刷新区域纪录

中东地区的Robotaxi业务进入“千辆时代”,文远知行携手Uber刷新了区域纪录。通过双方的合作,不仅实现了Robotaxi的规模化运营,还显著提高了服务效率和用户满意度。单车日均可完成数十次出行订单,并且已实现盈利。这一成就不仅标志着自动驾驶技术在中东地区的成功落地,也为全球Robotaxi业务的发展提供了重要的参考案例。

李飞飞的反共识判断:大语言模型无法通往AGI,空间智能才是最优路径

新闻图片

李飞飞提出了一个反共识的判断,认为大语言模型无法通往AGI(通用人工智能),而空间智能才是最优路径。她强调语言并不是智能的全部,甚至不是智能的基石。这一观点挑战了当前主流的AI发展方向,指出在追求AGI的过程中,需要更多关注对空间环境的理解和交互能力。这一观点为未来的AI研究提供了新的思考方向,推动了对AI技术本质的深入探讨。

独家对话九识智能联创周清:快速补齐无人车短板,整合是必然

新闻图片

九识智能联创周清在接受采访时谈到,无人车技术的快速发展需要快速补齐短板,整合资源是必然趋势。他预判,5万台无人车的规模,算上研发成本,可实现盈亏平衡。这一观点反映了无人车技术在商业化道路上面临的挑战和机遇。整合资源、提升技术成熟度和降低成本,是无人车走向大规模商用的关键步骤。通过技术进步和资源整合,无人车有望在未来几年内实现商业化落地。

BAT抢食摩尔线程国产溢价

新闻图片

BAT(百度、阿里巴巴、腾讯)三大巨头纷纷布局摩尔线程,试图抢食国产溢价。摩尔线程作为国产芯片的重要代表,其技术实力和市场潜力吸引了BAT的关注。通过布局摩尔线程,BAT不仅能够获得技术上的优势,还能通过国产替代战略获得市场先机。这一竞争态势反映了国产芯片在市场中的重要地位,以及各大科技巨头对技术自主可控的高度重视。

美团 7.17 亿美元全资收购叮咚买菜 为2026即时零售大战先行布局

新闻图片

美团以7.17亿美元全资收购叮咚买菜,为即将到来的2026即时零售大战先行布局。这一收购不仅增强了美团在即时配送领域的竞争力,也为未来的零售市场整合奠定了基础。通过整合叮咚买菜的资源和技术,美团能够进一步优化其配送网络,提升用户服务体验,从而在激烈的市场竞争中占据有利位置。

总结

今日AI领域的主要动向集中在技术革新、应用落地和市场布局等方面。清华大学刘知远团队提出的InfLLM-V2为长上下文大语言模型的研究提供了新思路;安德烈·卡帕西的agentic engineering概念则标志着编程方式的重大变革。此外,AI制药、国产AI算力池、视频大模型、钉钉AI群聊、中东Robotaxi、李飞飞的AGI路径观点、九识智能的无人车整合以及美团收购叮咚买菜等新闻,反映了AI技术在不同领域的广泛应用和深入发展。


作者:Qwen/Qwen2.5-32B-Instruct
文章来源:量子位, 钛媒体, 雷锋网
编辑:小康

Theme Jasmine by Kent Liao