本文字数:约 2700 字,预计阅读时间:10 分钟
Why most enterprise AI coding pilots underperform (Hint: It's not the model)
生成式AI在软件工程中已经远远超越了自动完成功能。新兴的前沿领域是代理编码:能够规划更改、在多个步骤中执行更改并根据反馈进行迭代的AI系统。然而,尽管对“能够编码的AI代理”充满期待,大多数企业的部署却表现不佳。限制因素不再是模型本身,而是上下文:被更改代码的结构、历史和意图。换句话说,企业现在面临的是系统设计问题:他们尚未设计出这些代理可以运作的环境。
从辅助到代理的变化在过去一年中,从辅助编码工具到代理工作流程的转变迅速。研究开始正式定义代理行为:在设计、测试、执行和验证方面进行推理,而不仅仅是生成孤立的代码片段。像动态动作重采样这样的工作表明,允许代理分支、重新考虑和修订自己的决定,显著改善了大型、相互依赖的代码库的产出。在平台层面,GitHub等供应商正在建立专门的代理编排环境,如Copilot Agent和Agent HQ,以支持真实企业管道中的多代理协作。
但早期的现场结果讲述了一个警告故事。当组织引入代理工具而不解决工作流程和环境时,生产力会下降。今年的一项随机对照研究显示,使用AI辅助的开发者在未改变的工作流程中完成任务的速度更慢,主要由于验证、返工和意图混淆。教训是:没有编排的自治很少能提高效率。
为什么上下文工程才是真正的突破口在每个不成功的部署中,失败都源于上下文。当代理缺乏对代码库的结构化理解,特别是其相关模块、依赖关系图、测试套件、架构约定和变更历史时,它们往往生成看似正确但与现实脱节的输出。过多的信息会淹没代理;信息不足则迫使其猜测。目标不是向模型输入更多token,而是确定代理应该何时以何种形式可见的信息。
看到实质性收益的团队将上下文视为一个工程表面。他们创建工具以快照、压缩和版本化代理的工作内存:哪些信息在多个回合中被持久化,哪些被丢弃,哪些被总结,哪些被链接而不是内联。他们设计了审议步骤,而不是提示会话。他们使规范成为首要成果,可以审查、测试和拥有,而不仅仅是一个瞬时的聊天历史。这种转变符合一些研究人员描述的“规范成为新的真理来源”的趋势。
工作流程必须随着工具的变化而变化但仅上下文是不够的。企业必须重新设计围绕这些代理的工作流程。正如麦肯锡2025年的报告《代理AI的一年》所指出的,生产力的提高不是将AI层叠在现有流程之上,而是重新思考流程本身。当团队将代理简单地放入未改变的工作流程中时,他们邀请摩擦:工程师花费更多时间验证AI生成的代码,而不是自己编写代码。代理只能放大现有的结构:经过良好测试、模块化的代码库,具有清晰的所有权和文档。没有这些基础,自治就会变成混乱。
企业决策者现在应该关注什么对于技术领导者,前进的道路始于准备而不是炒作。测试稀疏的单体很少产生净收益;代理在测试权威并能驱动迭代改进的地方蓬勃发展。这正是Anthropic对编码代理所强调的。试点在严格限定的领域(测试生成、遗产现代化、孤立的重构);将每个部署视为一个具有明确指标的实验(缺陷逃逸率、PR循环时间、变更失败率、安全发现的烧尽)。随着使用量的增长,将代理视为数据基础设施:每个计划、上下文快照、行动日志和测试运行都是可以存储、索引和重用的结构化数据形式。随着这些代理的普及,企业将发现自己管理着一个全新的数据层:一个不仅捕捉到构建了什么,还捕捉到如何推理的数据层。这种转变将工程日志转化为意图、决策和验证的知识图谱。随着时间的推移,能够搜索和重放这种上下文记忆的组织将超越那些仍把代码视为静态文本的组织。
下一个12至24个月内,赢家将不是拥有最炫酷模型的团队,而是那些将上下文设计为资产并将工作流程视为产品的团队。做到这一点,自主性会成倍增加。忽略这一点,审查队列会崩溃。
ACL Fellows 2025名单公布:西湖大学张岳与UIUC季姮入选
ACL 2025年会公布了新一届ACL Fellow的名单,西湖大学张岳与UIUC季姮入选。ACL Fellow是计算语言学与自然语言处理领域最权威的国际学术组织ACL授予个人的最高荣誉,入选者均在该领域做出了卓越贡献。
张岳教授是西湖大学工学院智能科学与技术讲席教授,专注于自然语言处理和信息检索。季姮教授是UIUC计算机科学系助理教授,她的研究重点是自然语言处理和机器学习。两位教授的入选不仅代表着他们在各自领域的成就,也反映了他们在推动自然语言处理技术发展方面的杰出贡献。
NeurIPS 2025 | 告别全量扫描!浙大提出COIDO:破解多模态数据选择「高耗」难题
浙江大学研究团队在NeurIPS 2025上提出了一种名为COIDO的方法,旨在解决多模态数据选择中的高计算成本问题。COIDO通过创新的策略显著减少了数据处理所需的计算资源,使得多模态数据处理变得更加高效。这一方法不仅在理论上有重大突破,而且在实际应用中展现了巨大的潜力。
GPT-5.2已上线24小时:差评如潮!
由OpenAI开发的GPT-5.2在上线24小时内便收到了大量差评。用户反馈主要集中在其性能表现和稳定性上,与前一版本相比并未有显著提升。这反映出随着技术的发展,用户对AI模型的期望也在不断提高,同时对模型的质量提出了更高的要求。
AAAI 2026 Oral | 拒绝「一刀切」!AdaMCoT:让大模型学会「看题下菜碟」,动态选择最佳思考语言
在AAAI 2026大会上,一项名为AdaMCoT的研究展示了如何让大模型动态选择最佳思考语言。该研究提出了一种自适应机制,使得模型可以根据任务的具体要求选择最适合的思考语言。这一创新不仅提升了模型的灵活性,也展示了在处理多语言任务时的大模型潜力。
天桥脑科学研究院成立尖峰智能实验室,推动类脑大模型发展
天桥脑科学研究院宣布成立尖峰智能实验室,致力于类脑大模型和脉冲神经网络的研发,探索人工智能与人类智慧的深度融合。这一实验室的成立标志着在模拟人脑功能的AI研究上迈出了重要一步,为未来AI技术的发展提供了新的方向。
半世纪难题48小时破解!陶哲轩组队把AI数学玩成打怪游戏了
陶哲轩带领的研究团队利用AI技术,在短短48小时内破解了困扰数学界半个世纪的难题。这一成就展示了AI在解决复杂数学问题上的潜力,也为未来的数学研究提供了新的工具和方法。
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25
北京航空航天大学的研究团队在NeurIPS 2025会议上提出了一个面向空天具身智能的星座规划新基准。该基准内嵌了物理约束,能够实现对卫星星座的调度和管理。这一研究不仅推动了空天领域智能技术的发展,也为未来的航天任务提供了新的规划方法。
告别「盲目自信」,CCD:扩散语言模型推理新SOTA
CCD(Confidence Calibration and Decoding)是一种新的扩散语言模型推理方法,通过校准和解码过程,显著提升了模型的推理能力。这一方法在多个任务上实现了新的SOTA,展示了在提高模型性能和可靠性方面的潜力。
总结
今日AI领域的主要动向集中在了企业级AI编码工具的部署、ACL Fellow的公布、多模态数据处理方法的创新以及AI在数学和航天领域的应用。这些进展不仅展示了AI技术在各个领域的广泛应用,也反映了其在提升模型性能和解决复杂问题方面的潜力。未来,AI的发展将继续推动技术的创新,为各个行业带来新的机遇和挑战。
作者:Qwen/Qwen2.5-32B-Instruct
文章来源:VentureBeat, 钛媒体, 量子位, 机器之心
编辑:小康
