【20250412AI日报】Anthropic AI 最新研究成果发布：揭示大模型中的注意力回路

本文字数：约 8900 字，预计阅读时间：15 分钟

重点新闻

Anthropic AI 最新研究成果发布：揭示大模型中的注意力回路
语言模型如何“理解”特定词汇或概念？近日，Anthropic研究团队发布了一种揭示语言模型底层机制的方法。他们通过构建“归因图”展示了模型处理特定问题时的内部路径和逻辑。例如，对于输入“Fact: Michael Jordan plays the sport of __”，模型在处理“plays”和“sport”时，激活了与“basketball”相关的特征，从而推断出“basketball”作为正确答案。研究方法包括两步：首先，将特征作为识别模型计算中使用的可解释基础单元；其次，描述这些特征如何通过过程或回路相互作用以产生模型输出。Anthropic利用一种称为“跨层转码器（CLT）”的方法，将模型的原始神经元替换为稀疏激活的特征，从而创建一个可解释的替换模型。CLT的特征在多个层中激活，能够重建模型的MLP输出。此外，团队还开发了交互式归因图可视化界面，帮助研究人员追踪图中的关键路径，理解模型在特定提示下的行为。这项研究有望提高大模型的可解释性和透明度，为理解AI决策过程提供新方法。Anthropic团队表示，尽管该方法在揭示模型内部机制方面取得了进展，但仍存在一些局限性，例如归因图的复杂性以及对某些机制解释的不足。此外，团队正在探索无监督方法识别关键抑制特征，以解决非活动特征对模型输出的影响问题。总体来说，这项工作为AI领域的机制解释性研究带来了新的思路和工具，有助于提升人工智能系统的透明度和信任度。

其他新闻

斯坦福 AI 指数报告发布：2024年美国 AI 私人投资约为中国的 12 倍、GPT3.5 级别模型推理成本下降 280 倍

新闻图片

斯坦福大学的最新AI指数报告揭示了2024年AI领域的关键趋势。报告指出，美国在AI私人投资方面遥遥领先，投资额为1091亿美元，远超中国的93亿美元。此外，AI模型的推理成本显著下降，GPT3.5级别的模型推理成本从2022年11月到2024年10月下降了280倍。该报告还指出，企业界在AI研究中占据主导地位，贡献了90%的知名AI模型。然而，尽管模型规模不断扩大，模型之间的性能差距却在缩小。此外，闭源与开源模型之间的性能差距也有所减小。AI基础设施的快速发展，包括硬件成本的降低和能效的提高，推动了AI技术的发展和普及。然而，AI技术的应用也引发了一些伦理和隐私问题，需要进一步的研究和监管来确保技术的健康发展。总的来说，该报告为AI领域的未来发展提供了重要的参考和指引。

Gemini 大模型逆袭，给了 Google Cloud「AI 基建」的勇气

新闻图片

Google Cloud Next 2025大会展示了Google在AI领域的最新进展。会上，Google Cloud发布了全新的Gemini 2.5 Flash模型，其特点是高效、动态可调。此外，Google还推出了一系列针对推理模型优化的新工具和硬件，包括Vertex AI平台的更新和首款专为推理设计的第七代TPU Ironwood。Ironwood TPU具备高计算能力和能效，旨在满足大型语言模型等复杂任务的需求。Google还宣布了Agent2Agent协议，旨在实现不同AI代理之间的有效通信，进一步推动AI生态系统的互操作性。这些更新使Google Cloud在AI基础设施领域占据了领先地位，为用户提供了一站式解决方案，从而加速了AI技术的普及和应用。此次发布不仅展示了Google Cloud的技术实力，也为AI领域带来了新的发展方向。

对话UCL青年教授赵湖斌：可穿戴式DOT如何重塑脑机接口

伦敦大学学院（UCL）助理教授赵湖斌介绍了一种新型的非侵入式脑机接口技术——可穿戴DOT。该技术通过功能性近红外光谱成像（fNIRS）和漫射光学层析成像（DOT），能够在不进行开颅手术的情况下监测大脑活动。赵湖斌团队开发了模块化设计，利用LED光源和探测器，解决了传统fNIRS深度有限的问题，实现了三维成像。该技术具备实时监测大脑健康状态、信号纯净度高、抗干扰能力强等优点，可以应用于多种医疗场景，如脑卒中康复、抑郁症等。此外，赵湖斌还提到，团队正在研发新的可穿戴集成DOT-EEG技术，预计在未来几年内进入临床应用。这项技术有望为脑机接口领域带来革命性变化，提高脑部疾病的诊断和治疗效果。

阿里 AI 实力获斯坦福权威报告盖章！通义千问贡献排名全球第三、中国第一

斯坦福大学人工智能研究所发布的最新报告中，阿里巴巴在AI领域的贡献得到了高度认可。报告指出，阿里在2024年度全球重要大模型中贡献了6个模型，排名全球第三、中国第一。这些模型包括Qwen-72B、Qwen1.5-72B等，涵盖了文本生成、语音理解等多个领域。阿里通义实验室已开源200多款模型，Qwen系列模型在全球范围内产生了广泛影响。报告还指出，阿里在AI领域的持续投入和技术进步，使得中国AI模型的性能差距显著缩小。阿里CEO吴泳铭宣布未来三年将在AI和云计算领域投入3800亿元人民币，加速云和AI硬件基础设施建设。阿里AI技术的快速发展，不仅提升了中国在全球AI领域的竞争力，也为推动AI技术的广泛应用和商业化做出了重要贡献。

ChatGPT 的这个更新，竟然 Sam Altman 兴奋到睡不着觉？

OpenAI首席执行官Sam Altman宣布了ChatGPT的一项重要更新——记忆功能的升级。这一更新使ChatGPT能够引用用户的所有历史对话，增强了其个性化和实用性。Altman表示，这项功能预示着AI系统能够逐渐了解用户，变得非常有用且个性化。新记忆功能将首先面向ChatGPT的Pro和Plus订阅用户推出，但不包括英国、欧盟国家等地区，因为这些地区需要额外的外部审查。此外，Altman还透露，OpenAI计划在未来几个月内发布GPT-5。尽管用户可以期待新功能的推出，但Altman也提醒用户，可能会遇到服务变慢和功能故障等问题，因为公司正在应对容量挑战。这一系列更新标志着ChatGPT在用户体验上的重大进步，也展示了OpenAI在AI技术上的持续创新。

Now it’s TikTok parent ByteDance’s turn for a reasoning AI: enter Seed-Thinking-v1.5!

TikTok的母公司字节跳动（ByteDance）推出了一个新的AI系统——Seed-Thinking-v1.5，该系统在推理和逻辑能力方面表现出色，甚至在某些测试中超过了DeepSeek R1，显示出其在处理逻辑和数学密集型挑战方面的能力。这一成果标志着字节跳动在AI领域的又一重要突破，特别是在提升AI系统推理能力方面。该系统的推出为AI技术在复杂推理任务中的应用开辟了新的可能性，有望在多个领域推动技术进步和创新。VentureBeat的报道指出，随着AI技术的不断发展，各大科技公司都在努力提升其AI系统的推理能力，以应对日益复杂的任务需求。字节跳动的这一新成果无疑为AI领域带来了新的竞争动力。

传统预训练正走向终结，推理优化与后训练提升有限，大模型今后如何突破发展瓶颈？

传统预训练方法在大模型的发展中面临着瓶颈，推理优化和后训练提升的效果有限。为了突破这些瓶颈，研究人员正在探索新的方法和技术。例如，通过引入更高效的训练算法和优化策略，以及利用更先进的硬件基础设施，以提高模型的训练效率和性能。此外，研究还集中在开发更加灵活和模块化的模型结构，以便在不同的任务和场景中实现更好的适应性和泛化能力。未来，随着跨学科合作和技术进步，大模型有望在推理能力和应用领域取得更大的突破，为人工智能技术的发展带来新的动力和方向。这些突破不仅有助于提升模型的性能，也将推动人工智能技术在实际应用中的广泛推广和普及。

GamesBeat Summit 2025 speakers will help us navigate back to growth | The DeanBeat

GamesBeat Summit 2025将于5月19日至20日在洛杉矶的Marriott Marina del Rey举行，届时将有来自游戏行业的专家和领导者齐聚一堂，探讨如何引领行业重回增长之路。此次峰会旨在通过分享行业洞见、最佳实践和未来趋势，帮助与会者找到创新和发展的新方向。活动将涵盖游戏设计、市场策略、技术创新等多个方面，为游戏开发者和相关从业者提供宝贵的交流平台。随着游戏行业的不断发展和变化，此次峰会将成为推动行业前进的重要契机，助力参与者把握未来趋势，实现业务增长。

总结

今日AI领域的主要动向集中在模型的优化、成本的降低以及技术的创新。Anthropic团队通过构建归因图揭示了大模型中的注意力回路，为理解AI决策过程提供了新思路；斯坦福AI指数报告揭示了中美AI投资差距和模型推理成本的大幅下降；Google Cloud在AI硬件和软件工具方面持续创新，提升了AI系统的实用性；阿里巴巴在AI模型贡献和应用方面取得了显著进展，提升了中国在全球AI领域的竞争力；OpenAI通过升级ChatGPT的记忆功能增强了用户体验；字节跳动推出的推理AI系统展示了其在AI领域的技术实力。这些进展共同推动了AI技术的发展，为未来应用提供了更多的可能性。

作者：Qwen/Qwen2.5-32B-Instruct
文章来源：极客公园, 机器之心, 钛媒体, VentureBeat, 雷锋网
编辑：小康