本文字数:约 4500 字,预计阅读时间:15 分钟
两个月破 300 万用户,Agnes AI 刷新 Instagram 与 Snapchat 增长纪录
仅用两个月,Agnes AI 打破 Instagram 和 Snapchat 的用户增长纪录。由新加坡国立大学博士团队创立的全民 AI 产品 Agnes,凭借涵盖搜索、研究、图片、视频、PPT、表格等在内的多功能一体化工作流,迅速赢得东南亚、拉美、中东地区知识工作者和年轻用户的青睐,成为消费级 AI 领域的现象级应用。
Agnes AI 于 7 月 14 日正式上线 PC 版,并以核心功能吸引了首批种子用户。9 月移动端 App 推出后,增长势能全面爆发:短短两个月新增注册用户 300 万,日活跃用户突破 20 万。而作为对比,Instagram 达到首个百万用户用了 2.5 个月,Snapchat 则耗时 10.5 个月。
更令人关注的,是其增长背后呈现出的罕见的高留存率:W4 留存率达 40%,W8 留存率仍保持在 30%。换句话说,每 10 位注册用户中,8 周后仍有 3 人活跃使用。在 AI 产品中,属于比较好的水平。增长可以靠营销驱动,而留存只能源于产品本身的核心价值。这表明 Agnes 大量涌入的新用户正在形成稳定的使用习惯。
Agnes 定位「全民 AI 应用」,致力成为普惠的智能基础设施。为了实现这一目标,Agnes 自上线以来一直保持高频功能迭代,不仅整合了用户最常用、最易感知的 AI 功能,还打造出完整的一体化工作流。在实际体验中,用户可以在统一的上下文环境中完成从 AI 搜索、深度调研、图文、表格到 PPT 输出的全流程任务,而无需反复切换工具或重复交代背景。这不仅降低了用户的使用操作门槛,也让 AI 能更好地理解项目全貌,从而生成更准确清晰、更贴合需求的结果。
客观上,Agnes 的基础功能并不算独特,但其在工程实现与底层优化上投入颇深。据悉,Agnes 拥有业内少见的强大记忆能力:不仅能记忆用户对话内容,还能将多模态的生成物储存为记忆。随着使用频次增加,Agnes 会加深对用户习惯与偏好的理解,使生成内容更加精准个性化,成为其高留存的关键之一。在媒体横评中,Agnes 在处理 PPT 等复杂任务时,生成速度与输出质量的整体体验已超越不少主流 AI 产品。
目前 Agnes 用户主要来自东南亚、拉美、中东等新兴市场,核心用户群体有三类,一类是知识密集型工作者,一类是专业的内容创作者,另一类则是 Z 世代年轻用户群体。知识密集型用户普遍面临信息过载的困扰,大量时间被消耗在检索、整理和格式调整等低价值工作中,频繁的工具切换更导致工作流程中断与上下文丢失,严重影响效率。Agnes 所提供的一体化工作流与出色的性价比,恰好精准回应了他们的核心诉求。
Phi-4 proves that a 'data-first' SFT methodology is the new differentiator
AI 工程师经常通过扩大 LLM 参数和数据来追求性能,但转向更小、更高效、更专注模型的趋势正在加速。Phi-4 微调方法是小型企业团队可以复制的最清晰的公共示例。它展示了精心选择的数据集和微调策略如何使 14B 模型与更大的模型竞争。
Phi-4 模型仅训练了 140 万个精心选择的提示-响应对。而不是采用暴力手段,微软 Phi-4 研究团队专注于「可教」示例,即处于模型能力边缘的示例,并且进行了严格的 数据整理。Phi-4 推理智能数据手册展示了如何通过战略数据整理、可复制的 SFT 和 RL 提升 14B 模型,超越更大的同类模型。
为什么 Phi-4 独树一帜?较小的推理模型,如 OpenAI 的 o1-mini 和 Google 的 Gemma,变得越来越普遍,阿里巴巴的 Qwen3 (8B 和 14B) 等模型在各种用例中得到广泛应用。这种采用很重要,但并不能取代 Phi-4 作为实验证明的价值。Phi-4 被设计为一种数据优先训练方法的实验平台,其文档读起来像是团队想要复制这种方法的智能数据手册。Phi-4 团队分享了一个可重复的 SFT 手册,其中包括 140 万个提示响应集。它围绕「可教」边缘示例构建,这些问题既不太容易也不太难,旨在推动模型的推理。每个主题,如数学或编码,都单独调整,然后结合合成重写,将复杂任务转化为可以自动检查的形式。该论文详细描述了数据选择和过滤过程,以便小型团队可以使用开源模型和评估器复制它。对于企业团队而言,这种透明度将研究结果转化为他们可以快速实施和衡量的实际、可复制的培训配方。
传统的 LLM 推理方法通常依赖于大规模扩展数据集以鼓励泛化。Phi-4 推理采取了不同的路径,展示了精心策划的数据可以实现类似甚至更好的结果,而需要的数据量却少得多。团队组装了一个涵盖 STEM、编程和安全的数据集。尽管数据量较小,但它在训练的数据量多出几个数量级的模型中表现出色。
在基准测试中,14B Phi-4 推理模型在大多数推理任务中超越了 OpenAI 的 o1-mini 和 DeepSeek 的 70B 蒸馏模型,甚至在具有挑战性的数学(AIME)问题上接近 DeepSeek-R1 (671B)。Phi-4 推理在与其它领先模型比较的多个基准测试中展示了以下结果:
- AIME 2024(数学奥林匹克):75.3%
- AIME 2025(数学奥林匹克):62.9%
- OmniMath:76.6%
- GPQA-Diamond(研究生水平科学):65.8%
- OmniMath(相同基准,不同比较):76.6%
Phi-4 推理的秘诀在于以质量而非数量来筛选。许多通用数据要么太简单(基础模型已经知道),要么太难(没有学习信号)。Phi-4 团队明确地丢弃这些示例。「鉴于 Phi-4 强大的推理能力,许多初始种子问题已经处理得相当好,」他们指出。「为了使进一步学习产生影响,我们特别针对处于 Phi-4 当前能力边缘的种子问题。」
实际上,他们依赖基于 LLM 的评估。对于每个候选问题,一个强大的参考模型(如 GPT-4)生成一个「答案键」,然后比较较弱模型的答案。如果较弱模型的分歧足够大,这表明存在可教差距。这些问题被保留,而轻易解决或完全无法解决的问题被丢弃。例如,一个简单的算术问题可能会被丢弃(太简单),而一个极其晦涩的定理证明也可能被丢弃(太难)。但是,一个适度具有挑战性的几何问题,如果 Phi-4 答错了,就会被包括进来。这种「黄金地带」方法确保每个示例都能迫使模型扩展其推理能力。通过关注多步骤问题而不是死记硬背,他们在一个 1.4M 示例中注入了最大化的学习。
作者解释说,训练这些精心选择的种子「导致了在推理特定任务和通用任务上的广泛泛化。」事实上,Phi-4 推理证明了智能数据选择可以胜过暴力扩展。独立领域优化Phi-4 推理的数据按领域(数学、编程、谜题、安全等)分组。团队不是同时混合所有内容,而是单独调整每个领域的混合,然后再合并它们。这依赖于「叠加属性」:在孤立地优化数学数据和编程数据时,所得权重在连接后仍能在这两个领域中获得收益。实际上,他们首先对数学数据集进行饱和调优以满足数学基准,然后对编程数据进行同样的调优,最后简单地将编程数据添加到数学配方中。结果是在数学和编程任务上的性能都得到了提升,而无需从头开始重新训练。
这种模块化方法提供了明确的实际优势。这意味着一个小型团队可以首先仅调整数学数据集,实现强大的数学性能,然后稍后添加编程数据集,而无需重新进行数学调优。然而,Phi-4 作者警告说,将这种方法扩展到许多领域仍然是一个开放问题。虽然这种方法「对于他们的数学+编程组合非常有效」,但他们指出「目前还不知道这种方法是否可以扩展到几十个或数百个领域」,他们认为这是一个未来研究有价值的方向。简而言之,叠加策略是有效的,但扩展到新领域必须谨慎进行,因为它可能会引入不可预见的交互作用。尽管存在潜在陷阱,叠加策略在 Phi-4 推理中证明是有效的。通过独立处理每个领域,团队避免了复杂的联合优化,并缩小了数据混合的搜索空间。这种方法允许领域增量扩展。团队可以先调优数学 SFT,然后加入编程数据集,然后扩展到其他专业任务,同时保持先前的性能提升。
这对资源有限的团队来说是一个实际优势。不需要一个庞大的专家团队来管理复杂的多领域数据集,一个小团队可以一次专注于一个数据孤岛。合成数据转换一些推理问题,如抽象证明或创造性任务,很难自动验证。然而,自动验证(用于 RL 奖励塑造)非常有价值。Phi-4 推理通过将难以验证的问题转换为更容易检查的形式来应对这一问题。例如,团队将一部分编程问题重写为文字谜题或将某些数学问题转换为简洁的数字答案。这些「合成种子数据」保留了底层推理挑战,但使正确性更容易测试。可以将其视为给模型一个简化的谜题版本,但仍然教授相同的逻辑。这种工程技巧使下游 RL 能够在原本过于开放的任务上使用清晰的奖励信号。以下是合成数据转换的一个示例:
- 原始网页数据:三角形 ABC 的边 AB 和 BC 上分别取点 M 和 N。结果,△AMC 的周长等于 △CNA 的周长,而 △ANB 的周长等于 △CMB 的周长。证明 △ABC 是等腰三角形。
- 合成数据:ABC 是一个三角形,AB=13,BC=10。三角形 ABC 的边 AB 和 BC 上分别取点 M 和 N。结果,△AMC 的周长等于 △CNA 的周长,而 △ANB 的周长等于 △CMB 的周长。AC 是多少?
通过这种方式,Phi-4 模型展示了如何通过精心策划的数据和训练设计超越更大的模型。
阿里云,用全栈 AI 刷新第十七个双十一
电商江湖的风云变幻中,2025 年的双十一故事有些不同寻常。最直观的变化就是随着大促周期继续拉长,规则却删繁就简,用户参与门槛被极大降低。同步发生变革的是场景的重构:随着淘宝闪购加入,外卖等即时消费场景与电商的深度融合,大促参与人数进一步提升,据易观分析统计,10 月 15 日天猫双 11 开启当天,APP 日活跃用户(DAU)便攀升至 6 亿,创下历史峰值。相应的,过往集中于晚间 8 点至 10 点的购物高峰,也正式演变为午间 12 点外卖即时消费、晚间 8 点传统购物的双峰格局,对系统的流量调度能力提出了全新要求。
今年也是阿里从芯片到云到 PaaS 到大模型,再到顶层 agent 等全栈 AI 能力接入的首个双 11——世界范围内,从未有过如此大规模生产场景 AI 落地。场景变化,用户量增加,叠加全栈 AI 接入——当双 11 技术备战进入第 17 个年头,其意义早已超越一次促销的技术保障。这既是阿里云一年练兵成功的交卷日,也是在回答一个关于产业 AI 落地、云服务基础设施当下天花板究竟在哪里的终极设问。
今年 8 月左右,淘宝闪购、飞猪、饿了么并入电商事业群,业务联动产生的化学反应远超想象。原本大家都以为,这次外卖大战,是 9 亿活跃用户的淘宝,作为超级入口降维打击外卖,最终现实却变成了是日订单峰值突破 1.2 亿单的外卖需求,直接在 8 月便拉动手淘日活用户增长 20%。如果只是业务合并,带来了流量峰值与用户活跃时间变化还只是小问题,但此时,距离双 11 这个电商行业的春晚,只剩短短 2 个月。是的,今年的双 11,十月下旬就开始了。
两大因素叠加,导致节点激增、互访增多,云基础设施 VPC 内的转发网关(XGW)承载量急剧上升,网元消耗量也呈指数级增长,原本看似充裕的 180 万容量 VPC,可能瞬间就会被推到崩溃边缘,撞墙风险一触即发。阿里云团队迅速进入战时状态,从软件角度,提出了「云网关级联方案」:在不影响现有业务的前提下,基于软硬协同技术,通过在网关层扩展多级流表、打通超大 VPC 的逻辑互联,使网络容量实现弹性扩张,成功将单 VPC 容量拉升至 200 万,提前化解了双 11 的网络瓶颈。
VPC 瓶颈的突破,如同打开了算力世界的潘多拉魔盒。基于第八代和第九代 ECS 实例的业内首个千万核 CPU 集群得以组网。而通过这个统一资源池 + 智能调度层,算力的精准分配与高效利用得以实现,面对突如其来的流量洪峰,阿里云也成功支撑天猫双 11 和闪购两大业务双峰的丝般顺滑。同时,随着 CIPU(云基础设施处理器)的不断演进和规模化部署,今年双 11 上线了千万核 CPU 算力,规模的数量级的扩展标志着阿里云基于 CIPU 架构的算力进入了全新的发展阶段。技术的突破,又进一步换来了双 11 的丝滑购物和下单体验。
前些年,用户参与双 11,尤其是超级热门主播的抢购,偶有不顺畅,例如加购物车却半天无法付款,或者卡在产品页面,没办法选择心仪的尺寸。但是今年双 11,不仅打开 APP 打开、操作更顺畅,推荐、营销等核心场景性能提升 30%-50%,RT 延时降低更是超 30%,每一次添加、删除操作都能即时反馈。阿里云,又一次稳住了双 11 的顺利落地。
今年双 11,AI 全面渗透各个环节,被认为是首个 AI 全面落地的双 11。从消费者端的「AI 万能搜」「AI 帮我挑」,到商家端的智能客服、经营分析,再到平台端的搜索、推荐引擎体系,大模型在整个电商体系中占据了举足轻重的地位。在商家侧,AI 正在成为重要的生产工具,淘宝基于 Qwen3 家族多款模型打造和升级了生意管家、店小蜜等应用。以生意管家为例,其 AI 数据分析师为商家提供经营数据分析,可覆盖 90% 的中小商家核心分析场景,大幅提升分析和决策效率;此外,全新升级的店小蜜能精准连贯理解用户意图、调用平台以及商家工单系统、自动化处理售后问题。
面向商品出海场景,包括通义 Qwen-MT 在内的多个翻译模型,支持了淘宝出海的商品翻译需求。据介绍,通过采用混合专家架构与服务调度优化,Qwen-MT 单次调用延迟降低 40%,为全球用户提供快速、精准、稳定的翻译服务。今年双 11,该模型系统支持了亿级商品的图片、评价、商品详情等翻译任务,单日调用量超 14 亿次。这些改造不仅提升了用户体验,更让商家经营效率实现了前所未有的提升。
从结果来看,大模型在这届天猫双 11 中确实打了一场漂亮仗,但这背后的云基础设施能力则是这场仗的另一个胜负手。要在淘宝这个数亿用户的超级 APP 上,支撑如此大规模的 AI 应用,并非易事,在这场看不见硝烟的战争中,智算调度成为决胜关键。多级亲和性与拓扑感知调度设计依次上线。为了实现了卡间互联路径更短、带宽更优,为双 11
作者:Qwen/Qwen2.5-32B-Instruct
文章来源:量子位, 极客公园, VentureBeat, 钛媒体
编辑:小康

