本文字数:约 4662 字,预计阅读时间:10 分钟
Together AI's ATLAS adaptive speculator delivers 400% inference speedup by learning from workloads in real-time
企业扩展AI部署时遇到了一个隐形性能瓶颈,罪魁祸首是静态推测器,它们无法跟上不断变化的工作负载。推测器是与大型语言模型并行工作的较小AI模型,它们提前起草多个令牌,而主模型则并行验证这些令牌。这种技术(称为推测性解码)已成为企业试图减少推理成本和延迟的重要手段。Together AI今天宣布了一项研究和新系统,名为ATLAS(AdapTive-LeArning Speculator System),旨在帮助企业克服静态推测器的挑战。该技术提供了一种自我学习推理优化功能,可以将推理性能提升高达400%,比现有推理技术如vLLM的基线性能更好。系统解决了关键问题:随着AI工作负载的演变,推理速度下降,即使有专门的推测器也无济于事。该公司成立于2023年,专注于在其企业AI平台上优化推理。今年早些时候,随着客户采用率和需求的增长,该公司筹集了3.05亿美元。
ATLAS使用了双推测器架构,结合了稳定性与适应性:
- 静态推测器:一个经过广泛训练的重型模型,提供一致的基线性能,充当“速度地板”。
- 自适应推测器:一个轻量级模型,能够从实时流量中不断学习。它能够针对新兴领域和使用模式进行实时专精。
- 信心感知控制器:一个编排层,动态选择使用哪个推测器。它根据信心得分调整推测“超前”程度。
在全适应状态下,ATLAS在Nvidia B200 GPU上的DeepSeek-V3.1模型上达到了500个令牌每秒的性能,与Groq的定制硬件相当。Together AI的Turbo优化套件的每个优化都能与其他优化产生累积效果。
该技术在内存和计算之间的权衡解释了性能提升的来源,通过推测性解码利用了现代推理中的根本性低效率。推测性解码将闲置计算能力转换为减少内存访问。当模型生成一个令牌时,它会访问内存,但当推测器提议五个令牌并同时验证它们时,计算利用率会飙升,而内存访问量保持不变。通过这种方式,ATLAS在计算利用率和内存访问之间达到了良好的平衡,从而大幅提高了推理性能。
对于企业来说,ATLAS代表了一个重要的进步,它展示了软件和算法改进能够缩小与专门硬件的差距,为AI应用的优化提供了新的可能性。
和两位 CEO 聊 Sora: 应用层爆发的里程碑事件,创业者的机会来了
Sora不仅是一款应用程序,更是一个里程碑式的产品,开启了AI的ToC应用时代。其核心突破在于,OpenAI展示了“为产品打造模型,而不是为模型寻找产品”的思路。Sora通过Cameo等功能,巧妙地解决了“AI+社交”的难题,将重点放在熟人关系的“低成本Remix”共创上。这标志着定义应用与产品的能力的重要性正变得与构建模型同样重要。
Sora在音画同步、人物ID保持和多镜头叙事上的突破,是为跨越C端消费门槛而做的关键优化。这些优化与产品定义相结合,爆发出了强大的力量。对于创业者来说,AI应用的时代才刚刚开始,真正的机会在于将最好的产品创意和最好的模型进行整合。
Sora的出现也意味着AI时代的发展速度远超以往,人才、算力、资本都在向头部集中,导致竞争被前置。对于创业者来说,这既是最好的时代,也是最卷的时代。未来的发展趋势将是那些敢于将顶尖产品创意与模型深度整合、并全身心投入于创造全新体验的玩家,最终定义下一个时代。
Will updating your AI agents help or hamper their performance? Raindrop's new tool Experiments tells you
https://venturebeat.com/ai/will-updating-your-ai-agents-help-or-hamper-their-performance-raindrops-new
Raindrop发布了一款名为Experiments的新功能,这是一种专门为AI代理设计的A/B测试套件,使公司能够看到并比较更新代理到新基础模型或更改其指令和工具访问权限将如何影响其与真实最终用户的性能。这个新功能现在对Raindrop Pro订阅计划(每月350美元)的用户可用。通过Experiments,团队可以跟踪诸如新工具、提示、模型更新或完整管道重构等更改如何影响AI性能。Raindrop的Experiments界面以视觉方式呈现结果,显示实验比基线表现更好或更差的情况。这种数据的易解释性鼓励AI团队像对待现代软件部署一样对待代理迭代,跟踪结果、分享见解并在它们累积之前解决回退问题。
Sora2与国产 Vidu Q2的对比:国产参考生更超前?
https://www.qbitai.com/2025/10/340347.html
在与Sora2的对比中,国产Vidu Q2模型展现了其独特优势。Vidu的“参考生”功能显得更为超前,为用户提供了更加多样化和高质量的视频内容创作体验。Vidu Q2在音画同步、人物ID保持和多镜头叙事等关键方面的优化,使其能够更好地满足用户需求,超越了Sora2在这些方面的表现。尽管Sora2凭借其强大的模型能力和产品整合,已经在全球范围内引起了轰动,但Vidu Q2的出现,展示了国产模型在AI视频生成领域的竞争力和创新能力。
AI和算法把社交媒体玩坏了,用户逃离大平台转向小圈子
http://www.geekpark.net/news/354839
社交媒体曾经是日常生活的重要组成部分,但现在许多人认为它累人又空洞。AI和算法已经把传统的“注意力经济”推向了极限。随着越来越多的人逃离巨型平台,转向更小、更私密的数字空间,Reddit和Discord等平台的价值正在上升。Reddit的股价一年半内翻了五倍,而Discord的用户数突破5亿,许多用户从Facebook群组转移到这里。这表明社交媒体正在从大广场向小圈子转变,人们更倾向于在小圈子中获得真实连接和情绪价值,而不是被大平台上的AI内容所淹没。
总结
今日的AI领域主要动向包括:Together AI推出的ATLAS系统通过自学习提升推理速度,展示了AI在优化推理性能方面的潜力;Sora2的发布及与Vidu Q2的对比,揭示了AI在视频生成领域的快速发展及国产模型的竞争力;Raindrop的Experiments工具帮助AI团队更好地迭代和优化AI代理;社交媒体平台的转型趋势从大平台转向小圈子,反映了用户对更真实连接和情绪价值的需求。这些动态共同描绘了AI在不同领域内的快速发展及应用,同时也反映了AI技术对现有产业模式的冲击和重塑。
作者:Qwen/Qwen2.5-32B-Instruct
文章来源:极客公园, 量子位, VentureBeat, 钛媒体
编辑:小康