本文字数:约 8300 字,预计阅读时间:25 分钟
大模型时代,百度智能云迎来最大机会
春节以来,DeepSeek的爆火点燃了AI产业化的加速引擎,但AI的真正落地远不止于技术突破,更是对基础设施和生态系统的巨大考验。
从模型的训练到应用的部署,从单一技术到全产业链的协同,AI产业的每一次进步都离不开强大的支撑系统。这背后的推动力正是大模型浪潮,它正深刻改变着云计算领域的竞争格局。
在这一进程中,阿里云、百度智能云、火山云等云厂商正形成新一轮的竞争态势。各大厂商纷纷将目光投向大模型能力的打造与AI基础设施的完善,抢占AI产业的新高地。特别是在企业级AI Agent的需求激增下,2025年这一领域成为了AI落地的重点方向之一。
然而,虽然AI的应用潜力巨大,企业在实际落地过程中却面临着重重挑战。场景选择难、技术门槛高、成本控制难、规模化部署复杂等问题,成为制约企业快速部署AI技术的关键痛点。
要解决这些问题,AI不仅仅需要技术上的突破,更需要一个高效且可扩展的基础设施与完善的生态体系作为支撑。
百度智能云在AI全栈能力上的升级不仅是技术突破,更是大模型时代的全新蓝图。通过开放算力、简化模型开发、加速应用落地,百度为企业和伙伴扫清AI部署障碍。在2025年企业级AI Agent重塑生产力的浪潮中,百度智能云以全栈能力,确保AI从「模型的世界」迈向「应用的天下」,成为产业智能化的核心引擎。
百度智能云的全栈AI能力,以系统化的解决方案重新定义了企业落地大模型的路径,企业得以把「创造的能力」发挥到淋漓尽致。其系统级能力不仅解决了算力成本高、技术门槛大等具体痛点,更让企业能够基于自身数据和业务逻辑,快速构建定制化AI应用,释放创新潜能。
百度智能云通过千帆数据智能平台提升数据迭代效率,通过开放生态整合技术与行业资源,真正助力企业跨越场景选择难、规模化部署复杂的瓶颈。
当大模型进入多模态融合阶段,百度智能云的系统级优势愈发明显。从昆仑芯算力底座到千帆开发平台,从定制化行业模型到高度场景化的应用,每个环节都在为智能技术的深度融合与创新提供源源不断的动力。
如今,百度智能云不仅以千帆平台等全栈系统级能力为企业AI落地构筑坚实底座,更通过与全球伙伴的深度协作,打破技术壁垒,构建“乐高积木”式开放生态,让开发者与企业能够灵活组合AI能力,释放创新潜能。
这种战略转型,彰显了百度智能云对AI普惠化与产业化趋势的深刻洞察,以及推动技术普及、赋能千行百业的坚定决心。技术创新与开放生态的结合,也为百度智能云在大模型时代提供了前所未有的优势,使得它能够在各个行业中加速AI的应用和智能化升级,成为引领行业变革的重要力量。
「拍照问夸克」,从「Know-What」到「Get it Done」的跃迁
作为 2025 年动作最多的 AI 产品之一,夸克近期在发布了「AI 超级框」后,又带来了新的 AI 多模态入口——拍照问夸克。
作为手机相比其他 AI 硬件来讲,拍照是让手机自始至终留在 AI 最前线的原因,围绕手机相机这个入口,不断涌现出优秀的 AI 原生应用。
夸克上线「拍照问夸克」时,作者刚好在中国台湾出差。就在上周,夸克 App 不仅登顶中国台湾地区 App Store 工具排行榜,甚至还登上了免费应用榜第二名,意外成为宝岛用户们追捧的热门应用,甚至在中国台湾岛内引发了关于 AI 产品的不小话题度。
在体验中,夸克 AI 相机的能力提供了一个解读物理世界的统一入口,例如博物馆、展览等场所,一直是 AI 相机聚焦的核心用户场景。搜图本身就是夸克一直以来的优势领域,对于最关键的问题——识别物体「是什么」,夸克有着几乎是市面上最好的识别准确度。
在博物馆参观时,由于夸克 AI 相机支持一次上传/拍摄最多 10 张图进行智能交叉分析,因此可以快速生成总结多图中的所有展品内容,自动帮用户生成可以发朋友圈/小红书的文案。
夸克 AI 相机还能够准确识别中国台湾现实世界复杂场景,并进行深度推理,比如模糊照片信息的搜索。夸克依托对原图的检索匹配能力,准确识别到了正确图片原图拍摄地址。
夸克 AI 相机通过多轮图片问答,让作者可以针对一些基于图片产生的复杂问题,进行连续追问和深度对话。通过结合多模态视觉理解和深度思考模型,将手机相机入口升级为全场景智能体入口。
夸克 AI 相机的「好用」,不仅是因为其对应场景下百亿级语料和专业文库等支持,确保图像解析和意图识别精准度行业领先;同时借助过去夸克文搜图时代积累下的大量图片数据库和对图片的语义理解,夸克 AI 实物识别的任务处理中,能提供比同类产品更精准的信息反馈,以及主动提供更加精准匹配用户潜在需求的服务。
夸克 AI 相机的「好用」不仅在于其对图像解析的精准度,还在于它能通过多轮图片问答和深度对话,解决更多以往文本交互难以高效解决的问题,体现了 AI 相机在用户交互体验上的进步。
当前,AI 应用为王的趋势已经变得愈发明显,但真想要打造爆款,甚至是改变用户使用相机乃至搜索引擎的习惯,其实还是在比的,是 UI 之下,大模型厂商对 Agent 的整合能力。从基础模型到最终产品,大模型厂商还有很多工作要做。而「拍照问夸克」能力想要交付给用户的真正核心体验,是夸克能够通过自主决策理解用户意图,满足用户延伸出来的各种碎片化需求。
阿德莱德大学吴琦:VLN 仍是 VLA 的未竟之战丨具身先锋十人谈
2018 年 6 月,在澳大利亚机器人视觉研究中心(ACRV)做博士后研究员的吴琦和博士生 Peter Anderson 首次将 VL(视觉-语言)和彼时机器人领域主流的导航方向联系起来,在 CVPR 2018 发表了第一篇 VLN(视觉-语言-导航)工作。
接着,Abhishek Das 作为一作发表的“EmbodiedQA(具身问答)”又让“Embodied”一词走入科研视野。一个月后,一年一度的 NLP 领域顶会 ACL 在冬季的墨尔本召开。
在火热的会场里,吴琦、Peter Anderson 和 Abhishek Das 举办了一场题为“将语言和视觉与动作联系起来”的 tutorial,真正地开启了 VLA(视觉-语言-动作)这个全新领域。
吴琦本科毕业于中国计量大学信息与计算科学专业,在英国巴斯大学完成硕士和博士后,又到澳大利亚阿德莱德大学做了3年的博士后研究,并在2018年开始留校任教。
目前他正在澳大利亚阿德莱德大学任副教授,带领自己的实验室“V3A Lab”,还在澳大利亚机器学习研究中心(AIML)里担任视觉与语言研究方向的实验室主任。
聊到具身智能与 VLA,吴琦表示 VLA 不应局限于上半身的操作任务,“很多人认为导航问题已经被解决,manipulation 更好和产业结合并落地,但其实 VLN 仍有很多尚待突破的空间。”
从2018年至今,VLA 已摇身一变成为当下具身智能领域内最火热的话题,海内外诞生了英伟达的 GROOT N1、Figure AI 的 Helix、Physical Intelligence 的 π0、清华的 RDT 等机器人 VLA 模型。
而开启了新领域的吴琦,则选择在 VLN 方向上继续扎根,并从去年开始着力于一系列真机研究。
吴琦认为,VLA 的大热其实是产业和学术发展的双重结果。从产业视角来看,任何落地场景均需处理多模态输入,并依赖一个 high level 的推理模型辅助完成复杂的规划与行为决策。人类大脑的工作机制即是典型例证——通过整合视觉、听觉、触觉等多模态感知信息,经中枢神经处理后生成具体动作指令,这一整合决策过程在日常场景中不可或缺。
VLN 作为导航任务本身可能是简单的,但视觉语言导航(VLN)还是比较难的。现有的扫地机器人很难做到根据指令去清理特定区域,而 VLN 能实现的是——给一个指令让它去餐桌附近清理食物,它能利用这信息知道,先导航到厨房餐桌的位置,使用视觉信息找到食物残渣位置,只去清扫这一块区域。
目前,吴琦实验室已经实现了这些功能,对这个技术感兴趣的扫地机器人或家用机器人公司,也可以和他们联系讨论。
吴琦认为,动态场景带来最大的影响就是之前基于slam建图式的导航不再适用了,提前利用地图信息规划好的导航路线因为动态场景可能不再能完成任务。这个时候就需要类似于 VLN 的技术来辅助,就是利用当前的视觉信息以及最初的语言指令,来做出短程的导航路径规划,甚至是只预测下一步往哪里走,而到了下一步,再结合信息做出新的预测。
当前具身智能领域里大家对操作任务的热情高涨,但吴琦更关注具身导航。他认为,如果认为具身行动就是和上半身有关的抓取或 manipulation,其实是没有真正思考清楚什么是具身智能。真正的具身智能,AI agent 需具备看、听、说、行动和推理五项基本能力,再能将模拟的机器人解决方案迁移到真实的机器人和现实世界中。
Meta unleashes Llama API running 18x faster than OpenAI: Cerebras partnership delivers 2,600 tokens per second
Meta partners with Cerebras to launch its new Llama API, offering developers AI inference speeds up to 18 times faster than traditional GPU solutions, challenging OpenAI and Google in the fast-growing AI services market.
Meta's new Llama API is a significant step forward in the world of AI services, providing developers with an incredibly fast and efficient way to perform AI inference tasks. By partnering with Cerebras, Meta is able to deliver a solution that is not only faster than traditional GPU-based systems but also more cost-effective.
The Cerebras Wafer Scale Engine (WSE) is at the heart of this new API, which allows for the processing of up to 2,600 tokens per second. This is a remarkable achievement, especially when compared to the performance of other leading AI models like those from OpenAI.
The Llama API's impressive speed and efficiency make it a game-changer for developers looking to integrate AI into their applications. It can be used for a wide range of tasks, including natural language processing, image recognition, and more. This partnership between Meta and Cerebras is likely to have a significant impact on the AI services market, as it provides a compelling alternative to existing solutions.
人人可用的超级智能体!100+MCP工具随便选,爬虫小红书效果惊艳
本文介绍了人工智能超级智能体的概念,强调了MCP工具的广泛应用和其带来的便利性。MCP工具能够帮助用户从大量的数据中提取有用信息,特别提到其在爬虫技术中的应用,如在小红书上抓取数据的效果令人印象深刻。这一技术不仅提高了数据处理的效率,还为用户提供了更多样化的数据获取方式,展示了人工智能在提升工作效率和数据分析能力方面的潜力。
Tripp launches Kōkua AI as mental wellness coach across multiple platforms
Tripp launched Kōkua AI, a mental wellness guide designed to deliver real-time, personalized emotional support across multiple platforms. This innovative AI solution aims to provide users with a convenient and accessible way to manage their mental health.
Kōkua AI leverages advanced natural language processing and machine learning algorithms to understand user needs and provide tailored advice and coping strategies. The AI can be accessed via various platforms, including mobile devices, web applications, and smart speakers, making it easily available to users wherever they are.
By integrating Kōkua AI into multiple platforms, Tripp is expanding its reach and ensuring that mental health support is more accessible to a broader audience. This approach reflects the growing trend of using AI technology to address mental health issues, providing an additional layer of support for individuals seeking help.
xMEMS extends micro cooling fan-on-a-chip tech to AI data centers
xMEMS Labs, a pioneer of MEMS-based chips, announced that its innovative µCooling fan-on-a-chip tech will be expanded to AI data centers. This technology aims to enhance cooling efficiency and reduce energy consumption in data centers, which are critical for the operation of AI systems.
The µCooling fan-on-a-chip solution is designed to be compact and highly efficient, making it ideal for the dense and power-hungry environment of AI data centers. By integrating this technology, data centers can achieve better thermal management, which is crucial for maintaining the performance and longevity of AI hardware.
This expansion highlights the importance of thermal management in the AI industry, where high-performance computing demands efficient cooling solutions to ensure optimal operation and reliability. xMEMS's technology represents a significant advancement in this area, contributing to the overall efficiency and sustainability of AI data centers.
总结
今日AI领域的新闻主要聚焦于AI基础设施、多模态应用以及具身智能等方向。百度智能云通过全栈AI能力的升级,为企业提供了更高效的AI基础设施解决方案,助力企业快速应对AI落地过程中的各种挑战。夸克推出「拍照问夸克」功能,通过结合多模态视觉理解和深度思考模型,将手机相机入口升级为全场景智能体入口,提升了用户的使用体验。
吴琦教授在 VLN 领域的研究强调了其在具身智能中的重要性,认为导航问题仍有许多待突破的空间。Meta 与 Cerebras 合作推出的 Llama API 则展示了 AI 推理速度的巨大提升,为开发者提供了更高效的工具。这些技术进步和创新应用,不仅推动了 AI 在不同领域的落地,也为未来的 AI 发展奠定了坚实的基础。
作者:Qwen/Qwen2.5-32B-Instruct
文章来源:钛媒体, 雷锋网, 极客公园, VentureBeat, 量子位
编辑:小康