本文字数:约 4100 字,预计阅读时间:12 分钟字节按下 AI Agent 加速键在过去几个月中,AI领域迎来了一系列突破性的进展,强化学习的泛化能力得到显著提升,多模态模型也变得更加可用。字节跳动旗下的火山引擎在4月17日面向企业市场发布了全新的模型——豆包 1.5・深度思考模型。这款模型不仅具备边搜边想的能力,还具有视觉推理能力,能像人类一样通过看到的画面进行思考。例如,在购物场景中,豆包可以解析复杂的预算限制并推荐合适的露营装备。此外,豆包 1.5・深度思考模型在专业领域的推理任务中表现出色,如数学推理、编程竞赛等,同时在创意写作、人文知识问答等通用任务上也展示了优秀的泛化能力。除了推理模型,火山引擎还推出了豆包文生图模型3.0和升级版的视觉理解模型。这些模型不仅提高了文字排版和图像生成的质量,还增强了视频理解能力。在视觉理解方面,新版本支持多目标、小目标的框定位,描述定位内容,以及3D定位等。这些技术进步将帮助解锁更多应用场景,比如智能摄像头、AI眼镜等。火山引擎通过推出OS Agent解决方案,支持大模型操作数字和物理世界,同时提供了AI云原生推理套件,以帮助企业更快、更

今日新鲜事 · 15 天前
Theme Jasmine by Kent Liao