本文字数:约 17,650 字,预计阅读时间:35 分钟重点新闻上交博士最新思考:仅用两个问题讲清强化学习强化学习(RL)作为人工智能领域的重要研究方向之一,其复杂性常常令人望而却步。上海交通大学与上海期智研究院的博士生 Kun Lei 近期发表了一篇博客,提出了一种全新的框架来理解强化学习:所有强化学习算法,都可以通过两个问题来理解,即“数据从哪里来”和“策略更新有多频繁”。数据从哪里来 强化学习的过程可以理解为智能体不断收集经验、并用这些经验改进策略的循环。不同算法的差异很大程度上取决于它们依赖什么样的数据。在线学习算法(如 PPO 和 SAC)在交互过程中不断学习新数据,而离线学习算法(如 CQL 和 IQL)则完全依赖于固定的数据集进行训练。这些方式反映了任务的现实约束:能否安全地试错?能否持续获得新数据?试错的代价是否可承受?学习更新的节奏 这个维度是智能体多久评估一次策略,又多久调整一次行为。从一步式学习到多步式学习,再到迭代式学习,算法的更新节奏越来越密集,也意味着从静态到动态的转变。不同节奏之间,其实反映的是对稳定性和适应性的权衡。更底层的统一框架 博客还提出了一

今日新鲜事 · 2025-11-10

本文字数:约 3700 字,预计阅读时间:15 分钟重点新闻人形机器人首登十五运会开幕式!优必选Walker S2奏响千年青铜句鑃11月9日,第十五届全国运动会(以下简称:十五运会)开幕式在广州奥林匹克体育中心举行,现场迎来了全球首个人形机器人开幕嘉宾,三台优必选全自主具身智能人形机器人Walker S2,代表粤港澳三地,敲响广州南越王墓出土的8件战国青铜句鑃,带来一场相隔两千多年的梦幻对话,正式拉开十五运会开幕式文体展演的大幕。人形机器人奏响千年青铜句鑃,创造两项突破性记录作为首次由广东、香港、澳门联合承办的国家级综合性运动会,十五运会是“一国两制”框架下区域协作的典范,也是粤港澳大湾区建设成果的集中展示。这场以“活力湾区,梦想同心”为主题的盛会,创造性地让代表新质生产力的人形机器人Walker S2奏响广州南越王墓出土的西汉青铜句鑃,以此拉开十五运开幕式文体展演的大幕,并创造了两项突破性纪录——国家级综合性运动会首次引入人形机器人作为开幕嘉宾,也是全球首次人形机器人奏响千年青铜礼乐。在开幕式文体展演的第一个节目中,三台Walker S2面向舞台上的8件特殊乐器——广州南越王墓出土的

今日新鲜事 · 2025-11-09
Theme Jasmine by Kent Liao