本文字数:约 17,650 字,预计阅读时间:35 分钟重点新闻上交博士最新思考:仅用两个问题讲清强化学习强化学习(RL)作为人工智能领域的重要研究方向之一,其复杂性常常令人望而却步。上海交通大学与上海期智研究院的博士生 Kun Lei 近期发表了一篇博客,提出了一种全新的框架来理解强化学习:所有强化学习算法,都可以通过两个问题来理解,即“数据从哪里来”和“策略更新有多频繁”。数据从哪里来 强化学习的过程可以理解为智能体不断收集经验、并用这些经验改进策略的循环。不同算法的差异很大程度上取决于它们依赖什么样的数据。在线学习算法(如 PPO 和 SAC)在交互过程中不断学习新数据,而离线学习算法(如 CQL 和 IQL)则完全依赖于固定的数据集进行训练。这些方式反映了任务的现实约束:能否安全地试错?能否持续获得新数据?试错的代价是否可承受?学习更新的节奏 这个维度是智能体多久评估一次策略,又多久调整一次行为。从一步式学习到多步式学习,再到迭代式学习,算法的更新节奏越来越密集,也意味着从静态到动态的转变。不同节奏之间,其实反映的是对稳定性和适应性的权衡。更底层的统一框架 博客还提出了一

今日新鲜事 · 20 天前
Theme Jasmine by Kent Liao