【[52星]VAGEN:为视觉语言模型(VLM)Agent训练提供多轮强化学习框架。亮点:1. TRICO算法,优化关键决策token,提升训练效率;2. 交叉轮次奖励分配,增强复杂任务探索能力;3. 仅需4小时即可在4块H100上完成150步训练】
'VAGEN: Training VLM Agents with Multi-Turn Reinforcement Learning'
GitHub: github.com/RAGEN-AI/VAGEN
#多轮强化学习# #视觉语言模型# #AI训练# #AI创造营#
发布于 北京
