【[52星]VAGEN：为视觉语言模型（VLM）Agent训练提供多轮强化学习框架。亮点：1. TRICO算法，优化关键决策token，提升训练效率；2. 交叉轮次奖励分配，增强复杂任务探索能力；3. 仅需4小时即可在4块H100上完成150步训练】 'VAGEN: Training VLM Agents with Multi-Turn Reinforcement Learning' Gi

【[52星]VAGEN：为视觉语言模型（VLM）Agent训练提供多轮强化学习框架。亮点：1. TRICO算法，优化关键决策token，提升训练效率；2. 交叉轮次奖励分配，增强复杂任务探索能力；3. 仅需4小时即可在4块H100上完成150步训练】
'VAGEN: Training VLM Agents with Multi-Turn Reinforcement Learning'
GitHub: github.com/RAGEN-AI/VAGEN
#多轮强化学习# #视觉语言模型# #AI训练# #AI创造营#

发布于北京