今日推介(第1952期)：基于自我对弈强化学习与推理时检索在Stratego陆战棋游戏上超越人类系统、Transformer可证明地学会具备长度泛化能力的思维链推理、用下一步潜变量预测Transformer学习紧凑世界模型、尺度不变神经网络的训练动力学能否用理想气体的热力学来解释、改进分块式训练以提升推理时记忆能力

今日推介(第1952期)：基于自我对弈强化学习与推理时检索在Stratego陆战棋游戏上超越人类系统、Transformer可证明地学会具备长度泛化能力的思维链推理、用下一步潜变量预测Transformer学习紧凑世界模型、尺度不变神经网络的训练动力学能否用理想气体的热力学来解释、改进分块式训练以提升推理时记忆能力公·众·号：爱可可爱生活 http://t.cn/AX2JWw3C #机器学习##人工智能##论文#