联合黄老师和王老师东老师团队一起做了个Black-Box Prompt Optimization,http://t.cn/A6lHYn8z BPO是一种与训练为基础的方法(如PPO或DPO)不同的黑盒对齐技术。BPO只需要训练一个即插即用的模型,并通过优化用户输入来优化LLM。因此,它可以用于优化大型语言模型(LLM)。BPO可以大大增强模型能力,超过PPO和DPO。大家有兴趣可以下载算法、模型和paper
@article{cheng2023black,
title={Black-Box Prompt Optimization: Aligning Large Language Models without Model Training},
author={Cheng, Jiale and Liu, Xiao and Zheng, Kehan and Ke, Pei and Wang, Hongning and Dong, Yuxiao and Tang, Jie and Huang, Minlie},
journal={arXiv preprint arXiv:2311.04155},
year={2023}
}
发布于 北京
