【Yet Another Applied LLM Benchmark:另一个应用LLM基准测试,旨在评估语言模型在作者关心的任务上的性能。通过实现简单的数据流领域特定语言,轻松添加新测试,评估模型能力。主要特色是测试场景多样、复杂,有100多个真实场景测试用例】'Yet Another Applied LLM Benchmark' GitHub: github.com/carlini/yet-another-applied-llm-benchmark #开源# #机器学习# #人工智能#
发布于 美国
