一个包含构建和评估 AI Agent的最佳资源的github项目——论文、博客、演讲、工具和基准测试。
地址:github.com/benchflow-ai/awesome-evals
“github上大多数awesome列表只是链接的堆砌。但这份列表经过注释和验证:每个条目都说明了其内容及入选理由,URL 经过检查,引用内容逐字核对,已失效或废弃的工具会被剔除(而非默默保留)。它通过以下方式汇编而成:
- 深度为4的递归引用爬取(11,600篇论文,按引用量排序),以呈现学术经典;
- 针对性的从业者网络发现,以补充引用图谱遗漏的行业资源(如 Eugene Yan、Han-Chung Lee、Hamel Husain、Shreya Shankar、Nathan Lambert 等);
- 转录并深度注释了47场演讲和播客(逐字记录+时间戳);
- 按章节进行差距审计,并辅以对抗性验证。”
#How I AI#
发布于 山东
