AIGCLINK
26-05-19 14:05 微博认证:AI博主

面向Agent的一个代码搜索工具:Semble,用自然语言查代码库返回精准代码片段,比grep+read节省98% token消耗

方法是让Agent用自然语言直接定位到最相关的几行代码,不用瞎猜关键词,不用读整文件

速度上,索引一个普通仓库大约需要250毫秒,回答查询大约需要 1.5毫秒,NDCG@10=0.854

Semble用2k Token能到94%召回率,grep+read塞满 100k Token窗口才到85%

首先它是智能分块,不是按行数机械切割而是按代码结构智能切(函数、类、代码块),使每个块都是有意义的代码单元,不会把一个函数腰斩

搜索返回的是语义完整的代码块,一个函数、一个类或一个独立逻辑单元,不会把代码拦腰截断

语义路、词法路双路检索+Reciprocal Rank Fusion (RRF)融合机制,两路各出一份排名,用RRF合并

代码感知重排序,初步结果出来后,再用代码特有的信号微调排名,把最相关的推到前面

作为Agent代码搜索场景应该是比较能打

github:http://t.cn/AXimuomc

#Semble##Agent代码搜索#

发布于 山西