黄建同学
26-06-26 18:00 微博认证:AI博主

又来一个代码知识图谱,Codebase Memory MCP 给AI 编程Agent 提供一个代码的知识库,Token 消耗直接降 99%。AI 需要什么直接查图,不再逐文件扫代码。

1.效果有多显著

论文数据(31个真实仓库评测):

- Token 消耗:5次结构查询只用约 3,400 tokens,逐文件探索同样问题要消耗约 412,000 tokens,减少 99.2%
- 工具调用次数减少 2.1 倍
- 回答质量:83%

速度方面:

- 普通项目:毫秒级完成索引
- Django(49K 节点):约 6 秒
- Linux 内核(2800 万行代码,7.5 万个文件):3 分钟,生成 481 万节点、772 万条边

查询响应:Cypher 图查询 < 1ms,调用链追踪(depth=5)< 10ms。

2.知识图谱里有什么

通过 tree-sitter AST 解析 + Hybrid LSP 语义类型推断,构建了:

- 函数、类的定义关系(DEFINES、INHERITS、IMPLEMENTS)
- 跨文件调用链(CALLS、IMPORTS)
- HTTP 路由和调用点的关联(HTTP_CALLS)
- 异步调用、事件监听(ASYNC_CALLS、EMITS、LISTENS_ON)
- 数据流(DATA_FLOWS,含参数绑定和字段访问链)
- 代码克隆检测(SIMILAR_TO,MinHash + LSH)

支持 158 种语言,Python / TypeScript / Go / Java / Rust / C++ 等主流语言还有更深的语义类型推断。

3. MCP 工具(14个)能干什么

几个典型用法:

1)trace_path:追踪谁调用了某个函数、某函数调用了谁
2)get_architecture:一次调用返回整个项目的语言分布、入口点、HTTP 路由、热点模块、架构层级
3)detect_changes:把 git diff 映射到受影响的符号,自动做风险分级
4)semantic_query:向量语义搜索,内置 Nomic 嵌入模型,不需要额外 API key
5)manage_adr:持久化记录架构决策,跨 session 保留

用法举例:你问 Agent "ProcessOrder 是被谁调用的",Agent 调用 trace_path,图数据库 <1ms 返回完整调用链,不需要读任何源文件。

访问:github.com/DeusData/codebase-memory-mcp

#HOW I AI# #程序员#

发布于 北京