又来一个代码知识图谱,Codebase Memory MCP 给AI 编程Agent 提供一个代码的知识库,Token 消耗直接降 99%。AI 需要什么直接查图,不再逐文件扫代码。
1.效果有多显著
论文数据(31个真实仓库评测):
- Token 消耗:5次结构查询只用约 3,400 tokens,逐文件探索同样问题要消耗约 412,000 tokens,减少 99.2%
- 工具调用次数减少 2.1 倍
- 回答质量:83%
速度方面:
- 普通项目:毫秒级完成索引
- Django(49K 节点):约 6 秒
- Linux 内核(2800 万行代码,7.5 万个文件):3 分钟,生成 481 万节点、772 万条边
查询响应:Cypher 图查询 < 1ms,调用链追踪(depth=5)< 10ms。
2.知识图谱里有什么
通过 tree-sitter AST 解析 + Hybrid LSP 语义类型推断,构建了:
- 函数、类的定义关系(DEFINES、INHERITS、IMPLEMENTS)
- 跨文件调用链(CALLS、IMPORTS)
- HTTP 路由和调用点的关联(HTTP_CALLS)
- 异步调用、事件监听(ASYNC_CALLS、EMITS、LISTENS_ON)
- 数据流(DATA_FLOWS,含参数绑定和字段访问链)
- 代码克隆检测(SIMILAR_TO,MinHash + LSH)
支持 158 种语言,Python / TypeScript / Go / Java / Rust / C++ 等主流语言还有更深的语义类型推断。
3. MCP 工具(14个)能干什么
几个典型用法:
1)trace_path:追踪谁调用了某个函数、某函数调用了谁
2)get_architecture:一次调用返回整个项目的语言分布、入口点、HTTP 路由、热点模块、架构层级
3)detect_changes:把 git diff 映射到受影响的符号,自动做风险分级
4)semantic_query:向量语义搜索,内置 Nomic 嵌入模型,不需要额外 API key
5)manage_adr:持久化记录架构决策,跨 session 保留
用法举例:你问 Agent "ProcessOrder 是被谁调用的",Agent 调用 trace_path,图数据库 <1ms 返回完整调用链,不需要读任何源文件。
访问:github.com/DeusData/codebase-memory-mcp
#HOW I AI# #程序员#
