知识图谱降Token99%

又来一个代码知识图谱，Codebase Memory MCP 给AI 编程Agent 提供一个代码的知识库，Token 消耗直接降 99%。AI 需要什么直接查图，不再逐文件扫代码。

1.效果有多显著

论文数据（31个真实仓库评测）：

- Token 消耗：5次结构查询只用约 3,400 tokens，逐文件探索同样问题要消耗约 412,000 tokens，减少 99.2%
- 工具调用次数减少 2.1 倍
- 回答质量：83%

速度方面：

- 普通项目：毫秒级完成索引
- Django（49K 节点）：约 6 秒
- Linux 内核（2800 万行代码，7.5 万个文件）：3 分钟，生成 481 万节点、772 万条边

查询响应：Cypher 图查询 < 1ms，调用链追踪（depth=5）< 10ms。

2.知识图谱里有什么

通过 tree-sitter AST 解析 + Hybrid LSP 语义类型推断，构建了：

- 函数、类的定义关系（DEFINES、INHERITS、IMPLEMENTS）
- 跨文件调用链（CALLS、IMPORTS）
- HTTP 路由和调用点的关联（HTTP_CALLS）
- 异步调用、事件监听（ASYNC_CALLS、EMITS、LISTENS_ON）
- 数据流（DATA_FLOWS，含参数绑定和字段访问链）
- 代码克隆检测（SIMILAR_TO，MinHash + LSH）

支持 158 种语言，Python / TypeScript / Go / Java / Rust / C++ 等主流语言还有更深的语义类型推断。

3. MCP 工具（14个）能干什么

几个典型用法：

1）trace_path：追踪谁调用了某个函数、某函数调用了谁
2）get_architecture：一次调用返回整个项目的语言分布、入口点、HTTP 路由、热点模块、架构层级
3）detect_changes：把 git diff 映射到受影响的符号，自动做风险分级
4）semantic_query：向量语义搜索，内置 Nomic 嵌入模型，不需要额外 API key
5）manage_adr：持久化记录架构决策，跨 session 保留

用法举例：你问 Agent "ProcessOrder 是被谁调用的"，Agent 调用 trace_path，图数据库 <1ms 返回完整调用链，不需要读任何源文件。

访问：github.com/DeusData/codebase-memory-mcp

#HOW I AI# #程序员#

发布于北京