Python神经调试器研究

[LG] 《Towards a Neural Debugger for Python》M Beck, J Gehring, J Kossen, G Synnaeve [Meta FAIR & Johannes Kepler University Linz] (2026)

在代码调试领域，LLM 理解程序行为的方式与开发者真实调试习惯存在根本错位。现有神经解释器只会顺序逐行预测执行轨迹，无法响应断点、跳转等交互操作——这本质上是将调试建模为"播放录像"而非"人机交互"。

本文的核心洞见是：把调试过程重新看作马尔可夫决策过程，程序状态为节点，调试指令为转移规则，调用栈构成可遍历的状态树。由此，将 step_into / breakpoint 等调试动作直接编码为树上的跳转规则，使模型既能向前预测任意目标状态，也能从已知状态反向推断可能的输入。

这项工作真正留下的遗产是：证明了"交互式调试行为"可被语言模型显式建模，且逆向执行预测在原理上可行。它为"以神经调试器作为世界模型的智能编程 Agent"打开了新门；但尚未跨过的门槛是：局部变量预测精度仍是主要瓶颈，逆向预测的评估指标体系尚不完善，当前实现也仅限于 Python 单语言场景。

arxiv.org/abs/2603.09951

#机器学习# #人工智能# #论文# #AI创造营#

发布于北京