近日,一篇来自谷歌 DeepMind 的论文《Transformer 的拓扑麻烦》以一个看似简单的问题,撼动了整个行业的底层逻辑:Transformer 架构本身,就不擅长追踪状态;而「思维链」不过是在给这个结构性缺陷打补丁。 http://t.cn/AXaT03Q9
近日,一篇来自谷歌 DeepMind 的论文《Transformer 的拓扑麻烦》以一个看似简单的问题,撼动了整个行业的底层逻辑:Transformer 架构本身,就不擅长追踪状态;而「思维链」不过是在给这个结构性缺陷打补丁。 http://t.cn/AXaT03Q9