http://t.cn/A6kzOz7S张益唐素数间隔小于7000万的论文，用大模型帮助能看懂多少？ | 陈经图片张益唐证明“素数间隔有限”的论文《Bounded gaps between primes》，2014年正式发表在《数学年刊》（Annals of Mathematics）。这是四大数学顶刊之一，由普林斯顿大学数学系主办。另外三家是《数学发明

http://t.cn/A6kzOz7S
张益唐素数间隔小于7000万的论文，用大模型帮助能看懂多少？ | 陈经
图片

张益唐证明“素数间隔有限”的论文《Bounded gaps between primes》，2014年正式发表在《数学年刊》（Annals of Mathematics）。这是四大数学顶刊之一，由普林斯顿大学数学系主办。另外三家是《数学发明》《数学学报》《美国数学会杂志》。发表在上面的，都是很重要的数学成果。

图片
论文初版2013年就出来了，出圈哄动了。我当时去看了下，题目能看懂，第二页就开始懵逼，后面更是天书了。这既不意外也不丢人，大家乐意承认“数学不行就是不行”。

近日消息传来，张益唐回国全职加盟中山大学，引发热议，我也去聊了下。忽然想到，现在大模型非常厉害，把论文传给大模型，让它当老师，能不能看懂？

没想到，还真有突破。大模型让我们有了有问必答的高水平老师，任何基础知识都能快速学习，还能综述论文思路。和以前相比，这是学习革命。笔者已经在多个学科领域受益颇多，但是在艰深的数学论文阅读上都能有突破，还是比较兴奋的。

个人认为，只要愿意顺着脉络学习，有高中数学基础知识就能看懂张益唐的证明要点。整个学习过程，对于喜欢数学但又没太多基础知识的人，也就是我们数学八卦爱好者，会有一定价值。

一．张益唐论文相关的基础知识

图片
论文的结论是，“素数间隔下确界的极限值”小于7000万，这里pn是指第n个素数。如果这个极限等于2，那就是著名的孪生素数猜想，即存在无限多对孪生素数。孪生素数就是间隔为2的一对素数，例如3和5、5和7以及11和13、17和19等等。

直观理解这个结论不难。这是说，存在无穷多对相邻素数，它们的间隔小于7000万。也就是说，素数间隔不会“越来越大”，而是会始终保持有限。

但这里出现了一些人可能没见过的数学符号“lim inf”。它的定义是高中数学水平就能理解的，但数学是极为严谨的，认真解释会有点绕，需要一点耐心。有时直观的概念好懂，用数学语言说就需要精确的定义，会显得很长。如果数学基础知识足够，又可以用简单的式子表示，但一般人就看不懂了。

本文的目的，就是我们作为数学八卦爱好者，一起了解下这些基础概念，然后再去看张益唐的54页论文，就有机会看懂前面5-6页了，而不是只能看懂第1页。如果去听相关讲座，相信会明白多了。如果再花几个月时间努力学习，后面几十页计算细节应该也能学懂，但对于数学八卦作用就小一些了，不是基础知识而是艰深计算。

“lim inf”的意思是“下极限”，是“一系列”数列的“下确界”的极限值。我们这聊的是自然数，可以简单点。一个自然数组成的数列，它的下确界等于里面最小的数。对于所有相邻素数的差值构成的无穷数列，将数列的起点往后推，就产生了“一系列”数列，每个数列都有一个最小值（也就是下确界）。这个最小值会变，产生一个下确界的序列，这个序列的极限就是“下极限”。

例如，对于所有相邻素数的差值构成的无穷数列｛3 - 2, 5 - 3, 7 - 5, 11 - 7, 13 - 11, 17 - 13, ..., pn+1 - pn,...｝，也就是{dn = pn+1 - pn}，我们来按定义计算它的多个“下确界”，以及“下确界”序列的“下极限”。

当“起点”为1的时候，数列是｛3 - 2, 5 - 3, 7 - 5, 11 - 7, 13 - 11, 17 - 13, ...｝，它的下确界是里面最小的值1。将它写成a1 = 1；

当“起点”为2的时候，数列是｛5 - 3, 7 - 5, 11 - 7, 13 - 11, 17 - 13, ...｝，它的下确界是里面最小的值2。将它写成a2 = 2；

当“起点”为3的时候，数列是｛7 - 5, 11 - 7, 13 - 11, 17 - 13, ...｝，它的下确界是里面最小的值2。将它写成a3 = 2；

......

如此不断往后推，我们会得到一系列下确界的值an，也就是从第n个素数间隔开始的无限序列，里面的最小值an。将n推向无穷大，an的极限值就是下极限。显然，随着n的增大，an只可能增大，不可能减小。所以问题就是，当n趋于无穷的时候，an会变成多少？

其实最直观的想法，是它会变成无穷。因为显而易见，素数是越来越稀疏的。一开始是2、3、5、7这样扎堆，然后很快就变成了47、53、59这样跳着走，又很快变成了199、211、223这样间隔拉得越来越大。所以很容易产生的想法，是随着n的增大，an会变得越来越大，超越预先给定的任意有限值。用极限的语言说，就是它的极限等于正无穷。

然而奇妙的是，仔细看素数表上相邻两个素数的间隔，你会感觉它又很倔强，因为它在总体增大的大趋势下，又不时地突然回调到2。例如从3467和3469这一对相差2的开始，下一个直接跳到3491，间隔高达22。然后呢？3499、3511、3517、3527、3529，得，又回到了2。

继续观察下去，这样的事一再上演，所以人们又不禁会猜，也许这样的事会出现无穷多次？如果这是真的，就意味着an的值除了第一个为1之外，后面全部都是2。这就是孪生素数猜想。但它非常难于证明，甚至历史上长期以来，这个极限值是不是有限都无法判断。

在张益唐的证明之前，所有相邻素数的差值构成的无穷数列，其下极限有两种“不能排除”的可能性。一个是发散的，也就是没有下极限；一个是有下极限，而且大家猜就是2，但前一种都没排除，这个就更遥远了。

张益唐的证明之所以很重要，是因为它把第一个“发散”的可能性排除了。而之前有许多关于素数间隔的研究结果，都是在“发散”这个框架里改进的。

第一个结果，与著名的“素数定理”（Prime Number Theorem，PNT）有关。1896 年，法国数学家阿达马（Jacques Salomon Hadamard，1865 - 1963）和比利时数学家德·拉·瓦·布桑（Charles Jean de la Vallée Poussin，1866 - 1962）各自独立地证明了素数定理：

图片
其中π(x)表示小于或等于x的素数个数，logx表示x的自然对数。很多人都知道这个表述，∼的意思是，当x趋向无穷时二者比值趋近于1。素数定理和素数间隔有什么关系？来看下面这个式子：

图片
这个东西被叫做E1，上面的下极限是2，下面是无限，一眼就能感觉结果应该是0。但直到2009年，才证明它真的是0。历史上，对于素数间隔的研究推进，主要就是在证明E1必定小于等于某个数。数学家总是这样，难的证明不了，就先来证弱化的结论，不行就放得更弱，总能搞出一些东西。从“最弱”的平凡结论开始，进步到“不那么弱”的结论，就是有意义的数学研究成果。

应用素数定理，立刻知道E1 ≤ 1。这个证明是平凡的，反证法即可（是我自己琢磨的，但应该是对的）。如果这个极限值大于1，例如1.02，那么只要n足够大，后面的素数间隔都会大于1.02logpn，这会让素数定理不成立（也就是素数更稀疏，其数量不足以和x/logx的比值趋近于1）。

英国数学家哈代（Godfrey Harold Hardy，1877 - 1947）与李特尔伍德（John Edensor Littlewood，1885 - 1977）在1926年证明了E1 < 1，这是个非平凡的结论，从此开始了不断改进的研究。两人还将E1的研究与“广义黎曼假设”（Generalized Riemann Hypothesis，GRH）扯上关系，如果GRH成立，那么E1 ≤ 2/3。

意大利数学家里奇（Giovanni Ricci，1904-1973）在1954年证明E1 ≤ 15/16，不依赖GRH，终于有了个不是1的具体数值。

之后有一个重要进展，1965年关于素数分布的Bombieri–Vinogradov定理（意大利数学家Enrico Bombieri，生于1940年；苏联数学家Ivan Vinogradov，1891-1983，1966年独立证明）。GRH的部分作用就是关于素数分布的，将GRH这个假设替换成已经被证明的Bombieri–Vinogradov定理，就直接得到E1 ≤ 1/2。而Bombieri–Vinogradov定理对张益唐的证明很重要，后面我们重点介绍。

之后E1的数值估计不断改进。到2007年，最好的结果是Goldston和Yıldırım将它改进到E1≤ 1/4。2009年Goldston与Pintz、Yıldırım终于做出了关键突破，证明了E1是0，也就是：

图片
到这里，E1的数值改进过程终于终结了。总结性的论文《Primes in tuples I》2009年也是发表在《数学年刊》，以下简称“三人论文”（Daniel A. Goldston，美国数学家，生于1954年；Janos Pintz匈牙利数学家，生于1950年；Cem Y. Yıldırım
，土耳其数学家，生于1961年）。

但是，它仍然可以改进，就如三人论文中说的，更好的结果也有（2010年论文第二部分《Primes in tuples II》在四大的另一家《数学学报》发表），就是张益唐2014年论文引用的：

图片
这两个结果显然不如张益唐的结果厉害，因为上面的素数间隔都被证明有限了，除以下面趋向无限的值，结果肯定是0。但三人论文建立了一套素数间隔的计算体系（在前人工作的基础上），这很重要。张益唐的论文就是用这个计算体系，但做了一个最关键的改进，等于把这个改进方向终结了。

学者们新的研究方向是，将下极限从7000万向2进发，1年多就推进到了246。但不幸的是，这种办法似乎潜力就到这了，到2025年最新成果还是246，虽然有不同的方法。由于从7000万到246的改进在数学意义上不算重大成果（只是一些计算细节的优化），所以素数间隔目前最关键的突破，还是张益唐在2013年作出的。

我们先来说下张益唐的“最后一步”，为什么会出现7000万这么个数字。

图片
这是张益唐论文的第二页，提出了论文要证明的定理，也就是（1.4）。注意，新闻中大家关注的其实是（1.5），而这是从（1.4）简单推理出来的。很少人知道（1.4），但稍学下之后，理解它的概念不难。从（1.4）推到（1.5）也是容易理解的，我们介绍下（是我自己琢磨的，但应该是对的）。

这是说从350万到7000万的整数区间里，可以选出350万个素数，{h1, h2,...,h3500000}，组成了一个集合。为什么这是可行的？因为小于7000万的素数个数有445.7万个，小于350万的素数有25.2万个，这是可以精确查表得到的。注意上图中π(x)是一个函数，指小于等于x的素数个数，例如π(1) = 0，π(2) = 1，π(3) = 2，π(5) = 3等等。由于π(7000万) - π(350万) = 420.5万 > 350万，所以可以从这个区间选出350万个素数。

你也许想问，为什么张益唐选了7000万而不是6000万？因为小于6000万的素数共有352.2万个，从350万到6000万挑不出350万个素数。当然选6500万可以，但就不如7000万顺口、表达简易。这就是7000万的由来。

这350万个素数的“全素”集合有个特别性质，叫admissible（可容许）。意思是，对于从2到无穷大的每个素数p，这个集合里的数去除以p，得到的“余数种类”都小于p。这是一目了然的，如果p大于350万，自然不可能有p种结果，因为集合一共就350万个数；如果p小于350万，那这些素数除以p，余数肯定不为0，“余数种类”会少了0这一类，也小于p。张益唐在构造这个集合的时候用到两次350万，即挑选350万个素数，还正好从350万开始，就是为了满足可容许这个性质。

……
这有一个发展过程，从我们不难看懂的“关联公式”开始，有了对集合“展开求和计算”的感觉。再慢慢加东西，但要能控制计算，不要越界，要“bounded”。如展开合并同类项后，每一个复杂的“系数”都能证明它小于某个界限，全部证明后，最终整个式子就有一个界限，这就是“bounded”。所以张益唐的论文标题是《Bounded gaps between primes》。

最后虽然加得很复杂，三人论文和张益唐的计算过程以及界限证明都有30 - 50页，但还真控制住了，得出了有意义的结论。三人论文也不是凭空想出这个框架的，也有一些学者有贡献，所以现代数学的研究是一个体系，闭门造车不行。业余数学研究者最大的毛病，应该就是看不懂专业研究者写的论文，自己用一些初等办法瞎折腾。正如专业数学家的评论，指望用初等方法证明哥德巴赫猜想，就好比骑着自行车上月球。

二．素数分布与Bombieri–Vinogradov定理

……

三．可容许集合相关知识
……

学到这，我们业余数学爱好者也算是接触到了不少知识了。有了大模型AI的帮助，只看两篇论文，我还真学到了不少东西，也真能学下去，前几页真的看懂了。但是，不能盲信AI，即使说数学，它也有时会错。要带着自己的理解，精准地问AI。最后，要超越AI的理解，因为AI并没有真的理解。如果我们能看出AI的错误，那起码在某些方面就比AI要高明，即使是很深的数学，也可以做到。

至于两篇论文后面复杂的计算过程，“八卦价值”就不大了，再介绍就干脆写数学论文得了。理解了背景知识，个人感觉硬要看也是可以看懂的，但要花很多时间。如果业余数学爱好者、民间研究者，有志于挑战专业数学家，愿意花时间理解，建议去看下，说不定有收获。至少你可以明白，能登上月球的载具大致是什么样子。

发布于安徽