http://t.cn/A6kzOz7S
张益唐素数间隔小于7000万的论文,用大模型帮助能看懂多少? | 陈经
图片
张益唐证明“素数间隔有限”的论文《Bounded gaps between primes》,2014年正式发表在《数学年刊》(Annals of Mathematics)。这是四大数学顶刊之一,由普林斯顿大学数学系主办。另外三家是《数学发明》《数学学报》《美国数学会杂志》。发表在上面的,都是很重要的数学成果。
图片
论文初版2013年就出来了,出圈哄动了。我当时去看了下,题目能看懂,第二页就开始懵逼,后面更是天书了。这既不意外也不丢人,大家乐意承认“数学不行就是不行”。
近日消息传来,张益唐回国全职加盟中山大学,引发热议,我也去聊了下。忽然想到,现在大模型非常厉害,把论文传给大模型,让它当老师,能不能看懂?
没想到,还真有突破。大模型让我们有了有问必答的高水平老师,任何基础知识都能快速学习,还能综述论文思路。和以前相比,这是学习革命。笔者已经在多个学科领域受益颇多,但是在艰深的数学论文阅读上都能有突破,还是比较兴奋的。
个人认为,只要愿意顺着脉络学习,有高中数学基础知识就能看懂张益唐的证明要点。整个学习过程,对于喜欢数学但又没太多基础知识的人,也就是我们数学八卦爱好者,会有一定价值。
一.张益唐论文相关的基础知识
图片
论文的结论是,“素数间隔下确界的极限值”小于7000万,这里pn是指第n个素数。如果这个极限等于2,那就是著名的孪生素数猜想,即存在无限多对孪生素数。孪生素数就是间隔为2的一对素数,例如3和5、5和7以及11和13、17和19等等。
直观理解这个结论不难。这是说,存在无穷多对相邻素数,它们的间隔小于7000万。也就是说,素数间隔不会“越来越大”,而是会始终保持有限。
但这里出现了一些人可能没见过的数学符号“lim inf”。它的定义是高中数学水平就能理解的,但数学是极为严谨的,认真解释会有点绕,需要一点耐心。有时直观的概念好懂,用数学语言说就需要精确的定义,会显得很长。如果数学基础知识足够,又可以用简单的式子表示,但一般人就看不懂了。
本文的目的,就是我们作为数学八卦爱好者,一起了解下这些基础概念,然后再去看张益唐的54页论文,就有机会看懂前面5-6页了,而不是只能看懂第1页。如果去听相关讲座,相信会明白多了。如果再花几个月时间努力学习,后面几十页计算细节应该也能学懂,但对于数学八卦作用就小一些了,不是基础知识而是艰深计算。
“lim inf”的意思是“下极限”,是“一系列”数列的“下确界”的极限值。我们这聊的是自然数,可以简单点。一个自然数组成的数列,它的下确界等于里面最小的数。对于所有相邻素数的差值构成的无穷数列,将数列的起点往后推,就产生了“一系列”数列,每个数列都有一个最小值(也就是下确界)。这个最小值会变,产生一个下确界的序列,这个序列的极限就是“下极限”。
例如,对于所有相邻素数的差值构成的无穷数列{3 - 2, 5 - 3, 7 - 5, 11 - 7, 13 - 11, 17 - 13, ..., pn+1 - pn,...},也就是{dn = pn+1 - pn},我们来按定义计算它的多个“下确界”,以及“下确界”序列的“下极限”。
当“起点”为1的时候,数列是{3 - 2, 5 - 3, 7 - 5, 11 - 7, 13 - 11, 17 - 13, ...},它的下确界是里面最小的值1。将它写成a1 = 1;
当“起点”为2的时候,数列是{5 - 3, 7 - 5, 11 - 7, 13 - 11, 17 - 13, ...},它的下确界是里面最小的值2。将它写成a2 = 2;
当“起点”为3的时候,数列是{7 - 5, 11 - 7, 13 - 11, 17 - 13, ...},它的下确界是里面最小的值2。将它写成a3 = 2;
......
如此不断往后推,我们会得到一系列下确界的值an,也就是从第n个素数间隔开始的无限序列,里面的最小值an。将n推向无穷大,an的极限值就是下极限。显然,随着n的增大,an只可能增大,不可能减小。所以问题就是,当n趋于无穷的时候,an会变成多少?
其实最直观的想法,是它会变成无穷。因为显而易见,素数是越来越稀疏的。一开始是2、3、5、7这样扎堆,然后很快就变成了47、53、59这样跳着走,又很快变成了199、211、223这样间隔拉得越来越大。所以很容易产生的想法,是随着n的增大,an会变得越来越大,超越预先给定的任意有限值。用极限的语言说,就是它的极限等于正无穷。
然而奇妙的是,仔细看素数表上相邻两个素数的间隔,你会感觉它又很倔强,因为它在总体增大的大趋势下,又不时地突然回调到2。例如从3467和3469这一对相差2的开始,下一个直接跳到3491,间隔高达22。然后呢?3499、3511、3517、3527、3529,得,又回到了2。
继续观察下去,这样的事一再上演,所以人们又不禁会猜,也许这样的事会出现无穷多次?如果这是真的,就意味着an的值除了第一个为1之外,后面全部都是2。这就是孪生素数猜想。但它非常难于证明,甚至历史上长期以来,这个极限值是不是有限都无法判断。
在张益唐的证明之前,所有相邻素数的差值构成的无穷数列,其下极限有两种“不能排除”的可能性。一个是发散的,也就是没有下极限;一个是有下极限,而且大家猜就是2,但前一种都没排除,这个就更遥远了。
张益唐的证明之所以很重要,是因为它把第一个“发散”的可能性排除了。而之前有许多关于素数间隔的研究结果,都是在“发散”这个框架里改进的。
第一个结果,与著名的“素数定理”(Prime Number Theorem,PNT)有关。1896 年,法国数学家阿达马(Jacques Salomon Hadamard,1865 - 1963)和比利时数学家德·拉·瓦·布桑(Charles Jean de la Vallée Poussin,1866 - 1962)各自独立地证明了素数定理:
图片
其中π(x)表示小于或等于x的素数个数,logx表示x的自然对数。很多人都知道这个表述,∼的意思是,当x趋向无穷时二者比值趋近于1。素数定理和素数间隔有什么关系?来看下面这个式子:
图片
这个东西被叫做E1,上面的下极限是2,下面是无限,一眼就能感觉结果应该是0。但直到2009年,才证明它真的是0。历史上,对于素数间隔的研究推进,主要就是在证明E1必定小于等于某个数。数学家总是这样,难的证明不了,就先来证弱化的结论,不行就放得更弱,总能搞出一些东西。从“最弱”的平凡结论开始,进步到“不那么弱”的结论,就是有意义的数学研究成果。
应用素数定理,立刻知道E1 ≤ 1。这个证明是平凡的,反证法即可(是我自己琢磨的,但应该是对的)。如果这个极限值大于1,例如1.02,那么只要n足够大,后面的素数间隔都会大于1.02logpn,这会让素数定理不成立(也就是素数更稀疏,其数量不足以和x/logx的比值趋近于1)。
英国数学家哈代(Godfrey Harold Hardy,1877 - 1947)与李特尔伍德(John Edensor Littlewood,1885 - 1977)在1926年证明了E1 < 1,这是个非平凡的结论,从此开始了不断改进的研究。两人还将E1的研究与“广义黎曼假设”(Generalized Riemann Hypothesis,GRH)扯上关系,如果GRH成立,那么E1 ≤ 2/3。
意大利数学家里奇(Giovanni Ricci,1904-1973)在1954年证明E1 ≤ 15/16,不依赖GRH,终于有了个不是1的具体数值。
之后有一个重要进展,1965年关于素数分布的Bombieri–Vinogradov定理(意大利数学家Enrico Bombieri,生于1940年;苏联数学家Ivan Vinogradov,1891-1983,1966年独立证明)。GRH的部分作用就是关于素数分布的,将GRH这个假设替换成已经被证明的Bombieri–Vinogradov定理,就直接得到E1 ≤ 1/2。而Bombieri–Vinogradov定理对张益唐的证明很重要,后面我们重点介绍。
之后E1的数值估计不断改进。到2007年,最好的结果是Goldston和Yıldırım将它改进到E1≤ 1/4。2009年Goldston与Pintz、Yıldırım终于做出了关键突破,证明了E1是0,也就是:
图片
到这里,E1的数值改进过程终于终结了。总结性的论文《Primes in tuples I》2009年也是发表在《数学年刊》,以下简称“三人论文”(Daniel A. Goldston,美国数学家,生于1954年;Janos Pintz匈牙利数学家,生于1950年;Cem Y. Yıldırım
,土耳其数学家,生于1961年)。
但是,它仍然可以改进,就如三人论文中说的,更好的结果也有(2010年论文第二部分《Primes in tuples II》在四大的另一家《数学学报》发表),就是张益唐2014年论文引用的:
图片
这两个结果显然不如张益唐的结果厉害,因为上面的素数间隔都被证明有限了,除以下面趋向无限的值,结果肯定是0。但三人论文建立了一套素数间隔的计算体系(在前人工作的基础上),这很重要。张益唐的论文就是用这个计算体系,但做了一个最关键的改进,等于把这个改进方向终结了。
学者们新的研究方向是,将下极限从7000万向2进发,1年多就推进到了246。但不幸的是,这种办法似乎潜力就到这了,到2025年最新成果还是246,虽然有不同的方法。由于从7000万到246的改进在数学意义上不算重大成果(只是一些计算细节的优化),所以素数间隔目前最关键的突破,还是张益唐在2013年作出的。
我们先来说下张益唐的“最后一步”,为什么会出现7000万这么个数字。
图片
这是张益唐论文的第二页,提出了论文要证明的定理,也就是(1.4)。注意,新闻中大家关注的其实是(1.5),而这是从(1.4)简单推理出来的。很少人知道(1.4),但稍学下之后,理解它的概念不难。从(1.4)推到(1.5)也是容易理解的,我们介绍下(是我自己琢磨的,但应该是对的)。
这是说从350万到7000万的整数区间里,可以选出350万个素数,{h1, h2,...,h3500000},组成了一个集合。为什么这是可行的?因为小于7000万的素数个数有445.7万个,小于350万的素数有25.2万个,这是可以精确查表得到的。注意上图中π(x)是一个函数,指小于等于x的素数个数,例如π(1) = 0,π(2) = 1,π(3) = 2,π(5) = 3等等。由于π(7000万) - π(350万) = 420.5万 > 350万,所以可以从这个区间选出350万个素数。
你也许想问,为什么张益唐选了7000万而不是6000万?因为小于6000万的素数共有352.2万个,从350万到6000万挑不出350万个素数。当然选6500万可以,但就不如7000万顺口、表达简易。这就是7000万的由来。
这350万个素数的“全素”集合有个特别性质,叫admissible(可容许)。意思是,对于从2到无穷大的每个素数p,这个集合里的数去除以p,得到的“余数种类”都小于p。这是一目了然的,如果p大于350万,自然不可能有p种结果,因为集合一共就350万个数;如果p小于350万,那这些素数除以p,余数肯定不为0,“余数种类”会少了0这一类,也小于p。张益唐在构造这个集合的时候用到两次350万,即挑选350万个素数,还正好从350万开始,就是为了满足可容许这个性质。
……
这有一个发展过程,从我们不难看懂的“关联公式”开始,有了对集合“展开求和计算”的感觉。再慢慢加东西,但要能控制计算,不要越界,要“bounded”。如展开合并同类项后,每一个复杂的“系数”都能证明它小于某个界限,全部证明后,最终整个式子就有一个界限,这就是“bounded”。所以张益唐的论文标题是《Bounded gaps between primes》。
最后虽然加得很复杂,三人论文和张益唐的计算过程以及界限证明都有30 - 50页,但还真控制住了,得出了有意义的结论。三人论文也不是凭空想出这个框架的,也有一些学者有贡献,所以现代数学的研究是一个体系,闭门造车不行。业余数学研究者最大的毛病,应该就是看不懂专业研究者写的论文,自己用一些初等办法瞎折腾。正如专业数学家的评论,指望用初等方法证明哥德巴赫猜想,就好比骑着自行车上月球。
二.素数分布与Bombieri–Vinogradov定理
……
三.可容许集合相关知识
……
学到这,我们业余数学爱好者也算是接触到了不少知识了。有了大模型AI的帮助,只看两篇论文,我还真学到了不少东西,也真能学下去,前几页真的看懂了。但是,不能盲信AI,即使说数学,它也有时会错。要带着自己的理解,精准地问AI。最后,要超越AI的理解,因为AI并没有真的理解。如果我们能看出AI的错误,那起码在某些方面就比AI要高明,即使是很深的数学,也可以做到。
至于两篇论文后面复杂的计算过程,“八卦价值”就不大了,再介绍就干脆写数学论文得了。理解了背景知识,个人感觉硬要看也是可以看懂的,但要花很多时间。如果业余数学爱好者、民间研究者,有志于挑战专业数学家,愿意花时间理解,建议去看下,说不定有收获。至少你可以明白,能登上月球的载具大致是什么样子。
