Skip to content

“我们到底为什么要接受公理呢?既然人们一直都坚持什么都要数学证明,那我们怎么能不加证明地接受如“过不同的两点有且仅有一条直线”这样的公理呢?”

——《技术进化史》第3章

在讨论法国数学巨匠亨利·庞加莱给出上述问题的一个答案时,本书作者讲述了这样一个颇有趣味的故事:

一位探险家在一个与世隔绝的小岛上发现了会讲法语的居民群体,传说是在很久以前,一艘法国船只在小岛附近发生了海难,岛上的居民就是船上水手的后代。但奇怪的是,岛民说他们会捉空中飞的鱼来吃,这种鱼有两只翅膀、两个爪子和一个尖嘴,既会做窝也会唱歌。探险家试着解释:鱼生活在海里,有鳞有腮,不会发声,但是反而逗笑岛民。探险家终于明白:海难发生后,岛民所说的法语与大陆所说的法语都发生了演变,于是岛民所说的“鱼”其实是“鸟”。

现在问题来了,探险家是如何搞清楚岛民所说的“鱼”这个词的意思?大致有三种方法:

  • 第一种方法是,让岛民指给他看一只“鱼”,如果对方指的是一只鸟、一条蛇或一只蛙,他就可以明白这个词的意思。但是这种方法只适用于表示具体事物的词,而无法用于理解“团结”、“交换性”这种词的意思。

  • 第二种方法是,让岛民给出“鱼”这个词的定义,或者从岛民语言的词典中找出定义。但是这种方法也需要知道用以解释这个词的其他词语的意思,否则就要先查询用来解释的词语的含义。

  • 第三种方法是,问岛民一些关于“鱼”这个词的命题,看看他们认为哪些命题成立。

探险家采用了第三种方法,他发现岛民认为“鱼在天上飞”、“鱼有两种翅膀”等命题成立,就这样理解了“鱼”真正的意思。

“哲学家正是这样定义了“含义”一词的含义:一个词的含义就是与该词相关的所有真命题的集合。因此,我们无法孤立地定义某个词的含义,虽然词典让众人以为这是可能的。语言中所有的真命题同时定义了所有词的含义。命题“鸟在天上飞”成立这件事同时对“鸟”“天”和“飞”这三个词的定义有所贡献。更确切地说,定义了语言中词的含义的并不是所有真命题的集合,因为这个集合无穷大而且还很复杂。而确定什么命题成立的那些标准,才真正定义了词的含义。对于数学语言而言,这些标准就是公理和演绎规则。

这一思想就回答了为什么我们接受公理的问题:我们接受公理“过两点有且只有一条直线”,是因为这一公理本身就是“点”“直线”“过”这些词定义的一部分。

这个答案是由庞加莱提出的,比传统的答案更让人满意。只要我们搞清楚“点”“直线”“过”等词的含义,这一命题很显然就成立了。自庞加莱以后,我们就了解到,并不是因为我们知道了这些词的含义,这条公理就奇迹般地成了一个看似显然的命题,而是因为公理恰恰是这些词定义的一部分,我们才认为它成立。

这种对于定义的理解,解决了欧几里得《几何原本》中因定义“点”的概念而带来的一个古老问题。欧几里得对“点”的定义相当模糊:“点是没有部分的东西。”然后,他提出了各种公理并证明了各种定理,却从来没有用到过“点”的定义。那么这个定义到底是干什么用的呢?在庞加莱看来,这个定义根本没有用——“点”这一概念的真正定义并不在这句含义不明的话里,而在于几何的公理之中。”

——《技术进化史》第3章

“作为一位数学教育家,克莱因对数学史在数学教育中的作用寄语了极高的愿望。格丁根大学的传统使得他和柯朗都非常注重数学教育。在他们看来,通常数学教科书所介绍的是一些没有什么关系的数学片段,它们给出一个系统的逻辑叙述,使人们产生了这样的错觉,似乎数学家们几乎理所当然地从定理到定理,数学家们能克服任何困难。而且课本字斟句酌的叙述,不能反映数学家们艰难的探索过程,所有这些对于培养真正的富有创造力的数学家都是极其不利的。不仅如此,他还对世界范围内的数学教育深感担忧。柯朗在为克莱因的《西方文化中的数学》写的序言中指出:“科学家们与世隔绝的研究,教师们少得可怜的热情,还有大量枯燥乏味、商业气十足的教科书和无视智力训练的教学风气,已经在教育界掀起了一股反数学的浪潮。然而,我们深信,公众依然对数学有浓厚的兴趣。”为了扭转这种状况,克服数学教科书和数学教学中的诸多弊端,克莱因认为数学史能起到有效的作用。数学史可以提供整个课程的概况,使课程的内容互相联系,并且与数学思想的主干联系起来;数学史可以让学生们看到数学家们的真实创造历史——如何跌跤、如何在迷雾中摸索前进,从而鼓起研究的勇气;从历史的角度来讲解数学,是使人们理解数学内容和鉴赏数学魅力的最好的方法之一。他的这一良苦用心,今天已得到了越来越多的人士的认可。

正是从对数学历史的考察中与对数学教育特点的思考中,使克莱因认识到,学生学习数学的过程与数学发展的历程有一定的相似性,即遵从生物发生学的一个基本规律:个体的成长要经历种族成长的所有阶段,顺序相同,只是所经历的时间缩短。由此出发,他认为“新数学”过分强调逻辑数学,有悖上述规律,因此注定了要失败。他在《为什么约翰不会做加法:新数学的失败》中,就是通过历史考察对“新数学”运动提出了尖锐的批评:“由于新数学的主要革新是将演绎法用于一般的数学科目上,我们要确定的是在数学方法上,特别在能否增进学生对数学的理解上,究竟有什么优点?经多方面的考量,不能不说这一问题的答案是否定的。首先,让我们了解数学本身的发展及其发展历史上,是否提供任何有助于我们判断的证据。毕竟数学是由了解数学的人所创建,且看欧几里得、阿基米德、牛顿、欧拉以及高斯等大师是如何懂得数学的?”“直到19世纪后期,数学、代数、分析(微积分及其延展)的逻辑基础才开始建立,这一层至关重要。换句话说,多少世纪以来,数学的各主要分科的建立,几乎全未依赖逻辑发展。伟人的直觉显然比逻辑更有力量。”“从上述历史能推断出什么结论?最具有直觉意义的概念,像整数、分数及几何概念最先被接受与运用,似乎明白不过。较少直觉的概念,像无理数、负数、复数、用字母做一般系数以及微积分等概念的建立和被接受,则各需许多世纪。……直觉凭证诱导数学家加以接受,逻辑的到来通常迟于创建以后很久,并且很不容易。数学的历史虽未证明,但已提示我们逻辑方法远较困难。”近年来,数学教育中越来越重视数学史,实与柯朗、克莱因等人的呼吁有一定联系。

不考虑数学史的数学哲学是苍白无力的。在数学哲学家探讨数学的方法中,数学史提供了一种最实际、最有效的方法。克莱因准确地把握了这一点。”

——《西方文化中的数学》译者前言

本来只想摘录这段文字,但是每次读到这些内容时,不免心思潮动,想多写几句。历史本就是文化的一部分,不仅是数学,似乎每个学科的历史对于学习这门学科的学生而言,都有莫大的激励,历史激发学习知识的兴趣,诱发求知探索的热情。一门学科一旦被抹去历史,就好像有机体被剥夺了生命,立刻失去生气,变得死气沉沉,不再具有诱人好奇的气息。

无独有偶,近日读到一篇有关大学教育未必适合每个人的文章:大学的替代方案。也许,这可以让我们思考:教育的目的到底是什么?你可以说是传授知识,也可以说是培养人才……这些都没有错,只是不具可操作性。

我们试着这样思考:人类文明需要存在和进步,而这需要存储并创造新的知识。人类过去创造了大量的知识,并且现在仍然在创造更大量的知识,由于每个人的生命都是有限的,所以这些知识需要被新的人类继承下去,但是比继承更重要的是创造新知识的能力,否则,人类文明就不会继续进步。由此引出两个问题:

  • 储存已有的知识。

  • 创造新的知识。

对于第一个问题,自从文字和纸张出现以后,到现代信息技术的巨大进步,人类已经拥有强大的储存工具,借助于专业化分工以及成熟的教育体系,人类可以在需要的时候充分利用这些知识,从而维持文明的存在。然而,对于第二个问题,人类至今没有找到能够以确定的方向和速度,创造新知识的有效方法——很可能根本不存在这样的方法。

为了避免重新发明轮子这样尴尬的事情,人们通常会认为,创新的前提是继承,也就是说,新一代的研究者必须要全盘继承以往所有的研究成果,在此基础上再去创新。这方面,专业化分工,也就是将知识细分是个有效的方法,既然人类数量增长的约束小于寿命增长的约束,那么就可以将原有的知识分成很多门学科,由一部分人去继承并开拓每门学科,当然,这并不是没有问题,如果物理学天才爱因斯坦如果没有得到数学家的帮助,就不会完成广义相对论。这种将整体分割为部分所导致的损失,在现代文明中不知还潜在多少。

然而,现代文明的高速进步所创造的大量知识,即使对于一个学科的研究者而言,继承所有已有的知识也变得艰难。所以,人类便会寻求高效的继承方法,这些方法自然也包括:抹去知识探索过程中的曲折过程,以结果为导向,通过逻辑演绎的方式直接提取这些知识的核心骨干,从而实现快速继承大量知识的目的。

遗憾的是,这种继承方法丢弃了知识真实的创造过程,以及蕴含其中的知识创造方法。甚至,由于大量的知识需要被继承,演绎机械式的继承方法也抹杀了人性中天生具有的直觉、想象、创造性的思维。结果就是,被教育体制所培养,乃至折磨出来的学生,专业知识扎实,能够运用现有的知识解决现有的问题,但是,创造新知识的水平却没有提高。

所以,我们可以看到,对于新知识的创造,原有的知识继承固然重要,但更重要的是不要因此抹杀人性天生所具有的直觉、想象、创造性的思维,而且要借助于历史等学科文化,让学习者能够亲身接触知识真实的创造过程,认识知识的创造方法,让他们对知识保持好奇心,充满求知欲,让思想自由流淌,让想象随意连接和释放。

如此一来,教育的真正目的根本不是为了告诉学生尽可能多的正确答案,而是放大、影响、呵护学生的好奇心,让学生学会如何探索、并且乐于探索未知的知识。教育的时长也不在于三年五年、还是九年十年,在好奇心的驱使下,学生会终其一生探索未知。这样看来,老师教授的知识对错并不重要,学生会对错误产生质疑,并且迟早找寻到答案;老师教授的知识多少也不重要,知识有如茫茫大海,学生自会学海行舟;甚至,有没有老师教授也不重要,有心学习的人,万事万物都是老师,随时随地都可学习;学到的知识是对是错也不重要,当知识与现实矛盾时,学生自会纠正改进……讽刺的是,我在这里也在用演绎逻辑的方法分析这个问题——这意味着演绎逻辑方法本身并没有错,只是这会让人看不清知识创造本身的真面目。

也许有人会质疑:老师以演绎逻辑的方式教授知识,会提高学生的知识获取效率,避免学生自己走弯路浪费时间。对于老师所教授的知识,诚然如此。但是,老师又如何保证自己所教的知识都是绝对真理呢?而且这种效率也只是针对所教授的知识而言,让学生以牺牲好奇心、求知欲,独立获取知识的方法来换取这种效率其实是得不偿失的。就以走弯路而言,弯路走的多了,经验也多了,学习的路上迟早要独自前行,与其被人通过康庄大道带到乡间小路再撒手,不如自己在乡间小路土生土长。另一方面,对于学生而言,已有的知识继承比例达到多少最有利于新知识的创造,这同样是未知之数。所以,对于学习而言,最重要的不是学到了什么,而是“如何”以及“为何”学习?

“A.假设一个运动员在第一场比赛中击球3次,在第二场比赛中击球4次,那么他一共击球几次?答案是7次。

B.假设该运动员在第一场比赛中有2次击球成功,在第二场比赛中有3次击球成功,那么他一共击球成功几次?答案是5次。

C.击球成功次数与击球次数的比例称为平均击中率,第一场比赛中平均击中率为2/3,第二场比赛中平均击中率为3/4,那么两次比赛的平均击中率是多少呢?

如果我们用分数的相加法则(分母通分,分子相加),则2/3+3/4=17/12,答案显然这是荒谬的。如果我们使用分子和分母分别相加的算术法则,得到的答案是2/3+3/4=5/7,而这就是正确答案。”

——整理自《数学:确定性的丧失》第四章

虽然记忆是模糊的,但是我几乎十分确定,学分数运算的时候,多半算错过类似上面的题目。当时老师的教学重点明显也不在这里,仅仅告诉我们应该用总的击球成功次数除以总的击球次数,就这样,一开始我就接受了这种正确的计算方法,以至于完全没有察觉到:这样一个问题至少隐藏了两种计算规则,而判断哪一个是“正确”的,其依据完全是现实生活中的经验。这就好像娴熟的向导带领我们快速通过了精美的宫殿,而我们完全没有察觉到宫殿漂浮在半空,直到多年后回头看到曾经走过的路,不免惊出一身冷汗。

克莱因先生的这本《数学:确定性的丧失》在高于应用的层面探讨了数学基础性的问题,最后得出这样的结论:

“ 所有观点最终得到这样一个结论:决定数学的合理性的不是能在某一天被证明是正确的某一种基础,数学在物理世界中的应用决定其“正确性”,数学和牛顿力学一样是一门经验科学。当它有效时,就是正确的,若其无效,则须加以纠正。尽管2000年来,数学一直被看做是一门先验知识,但实际上并非如此,数学不是绝对的、不可变更的。

……

哲学家桑塔亚那在《怀疑论和动物式信仰》一书中指出,怀疑对思维至关重要,而动物式信仰则对行为至关重要。许多数学研究具有极大的重要性,欲使这种重要性长存,研究工作必须继续进行。动物式信仰正是提供了这样的信念。”——《数学:确定性的丧失》第十五章

可见,一方面,数学已经被认为不是一个绝对的真理体系,而是围绕着物理现实而波动;另一方面,对于脱离应用,只是关于数学自身的研究仍然在信念的驱动下继续。这个看似简单的结论,却凝聚了自19世纪以来数代数学家们的心血。

“因此,古希腊人留给后人两门截然不同的、发展得不一样的数学分支。一方面是演绎的、系统的、但有些缺陷的几何,另一方面则是经验算术及其延展代数。考虑到古希腊人要求由清晰的公理基础推论得到数学结果这样一个事实,而独立的算术和代数却没有它自己的逻辑机构,因此其出现成了数学史上一个巨大的反常现象。”

——《数学:确定性的丧失》第五章

起初,只有几何被认为是逻辑清晰的完美数学,而包括无理数、负数、复数在内的算术仅仅是方便应用而发明的模糊不清的概念,但是,费马和笛卡尔将由算术延展而来的代数引入几何,创造出了解析几何这样实用的分析工具,牛顿和莱布尼兹进一步发展出微积分,而基于微积分的物理学规律直接推动了科学技术的进步。也许是算术先天性缺乏的逻辑基础,微积分虽然有效但是逻辑基础却不牢固,直到后来的柯西和魏尔斯特拉斯等人的工作结束,微积分的大厦才被扶正。

当人们都以为数学终于逻辑严谨而美丽时,非欧几何的发现又带来了新的灾难。原来,自欧几里得以来被认为是逻辑完美的几何也不完美,人们从可疑的欧几里得“平行公设”(过直线外一点,有且仅有一条直线与原直线平行)出发,发现如果将该公设/假设分别修改为:没有直线与原直线平行、有无数条直线与原直线平行,则可以分别得到两种几何(双曲几何和椭圆几何),这两种几何在其公设下也是相容的(结论之间不存在矛盾)。

同样,以哈密尔顿的四元数、凯莱的矩阵代数为代表,各种奇怪的代数也被创造出来,似乎只要定义某种概念和运算规则,使其在体系内不会产生矛盾,就可以成为一种新的代数,于是,才被统一到几何演绎的算术真理也陷入了灾难。

“对算术真理最严重的打击来自于亥姆霍兹,他是个卓越的物理学家、数学家和医生。在他的《算与量》(1887年)一书中,他认为数学的主要问题是算术对物理现象的自适应性的证明,他的结论是只有经验能告诉我们算术的法则能用在哪里,我们并不能肯定一条先验公式是否在任何情况下都适用。

亥姆霍兹考虑了许多相关的问题,数的概念本身来自于经验,某些经验启发了通常类型的数:整数、分数和无理数及其性质。对于这些经验,熟悉的数是适用的。我们认识到存在确实相等的物体,因此我们可以说,例如:两头牛。然而,这些物体必须不能消失、混合或分割。一个雨滴与另一个雨滴相加并不能得到两个雨滴。甚至是相等的概念也不能自动地用于经验……

……

因此,数学家们只能得出这个令人沮丧的结论:数学中没有真理,即作为现实世界普适法则意义上的真理。算术和几何基本结构的公理是受经验启发得出的,因而这些结构的适用性是有限的,它们在哪里适用只能由经验来决定。希腊人试图从几条自明的真理出发和仅仅使用演绎的证明方法来保证数学的真实性被证明是徒劳的。”

——《数学:确定性的丧失》第四章

老一辈的数学家捍卫传统,新一辈的数学家追求真理,当我们以为最终是新人们拿出证据使老人们接受真理时,现实却令人大跌眼镜,科学真理的接受原来是如此戏剧。

“非欧几何及其隐含的关于几何真理性的内容逐渐被数学家们所接受。但并不是由于它的适用性的任何证据被加强了,而是正如普朗克,这位量子力学的奠基人在20世纪初所说的:“一个新的科学真理并不是靠说服它的对手并使其看见真理之光取胜,而是由于它的对手死了,新的一代熟悉它的人成长起来了。”

——《数学:确定性的丧失》第四章

如果我们将几何被认为是逻辑完美的理由提炼出来,就会发现:演绎的模板其实源自欧几里得的《几何原本》,首先设定若干条被认为是不证自明的公理/公设,或者干脆就是假设,然后通过逻辑演绎的方式,可以由这些假设推导出以后的所有结论,只要假设是正确的,推导的过程没有瑕疵,那么,由此得出的所有结论就是完美的。

当然,为了让整个理论是完美的,还需要两个条件:

  • 1.开头的那些假设、以及由其推导出的结论,彼此不能矛盾——相容性;

  • 2.所有的假设涵盖了本理论所有的基础因素——完备性。

20世纪以来的数学家们,为了证明相容性和完备性,以逻辑主义、直觉主义、形式主义和集合论公理化四种派别而纷争,直到哥德尔通过证明彻底否定了相容性和完备性的可能。从此,确定性的数学幻想被打破,数学家们继续探究数学问题的同时,终于相信:“决定数学的合理性的不是能在某一天被证明是正确的某一种基础,数学在物理世界中的应用决定其“正确性”,数学和牛顿力学一样是一门经验科学。当它有效时,就是正确的,若其无效,则须加以纠正。”

最后,关于数学直觉的问题。与教科书中对数学发现的暗示不同,数学家们的发现往往与其直觉密切相关,证明这种东西只是他们说服世人相信这些结论的手段而已——这恐怕也正是证明被称为“证明”的原因吧。至于数学发现的方法,恐怕正如柯朗在《什么是数学》中所言:“假设(5)的来源问题,属于一个没有一般规律可循的领域。其中起作用的是经验、类比和直观。”所以,直觉才是平凡而难得的数学发现工具。

“这是因为数学家们没有认识到这些概念(无穷大量、无穷小量、负数、复数等)不是来自于直接经验,而是心智的创作。

换句话说,数学家们是在贡献概念而不是从现实世界中抽象出思想,究其成因,他们是将感性知识转变为理性知识。由于这些概念被证明越来越实用,数学家们起初还忸怩作态,后来就变得肆无忌惮了,久而久之,人们也就认为这是无可指责且理所当然的了。从1700年起,越来越多的从自然中提取和在人思想中产生的观念进入数学领域并几乎被毫不怀疑地接受,由此引起的不良后果终于促使数学家们不得不从现实世界之上去审视他们的这门学科。

……

那么,数学家们如何知道他们该往何处去呢?同时,考虑到他们的证明传统,他们怎么敢只用规则就能保证结论的可靠性呢?毫无疑问,解决物理问题就是他们的目标,一旦物理问题被数学公式化后,就可利用精湛的技巧,从而新的方法和结论就出现了。数学公式的物理意义引导着数学的步骤,也经常给数据步骤提供部分论据,这个过程在原理上同一个几何定理的论证没有什么差别。在证明几何定理时,对图形中一些显而易见的事实,尽管没有公理或定理支持它们,还是被利用了。

除了物理思维,在所有新的数学工作中,还有强烈的直觉作用,基本概念和方法总是在对结论合理的证明以前很久就被直觉捕捉到了。杰出的数学家,不管他们怎样姿意妄为,都有一种本能,即保护他们自己免受灭顶之灾。伟大人物的直觉比凡人的推演论证更为可靠。

……

事实上,数学家并不像通常所认为的那样依赖于严格的证明。他的创造对他来说,其意义超过任何形式化,这个意义赋予其创造的存在性和现实性……

直觉甚至比逻辑更令人满意和放心。当一个数学家问自己为什么某个结果应站得住脚时,他寻求的是一种直觉的理解。事实上,如果所证出来的结果没有直觉意义,那么这种严格证明对他来说就一文不值。如果确实是这样,他就会非常挑剔地检查证明,如果证明看起来是对的,他才会努力去找出他自己直觉上的毛病……

那些伟大的数学家在逻辑证明尚未给出以前,就知道某个定理肯定是正确的,有时候只要有迹象表明证明是存在的,他们就满足了……

这么说,证明的概念不像普遍认为的那么重要,虽然它在公众的头脑中和数学家们的著作中显得那么突出……

对哈代来说,证明只不过是数学大厦的门面而不是其结构中的支柱……

……

还是魏尔说得更为恰当:“逻辑是数学家用来保持他思想健康强壮的卫生手段。”……”

——《数学:确定性的丧失》第七章、第十四章

“如果在作图中我们要求某些直线相交,而实际上它们却是平行的,这时我们的有些讨论就将失效……两条平行线不相交的事实,使几何推理在每一步似乎都遇到障碍,以至于在涉及两条直线相交的任何讨论中,平行线这种例外情形都必须分开来加以考虑和阐述。同样,中心射影必须和平行射影区分开来,并要对后者另行处理。如果我们真的必须对每一个这样的例外情形进行细致的讨论的话,那么射影几何将变得非常庞杂。因此我们试图改变一下,把我们的基本概念做某种推广,使得能去掉这例外情况。”——《什么是数学》第4章

根据日常经验,看起来明明不相交的两条平行线,你非要说他们在无穷远点相交,这种违背经验的概念怎么解释看起来都像悖论,学生时代的课本没能给我合理的解释,好在考试也不牵涉此论,于是,关于这个问题的疑惑就这样遗忘在我的长期记忆里——直到遇到本书的解释。原来,无穷远点概念的扩展其实包含着一种重要的数学思想:为了简化讨论,而对基本概念做某种推广,审视这种推广是否有意义的标准则是原有的性质/规则能否被延续(哪怕是部分的、有条件的延续)。

“在这里,几何直观指出了这样的方法:如果与另一条直线相交的直线逐渐地旋转到平行位置,则二直线的交点将退到无穷远处。直觉上我们可以说,二直线在“无穷远点”相交。这时,关键是要对这含糊的说法给出一个明确的意义,使得无穷远点(有时称为理想点)能够像平面上或空间中的普通点那样来讨论。换句话说,我们需要的是:即使这些几何元素是理想的元素,但涉及点、直线、平面等等的所有规则不变。要做到这一点,我们既可以用直观的办法,也可以用形式化的办法,正如我们在扩充数系时所做过的那样。在那里,一种做法是从测量的直观思想出发,而另一种做法则是从算术运算的形式规则出发。

首先,我们要看到,在综合几何中,即使是“普通”的点和直线这样一些基本概念,在数学上也是没给出定义的。在初等几何课本中,关于这些概念,经常能找到的所谓定义只是启发式的描述而已。对于普通的几何元素,我们的直觉使我们很容易感到它们的“存在”。但在几何中——作为一个数学体系来考虑——我们实际所需要的只是某些正确的规则。借助于它们,我们能运用这些概念,例如连接各点,求直线交点等等。从逻辑上考虑,一个“点”不是“自在之物”,对它,需要用能体现它与其他对象的关系的所有命题来完全描述。只要能以一种清晰而不矛盾的方式阐述“无穷远点”的数学性质,即它们与“普通”点的关系以及它们彼此之间的关系,则这个新的实体在数学上就有存在的意义了。普通的几何公理(例如欧几里得的公理),是从物理世界中的铅笔和粉笔线、拉紧的弦、光线、硬杆等抽象出来的。这些公理所赋予数学上点和直线的性质,是对应的物理对象的性态的高度简化和理想化的描述。通过任意两个用铅笔标出的实际的点能画出许多条直线而不只是一条。如果这点的直径变得越来越小,则所有这些直线将近似地相同。当我们说到“通过任意两点有一条且仅有一条直线”这个几何公理时,我们心里所指的就是这种情况。我们现在指的不是物理的点与直线,而是几何上抽象的、概念化的点与直线,几何的点和直线有着本质上比任何物理对象更为简单的性质,而且这样的简化是把几何发展成为一个演绎科学的根本条件。

如我们已指出的,与点和直线有关的普通几何,由于一对平行直线没有交点这一事实而被大大复杂化了。因此我们在几何的结构中作进一步的简化。通过扩大几何点的概念来消除这个例外,正如我们扩大数的概念来消除减法和除法的限制一样。在这里我们的指导思想始终是:希望在原来范围内通行的规律,在扩大的范围内仍然可行。

因此我们将规定,在每条直线上除普通点以外再加上一个“理想点”。这个点属于与给定直线平行的所有直线而不属于其他直线。这样一来,平面上每一对直线将交于一点;如果这对直线不平行,它们交于一普通点,而如果这对直线平行,则它们交于这二直线所共有的那个理想点上。由于直观的原因,一条直线的理想点称为这直线的无穷远点。

直线上一点退到无穷远处的直观概念,可能启发我们给每条直线加上两个理想点,沿着这直线的每一个方向有一个。其所以只加一个点(如我们上面所作),是由于我们希望保持这样一个规律:过任意两点有一条且仅有一条直线。如果一条直线与每条平行线共同包含两个无穷远点,则通过这两个“点”将有无穷多条平行线。

我们还将约定,除了平面上的普通直线以外,再加上一条“理想”直线(也称平面上无穷远直线),它包含平面上所有理想点而不包含其他点。显然,如果我们希望既保持原来过任意两点可作一直线的规定,又要得到任意二直线交于一点的新规律的话,就不得不做这个规定。为了说清这一点,让我们任意选择两个理想点,这时唯一通过这两点的直线不可能是一条普通直线,因为按照我们的规定,任何普通直线仅包含一个理想点。而且这条直线不能包含任意普通点,因为一普通点和一理想点决定一普通直线。最后,这条直线必须包含所有理想点,因为我们希望它与每一条普通直线有一个公共点。因此这条直线必须很明确地具备我们对平面上理想直线所假设的那些性质。

按照我们的规定,一个无穷远点被一族平行直线所确定,或者说由一族平行直线表示。正如一个无理数被有理端点区间套序列所确定一样。两条平行直线相交于无穷远点,这一命题没有神秘的含义,只不过是描述直线平行的一个约定方式。用这种方式表示平行(在语言上,原来它是针对直观上不同的对象用的),唯一的目的就是不必一一列举例外的情形;现在它们自然可用同一种语言来表示,或者说包括在用于“普通”情形的其他符号中。

综上所述,对无穷远点我们是这样规定的:关于普通的点和直线之间的关联性的规律,在扩大的点范围内继续成立;求二直线交点的做法,先前仅当直线不平行时才可能,现在则可以去掉这个限制。这样一种考虑——使得关联关系的性质在形式上得到简化——看起来似乎比较抽象,但读者在后面将会看到,这样做是很合适的。”——《什么是数学》第4章

数学是研究模式的科学。数学家的所作所为,就是去检视抽象的模式——数值模式、形状的模式、运动的模式、行为的模式、全国人口的投票模式、重复机会事件的模式等……”

——《数学的语言》序曲:何谓数学

数学是艰涩的,也是美味的,放下枯燥的课本,拿起一本数学史,我惊叹数学所代表的人类理性最高成就。心情放松,顺着好奇心的引导去理解和思考,学生时代的疑惑便慢慢解开,整个过程犹如欣赏一部烧脑成瘾的电影。

我喜欢《什么是数学》中“数学中的数系”,因为柯朗解读了整数、有理数、无理数等的定义和性质,因为康托尔的集合论令人着迷,他关于有理数可数性的证明令人叫绝,还有超越数的发现……

我也喜欢《古今数学思想》第二册中“四元数,向量和线性结合代数”,因为克莱因写到:“虽然关于超复数的思想引向了各种推广,但格拉斯曼的n维超复数的分析(例如微积分)终究未建立起来。理由是简单的,即没有发现这样的分析应用。”可见,数学的发展仍然围绕物理学而波动。

我还喜欢《数学的语言》中“当数学成形”,我终于理解了非欧几何的含义:欧几里得的第五公设(过直线外一点,能且只能画一条直线与该直线平行)是演绎推理的前提而非结论——其本身无法被证明,如果否认这条公设,我们仍然可以演绎出一套完整合理的几何体系。以球面为例,过球面上直线外一点根本不存在与其平行的直线(所有的直线都与该直线相交),理解这一点的关键在于抛弃经验直观,而从性质上理解“直线”的含义。两点之间最短的距离就是直线,而球面上两点的距离就是经过两点的大圆的弧(所谓大圆就是球面上圆心与球心重合的圆)。

除此以外,还有亚里士多德的三段论、布尔的代数、同余问题、对无穷远点和无穷远直线的扩展定义及其扩展依据(《什么是数学》第4章),几何变换的反演、射影几何的交比、拓扑、纽结……有的为我查漏补缺、有的让我大看眼界、还有的令我百思不得解(基础知识不足)。特别的,《天才引导的历程》中对于《几何原本》的部分解读让我感受到,现代数学的许多课题都源于这本流传千古的奇书。

如果进一步思考上述的种种惊奇,这些书籍还为我们展示了关于数学创造更重要的一个话题:到底是什么推动数学中的创造?一方面,数学的发展似乎就是依靠天才们惊人的智慧,另一方面,惊世的天才们似乎也无法超越时代的约束。

“应该指出的是,一旦公式(5)写出来后,用数学归纳法证明这公式就足够了,但这证明却没有表明这个公式最初是怎么产生的。为什么表达式[n(n+1)/2]^2被人正确地猜到是前n项立方和的表达式,而不是[n(n+1)/3]^2或(19n^2-41n+24)/2或任何其他曾经被考虑过的无限多个相似类型的表达式。一个定理的证明在于应用某些简单逻辑规则,但这样一个事实并没有揭示数学中的创造性的成分,而创造性在于对被考察的各种可能性作一选择。假设(5)的来源问题,属于一个没有一般规律可循的领域。其中起作用的是经验、类比和直观。但是一旦叙述出正确的假设,用数学归纳法就常可提供证明。由于这样一种证明方法并没有给出发现过程的线索,把它称为验证似乎更为合适。

……

有许多原因使得数的概念必须越出实数连续统而引进所谓复数。人们必须认识到,在数学发展史上,在数学思想的发展过程中,所有这种推广和新的发明决不是个别人努力的结果,它们是具有继承性的逐步演化的过程的产物,而不能把主要功劳归于某个人。为了便于做形式计算,需要用到负数和有理数。他们并不像自然数那样直观和具体,直到中世纪末,数学家们在用到这些概念时才开始失去不舒适的感觉。直到19世纪中叶,数学家们才完全认识到,在一个扩充的数域中的计算,其逻辑和哲学基础本质上是形式主义的;这扩充的数域必须通过定义来创造,这些定义是随意的。但是,如果不能在更大的范围内保持在原来范围内通行的规则和性质,它是毫无用处的。这些扩充有时可以和“实际”对象相联系,通过这种方式为新的应用提供工具,这是最重要的,但是这只能提供一种动力而不是扩充的合理性的逻辑证明。

……

……近代数学的直觉主义者,在广义的康德主义意义上不依赖于纯粹的直觉。他们把无限可数性作为正常的儿童所具有的直观感觉而接受下来,而且他们只承认可构造的性质;可是这样一来像数的连续统这样的基本概念被抛弃了,真正的数学的重要部分被排除了,并且剩下的部分几乎没有办法,只能弄得十分复杂。

“形式主义者”采用另一种很不同的观点。他们不把直觉的现实作为数学的对象,他们也不主张公理所表示的只是那些与纯粹直觉的现实有关的明显真理;他们所关心的只是在公理基础上继续推理的形式逻辑程序。和直觉主义比,这个态度有一定的好处,因为它为数学提供了在理论和应用上所需要的一切自由。但它却迫使形式主义者必须证明他的公理(现在看来是人的思维的任意创造)不可能引出矛盾。近二十年来,至少在算术和代数公理以及数的连续统概念方面,人们曾作了巨大的努力来寻找这种相容性的证明。这些结果有很大的意义,然而离成功还很遥远。实际上,最近的结果表明,这样的努力在下述意义下是不可能完全成功的:在概念的严格封闭系统中,证明相容性和完备性是不可能的。很值得注意的是,所有这些关于基础的讨论,所用的方法本身却完全是构造性的、是在直觉模式指引下产生的。

直觉主义者和形式主义者之间的分歧【为集合论的悖论(见101页)所加剧】,曾被这些学派的热心成员广为宣传。数学界响起了“基础危机”的呼喊。但是人们没有把它看得太严重,而且也不需要把它看得过于严重。鉴于澄清基础的斗争取得了这些成功,反认为这些意见分歧以及(在无拘束地追求漫无边际的一般性的过程中所特有的)悖论还威胁着富有生命力的数学机体,这是完全不公正的。

抛开哲学的因素和对基础的兴趣,对于数学学科来说,公理方法是剖析各种事实之间的相互联系以及展示这结构的基本逻辑梗概的最自然的方法。有时候,形式结构之如此集中,比概念的直观意义更易于推广和应用,而这些推广和应用在一些比较直观的方法中往往是被忽视的。但是,凡是重要的发现或者具有实质性内容的见解,很少是由单纯的公理程序得到的。在直觉指引下的构造性思想是数学动力的真正源泉。虽然公理化是理想的形式,但是,相信公理体系构成了数学的精髓,这是一个危险的错误。数学家的构造性直觉,给数学带来一个非演绎且非理性的要素,可以拿它同音乐与艺术相比拟。”

——《什么是数学》第1章、第2章、第4章

*公理体系:如果一个科学领域中的事实能被纳入这样一个逻辑次序,使得所有的事实都能从一些选择好的(最好是少量的、简单的、直观上明显合理的)命题出发来证明,则称这个领域已被表示为公理体系。选择那些命题作为公理,这有很大的任意性,但是除非这些公理简单且数目较少,否则运用公理方法很少获益。理想情况下,这些公理还应当满足相容性、完备性和独立性的要求。

“虽然柯西发展了适合微积分的一套广泛极限理论,但是,他依然运用动态的逼近过程。因此,他将微积分置于一个坚固的基础,只意味着他化约这个问题,为极限提供了一个精确定义。至于那最后的关键步骤,则是由魏尔斯特拉斯执行。然而,为什么不把是牛顿或莱布尼兹,甚或柯西做到这一点呢?毕竟,这些伟大数学家中,每一位都非常习惯使用这些变量以捕捉运动,并使用公式以捕捉运动的模式。差不多可以确定的是,问题在于人类心灵可以应付一个对象本身的过程之层次。在牛顿与莱布尼兹的时代,将函数视为一个对象,而非变化或运动的一个过程,早已是一项卓越的认知成就了。接下来,将连续逼近该函数斜率的过程视为另一个依本身名义的对象,就太不可思议了。只能随着时间的流逝,以及对微积分技巧熟悉度的渐增,才可望有人完成这第二个概念的跨越。伟大数学家可以完成惊人的壮举,但他们也只是人类。认知进展需要时间,往往是好几个世纪之久。

由于牛顿与莱布尼兹有关逼近(或极限)过程如此优异,他们乃能将他们的微分学发展成为一种可靠且极为有力的工具。为此,他们将函数视为数学对象,以便研究与操作,而不只是计算用的食谱而已。他们都被各色各样的模式——源自于链接到那些函数的斜率连续逼近的计算——所导引,然而,他们却无法后退一步,并将逼近的那些模式视为数学研究的对象本身。”

——《数学的语言》第三章

聊聊数日,《数学之美》已读过20章,从感叹到兴奋,转而迷惑又似神奇。

想那香农的信息论,专业选修课上倒也听老师讲过,只是印象颇浅,作者吴军则从世界杯冠军的预测开始,以二分法引出的信息量定义,实在是深入浅出;

热力学中用作衡量不确定程度的熵的概念,被这些伟大的学者引入信息论,进而延展到自然语言处理中,倍感自然神妙,大道相通;

谈及大名鼎鼎的PageRank算法,作者的文笔则甚是小心,明显不如《搜索引擎技术基础》这本书中所述直观,包括引擎索引和网络爬虫,均是点到为止,甚至让人有云里雾里的感觉,想必作者是碍于身份,也许是另有深意;

介绍词频(TF)和逆文本频率指数(IDF)时,作者又是一边引述一般分析,不放过读者任何一个可能的疑点,尤其是让看到IDF的定义时,已经引得读者想起前文熵的形式,从而文后顺理成章一番推导;

……

这其中,尤以两个章节给人留下的印象又颇为典型,分别为“地图和本地搜索的最基本技术——有限状态机和动态规划”和“余弦定理和新闻的分类”,所以,效仿作者的“从水门事件到·莫妮卡莱温斯基”,顾彼而言他。

地图和本地搜索的最基本技术——有限状态机和动态规划

如果我没有猜错的话,阅读本章的基础知识应该是《图论》,缺少《图论》基础的我,有限状态机的部分勉强可以看过,尽管不清楚到底如何使用,也对示意图中从“省”的状态如何能直接到“区县”的状态而耿耿于怀。

但是看到动态规划部分时,真的有点摸不着头脑,虽然说例子通俗简单,不过以全国公路网为例来寻找北京到广州的最短线路。但是终归存有两个疑问:

1.原文结论为“我们可以先找到从北京出发到这条线上(一条贯穿乌鲁木齐、西宁、兰州、西安、郑州、济南的弧线。)所有城市的最短路径,最后得到的全程最短路线一定包括这些局部最短线路中的一条。这样,就可以将一个‘寻找全程最短路线’的问题,分解成一个个寻找局部最短线路的小问题。只要将这条横切线从北京向广州推移,直到广州为止,我们的全程最短路线就找到了。这便是动态规划的原理。”

我的疑问就是,按照我的理解,那就是以北京到郑州为例,只有两条线路,A: “北京->石家庄->郑州”;B: “北京->济南->郑州”,倘若“北京->石家庄”比“北京->济南”的路线短,并且,“石家庄->郑州”也比“济南->郑州”短,那自然A线路就是最短。可是如果“北京->石家庄”比“北京->济南”的路线短,但是,“石家庄->郑州”也比“济南->郑州”长呢?前文中的反证法还是没有完全消除我的疑惑。此外,什么又叫做“只要将这条横切线从北京向广州推移”呢?

2.原文描述“在上面的例子中,每加入一条横切线,线上平均有10个城市,从广州到北京最多经过15个城市,那么采用动态规划的计算量是10×10×15……”要说看到这里,我基本上可以理解第一个问题中,作者所说的“只要将这条横切线从北京向广州推移”就是指再加入横切线,那么这横切线又该从哪里加入呢?更疑惑的是,作者如何得知“线上平均有10个城市,从广州到北京最多经过15个城市”,是假设还是计算所得?这“10×10×15”又是如何解释?

坦白说,本章这段内容是我对本书最疑惑的地方,固然自己的理解力有限,但是作者倘若能以更明晰的语言和图例解释,学习和理解起来必然会省力不少,从这一点上而言,想起书中所说“Google招聘产品经理时要求能给老太太将清楚什么是搜索引擎”的问题,不免觉得此处仍然有待改进,算是小小意见吧。

余弦定理和新闻的分类

与前一章节类似,我发觉本章所要求基础知识是《线性代数》,虽然不才,大学的线性代数考得不好,加之毕业几年来未曾使用,连两个矩阵如何计算都忘记了。但是,触类旁通:使用PS软件首先要根据图片的特征完成选择;识人辨物或以外形轮廓为特征,或以DNA,物质结构为特征;对任何事物的操作同样要寻找其特征,成功识别后才论其他……所以,这矩阵当然有其识别的特征,不论“特征向量”还是“特征值”,还是以后出来的其他什么特征,总之是使其与其他矩阵区别的标志。

对新闻的分类,除了人工辨别的劳力法子,还是自动化的法子省力高效,本章的内容虽不深奥,但是也精妙得很!将一篇新闻的文本作为一个矩阵来看,其中的字词自然是其特征,以语言中全部的词汇为向量,每个字词在这篇新闻中的信息量(例如TF-IDF值)为值,就可以找到这篇新闻的特征向量。

而两篇新闻的相似性,则以其特征向量的夹角余弦为表征,接触广义的余弦定理,两个特征向量倘若重叠,多半就是同一个向量(这特征向量的“坐标”如此之多,两篇不同新闻有相同向量的可能性自然极小),两个特征向量的夹角越大,余弦值越小,自然越不相似,等到夹角为90度,即是正交,想想那三维坐标中的X轴和Y轴,两个互相不能表示,自然是完全不同了。

就这样,直观上两篇新闻的相似性被两篇新闻的特征向量的夹角所表征,感性的东西被定量化了,如何不妙?(虽然我相信还存在其他以感性表征感性的方法。)

基于上述方法,通过计算成千上万篇新闻的特征向量两两之间的余弦相似性,将相似性大于一个阈值的新闻分为一小类;然后计算这一小类新闻的特征向量,再计算于其他小类的特征向量两两之间的余弦相似性,再将相似性大于阈值的新闻分为一类……如此反复计算,最终就可以实现自动化的新闻归类。当然,这计算细节的诀窍仍有很多,作者在后文也有所介绍。

至此,这篇文章被我酣畅淋漓地读完了!同样,我不知道没有《线性代数》基础的朋友是否也能看得如我这般兴奋,倘若如此,说明作者的表述手法精湛过人,否则的话,恐怕仍得有劳作者改进。

当然,一个人到达更高层次的境界后,再想反过来站在没有达到这种境界的人的角度,为其讲授知识,肯定不是易事。从这一点上,我对本书的作者仍然是崇敬有加!只是今日读书有感,不吐不快,书是好书,否则也不会终日抱在身前了!