一、赫布律
赫布是联结主义的奠基石,联结主义相信知识储存在神经元之间的联结关系中,它也因此而得名。
唐纳德·赫布是加拿大的心理学家,他在1949年出版的《行为的组织》中这样说道:“当A细胞的轴突和B细胞足够近,并且重复或不断地对其放电时,A、B中的一个细胞或者两个细胞都会经历生长过程或者代谢改变,这样A细胞(作为对B细胞放电的细胞之一)的效率就会得到提高。”这段话经常被转述成“一起放电的神经元也会被串连在一起,次数越多,连接越牢,经常一起被激活的脑细胞,会自动连得更紧,变成固定搭档。久而久之形成一种器官。”这是大脑里的“近朱者赤,近墨者黑”。
赫布律是心理学和神经科学思想的融合,其中掺杂了合理的猜想。通过连接来进行学习,是英国经验主义者最喜爱的话题,从洛克和休谟到约翰·穆勒都是如此。威廉·詹姆斯在著作《心理学原理》中,阐明了连接的主要原理,这和赫布律十分相似,只是大脑活动被神经元取代,放电效率被兴奋的传播取代。差不多同时,西班牙神经学科学家圣地亚哥·拉蒙·卡哈尔第一次对脑部进行详细观察,利用当时发明的高尔基染色法来对单个神经元进行染色,把他所看到的编成目录,就像植物学家对树木的新品种进行分类一样。赫布时期,神经学科学家对神经元如何发挥功能有了彻底了解,但赫布是第一个提出这种机制的人,通过这个机制可以对连接进行编码。
在符号学派中,符号和它们代表的概念之间有一一对应的关系。相反,符号学派的代表方式却是分散式的:每个概念由许多神经元来表示,而每个神经元又会和其他神经元一起代表许多不同的概念。互相激发的神经元会形成赫布所称的“细胞集”。概念和记忆由细胞集在大脑中表示出来。每个细胞集都可以包含来自不同大脑区域的神经元,也可以和其他集合相互重叠。“腿”的细胞集中包含“脚”的细胞集,包含脚的图片的细胞集,以及脚的声音的细胞集。如果你问一个符号学派系统,“纽约”这个概念在哪里被表示出来,它可以指向存储该记忆的准确位置。在联结学派体系中,答案就是“这个概念通过这里一点、那里一点地被储存起来”。
符号学派和联结学派的另外一个区别就在于,前者是按次序的,而后者是平行的。在逆向演绎中,我们可以一步一步地弄明白,为了从前提出发得到满意的结论,需要哪些新的规则。而在联结学派模型中,根据赫布律,所有的神经元都会同时进行学习。这也反映了计算机和人脑之间的不同属性。计算机做每件事都会一点点来,例如,把两个数相加,或者拉开关。所以为了完成所有有意义的事情,计算机得经过很多步骤,但那些步骤可以很快被完成,因为晶体管每秒可以打开、关闭数十亿次。相反,人脑可以同时进行多项运算,这时数十亿的神经元会同时起作用,但每项远算都会很慢,因为神经元最多可每秒放电1000次。
计算机里晶体管的数量已经赶上人类大脑里神经元的数量,但在连接数量上,人类的大脑轻易获胜。在一台微处理器中,典型的晶体管仅仅和其他几个晶体管直接相连,而派上用场的平面半导体技术对计算机功能的发挥又有很大的限制。相反,一个神经元就有数千个突触。如果你走在大街上碰到熟人,你认出他只需要0.1秒。以神经转换的速度,这些时间勉强够用来进行100个处理步骤,但在那些处理步骤中,你的大脑能够浏览整个记忆库,找到最佳搭配,然后使其适应新的背景(不同的服装、不同的灯光等)。在大脑中,每个处理步骤有可能会很复杂,而且会涉及很多信息,并符合分散的概念表达方式。一个概念由一大群神经元共同表示,你找不到单点,只找得到一片网络。这并不意味着我们就不能利用计算机来模拟人脑,毕竟这是联结学派算法要做的事。因为计算机是通用的图灵机,只要我们给它足够的时间和记忆力,它就能执行大脑的计算,以及别的任何事情。尤其计算机可以利用速度来弥补缺乏连接的劣势,千千万万遍利用同样的线来模拟1000根线。实际上,目前计算机和人脑相比,主要的限制是能量损耗:人的大脑消耗的能量仅仅相当于一个小灯泡,而沃森消耗的电却能点亮整栋办公楼。
然而为了模拟大脑,我们需要的不仅仅是赫布律,还要知道大脑是如何构造的。每个神经元就像一棵小树,有数目惊人的根须(树突)还有细长蜿蜒的树干(轴突)。大脑就是由数十亿棵这样的树组成的森林,但这些树也有不同寻常的地方:每棵树的枝丫都会和其他数干棵树的根部有连接(突触),形成大片你没见过的纠缠状态。有些神经元有很短的轴突,而有些神经元的轴突则很长,可以从大脑的一边缠绕到另一边。你大脑里轴突的长度相当于地球到月亮的距离。这片森林还会充满电流。火星会沿着树干闪烁,然后会引发相邻树木更多的火花。时不时整个区域的丛林会使自己进入狂热状态,然后又会平静下来。如果你动动脚趾,会发生一系列放电现象,人们称之为“动作电位”。这种放电现象会沿着你的脊髓一直到达腿部,直到到达你的脚趾肌肉,然后告诉肌肉要运动。你的大脑运转时的情景就是这些电火花火光四射的场面。如果你能坐在大脑里面,看看你阅读这页书时大脑发生了什么,你看到的情景会让科幻小说里最繁忙的都市景象也逊色几分。这个十分复杂的神经元放电模式的背后,就是你的意识在起作用。在赫布时代,没有什么方法能够测量突触的强度或者发生在其内部的变化,更不用说弄明白突触变化的分子生物学相关信息。如今,我们知道,当突触后神经元在突触前神经元之后会很快放电时,突触会变大(或重新形成突触)。和所有的细胞一样,神经元里外有不同的离子浓度,穿过神经元的细胞膜形成一股电压。当突触前神经元放电时,微小的囊会向突触间隙释放神经递质分子。这会使突触后神经元的膜中的通道打开,让钾离子和钠离子进入,最终会改变通过膜的电压。如果有足够多的突触前神经元起放电,电压会突然升高,一个动作电位会顺着突触后神经元为轴突而下。这还会使离子通道变得更加灵敏,并出现新的通道,对突触进行加强。就我们的知识所能达到的水平,这就是神经元进行学习的过程。
二、物理学家用玻璃制作大脑
如果机器学习的历史是一部好莱坞电影,电影中的反面人物就是马文·明斯基。他是给白雪公主毒苹果的邪恶皇后,让白雪公主处于昏迷状态(在1988年的一篇文章中,西摩尔·派普特甚至半开玩笑地将自己比作故事里的猎人,故事里皇后派他去杀死森林中的白雪公主)。那么白马王子就是名叫约翰·霍普菲尔德的加州理工学院的物理学家。1982年,霍普菲尔德发现了大脑和自旋玻璃惊人的相似之处,自旋玻璃是深受统计物理学家喜爱的特殊材料。这引起联结学派的复兴,在第一个解决赞誉分配问题的算法发明出来的几年,联结学派复兴达到顶峰,并进入一个新时代,机器学习代替知识工程学成为人工智能领域的主导范式。
旋转玻璃其实并不是玻璃,虽然有一些玻璃的属性,其实是磁性材料。每个电子都是一块微小的磁铁,由于本身的自旋运动,可以指“上”或指“下”。比如在铁这样的材料中,电子自旋就趋向于往上:如果一个自旋向下的电子被多个自旋向上的电子包围,这个电子可能会翻转向上。如果一块铁中的大部分自旋都向上,那么这块铁就会变成一块磁铁。在普通磁铁中,每对相邻电子自旋的交互力都一样,但在自旋玻璃中,这种力就可能不一样。
这种力甚至会是相反的,使得附近的电子自旋指向相反的方向。当普通磁铁所有的自旋都排成一行时,能量是最低的,但在自旋玻璃中却没那么简单。的确,找到自旋玻璃的最低能量状态就是一个NP一完全问题,意味着几乎所有其他最优化难题都可以简化为NP一完全问题。因为这个,自旋玻璃没有必要适应其整体能力最低的状态。这很像雨水可能会沿着山坡流入湖中,而不是进入大海,自旋玻璃可能会陷入局部最小值的困境,而不是在全局最小值中得到发展。处于最小值状态中的能量会比在其他状态下低,通过翻转一圈,最低能量状态就可以转变为其他状态。
霍普菲尔德注意到自旋玻璃和神经网络之间有趣的相似点:一个电子的自旋对其相邻电子的活动所做的反应和一个神经元的反应十分相似。在电子的情况中,如果相邻电子的加权和超过界限值,电子就会向上翻,反之则向下翻。受到这一点的启发,他确定了一种神经网络,和自旋玻璃一样随着时间的推移而演变,他还提出网络的最低值状态就是它的记忆。每个这样的状态都具备原始状态的“吸引盆”,原始状态就收敛于该盆中,这样这个网络就可以进行模式识别了。例如,如果其中的-个记忆是由数字9形成的黑白像素模式,而网络看到一个扭曲了的9,它会收敛成“理想”的9,然后据此重新识别它。突然间,大量的物理理论能够应用于机器学习中,而随之也涌入大批的统计物理学家,帮助自旋玻璃打破之前就陷入的局部最小值困境。
虽然如此,但自旋玻璃仍然是大脑的一个不现实的模型。对于一个电子来说,自旋相互作用是对称的,而大脑中神经元之间的连接却不是对称的。霍普菲尔德的模型忽略的另外一个大问题就是,真正的神经元是和统计相关的:它们不会根据其输入量来确定地进行打开或关闭。随着输入量加权和的增加,神经元更有可能放电,但不确定它是否真的会放电。1985年,大卫·艾克利杰夫·辛顿、特里·索诺斯基把霍普菲尔德网络里的确定性神经元用可能性神经元代替。现在一个神经网络的状态就有了概率分布,高能量状态的概率要比低能量状态的概率低得多。实际上,找到处于特定状态中的网络,这样的概率由著名的热力学中的玻
尔兹曼分布得出,因此他们称自己的网络为玻尔兹曼机器。台玻尔兹曼机器拥有混合的感官和隐藏神经元(分别类似于视网膜和大脑)。它通过清醒和睡眠两种交替状态进行学习,就像人类一样。清醒时,感官神经元根据数据指令放电,隐藏神经元根据网络的动态和感官输入来逐步发展。例如,如果网络收到9的图片,与图片中黑色像素对应的神经元会留下,其他的则离开,而隐藏神经元则在给定那些像素值的情况下,根据玻尔兹曼分布随机放电。睡眠状态时,机器会做梦,让感官和隐藏神经元都能自由漂移。新一天的黎明到来之前,机器会统计睡梦中的状态,以及昨天活动中的状态,直到进行比较,接着改变连接权值,让权值符合搭配。如果两个神经元白天时易于在一起放电,但睡眠时放电次数却变少了,那么它们连接的权值会升高;如果情况相反,则权值会降低。通过日复一日重复这样的工作,感官神经之间经过预测的相关性会进一步发展,知道它们和真正的神经元搭配起来。这时,玻尔兹曼机器就掌握了一个很好的数据模型,并有效解决赞誉分布问题。杰夫·辛顿在接下来的几十年继续在玻尔兹曼机器中尝试了许多变量。辛顿由心理学家变成计算机科学家,他是逻辑运算(被应用于所有计算机中)的发明者--乔治·布尔的曾孙,是世界领先的联结主义者。为了了解大脑如何运转,他比任何人付出的时间、精力都要多。他讲到有一天他怀着极度兴奋的心情下班回家,惊呼:“我做到了!我知道大脑怎么运转了!”他的女儿回答道:“啊!爸爸,你怎么又来了!”辛顿最近的热情在于研究深度学习,本章的后面部分会谈到。他还参与了反向传播的研究,这是一个比玻尔兹曼机器能更好地解决赞誉分布问题的算法,我们后面会谈到。玻尔兹曼机器原则上可以解决赞誉分布问题,但在实践中,学习这个行为非常缓慢且痛苦,对大多数应用来说,玻尔兹曼机器有点不切实际。下一个突破会涉及解决麦卡洛克和皮茨时期的另外一个过度简化问题。
三、世界上最重要的曲线
就其相邻神经元而言,一个神经元只能处于两种状态:放电或不放电。但是这忽略了一个很重要的巧妙之处。动作电位寿命短,电压会在一秒之内骤然升高,然后突然回到静息状态。而单个峰值对接收神经几乎不会有影响,为了唤醒接收神经,需要一连串连续不断的峰值。典型的神经元会偶尔在没有刺激的情况下电压达到峰值,当刺激建立起来时,电压达到峰值的频率会越来越高,然后保持在它所能达到峰值的最快速度,快于这个速度时,不断增强的刺激就没有效果了。神经元与其说是一道逻辑门,不如说是一台电压频率转换器。随电压而变化的频率曲线如图所示。
该曲线看起来像被拉长的字母S,它有很多叫法,比如逻辑函数、S形函数和S形曲线。仔细研究它吧,因为这是世界上最重要的曲线。首先输出量随着输入量缓慢增长,如此缓慢,似乎保持不变。接着它开始变化得很快,然后变得更快,之后越来越慢,直到几乎保持不变为止。晶体管的转换曲线,将其输入电压和输出电压联系在一起,也是一条S形曲线。所以计算机和大脑都充满了S形曲线。这还没结束,S形曲线是所有种类相变的形状:电子应用领域自旋反转的概率、铁的磁化、将少量记忆写到硬盘上、细胞中离子通道的打开、冰块融化、水蒸发、早期宇宙的膨胀扩张、进化中的间断平衡、科学中的范式转移、新技术的传播、离开多民族社区的白人大迁徙、谣言、流行病、革命、帝国的没落等。“引爆点”也很适合(可能不那么有吸引力)“s形曲线”这个名字。在两个相邻板块的相对位置中,地震就是一个相变。夜里的碰撞声,也只是你隔壁房间里微观板块移动的声音,所以别害怕。约瑟夫·熊彼特说过,经济是在裂缝和飞跃中得以发展的:S形曲线就是创造性破坏的形状。经济收益和损失对你的幸福度的影响遵循S形曲线原则,所以不要在大事上感到苦恼。随机的逻辑公式可满足的概率(典型的NP完全问题)随着公式变长,会经历从接近1到接近0的相变。统计物理学家花了一辈子时间来研究相变。
在海明威的《太阳照常升起》中,当麦克·坎贝尔被问到他是如何走向破产时,他答道:“有两种方式,先是慢慢地,然后突然破产。”雷曼兄弟的情况也十分相似。这就是S形曲线的精华。未来学家保罗·萨夫预言的规则就是:寻找S形曲线。当你没法调好淋浴的温度时(开始水很冷,然后很快又变得很热),都是S形曲线的错。你做爆米花时,看看S形曲线的进度:一开始什么也没发生,几粒玉米爆开,又有一把爆开,很多玉米突然像烟花一样爆开,更多的玉米爆开,最后你就可以吃爆米花了。你肌肉的每个动作都遵循S形曲线:先是缓慢移动,然后快速移动,最后又缓慢移动。当迪士尼的动画师指出这一点时,动画片变得更自然了,然后人们纷纷模仿。你的眼睛沿着S形曲线移动,注视一样东西然后换另一样,你的意识也跟你的眼睛一起转移。情绪波动也属于相变。出生、长大、坠入爱河、结婚、怀孕、工作、失业、搬到新的城市、升职、退休、死亡,这些都属于相变。宇宙就是相变的巨大集合体,从宇宙到微观世界,从世俗到人生的改变。
S形曲线作为一个独立的模型,不仅很重要,它还是数学的万事通。如果放大它的中段部位,你会发现它近似一条直线。很多我们认为是线性的现象,其实都是S形曲线,因为没有什么能够毫无限制地增长下去。因为相对性和反牛顿定律,加速度并不会随着力的施加而呈线性增长,但会遵循S形曲线,以0为中心。电路中或者灯泡中电阻的电流也不会随着电压的增长而线性增长(直到灯泡中的灯丝熔化,这本身又是另外一个相变)。如果你把S形曲线缩小,它会近似一个阶跃函数,输出值会突然从0界限值变到1界限值。那么根据输入电压,同样的曲线也会表示这些装置中电阻的工作原理,包括数字计算机和类似的装置,如扩音器和广播协调器。S形曲线的开始部分是有效指数,在饱和点附近它则接近指数式衰减。当有人讨论指数式增长时,问问你自己:它什么时候会变成一条S形曲线?人口爆炸什么时候才会慢慢消失,摩尔定律的重要性什么时候削减,或者说技术奇异点什么时候才不会发生?辨别一条S形曲线,你就会得到一条钟形曲线:缓慢、快速、缓慢变低、高、低。在S形曲线加入一连串向上和向下交错的曲线,你会得到接近正弦波的曲线。实际上,每个函数都可以近似看作S形曲线的总和:函数上升时,你加一条形曲线;函数下降时,你减掉一条S形曲线。孩子的学习也不是一直都处于进步状态,这个过程是若干个S形曲线的累积。技术变革也是如此。斜眼看纽约的天空,你会看到一组S形曲线在地平线上逐渐展开,每条曲线都和摩天大楼的角一样尖。
对我们来说最重要的是,S形曲线会找到解决赞誉分布问题的新方法。如果宇宙是相变的大集合体,那让我们用一条S形曲线来模仿这个集合体。这就是大脑要做的事:将里面的相变系统调整到外面。那么让我们用S形曲线来代替感知器的阶跃函数,然后看看会发生什么。
开头悄悄积累,中间突然爆发,最后慢慢收尾,万事万物都是这样成长。成长的本质,就是无数个像爆米花一样遵循S形规律的践行,通过赫布律不断编织连接,在混乱中寻找规律、秩序的过程。
马斯克说,一定要多读书,因为世界很美,世界的美是因为底层规律和秩序,每个读书人都在深挖这种规律。不同的是,把规律和秩序反作用于这个世界取得得结果。
知识或道理的门槛很低很低,践行的门槛稍高,不要把自己限制在物质里忽略了规律。