咨询热线:021-80392549

Geoffrey Hinton 最新访谈:不出五年,我们就会破解大脑的运作机制,但不是通过反向传播

放大字体  缩小字体 发布日期:2022-06-10     来源:雷锋网     浏览次数:717
人物
过去十年,AI 在计算机视觉、语音识别、机器翻译、机器人、医学、计算生物学、蛋白质折叠预测等等领域取得了一个又一个突破,而这些突破的背后,均离不开深度学习。那么,深度学习起源于何时何地,又在何时成为最突出的AI方法?

最近,UC伯克利教授、深度学习专家Pieter Abbeel在其播客节目《机器人大脑》(Robot Brains)中,对Geoffrey Hinton进行了一次访谈。

曾获得2018年图灵奖的Hinton,被称为「深度学习三巨头」之一,是人工智能史上最重要的学者之一。他的论文被引用了50多万次,这意味着,有50万篇以上的研究论文是建立在他的研究之上。

他在深度学习领域已经研究了大约半个世纪,大部分时间相对默默无闻,但在2012年,事情发生了转折:那一年,凭借AlexNet在ImageNet比赛的胜出,他证明了深度学习在图像识别方面比其他计算机视觉的方法具备更大的优势。这被称为「ImageNet时刻」,改变了整个AI领域,掀起了深度学习的浪潮。

在这次对话中,Hinton讲述了他从学术界到谷歌大脑的工作经历、学习心理学和当木匠的经历,以及可视化技术t-SNE算法背后的历史,并就一些问题发表了他的观点,包括:

现有的神经网络和反向传播算法与大脑的运作方式有何不同?

为什么我们需要无监督的局部目标函数?

睡眠和玻尔兹曼机的功能是什么?

为什么培育计算机比制造计算机更好?

为什么需要负面数据?

如今的大规模语言模型真正理解了语言吗?

……

AI科技评论在不改变原意的基础上对他们的访谈作了编辑与整理:

Geoffrey Hinton 最新访谈:不出五年,我们就会破解大脑的运作机制,但不是通过反向传播





1

反向传播不同于人脑运作方式
Abbeel:什么是神经网络?我们为什么要关注它?

Hinton:我们的大脑是这样工作的:

它有很多被称为神经元的小处理元件,每隔一段时间,一个神经元就会发出 “ping”声,而使它发出“ping”声的原因是它听到了其他神经元的“ping”声。每次它听到其他神经元的“ping”声时,就会在它得到的一些输入存储中增加权重,当权重达到一定输入后,它也会发出“ping”声。

因此,如果你想知道大脑是如何工作的,你只需要知道神经元如何决定调整这些权重。有一些用于调整权重的程序,如果我们能够把它们弄清楚,那我们就会知道大脑是如何工作的。我认为我们会在未来五年内破解这些程序。

我认为,所有现有的人工智能都是建立在与大脑高层次上所做的事情完全不同的基础上。它必须趋于相同,当你有很多参数,假设你有数十亿的参数,这些神经元间的权重在你大量训练实例的基础上去调整参数,就会发生奇妙的事情。大脑是这样,深度学习也是这样。问题在于,你如何获得调整参数的梯度,因此你要思考衡量标准及想调整的参数,使它们来完善你想达成的措施。

但我目前的信念是,反向传播,也即目前深度学习的工作方式,与大脑所做的完全不同,大脑是以不同的方式来获得梯度的。

Abbeel:你写过一篇关于训练神经网络的反向传播的论文,它成为今天大家所做一切的动力,而现在你说是时候弄清楚我们是否应该做些改变了?是否应该将其向与大脑相似做努力?你是否认为反向传播可以比大脑正在做的事更好?

Hinton:Rumelhart、Williams和我确实写了关于反向传播的论文(如下)、且被引用次数最多。

Geoffrey Hinton 最新访谈:不出五年,我们就会破解大脑的运作机制,但不是通过反向传播
论文地址:http://www.cs.toronto.edu/~hinton/absps/naturebp.pdf

反向传播已广为人知。我们真正做的是表明了它可以学习有趣的表征,并非我们发明了反向传播,而是重新定义了反向传播。我们提出它可以学习有趣的表征,例如单词嵌入,因此认为反向传播可能比我们在大脑中的效率要高得多。将大量信息挤压到少数几个连接中,而少数几个连接只有几十亿个,因此大脑的问题是连接非常便宜,有数以万亿计的连接, 而经验是非常昂贵的,所以我们倾向于在少量经验上投入大量参数。

而我们正在使用的神经网络基本上是相反的。它们有很多的经验,并试图把输入和输出的信息联系到参数中。我认为反向传播比大脑使用的方法更有效,但并不擅长从不多的数据中抽象出很多结构。

Abbeel:对于这方面,你有什么可能获得更好性能的方法的假设吗?

Hinton:很长时间里我都认为,我们需要无监督目标函数。这里主要是指感知学习,如果你能通过观察世界来学习模型,那你就可以基于这个模型、而非原始数据采取行动,这正确率更高。

我相信大脑使用了很多局部小的目标函数,它不是一种端到端的系统链,通过训练来优化目标函数。

举个例子,如果你看张图像的一小块,试图提取些表征,可以将你从那小块图像中得到的表征、与通过附近其他斑块的表征而得到的上下文语境进行比较,由此去预测该图像中有什么。

一旦你对这个领域很熟悉,这些来自上下文的预测和本地提取的特征通常会一致。如果不一致,你也能从中学到很多。

我认为大脑可以从这种局部分歧中学到很多东西。可能在你看来,一个大图像和图像的许多小局部斑块意味着很多反馈,即图像中的局部提取和上下文预测的一致。我们可以从这些与上下文预测的一致中得到更丰富的反馈。要做到这一点很难,但我认为现在正沿着这条线发展。

Abbeel:你对SimCLR这项工作以及它与更普遍的学习的差异有什么看法?你怎么看待最近的MAE(Masked Autoencoders)?它与你刚才的描述有什么关系?

Hinton:我所得到的相关有证据表明,这种目标函数是好的。

我个人没有写过这篇论文,但在很久以前,曾与Sue Becker写过一篇关于从图像的两个不同斑块得到一致表征思考的论文。我认为,那是关于通过在同一图像的两个块表征之间达成一致、来进行自监督学习的想法的起源。

Abbeel:我们来谈一谈你提到的使用端到端学习反向传播来支持端到端学习的方法。你的意思是,以接近大脑的学习方式,即从更少的数据中学习、提取更多数据,将是在了解大脑运作方式上取得进展的关键。今天,很多人正在努力解决从无标签数据中有效学习的问题,因为它需要的人力更少,但他们仍然使用跟反向传播相同的机制。

Hinton:我不喜欢MAE的地方在于,你有一些输入补丁,经过多层表征,在网络的输出中试图重建缺失的输入补丁。

我认为大脑有这些层次上的表征,但每个层都在试图重构下面那个层次的内容。并不是说经历了这么多层再返回,而是有这么多层,每一层都试图重建下一层的东西。在我看来,这更像大脑,但问题在于:如果不使用反向传播,你能做到这一点吗?

显然,如果通过多个层次重建输出的缺失部分,你需要通过所有层次来获得信息,而反向传播已经内置于所有的模拟器中,但大脑并非如此。

Abbeel:想象一下,大脑在处理这些局部的目标时有三个选择:一是我们想要优化的局部目标是什么?二是用什么算法来优化它?三是我们将神经元连接在一起进行学习的架构是什么?在这三个问题上,我们似乎都还没有做得很好。你怎么看?

Hinton:如果你对认知学习感兴趣,那就非常清楚。

你想要一个可视主题地图,一种书写主题地图的层次结构,架构上是局部连接的。对此,你可以通过假设在反电子地图上某个位置的东西是由其对应的视神经图决定的,来解决很多信用分配问题。不需深入系统,而是使用局部交互、弄清楚像素在其中的作用。

目前,神经网络所做的是,假设在每个局部性上使用相同函数,卷积神经网络如此,transformer也如此。大脑不一定能做到这点,因为这会涉及权重共享,且要在每个地方做完全相同的计算。而有一种方法能达到权重共享的目标,那就是卷积,我认为它在大脑中能起到更有效的作用。

如果你想通过上下文预测同局部提取达成一致,那么想象一下,有一堆列在做本地预测,并通过查看附近的列以获得其上下文预测。你可以把上下文看作是本地预测的老师,反之亦然。把上下文中的信息看作是被提炼到本地提取器中。由此可得到的是相互提炼,它们都在为对方提供教学信号,这意味着关于你应在一个地方提取的知识正被转移到其他地方。

当它们试图达成一致,或者想让不同位置的事物达成一致,例如希望鼻子和嘴巴同意各自是同一张脸的一部分,那它们都应该产生相同的表征,当你试图在不同地方获得相同表征,就需要允许知识从一个地方被提炼到另一个地方,这与实际的权重共享相比有更大的优势。

显然,从生物学角度来说,一个优势是不同位置的详细架构无需相同,另一个优势是前端处理无需相同。

拿视网膜来说,不同部分的视网膜有不同大小的感知域,卷积网忽略它们多个不同的分辨率,并在每个分辨率上做卷积,但它们无法执行不同的前端处理。而如果从一个位置提取到另一个位置,要做的就是从光学阵列获得相同函数在不同位置的表示,此时在不同的位置对光学阵列采取不同的预处理也可以,即使前端处理不同,但仍可以提炼出表示整个功能的知识。

所以,虽然提取比实际显示权重效率低,但它更灵活,在神经系统上更可信。这也是我一年前提出一个重要看法,即必须有类似权重共享的技巧来提高效率,但如果你试图让相邻事物达成一致,那本地提取就会起作用。

Abbeel:既然大脑的方式不同,我们是否应该继续用另一种方式来考虑权重共享,还是说我们不应该继续权重共享?

Hinton:我认为应该继续在卷积网中做卷积的事情,在transformer中共享权重,通过共享权重来共享知识。要记住,大脑分享知识不是通过共享权重,而是通过共享从输入到输出的功能,利用提取来传递知识。





2

人脑尖峰神经元 vs. GPU人工神经元
Abbeel:现在还有一个话题被广泛谈论,大脑与当前神经网络很不同,神经元是用尖峰信号工作的,跟我们GPU中的人工神经元存在很大的差异。我很好奇你对这个问题的看法,这只是一个工程上的差异,还是我们可能需要更多知识来更好理解?

Hinton:这不仅仅是工程上的不同。一旦我们理解了为什么硬件这么出色,就能理解它对大脑地理标记单位视网膜是敏感的。例如,视网膜不使用尖峰神经元,有大量非尖峰神经的处理。一旦理解了大脑皮层的运作原因,我们就会发现这是生物学的正确做法。我认为这取决于学习算法是如何得到尖峰神经元网络的梯度,但目前没有人真正知道。

关于尖峰神经元的问题,往往会出现两种截然不同的决策:它在什么时候会出现尖峰,以及它会不会出现尖峰。这就是离散决策。人们想出各种替代函数来试图优化系统。

2000年,Andy Brown和我有一篇关于尝试学习尖峰玻耳兹曼机的论文,如果有一个适合尖峰码的学习算法就太棒了,我想这是阻碍尖峰神经元硬件发展的主要原因。

许多人已经意识到可以用这种方式制造更节能的硬件,并且也构建了巨大的系统,但真正欠缺的是一个出色的学习结果。因此我认为,在得到一个好的学习算法之前,我们将无法真正利用尖峰神经元做事情。

因此,当你采取一个标准的人工神经元时,只需要问:它是否能分辨输入的两个值是否相同?不能。但当你使用尖峰神经元时,就很容易建立一个系统,两个尖峰在同时到达,它们就会放电,不同时间到达则不会。因此,使用峰值时间似乎是一个衡量一致性的好方法。

正如生物系统,你之所以可以看到方向、声音,来自于信号到达两只耳朵的延时,如果拿一英尺来说,光大约是一纳秒,而第一个声音大约是一毫秒。但如果我将东西在你侧面移动几英寸,到两只耳朵的时间延迟差异,到两只耳朵的路径长度只有一英寸的一小部分,即信号到两只耳朵的时间差只有一毫秒。因此我们对30毫秒的时间很敏感,以便从声音中获得立体声。我们通过两个轴突(不同方向尖峰传递)来做到这一点,一个来自一个耳朵,一个来自另一个耳朵,当尖峰同时到达,就有细胞发出信号。

因为尖峰时间可以被用来做非常敏感的事情,那当它的精确时间没被使用时,将是件令人惊讶的事。长时间以来,我一直认为,如果你能用尖峰时间来检测自监督学习等方面的一致性,或者说,我提取了你的嘴巴和鼻子的信息,从嘴巴和鼻子来预测你整个面部,当你的嘴巴和鼻子能正确组成一个面部,这些预测就会一致。如果能用尖峰时间来观察这些预测是否一致就更好了,但很难做到,因为我们不知道、也没有一个好的算法来训练网络,就像神经元一样。

Abbeel:你刚才是说视网膜不使用所有尖峰神经元?大脑有两种类型的神经元,有些更像我们的人工神经元,有些则是尖峰神经元?

Hinton:我不确定视网膜是否更像人工神经元,但可以肯定的是,大脑新皮层有尖峰神经元,这是它的主要交流模式,发送尖峰从一个参数到另一个参数细胞。

我有一个很好的论点:大脑有非常多参数,和我们使用的典型神经网络相比没有太多的数据,这种状态下有可能过度拟合,除非使用强大的正则化。一个好的正则化技术是每次你使用一个神经网络,你忽略了一大堆的单元,因此可能也忽略神经元正在发送尖峰的事实。它们真正交流的是潜在的泊松速率。我们假设它是传递的。这个过程是有代价的,它随机发送脉冲,这个过程中速率是变化的,由输入到神经元的信息决定,你可能会想要把真实值的速率从一个神经元发送到另一个,当你想做很多正则化,可以把真实值的速率加上一些噪声,增加噪音的一种方法是使用会增加很多噪音的脉冲,大多数情况下就是退出的动机。

当你观察任何一个时间窗口,大多数神经元都不参与任何事情,你可以把尖峰看作是一个代表性的潜在个人比率。这听起来非常糟糕,因为它很嘈杂。但一旦你理解了正则化,这会是个非常好的主意。

所以我仍然对这个想法情有独钟,但实际上我们根本没有使用尖峰计时。它只是使用非常嘈杂的个人速率表示来成为一个好的正则化器,而我有点像在两者之间切换。有些年我认为神经网络是确定性的。我们应该有确定性的神经网络,这是再往后几年的东西。我认为这是一个5年的周期。最好的随机性也非常重要,它会改变一切。因此,玻尔兹曼机本质上是随机的,这对它们来说很重要。但重要的是,不要完全致力于这两种情况,而是要对这两种情况持开放态度。

现在重要的是,更多地考虑你刚才所说尖峰神经元的重要性,并弄清楚如何有效地训练尖峰神经元网络。

Abbeel:如果我们现在说不要担心训练的部分(考虑到它看起来更有效率),难道人们不想分布纯粹的推理芯片,也即是分别进行有效的预训练,然后将其编译到尖峰神经元芯片上,使它具有非常低功率的推理能力?

Hinton:很多人都想到了这一点,这非常明智,它可能在进化的道路上使用神经网络进行推理是有效的,并且所有人都在这样做,也被证明是更有效的,不同的公司已经生产了这些大的尖峰系统。

一旦你在做这些事情,你会对推理越来越感兴趣,可以用一种方式来学习在尖峰时期更多利用可用的能量。所以你可以想象有一个系统,你学习时是使用辅助设备,不是模拟硬件,例如不在这个低能量的硬件上,但你可以将其转移到低能量的硬件上就很好。





3

AlexNet的诞生背景
Abbeel:什么是AlexNet?它是如何产生的?你从研究受限玻尔兹曼机器到试图理解大脑如何工作的路径是什么?

Hinton:我想说,你可能突然间就证明了,更传统的神经网络方法确实行得通。

大约在2005年,我被可以使用成堆的限制电压机器来预先训练特征检测器的想法迷住了,它可以更容易地让Backdrop工作,结果是有足够的数据。后来,因为Faith Ali和她的图像识别团队有了足够的数据,尽管预训练即将回归,但不再需要预训练。

GPT-3有预训练,预训练也是个好主意,可一旦我们发现你可以预训练,这能使背景工作更好,对语音有很大的帮助,就像George John 和 Abdul Rahman Muhammad在2009年做的那样。此后,我小组的研究生 Alex 开始将相同的想法应用于视觉,很快我们发现,当你有ImageNet的数据时,你并不需要预训练。

我记得有一天Ilya来到实验室说:「看,现在我们已经有了语音识别,这东西真的很管用 ,我们必须在其他人之前做出ImageNet。」Janella也走进实验室表达了这样的想法,他的学生和博士后也说:「哇,但是我正在忙其他的事情。」事实上他没有办法让谁致力于此。后来他说服了Alex通过对数据进行预处理来完成这个实验,数据都被预处理成他所需要的。

这只是背景。我想说的是,很多研究人员都知道这个,但可能不是每个人都知道Alex的结果和Ilya之前在ImageNet图像识别竞赛上的工作相比错误率降低了一半。这就是为什么每个人都从手工设计的方法转向计算机视觉,尝试直接编程。





4

从学术界到谷歌
Abbeel:哪一刻标志着你的职业生涯发生了重大变化?从学术界到谷歌,对你产生了什么影响?为什么会发生这种转变?

Hinton:我有一个残疾的儿子需要抚养,所以需要一大笔钱,一个方法是教课。2012年,我教了一门神经网络的课程。但他们的软件不是很好,所以做起来非常烦躁。每周一章,我必须给他们提供教学视频,会有一大堆人要看。有时上完课第二天Yoshua Bengio会问:「你为什么(在课上)这么说?」

我与多伦多大学最初的协议是,如果从这些课程中赚到任何钱,我希望大学将钱与教授们分享,他们没有明确说明具体的分配方式,但人们认为大概在50%或类似,我对此没有意见。但在我开始授课后,教务长在没有咨询我或其他人的情况下做出了一个单方面的决定:如果资金来自课程平台,大学会拿走所有的钱,而教授什么都拿不到。我让学校帮我准备视频,制作视频的人会来问我,你知道制作视频有多贵吗?

这让我对学校感到非常生气,所以我开始考虑教授之外的其他职业选择。那个时候,我们突然引起了各种公司的兴趣,他们要招募我们,要么是给予大额拨款,要么是资助创业。通常我会说不,我不想试图从研究中赚取额外的钱,但那次学校骗了我钱的经历,让我想找一些其他的方式来赚钱。

Abbeel:当时的拍卖会是一种怎样的场景?

Hinton:那是在NIPS会议上,Terry在一个赌场里组织了一些小活动。在酒店地下室烟雾缭绕的房间里,有人在楼上赌博,感觉就像在拍电影。我们完全不知道自己值多少钱。我咨询了一位律师,他说我可以聘请专业的谈判人员,或者直接进行拍卖。

据我所知,这是第一次有像这样的小团体进行拍卖。我们通过Gmail进行拍卖,人们必须把他们的出价用电子邮件发给我,并附上电子邮件的时间戳。价格一直在涨,一开始是50万美元,之后是100万美元,这很令人兴奋,我们发现自己的价值比我们想象的要高得多。

回想起来,我们也许可以得到更多,但我们已经看到了一个我们认为是天文数字的金额。我们都想为谷歌工作,所以我们停止了拍卖,并确定加入谷歌。

Abbeel:据我了解,你今天还在谷歌。

Hinton:我现在还在谷歌工作,已经9年了。我喜欢谷歌的主要原因是,核心团队非常好。

我和Jeff Dean相处得非常好,他非常聪明,而我是非常直截了当的。他希望我做的正是我想做的事情,也就是基础研究。他认为我应该做的是尝试提出全新的算法,这就是我想做的,非常适配。我不擅长管理一个大团队,去提高百分之一的语音识别能力。但我很乐意,最好是可以再一次彻底改变这个领域。

Abbeel:你曾是多伦多大学的计算机科学教授,但你从来没有获得过计算机科学学位,你获得过心理学学位,而且你还曾做过木匠。你是如何从学习心理学、到成为一名木匠、再到进入人工智能领域的?

Hinton:在剑桥的最后一年,我过得很艰难。考试后我就退学当了一名木匠,我喜欢做木工活胜过其他任何事。高中时上完所有的课程,晚上就可以呆在家里做木工活,所以我成为了一名木匠,做了大约6个月。

但我不可能以做木匠为生。我曾是一名木匠兼装修师,在装修的过程中赚了钱,我很享受做木工活的乐趣。直到我遇到了一个真正的木匠,才意识到我在木工方面完全没有希望。他可以用手锯把一块木头完全切成方形。和他比起来,我太绝望了,我决定还是回到人工智能。

Abbeel:据我所知,你的博士是在爱丁堡大学攻读的。

Hinton:是的,我去那里攻读神经网络的博士学位,和著名教授Christopher Longa Higgins一起做研究,他真的非常出色,在30多岁时就因为研究出硼氢化物的结构而差点获得诺贝尔奖。他对神经网络以及与全息图的关系很感兴趣,大约在我到达爱丁堡的那天,他对神经网络失去兴趣,因为读了Winograd的论文而完全改变看法,认为神经网络是错误的思考方式。尽管他完全不同意我所做的事情,但他并没有阻止我做这件事。

 
工博士工业品商城声明:凡资讯来源注明为其他媒体来源的信息,均为转载自其他媒体,并不代表本网站赞同其观点,也不代表本网站对其真实性负责。您若对该文章内容有任何疑问或质疑,请立即与商城(www.gongboshi.com)联系,本网站将迅速给您回应并做处理。
联系电话:021-31666777
新闻、技术文章投稿QQ:3267146135  投稿邮箱:syy@gongboshi.com
推荐文章
最新更新
点击排行
合作投稿:您好,欢迎光临,我们将竭诚为您服务 展会合作:您好,欢迎光临,我们将竭诚为您服务会员咨询:您好,欢迎光临,我们将竭诚为您服务广告合作:您好,欢迎光临,我们将竭诚为您服务软文营销:您好,欢迎光临,我们将竭诚为您服务短视频营销:您好,欢迎光临,我们将竭诚为您服务沪公网备31011402005898号