glom（Hinton最新访谈不出五年）

阿尔法公社

重度帮助创业者的天使投资基金

━━━━━━

阿尔法公社说：图灵奖**者，深度学习三巨头之一Geoffrey Hinton目前在研究什么，有什么新观点？最近他与UC伯克利教授Pieter Abbeel进行了对谈，谈到了他的职业生涯，AlexNet的诞生，他为什么认为可能在5年内破解大脑运作机制，以及他对深度学习前沿研究的观点和看法，欢迎业内的朋友参考。

过去十年，AI 在计算机视觉、**识别、机器翻译、机器人、医学、计算生物学、蛋白质折叠预测等等领域取得了一个又一个突破，而这些突破的背后，均离不开深度学习。那么，深度学习起源于何时何地，又在何时成为最突出的AI**？

最近，UC伯克利教授、深度学习专家Pieter Abbeel在其播客节目《机器**脑》（Robot Brains）中，对Geoffrey Hinton进行了一次访谈。

曾**2018年图灵奖的Hinton，被称为「深度学习三巨头」之一，是人工智能史上最重要的学者之一。他的论文被引用了50多万次，这意味着，有50万篇以上的研究论文是建立在他的研究之上。

他在深度学习领域已经研究了大约半个世纪，大部分时间相对默默无闻，但在2012年，事情发生了转折：那一年，凭借AlexNet在ImageNet比赛的胜出，他证明了深度学习在图像识别方面比其他计算机视觉的**具备更大的优势。这被称为「ImageNet时刻」，改变了整个AI领域，掀起了深度学习的浪潮。

在这次对话中，Hinton讲述了他从学术界到谷歌大脑的工作经历，并就一些问题发表了他的观点，包括：

现有的神经网络和反向传播算法与大脑的运作**有何不同？为什么我们需要无监督的局部目标函数？为什么需要负面数据？如今的大规模语言模型真正理解了语言吗？……

我们在不改变原意的基础上对他们的访谈作了编辑与整理：

1.反向传播不同于人脑运作**

Abbeel：什么是神经网络？我们为什么要关注它？

Hinton：我们的大脑是这样工作的：

它有很多被称为神经元的小处理元件，每隔一段时间，一个神经元就会发出 “ping”声，而使它发出“ping”声的原因是它听到了其他神经元的“ping”声。每次它听到其他神经元的“ping”声时，就会在它**的一些输入存储中**权重，当权重达到一定输入后，它也会发出“ping”声。

因此，如果你想知道大脑是如何工作的，你只需要知道神经元如何决定**这些权重。有一些用于**权重的程序，如果我们能够把它们弄清楚，那我们就会知道大脑是如何工作的。我认为我们会在未来五年内破解这些程序。

我认为，所有现有的人工智能都是建立在与大脑高层次上所做的事情完全不同的基础上。它必须趋于相同，当你有很多参数，假设你有数十亿的参数，这些神经元间的权重在你大量训练实例的基础上去**参数，就会发生奇妙的事情。大脑是这样，深度学习也是这样。问题在于，你如何****参数的梯度，因此你要思考衡量**及想**的参数，使它们来完善你想达成的措施。

但我目前的信念是，反向传播，也即目前深度学习的工作**，与大脑所做的完全不同，大脑是以不同的**来**梯度的。

Abbeel：你写过一篇关于训练神经网络的反向传播的论文，它成为今天大家所做一切的动力，而现在你说是时候弄清楚我们是否应该做些改变了？是否应该将其向与大脑相似做努力？你是否认为反向传播可以比大脑正在做的事更好？

Hinton：Rumelhart、Williams和我确实写了关于反向传播的论文（如下）、且被引用**最多。

论文地址：http://www.cs.toronto.edu/~hinton/absps/naturebp.pdf

反向传播已广为人知。我们真正做的是表明了它可以学习有趣的表征，并非我们发明了反向传播，而是重新定义了反向传播。我们提出它可以学习有趣的表征，例如单词嵌入，因此认为反向传播可能比我们在大脑中的效率要高得多。将大量信息**到少数几个连接中，而少数几个连接只有几十亿个，因此大脑的问题是连接非常便宜，有数以万亿计的连接，而**是非常昂贵的，所以我们倾向于在少量**上投入大量参数。

而我们正在使用的神经网络基本上是相反的。它们有很多的**，并试图把输入和输出的信息联系到参数中。我认为反向传播比大脑使用的**更有效，但并不擅长从不多的数据中抽象出很多结构。

Abbeel：对于这方面，你有什么可能**更**能的**的假设吗?

Hinton：很长时间里我都认为，我们需要无监督目标函数。这里主要是指感知学习，如果你能通过观察世界来学习模型，那你就可以基于这个模型、而非原始数据采取行动，这正确率更高。

我相信大脑使用了很多局部小的目标函数，它不是一种端到端的系统链，通过训练来优化目标函数。

举个例子，如果你看张图像的一小块，试图提取些表征，可以将你从那小块图像中**的表征、与通过附近其他斑块的表征而**的上下文语境进行比较，由此去预测该图像中有什么。

一旦你对这个领域很熟悉，这些来自上下文的预测和本地提取的特征通常会一致。如果不一致，你也能从中学到很多。

我认为大脑可以从这种局部分歧中学到很多东西。可能在你看来，一个大图像和图像的许多小局部斑块意味着很多反馈，即图像中的局部提取和上下文预测的一致。我们可以从这些与上下文预测的一致中**更丰富的反馈。要做到这一点很难，但我认为现在正沿着这条线**。

Abbeel：想象一下，大脑在处理这些局部的目标时有三个选择：一是我们想要优化的局部目标是什么？二是用什么算法来优化它？三是我们将神经元连接在一起进行学习的架构是什么？在这三个问题上，我们似乎都还没有做得很好。你怎么看？

Hinton：如果你对认知学习感兴趣，那就非常清楚。

你想要一个可视主题地图，一种书写主题地图的层次结构，架构上是局部连接的。对此，你可以通过假设在反电子地图上某个位置的东西是由其对应的视神经图决定的，来解决很多信用分配问题。不需深入系统，而是使用局部交互、弄清楚像素在其中的作用。

目前，神经网络所做的是，假设在每个局部性上使用相同函数，卷积神经网络如此，tran**ormer也如此。大脑不一定能做到这点，因为这会涉及权重共享，且要在每个地方做完全相同的计算。而有一种**能达到权重共享的目标，那就是卷积，我认为它在大脑中能起到更有效的作用。

如果你想通过上下文预测同局部提取达成一致，那么想象一下，有一堆列在做本地预测，并通过查看附近的列以**其上下文预测。你可以把上下文看作是本地预测的老师，反之亦然。把上下文中的信息看作是被提炼到本地提取器中。由此可**的是相互提炼，它们都在为对方提供教学**，这意味着关于你应在一个地方提取的知识正被转移到其他地方。

当它们试图达成一致，或者想让不同位置的事物达成一致，例如希望鼻子和嘴巴同意各自是同一张脸的一部分，那它们都应该产生相同的表征，当你试图在不同地方**相同表征，就需要允许知识从一个地方被提炼到另一个地方，这与实际的权重共享相比有更大的优势。

显然，从生物学角度来说，一个优势是不同位置的详细架构无需相同，另一个优势是前端处理无需相同。

拿视网膜来说，不同部分的视网膜有不同大小的感知域，卷积网忽略它们多个不同的分辨率，并在每个分辨率上做卷积，但它们无法执行不同的前端处理。而如果从一个位置提取到另一个位置，要做的就是从光学阵列**相同函数在不同位置的表示，此时在不同的位置对光学阵列采取不同的预处理也可以，即使前端处理不同，但仍可以提炼出表示整个功能的知识。

所以，虽然提取比实际显示权重效率低，但它更灵活，在神经系统上更可信。这也是我一年前提出一个重要看法，即必须有类似权重共享的**来提高效率，但如果你试图让相邻事物达成一致，那本地提取就会起作用。

2.AlexNet的诞生背景

Abbeel：什么是AlexNet？它是如何产生的？你从研究受限玻尔兹曼机器到试图理解大脑如何工作的路径是什么？

Hinton：我想说，你可能突然间就证明了，更**的神经网络**确实行得通。

大约在2005年，我被可以使用成堆的限制电压机器来预先训练特征检测器的想法迷住了，它可以更容易地让Backdrop工作，结果是有足够的数据。后来，因为Faith Ali和她的图像识别团队有了足够的数据，尽管预训练即将回归，但不再需要预训练。

GPT-3有预训练，预训练也是个好主意，可一旦我们发现你可以预训练，这能使背景工作更好，对**有很大的帮助，就像George John和Abdul Rahman Muhammad在2009年做的那样。此后，我小组的研究生Alex开始将相同的想法应用于视觉，很快我们发现，当你有ImageNet的数据时，你并不需要预训练。

我记得有一天Ilya来到实验室说：「看，现在我们已经有了**识别，这东西真的很管用，我们必须在其他人之前做出ImageNet。」Janella也走进实验室表达了这样的想法，他的学生和博士后也说：「哇，但是我正在忙其他的事情。」事实上他没有办法让谁致力于此。后来他说服了Alex通过对数据进行预处理来完成这个实验，数据都被预处理成他所需要的。

这只是背景。我想说的是，很多研究人员都知道这个，但可能不是每个人都知道Alex的结果和Ilya之前在ImageNet图像识别竞赛上的工作相比错误率**了一半。这就是为什么每个人都从手工设计的**转向计算机视觉，尝试直接编程。

3.从学术界到谷歌

Abbeel：哪一刻标志着你的职业生涯发生了重大变化？从学术界到谷歌，对你产生了什么影响？为什么会发生这种转变？

Hinton：我有一个残疾的儿子需要抚养，所以需要一大笔钱，一个**是教课。2012年，我教了一门神经网络的课程。但他们的软件不是很好，所以做起来非常烦躁。每周一章，我必须给他们提供教学视频，会有一大堆人要看。有时上完课第二天Yoshua Bengio会问：「你为什么（在课上）这么说？」

我与多伦多大学最初的协议是，如果从这些课程中赚到任何钱，我希望大学将钱与教授们分享，他们没有明确说明具体的分配**，但人们认为大概在50％或类似，我对此没有意见。但在我开始授课后，教务长在没有咨询我或其他人的情况下做出了一个单方面的决定：如果资金来自课程平台，大学会拿走所有的钱，而教授什么都拿不到。我让学校帮我**视频，制作视频的人会来问我，你知道制作视频有多贵吗？

这让我对学校感到非常生气，所以我开始考虑教授之外的其他职业选择。那个时候，我们突然引起了各种**的兴趣，他们要招募我们，要么是给予大额拨款，要么是资助创业。通常我会说不，我不想试图从研究中赚取额外的钱，但那次学校骗了我钱的经历，让我想找一些其他的**来赚钱。

Abbeel：当时的拍卖会是一种怎样的场景？

Hinton：那是在NIPS会议上，Terry组织了一些小活动。我们完全不知道自己值多少钱。我咨询了一位律师，他说我可以聘请专业的谈判人员，或者直接进行拍卖。

据我所知，这是第一次有像这样的小团体进行拍卖。我们通过Gmail进行拍卖，人们必须把他们的出价用电子邮件发给我，并附上电子邮件的时间戳。价格一直在涨，一开始是50万美元，之后是100万美元，这很令人兴奋，我们发现自己的价值比我们想象的要高得多。

回想起来，我们也许可以**更多，但我们已经看到了一个我们认为是天文数字的金额。我们都想为谷歌工作，所以我们停止了拍卖，并确定加入谷歌。

Abbeel：据我了解，你今天还在谷歌。

Hinton：我现在还在谷歌工作，已经9年了。我喜欢谷歌的主要原因是，核心团队非常好。

我和Jeff Dean相处得非常好，他非常聪明，而我是非常直截了当的。他希望我做的正是我想做的事情，也就是基础研究。他认为我应该做的是尝试提出全新的算法，这就是我想做的，非常适配。我不擅长管理一个大团队，去提高百分之一的**识别能力。但我很乐意，最好是可以再一次彻底改变这个领域。

Abbeel：70年代初，在其他人都说Minsky和Papert所提出的神经网络是无稽之谈时，你为什么要做这个东西？

Hinton：事实上，我给那个小组做的第一次演讲就是关于如何用神经网络做真正的递归。这是在1973年、即49年前的演讲。我发现的一个项目是，当你想要一个能够画出形状的神经网络，它把形状分成不同的部分，有可能可以让一部分的形状由相同的神经硬件来画，而整个形状是由神经中枢来画的，神经中枢存储整个形状，且必须记住它在整个形状中的位置、以及整个形状的方向和位置大小。

但我现在想法改变了，你想用同样的神经元来画出形状的一部分时，你需要在某个地方记住整个形状是什么，以及你在其中走了多远。一旦你完成了这个子程序，你就可以跳回那个地方。形状这一部分的问题是，神经网络如何记住它，显然你不能只是复制神经元，因此我设法让一个系统工作和一直适应，让神经网络通过快速的重度和权重来记住它。因此，我有了一个神经网络在做真正的递归，重复使用相同的神经元和权重来做递归调用，正如在1973年所做的高级调用一样。

我认为人们不理解我的演讲，因为我不擅长演讲，但他们也会问为什么要在你的比赛中做递归。他们不明白的是，除非我们让神经网络做递归之类的事情，否则我们永远无法解释一大堆事情，现在这又变成了一个有趣的问题，所以我打算再等一年，直到这个想法成为一个真正的古董。当它将有50年的历史时，我会写一份研究报告。

Abbeel：当你和大家一样是博士生或者博士刚毕业时，几乎所有人都告诉你，你所从事的工作是在浪费时间，而你却深信并非如此，你这种信念来源于哪里？

Hinton：我想很大一部分原因是我的学校教育。我的父亲把我送到了一所昂贵的私立学校，那里有良好的科学教育，我从7岁起就在那里上学。那是一所**教学校，其他所有的孩子都信仰上帝，但我在家里被教导说那都是胡说八道，在我看来那确实是胡说八道，所以我习惯了别人都是错的。

我认为这很重要。你需要对科学有信念，愿意去研究那些显然正确的东西，即使其他所有人都说那是胡说八道，而且事实上并非所有人都那么认为。在70年代初，研究AI的几乎所有人都认为（我做的东西）是胡说八道。但如果你再往前看一点，在50年代，冯·诺伊曼和图灵都相信神经网络，图灵尤其相信神经网络的强化训练。我仍然相信，如果他们没有早逝，整个人工智能的历史可能会非常不同，因为他们是强大到足以左右整个领域的智者，他们还对大脑是如何工作的非常感兴趣。

4.人脑尖峰神经元 vs. GPU人工神经元

Abbeel：现在还有一个话题被广泛谈论，大脑与当前神经网络很不同，神经元是用尖峰**工作的，跟我们GPU中的人工神经元存在很大的差异。我很好奇你对这个问题的看法，这只是一个工程上的差异，还是我们可能需要更多知识来更好理解？

Hinton：这不仅仅是工程上的不同。一旦我们理解了为什么硬件这么出色，就能理解它对大脑地理标记单位视网膜是**的。例如，视网膜不使用尖峰神经元，有大量非尖峰神经的处理。一旦理解了大脑皮层的运作原因，我们就会发现这是生物学的正确做法。我认为这取决于学习算法是如何**尖峰神经元网络的梯度，但目前没有人真正知道。

关于尖峰神经元的问题，往往会出现两种截然不同的决策：它在什么时候会出现尖峰，以及它会不会出现尖峰。这就是离散决策。人们想出各种替代函数来试图优化系统。

2000年，Andy Brown和我有一篇关于尝试学习尖峰玻耳兹曼机的论文，如果有一个适合尖峰码的学习算法就太棒了，我想这是阻碍尖峰神经元硬件**的主要原因。

许多人已经意识到可以用这种**制造更节能的硬件，并且也构建了巨大的系统，但真正欠缺的是一个出色的学习结果。因此我认为，在**一个好的学习算法之前，我们将无法真正利用尖峰神经元做事情。

因此，当你采取一个**的人工神经元时，只需要问：它是否能分辨输入的两个值是否相同？不能。但当你使用尖峰神经元时，就很容易建立一个系统，两个尖峰在同时到达，它们就会放电，不同时间到达则不会。因此，使用峰值时间似乎是一个衡量一致性的好**。

正如生物系统，你之所以可以看到方向、声音，来自于**到达两只耳朵的延时，如果拿一英尺来说，光大约是一纳秒，而第一个声音大约是一毫秒。但如果我将东西在你侧面**几英寸，到两只耳朵的时间延迟差异，到两只耳朵的路径长度只有一英寸的一小部分，即**到两只耳朵的时间差只有一毫秒。因此我们对30毫秒的时间很**，以便从声音中**立体声。我们通过两个轴突（不同方向尖峰传递）来做到这一点，一个来自一个耳朵，一个来自另一个耳朵，当尖峰同时到达，就有细胞发出**。

因为尖峰时间可以被用来做非常**的事情，那当它的精确时间没被使用时，将是件令人惊讶的事。长时间以来，我一直认为，如果你能用尖峰时间来检测自监督学习等方面的一致性，或者说，我提取了你的嘴巴和鼻子的信息，从嘴巴和鼻子来预测你整个面部，当你的嘴巴和鼻子能正确组成一个面部，这些预测就会一致。如果能用尖峰时间来观察这些预测是否一致就更好了，但很难做到，因为我们不知道、也没有一个好的算法来训练网络，就像神经元一样。

Abbeel：你刚才是说视网膜不使用所有尖峰神经元？大脑有两种类型的神经元，有些更像我们的人工神经元，有些则是尖峰神经元？

Hinton：我不确定视网膜是否更像人工神经元，但可以肯定的是，大脑新皮层有尖峰神经元，这是它的主要交流**，发送尖峰从一个参数到另一个参数细胞。

我有一个很好的论点：大脑有非常多参数，和我们使用的典型神经网络相比没有太多的数据，这种状态下有可能**拟合，除非使用强大的正则化。一个好的正则化技术是每次你使用一个神经网络，你忽略了一大堆的单元，因此可能也忽略神经元正在发送尖峰的事实。它们真正交流的是潜在的泊松速率。我们假设它是传递的。这个**是有代价的，它随机发送脉冲，这个**中速率是变化的，由输入到神经元的信息决定，你可能会想要把真实值的速率从一个神经元发送到另一个，当你想做很多正则化，可以把真实值的速率加上一些噪声，**噪音的一种**是使用会**很多噪音的脉冲，大多数情况下就是退出的动机。

当你观察任何一个时间窗口，大多数神经元都不参与任何事情，你可以把尖峰看作是一个代表性的潜在个人比率。这听起来非常糟糕，因为它很嘈杂。但一旦你理解了正则化，这会是个非常好的主意。

所以我仍然对这个想法情有独钟，但实际上我们根本没有使用尖峰计时。它只是使用非常嘈杂的个人速率表示来成为一个好的正则化器，而我有点像在两者之间切换。有些年我认为神经网络是确定性的。我们应该有确定性的神经网络，这是再往后几年的东西。我认为这是一个5年的周期。最好的随机性也非常重要，它会改变一切。因此，玻尔兹曼机本质上是随机的，这对它们来说很重要。但重要的是，不要完全致力于这两种情况，而是要对这两种情况持开放态度。

现在重要的是，更多地考虑你刚才所说尖峰神经元的重要性，并弄清楚如何有效地训练尖峰神经元网络。

Abbeel：如果我们现在说不要担心训练的部分（考虑到它看起来更有效率），难道人们不想分布纯粹的推理芯片，也即是分别进行有效的预训练，然后将其编译到尖峰神经元芯片上，使它具有非常低功率的推理能力？

Hinton：很多人都想到了这一点，这非常明智，它可能在进化的道路上使用神经网络进行推理是有效的，并且所有人都在这样做，也被证明是更有效的，不同的**已经生产了这些大的尖峰系统。

一旦你在做这些事情，你会对推理越来越感兴趣，可以用一种**来学习在尖峰时期更多利用可用的能量。所以你可以想象有一个系统，你学习时是使用辅助设备，不是模拟硬件，例如不在这个低能量的硬件上，但你可以将其转移到低能量的硬件上就很好。

5.非永生计算机：成本低，通过学习获取知识

Abbeel：现在的深度学习非常有效。它是我们所需要的全部，还是说我们还需要其他东西？你曾说过（也许我不是原文引用你的话），深度学习可以做到一切。

Hinton：我那样说的真正意思是，用随机梯度发送一大堆参数，深度学习**梯度的**可能不是反向传播，以及你**的梯度可能不是最终的性能测量，而是这些局部目标函数。我认为这就是大脑的工作**，而且我认为这可以解释一切。

我想说的另一件事，是我们现在拥有的计算机对银行业务非常有帮助，因为它们能记住你的账户里有多少钱。如果你去银行问，他们只会告诉你大概有多少。我们无法给出确定答案，因为我们无法做到那么精确，只能给出一个大概。在计算机处理银行业务或操控**飞机时，我们可不希望那种事情发生，我们很希望计算机能**完全正确的答案。我认为，人们还没有充分意识到我们做出了一个关于计算将如何**的决定，即我们的计算机、我们的知识将会不朽。

现有的计算机有一个计算机程序，或者权重很多的神经网络（那是一种不同类型的程序）。但如果你的硬件坏了，你可以在另一个硬件上运行相同的程序。这就使得知识不朽。它不依赖于特定的硬件存活。而不朽的代价是巨大的，因为这意味着不同位的硬件必须做完全相同的事情，这显然是在做完所有错误校正之后的零点校正。它们必须做完全相同的事情，这意味着最好是数字化的或者基本数字化，它们会做一些事情，比如把数字相乘，这需要消耗很多很多的能量来使运算**非常谨慎，而这不是硬件的目标。一旦你想要让你的程序或神经网络不朽，你就会投入到非常昂贵的计算和制造**中。

如果我们愿意放弃不朽，我们将**的回报是非常低的能源计算和非常廉价的制造。所以，我们应该做的不是制造计算机，而是让它们进化。打个比喻，如果你有一棵盆栽植物，你把它从花盆里**来，会**一团球状的**，这正是花盆的形状，所以所有不同的盆栽植物都有相同形状的**，而根系的细节都不一样，但它们都在做同样的事情，它们从土壤中提取养分，它们的功能是一样的。

而这就是真正的大脑的样子，这就是我所说的非永生计算机的样子。这些计算机是培育出来的，而不是制造出来的。你不能给它们编程，它们需要在学习，它们必须有一个某种程度上是内置的学习算法。他们用模拟来做大部分的计算，因为模拟非常适合做一些事情，比如取电压，乘以电阻，然后把它变成电荷，再把电荷加起来，芯片已经做了这样的事情。问题是你接下来要做什么，你如何在这些芯片中学习。而目前，人们已经提出了反向传播或各种版本的装箱机。我认为我们还需要别的东西，但我认为，在不久的将来，我们将会看到非永生计算机，它们的制造成本很低，它们必须通过学习来获取所有的知识，而且它们所需的能量很低。当这些非永生计算机死亡时，它们的知识也会随之死亡。看权重是没有用的，因为那些权重只适用于硬件。所以你要做的，就是把这些知识提取到其他计算机上。

6.大规模语言模型在多大程度上理解了语言

Abbeel：今天那些占据头条的神经网络都是非常大的。在某种意义上，大型语言模型的规模已经开始向大脑靠近，非常令人印象深刻。你对这些模型有什么看法？你在其中看到了什么局限性？另一方面，比如蚂蚁的大脑显然比人类小得多，但公平地说，我们人工**的视觉运动系统还没有达到蚂蚁或蜜蜂的水平。所以，对于最近语言模型的重大进步，你有什么样的想法？

Hinton：蜜蜂的大脑可能在你看来很小，但我认为蜜蜂有大约一百万个神经元，蜜蜂更接近GPT-3。但蜜蜂的大脑实际上是一个很大的神经网络。

我的观点是，如果你有一个参数很大的系统，而且这些参数是用一些合理的目标函数中的梯度下降来**的，那么你会**很好的性能，就像GPT-3那样，还有我已经提到很多谷歌的类似模型。这并没有解决它们是否能做到和我们一样的问题，我认为我们在做更多的事情，比如我们在神经网络中做的递归。

我在去年那篇关于GLOM的论文中试图阐述这些问题，关于如何在神经网络中做部分孔层次结构。你肯定要有结构，如果你说的符号计算只是你有部分和整体结构，那么我们做的就是符号计算。这通常不是人们所说的那种偏硬的符号计算，那种符号计算意味着你在使用符号，你在符号上操作的规则只取决于你处理的符号字符串的形式，一个符号所具有的唯一属性是它与其他符号是相同或不相同，也可能是它可以作为指针来**一些东西。

论文地址：https://arxiv.org/pdf/2021.12627.pdf

神经网络与此非常不同，所以我认为我们做的不是那种偏硬的符号处理，但我们肯定做孔层次结构。但我们是在巨大的神经网络中做的，我现在不太清楚GPT-3在多大程度上能真正理解它所说的话。我认为这是相当清楚的，它不像以前的聊天机器人程序Eliza，只是重新排列符号串，而完全不知道它是在说什么。相信这一点的理由是，比如你用英文说「给我一张仓鼠戴着红帽子的图片」，它就会画出一张仓鼠戴着红色帽子的图片，而它之前从来没有预先做过这个配对，所以它必须在给出图片之前理解英语字符和图片之间的关系。如果你问这些神经网络怀疑论者、神经网络否定论者：「你如何证明它理解了」，我想他们也会接受。如果你让它画一幅画，它就画出那副画，那么它就是理解了。

Abbeel：最近谷歌的PaLM模型展示了它是如何对笑话的机制进行有效解释的。这似乎是对语言非常深刻的理解。

Hinton：不，它只是在重新排列训练中的单词。我不同意「如果不是理解了笑话所讲的是什么，它怎么可能会产生那些对笑话的解释」这种想法，我仍然对此持开放态度，因为它的框架是反向传播的，它会走向一种与我们完全不同的理解。很明显，对抗性图像告诉你可以通过它们的纹理来识别物体，在这个意义上你可能是正确的，因为它会泛化到其他物体实例。

但这是一种与我们完全不同的**，我喜欢以昆虫和花朵为例。昆虫可以看到紫外线。在我们看来相同的两朵花，在昆虫看来可能完全不同。而现在因为花朵在我们看来是一样的，我们就能说是昆虫搞错了吗？这些花和昆虫一起进化，紫外线向昆虫发出**，告诉它们这是哪朵花。很明显，昆虫是正确的，我们只是看不出区别而已，这是另一种思考对抗性例子的**。所以问题是，在昆虫的例子中，谁是对的？仅仅因为两朵花在我们看来是一样的，并不意味着它们真的是一样的，在这种情况下，可能昆虫关于两朵花是非常不同的看法是正确的。

Abbeel：对于我们目前神经网络的图像识别，有人可能会认为，既然我们创造了它们，并希望它们为我们做一些事情，那么我们真的不想只是承认「好吧，它们是对的，我们是错的」。我的意思是，它们需要识别出车和行人。

Hinton：是的。我只是想告诉大家，这并不像你想的谁对谁错那么简单。我那篇关于GLOM的论文重点之一就是尝试建立更类人的感知系统。所以它们会更容易犯和我们一样的错误，而不会犯那些不同寻常的错误。举个例子，如果你有一辆自动驾驶汽车，它犯了一个任何正常人类司机都会犯的错误，这似乎比犯一个非常愚蠢的错误更容易被接受。

本文转载自AI科技评论，编译整理李梅、黄楠。

关于阿尔法公社

阿尔法公社（Alpha Startup Fund）是中国领先的早期投资基金，由曾带领**在纳斯达克上市的许四清和前创新工场联合管理合伙人蒋亚萌在2015年共同创立。

阿尔法公社基金的三大特点是系统化投资、社交化创业者社区运营和重度产业资源加速成长。专注在半导体、企业服务软件、人工智能应用、物联网技术、金融科技等科技创新领域进行早期投资。目前已经在天使轮投资了包括白山云科技、领创集团(Advance Intelligence Group)、Zenlayer、帷幄科技、所思科技等为数众多的优秀项目。

阿尔法公社**36氪“2017年度最受创业者欢迎天使投资机构Top20”、“2019年中国企业服务领域最受LP欢迎早期投资机构”、“2019年中国企业服务领域最具发现力投资机构TOP10”以及“2020中国最受创业者欢迎早期投资机构TOP50”、“2021年度中国最受LP认可早期投资机构TOP30”、“2021年中国最受创业者欢迎早期机构TOP50”、“2021年中国跨境出海领域投资机构TOP10”等奖项；**钛媒体“2020 EDGE TOP50投资机构”；还**母基金研究中心“2018年中国早期基金**回报TOP30”、“2019中国早期基金**回报TOP30”，以及母基金周刊“2020中国投资机构软实力GP100科技力Top10”等奖项。

创始合伙人许四清**2020年“福布斯中国创投人100”、投中“2019年中国**早期投资人TOP50”，以及36氪“2018年中国企业服务领域投资人TOP10”、“2019企业服务领域投资人TOP20”等奖项。创始合伙人蒋亚萌**2019及2021年“福布斯中国创投人100”、36氪“2019年中国中生代投资人TOP50”大奖。

发表于 2022-11-24 16:46
阅读 ( 129 )
分类：互联网

glom（Hinton最新访谈不出五年）

0 条评论

你可能感兴趣的文章

相关问题