2024年5月,神经网络之父、图灵奖得主Hinton接受播客采访,其中谈及整个行业发展、OpenAI前首席科学家Ilya等内容。网络上往往对这段采访进行了裁切,形成了不少信息碎片。

笔者则将Hinton 2024年接受播客采访的全文进行翻译并进行分节,以方便信息传播。

早期灵感

采访者:你是如何选择人才的,还是更多依赖直觉?像Ilya这样的人才,你会想”这个家伙很聪明,我们一起合作吧”,还是你专门花了很多时间思考这个问题?

Hinton:我记得当我第一次从英国来到卡内基-梅隆的时候,6点左右大家都会去酒吧喝一杯。而在卡内基-梅隆,我在那里呆了几个星期后的一个周六晚上,我没有什么朋友,不知道该干什么,就决定进实验室编程,因为我们有一台Lisp机,不能在家远程操作。我大约9点进了实验室,发现到处都是学生,他们都在忙着自己的工作,因为他们相信自己正在做的事情将改变计算机科学的未来,这与英国完全不同,这让我感到非常振奋。

采访者:Jeff,回到剑桥的早期,你试图理解大脑,是什么样的体验?

Hinton:那真让人失望。我学的是生理学,他们说到夏季学期会教我们大脑是如何运作的,结果只教我们神经元是如何传导动作电位的,这很有趣,但并不能告诉我们大脑是如何工作的。所以我转而学习哲学,以为他们会告诉我们心智是如何运作的,结果还是很失望。最后我去爱丁堡学习人工智能,那里至少可以进行模拟,测试理论。

采访者:是什么引起你对人工智能的兴趣?是某篇论文还是某个人?

Hinton:我想是我读的唐纳德·赫布的一本书对我影响很大。他很关心神经网络是如何学习连接强度的。我也早期读过约翰·冯·诺依曼的一本书,他非常关注大脑的计算方式与普通计算机的不同。

采访者:在爱丁堡的那段时期,你是否确信这些想法最终会成功?

Hinton:对我来说,大脑肯定有一种学习方式,不可能是把所有东西都编程进去,然后再用逻辑推理规则去使用。这从一开始就对我来说是疯狂的。我们必须弄清楚大脑是如何修改神经网络中的连接,从而能够做复杂的事情。冯·诺依曼和图灵都相信这种方式。

采访者:你早期在神经科学和人工智能算法之间是如何权衡的?你从神经科学那里吸收了多少灵感?

Hinton:我自己并没有深入研究过多的神经科学。我一直受到关于大脑工作原理的启发,即有一群神经元,他们执行相对简单的操作,是非线性的,但是它们收集输入,赋予权重,然后产生一个输出,这取决于加权输入。关键问题是,如何改变这些权重,使整个系统能够完成一些有益的事情,这似乎是一个相当简单的问题。

采访者:你记得当时有哪些合作?

Hinton:我在卡内基-梅隆最主要的合作伙伴并不在那里,而是特里·西诺斯基,他在巴尔的摩的约翰-霍普金斯大学。我们大约每个月要么我去巴尔的摩,要么他来匹兹堡,我们会在周末一起工作。这是一个非常激动人心的合作,我们都确信这就是大脑的工作原理,虽然最终我认为这并不是大脑的工作原理。

我也与彼得·布朗有很好的合作。他是一位非常出色的统计学家,在IBM从事语音识别工作,后来来到卡内基-梅隆作为一名更成熟的学生获得博士学位。他教会了我很多关于语音识别的知识,包括隐马尔可夫模型,我从他那里学到的比他从我这里学到的要多。这就是你想要的那种学生。当他告诉我隐马尔可夫模型的时候,我正在使用只有隐藏层的反向传播,我决定隐马尔可夫模型中使用的”隐藏”这个名词非常适合用来描述神经网络中不知所踪的变量。

Hinton和ilya的相遇

采访者:让我们回到Ilya出现在你办公室的那一天。

Hinton:我应该是在周日的时候在办公室里编程,突然有人敲门,这敲门声不同寻常,有些迫切。我去开门,看到一个年轻的学生说,他本来打算在实验室里当实习生,但现在想来为我工作。我说他可以预约一个时间谈谈,他说”现在怎么样?”这就是Ilya的性格。我们聊了一会儿,我给了他一篇关于反向传播的Nature论文,一周后让他再来。他回来说他没有理解,我很失望,因为反向传播不过是链式法则,并不很难理解。但他说,他不是不理解链式法则,而是不理解为什么不给一个合理的函数优化器梯度。这让我们思考了好几年。

采访者:Ilya 的这种直觉是从何而来的?

Hinton:我不知道,也许他一直独立思考,从小就对人工智能很感兴趣,而且显然在数学方面很擅长。但这很难说。

采访者:你和Ilya的合作是怎样的?你们各自扮演了什么角色?

Hinton:这非常有趣。有一次,我们试图制作一种混合模型,可以从同一组相似性中生成两种不同的数据映射,比如在一个地图上,银行会靠近贪婪,在另一个地图上,银行会靠近河流,因为在同一张地图上不能同时靠近两者。我们用MATLAB实现这个功能,需要大量的代码重组和矩阵运算。Ilya有些厌烦了,说他要编写一个MATLAB接口,用一种不同的语言编程,然后转换成MATLAB。我说不,Ilya,那需要一个月的时间,我们必须继续这个项目,不能被分散注意力。结果第二天早上我就完成了。Ilya的这种直觉和技能增长是令人难以置信的。

采访者:在这些年里,最大的转变不仅仅是算法,也包括技能的提升。你是如何看待这种技能的提升的?

Hinton:Ilya很早就提出,只要增加模型的规模,它就会更好。而我一直认为,仅仅增加规模是不够的,还需要新的想法。事实证明,我基本上是对的。像Transformer这样的新思路确实有很大帮助。但真正关键的是数据量和计算能力的规模。那时我们完全不知道计算机会变得快一亿倍,我们只以为可能快100倍,所以我们努力想出一些聪明的想法来解决这个问题,但最后这些问题都因为数据和计算能力的大幅提升而自行解决了。

采访者:大约在2011年,Ilya和另一个研究生詹姆斯·马丁发表了一篇论文,使用字符级预测。你对此有何看法?

Hinton:我们获取了Wikipedia的数据,试图预测下一个HTML字符,结果效果出奇的好。我们一直惊讶于它的效果,感觉它似乎真的”理解”了什么,这看起来令人难以置信。

采访者:关于语言模型是如何训练来预测下一个词,你认为这种方式有什么问题吗?

Hinton:我实际上并不认为这是错误的方式。事实上,我做了最早的使用嵌入和反向传播的神经网络语言模型。它非常简单,就是用三元组数据,将每个符号转换成一个嵌入,然后让这些嵌入相互作用来预测下一个符号的嵌入,从而预测下一个符号。大约10年后,Yoshua Bengio用了一个非常相似的网络,并证明它可以处理真实文本。再过10年,语言学家才开始相信嵌入。

我认为,仅仅预测下一个符号是不够的,因为如果你问一个问题,答案的第一个词就是下一个符号,你必须理解问题。所以我认为,通过预测下一个符号,你实际上是在迫使模型去理解。这种方式与老式的自动补全不同,老式的自动补全只是简单地存储词对,预测下一个词。现在的自动补全已经不是那样了。

为了预测下一个符号,你必须对之前说的内容有某种理解。我们已经看到,如果你做一些大型的模型,而不加入任何特殊的推理机制,它们已经可以做一些推理了。我认为,随着模型越做越大,它们将能做越来越多的推理。

采访者:我现在正在做什么?

Hinton:我认为你现在正在预测下一个视频帧,预测下一个声音。但我认为这是一个相当合理的关于大脑如何学习的理论。

采访者:这些大型语言模型能学习如此多领域,是因为什么?

Hinton:这些大型语言模型所做的,就是寻找共同的结构。通过发现共同的结构,它们可以用更有效的方式对事物进行编码。

让我给你一个例子。如果你问GPT-4为什么堆肥堆和原子弹一样,大多数人无法回答,因为他们认为这两个完全不同。但GPT-4会告诉你,尽管时间尺度和能量尺度完全不同,但它们都是一种连锁反应。GPT-4理解了它们都是连锁反应的形式,这就是它能做出这种联系的原因。

我相信,GPT-4正在利用这种理解来压缩大量信息到它的权重中。如果它这样做了,那么它将会为数百种我们还没有发现类比的事物建立联系。这就是创造力的来源 – 看到表面上看起来非常不同的事物之间的联系。

所以我认为,当GPT-4变得更大时,它的创造力将超过人类。

采访者:你认为这些模型不仅仅会重复我们到目前为止发展的人类知识,而且还能超越它吗?

Hinton:我们已经在一些有限的情况下看到了这一点,比如在AlphaGo与李世石的著名比赛中,AlphaGo做出了一步专家们认为一定是错误的,但后来他们发现这其实是一步非常出色的move。这是在一个有限的领域内产生的创造力。

我认为,随着这些模型变得更大,我们将会看到越来越多这样的事情发生。与AlphaGo和AlphaZero不同的是,它们使用了强化学习,通过自我对弈来发展超越人类的能力。

我认为,强化学习可能是一个关键的缺失部分,但我也不确定这是否完全必要。

神经网络发现

采访者:很久以前,你做过一个小实验,训练一个神经网络来识别手写数字。你对此有什么发现吗?

Hinton:很久以前,我做过一个小实验,训练一个神经网络来识别手写数字。我给它的训练数据里有一半的答案是错误的,每次看到同一个例子,答案永远是错的,不能通过平均来消除错误。但反向传播仍然能把错误率降到5%以下。

这说明,这些大型神经网络能从错误标注的数据中学习得比原始训练数据更好,就像聪明的学生可以比老师更聪明一样。它们能做得比训练数据更好。

采访者:你预计,当这些模型变得更大时,它们将能够更好地进行推理,有什么想法吗?

Hinton:我预计,当这些模型变得更大时,它们将能够更好地进行推理。一种方法是在模型之上添加一些启发式的推理机制,许多研究都在这样做,比如使用思维链反馈推理过程。另一种方法是在模型本身中内嵌推理能力。

我的直觉是,随着这些模型的扩大,它们将变得更擅长推理。大致来说,我们的直觉和推理过程很像AlphaGo或AlphaZero,有一个评估函数,给出一个直观的评分,但然后通过推理过程,比如蒙特卡罗树搜索,得到更精确的评估,从而修正最初的直觉。

我认为,这些大型语言模型也必须做类似的事情。它们必须通过推理过程来校正自己的直觉,而不仅仅是模仿人类的行为。这正是为什么AlphaGo能做出创造性的第37手,因为它使用推理来检查直觉告诉它的应该是正确的下一步。

多模态

采访者:你认为引入多模态数据会带来什么样的变化?

Hinton:我认为会产生很大的变化。多模态将使模型更好地理解空间等概念。仅凭语言学习有些概念还是比较困难的,但让模型触摸和操作物体,就会更好地理解它们。

虽然单纯从语言学习也可以学到很多,但从多模态学习会更容易。事实上,你可以从视频等数据中学到更多,而需要更少的语言输入。

多模态将使模型的推理能力大大提高,特别是在空间推理方面。

采访者:你认为人类大脑是否evolve来很好地适应语言,还是语言是为了适应人类大脑而evolve?

Hinton:这是一个很好的问题。我认为,两种情况都有发生。我以前认为,我们可以进行大量的认知而不需要语言,但现在我有所改变。

让我给你三种不同的语言观点,以及它们与认知的关系:

第一种是古老的符号观点,认知就是在某种清晰的逻辑语言符号串上进行符号操作和推理。

另一种极端观点是,一旦进入大脑,一切都是向量表示,输入的符号被转换成大向量,内部计算全部用大向量完成,输出时再转换成符号。这就是2014年机器翻译中使用的”思维向量”。

第三种观点是我现在相信的,符号被转换成嵌入,经过多层处理,形成丰富的嵌入。这些嵌入还与符号相关,即一个符号对应一个大向量,这些向量相互作用来预测下一个符号的向量,这就是理解的本质。

这种中间的观点,保留了符号结构,但用大向量来解释和表示符号,这就是这些大型语言模型以及人类思维的工作方式。

英伟达GPU与未来计算

采访者:你早期就意识到使用GPU进行训练的重要性,能谈谈你当时的想法吗?

Hinton:实际上,我在2006年就意识到了这一点。我当时有一个博士生叫Rick zisy,是位出色的计算机视觉专家,他告诉我应该考虑使用图形处理卡,因为它们擅长矩阵乘法,而神经网络训练正是大量的矩阵运算。

我们先用了普通的游戏显卡,发现速度提高了30倍。后来我们买了一台搭载4个GPU的Tesla系统,用它做语音识别效果很好。

到2009年,我在NIPS大会上告诉一千名机器学习研究者,你们都应该去买Nvidia的GPU,它们是未来,你们需要它们来做机器学习。后来我还给Nvidia发邮件,说我推荐了他们的板卡,能否给我一块免费的,但他们没有回复。直到后来我告诉Jensen这件事,他才给了我一块免费的。

采访者:你认为未来计算的发展方向应该是什么?

Hinton:在我最后几年在谷歌的时候,我一直在思考如何使用模拟计算,以达到和大脑一样的30瓦功耗,而不是兆瓦级别,从而能够在模拟硬件上运行这些大型语言模型。但我最终没有成功。

我开始真正欣赏数字计算的优势。如果使用低功耗的模拟计算,每个硬件都会有一些不同的特性,学习会利用这些特性。这就像人脑一样,每个大脑都不一样,我大脑中学习到的权重无法直接应用到你的大脑,因为硬件不同。数字系统就不一样,一旦学习到权重,就可以永远保存下来,在任何数字硬件上复制使用,这种知识共享效率要高得多。

采访者:你认为人工智能领域目前还有哪些方面需要从神经科学中学习?

Hinton:一个很大的差距就是时间尺度。在几乎所有的神经网络中,都只有两个时间尺度:快速改变活性,以及缓慢改变权重进行长期学习。但大脑有多个时间尺度的权重变化。

比如,如果我说一个意外的词”黄瓜”,5分钟后你戴上耳机听噪音,你会比之前更好地识别这个词”黄瓜”。这种知识存在于突触的临时变化中,而不是单纯的神经元激活。我们目前的神经网络模型还无法做到这种快速权重变化,因为如果权重依赖输入数据临时变化,就无法并行处理不同的输入。但大脑显然使用了这种快速权重变化来实现短期记忆,这是我们目前的模型所缺乏的。

我曾经很希望图灵芯片能够顺序处理并在线学习,从而利用快速权重,但到目前为止还没有实现。我相信将来一定能够实现这一点,当我们使用电导作为权重时。

采访者:了解大脑和这些模型的工作方式,对你的思维方式有什么影响?

Hinton:我认为有一个很大的影响,就是在相当抽象的层面上。很多年来,人们都非常鄙视这种做法,即使用一个大的随机神经网络,给予大量训练数据,它就能学习复杂的东西。统计学家、语言学家和大多数人工智能从业者都认为这是痴人说梦。

事实证明,这种想法是完全错误的。你可以取一个大的随机神经网络,仅仅通过数据,使用反复调整权重的随机梯度下降,它就能学习很多复杂的东西。

这证实了大脑的工作方式 – 它不需要事先就拥有大量的内在结构,对于容易学习的东西,它可以仅通过数据学习。

所以来自乔姆斯基的观点 – 除非一切都事先被硬连线好,否则你无法学习像语言这样复杂的东西 – 这个观点现在已经很明显是错误的。

采访者:你认为什么样的机制可以使这些模型更好地模拟人类的意识和感受?

Hinton:让我们假设,你有一个你一生都在交谈的AI助手,不像现在每次对话都从头开始。假设有一天你去世,并告诉这个助手这个消息,你认为它会有什么感受吗

我认为它们确实可以有感受。就像我们有一个内在的感受模型一样,它们也可能有。感受并不是某种神奇的内在剧场,而更像是一种行动倾向 – 如果不受抑制,我们就会采取某些行动。我认为感受也可以用这种方式解释,它们代表了如果没有约束,我们会采取的行动。

所以,我认为这些模型也可以拥有感受。1973年,我在爱丁堡见过一个机器人有情感反应。当机器人无法正确组装一辆玩具车时,它就会用力推开,表现出一种沮丧的情绪。如果这种行为发生在人身上,我们就会说它生气了,因为它无法理解眼前的情况。

采访者:之前你提到人类和这些语言模型都是”模拟机”。在你的生命中,你发现什么是最强大的类比?

Hinton:在我的生命中,最强大的类比可能是宗教信仰和符号处理之间的类比。

当我年轻的时候,我来自一个无神论家庭,上学后被宗教信仰所冲击,觉得这完全没有道理。后来我看到符号处理也有类似的问题,也觉得完全没有道理。

不过,现在我认为,我们确实在某种程度上进行符号处理,只是不是简单的符号匹配,而是利用上下文给符号赋予嵌入向量,然后利用这些向量的交互来进行思考。所以符号处理并不像表面上看起来的那么荒谬。

但是,有一位谷歌的研究员费尔南多·佩雷拉说得很好,我们唯一的符号处理就是自然语言,我们就是用自然语言进行推理。我现在也认同这一点了。

采访者:你做过一些对人工智能研究领域影响很大的工作,你是如何选择要研究的问题的?

Hinton:首先让我纠正你的说法,我和我的学生们做出了一些有意义的工作,主要是非常好的合作。

我选择研究问题的方法是,我会关注大家都认同某些东西,但我觉得有些地方似乎不太对。我会编写一些小型的计算机程序来展示为什么它不如预期的那样工作,然后深入探讨其背后的原因。

比如,大多数人认为在神经网络中加噪声会降低性能,但如果在训练时随机屏蔽一半神经元,最终泛化性能会更好。我可以用一个小程序很容易地演示出这一点,然后思考为什么会这样。

所以我会关注一些直觉上似乎有问题的地方,然后尝试证明它们确实有问题,并理解其背后的原因。

采访者:如果你现在有一群学生,你会让他们研究什么问题?

Hinton:如果我现在有学生,我会让他们研究的核心问题就是,大脑是否真的在进行反向传播。我相信大脑一定是在获得梯度信息的,因为没有梯度,学习效果会大大降低。但大脑到底是如何获得这些梯度的,是否有某种近似反向传播的方法,这仍然是一个大问题。

这个问题我已经研究了30年左右,如果我继续做研究,这仍然是我最感兴趣的方向。

回顾与展望

采访者:回顾你的研究生涯,有哪些你认为错误的方向,你希望能少花时间在上面?

Hinton:我认为我错误地太专注于玻尔兹曼机,虽然最终我还是很高兴花了那么多时间研究它。玻尔兹曼机提供了一种非常优雅的方式来获得梯度,比起普通的反向传播要优雅得多。但最终我认为大脑并没有采用这种方式。

尽管如此,研究玻尔兹曼机并没有浪费我的时间,它仍然是一个非常有趣的理论。

采访者:你在早期是否有预见到这些系统会产生如此广泛的影响,包括在医疗、教育等领域的应用?

Hinton:作为科学家,我认为我们应该致力于造福社会的研究。但事实上,这并不是激励我做研究的主要动力。我只是单纯地想要理解大脑是如何学习的。

采访者:如果从事这些系统可能带来的积极影响来看,你最看好哪些应用领域?

Hinton: 我认为医疗保健是一个非常有前景的领域。因为医疗资源的需求是无穷无尽的,如果每个人都有三位专属医生,那就太棒了。随着AI比人类做得更好,这种需求就可以得到满足。

另一个领域是开发新材料,比如更好的太阳能电池或者高温超导体。通过对生物机制的理解,AI可以帮助我们开发出各种新材料。

但我担心的是,坏人也可能利用AI做一些危险的事情,比如制造杀人机器人、操纵舆论、大规模监视等。这些都是非常令人担忧的。

采访者:你是否担心限制AI的发展,也会阻碍这些积极应用的实现?

Hinton: 我认为AI的发展是很难被限制的。一方面是因为这是一个国际性的领域,如果一个国家放慢步伐,另一个国家不会这样做,会形成竞争。另一方面,即使有人呼吁暂时停下来,这也很难实现。我当时并没有签署那个呼吁,因为我觉得根本不可能真的停下来。

不过,我承认即使不可能真的实现,提出这样的诉求也能起到一定的政治作用,让大家意识到这个问题的重要性。所以也许我应该当时就签署了那个呼吁。

总的来说,我认为AI的发展是难以阻挡的,各国都不可能放慢脚步。

采访者:这些辅助系统对于研究过程本身会产生什么影响?

Hinton: 我认为会使研究效率大大提高。有了这些助手来帮助编程、思考问题,甚至处理数学方程,研究工作会变得更加高效。

采访者: 你在选拔人才方面有什么经验和心得吗?

Hinton: 有时候你一见到某个人就知道他很聪明,就像Ilya一样。我们聊了没多久,就发现他非常聪明,而且直觉敏锐。

另一次是在NIPS会议上,有个人来问我们的海报问题,每个问题都很有洞察力,指出我们哪里做错了。那个人就是大卫·麦凯,他非常出色,后来不幸早逝。

但有时候也很难判断。我学到的一点是,好的学生并不是只有一种类型。有些人可能技术很强但不太创造性,有些人则相反。在实验室里,不同类型的学生都很重要。

总的来说,我会凭借直觉选择那些真的”get it”的人。他们往往能快速拒绝一些无谓的东西,建立起一套自己的观点框架。而那些试图囊括一切的人,最终得到的往往是一团模糊。

采访者: 你认为是什么造就了这些人的强大直觉?

Hinton: 我认为这与他们不轻易接受他人观点有关。有些人会试图将新信息融入自己已有的框架,但这容易导致偏差。而有些人则会坚持自己的观点,果断地拒绝那些不符合自己逻辑的信息。虽然这也可能导致一些错误,但我认为这是获得强大直觉的必经之路。

当然,如果你的直觉非常糟糕,那就另当别论了。但只要直觉还算不错,我认为应该坚持自己的框架,而不是盲目接受他人的观点。

采访者: 你认为当前的研究方向是否太过集中在某些路径上,是否应该更加多元化?

Hinton: 我认为利用大型多模态语言模型,即使只是预测下一个词,这已经是一个非常有前景的方向了。目前确实有很多人在这个路径上,但我认为这没什么不好的。

肯定也需要一些人去尝试一些更”疯狂”的想法,但主流的研究方向应该集中在这种大型多模态模型上,因为它已经取得了非常好的成果。

采访者: 你认为学习算法的选择有多重要,还是主要取决于实现技巧?

Hinton: 这是一个很有趣的问题。从我的角度看,反向传播在某种程度上确实是正确的,因为获得梯度信息以调整参数是正确的做法。

但也可能存在其他的学习算法,能够得到类似的梯度信息,或者优化一些其他的东西,也能得到好的结果。也许大脑正是在做这种事情,因为那样可能更容易一些。

所以我不确定算法的选择是否至关重要。重要的是,反向传播确实取得了巨大的成功,这说明它做对了一些关键的事情。至于是否存在更好的替代算法,这还有待进一步探索。

采访者: 回顾你的研究生涯,你最自豪的成就是什么?

Hinton: 我最自豪的是玻尔兹曼机的学习算法。它可能在实践中并不太有用,但在理论上它非常优雅。我和特里·西诺斯基在开发这个算法时度过了非常愉快的时光,这是我最骄傲的成就。

虽然最终可能并不是大脑的工作方式,但研究过程本身让我获得了巨大的满足感。

采访者: 你现在主要关注哪些问题?是继续深入探究大脑的运作机制,还是关注一些更实用的应用?

Hinton: 我现在主要关注的还是大脑究竟是否在进行反向传播这个问题。我相信大脑一定是在获得某种梯度信息来学习的,因为没有梯度,学习效果会很差。

弄清楚大脑到底是如何获得这些梯度信息,是否有某种近似反向传播的机制,这仍然是我很感兴趣的核心问题。如果我继续从事研究工作,这将是我的主要方向。

除此之外,我可能会关注一些更实用的应用,比如Netflix上应该看什么。

采访者: 非常感谢您的分享,这些洞见对我们都很有启发。

Hinton: 谢谢你的采访,能与您分享这些观点让我感到很高兴。

Loading

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注