罗马不是一天建成的。
当人工智能对话工具ChatGPT一夜之间成为顶流,在略显沉闷的科技界如闪电般发出炫目光芒后,它似乎点亮了指引投资界方向的明灯,一些商界人士的内心开始“骚动”。
的确,这个成绩是史无前例的。ChatGPT是有史以来用户增长最快的互联网服务,推出仅两个月就获得了1亿用户。它被内置于微软的必应搜索引擎中,把谷歌顷刻间拉下神坛,正在促成搜索引擎自诞生以来的重大转折点。
但ChatGPT绝非凭空而来。这款聊天机器人是多年来一系列大型语言模型中最完善的一个。梳理ChatGPT的简要历史就会发现,在其诞生前,有无数技术的迭代、理论的发展为它铺路。
20世纪五六十年代:符号与亚符号人工智能
人工智能这一术语始于1956年的美国达特茅斯学院,经历几十年“三起两落”的发展阶段,有过“寒冬”,也有过“盛夏”:几次重大事件让一度归于沉寂的人工智能研究再次成为被广泛讨论的热门话题。ChatGPT的成功,源于以深度学习为代表的人工智能技术的长期积累。
1956年达特茅斯会议,约翰·麦卡锡、马文·明斯基、克劳德·香农、艾伦·纽厄尔、赫伯特·西蒙等科学家正聚在一起,讨论用机器来模仿人类学习以及其他方面的智能。这一年被誉为人工智能诞生元年。
人工智能领域主要有两类,一类是符号人工智能(symbolic AI),另一类是以感知机为雏形的亚符号人工智能(subsymbolic AI)。前者的基本假设是智能问题可以归为“符号推理”过程,这一理论可追溯至计算机鼻祖、法国科学家帕斯卡和德国数学家莱布尼茨,真正体现这一思想的所谓智能机器,源于英国的查尔斯·巴贝奇(Charles Babbage)和艾伦·图灵(Alan Turing)的开创性工作。
亚符号人工智能的出现归功于行为主义认知理论的崛起,其思想基础是“刺激-反应理论”。美国神经生理学家沃伦·麦克卡洛克(Warren McCulloch)、沃尔特·皮茨(Walter Pitts)提出神经元模型后,心理学家弗兰克·罗森布拉特(Frank Rosenblatt)提出了感知机模型,奠定了神经网络的基础。
早期的神经网络技术秉承人工智能深度学习“逐层递进、层层抽象”的基本思想,出现了诸如MCP神经元、感知机和前馈神经网络等模型,它们通常由多个处理信息且相互连接的“神经元”组成,其灵感来自人脑中所连接神经元之间的信息交换。
20世纪五六十年代,人工智能在符号演算和感知机两个方向上都陷入了停滞。在麻省理工学院和加州大学伯克利分校任教的休伯特·德雷福斯(Hubert Dreyfus )1965年发表《炼金术与人工智能》报告,将当时所进行的神经网络研究与历史上的炼金术相提并论,辛辣指出爬上树梢不等于攀登月球。1973年,“莱特希尔报告”对当时的符号主义人工智能提出批评,认为“迄今的发现尚未产生当时承诺的重大影响”,人工智能第一次跌入低谷。
80年代兴起的专家系统和神经网络,也因为受制于计算能力和对智能的理解,并未获得实质性的突破,使得人工智能跌入了第二次低谷。
但从80年代开始,一棵大树已经播种。
20世纪八九十年代:递归神经网络
理解和使用自然语言是人工智能面临的最大挑战之一。语言常常充满歧义,极度依赖语境,而且通常用语言沟通的各方需要具备大量共同的背景知识。与人工智能的其他领域一样,自然语言处理相关的研究在最初的几十年集中在符号化的、基于规则的方法上,并没有取得很好的效果。递归神经网络(Recurrent Neural Networks)改变了一切。
ChatGPT是基于大型语言模型GPT-3的一个对话式版本,而语言模型是一种经过大量文本训练的神经网络。由于文本是通过不同长度的字母和单词序列组成,语言模型需要一种能够“理解”这类数据的神经网络,发明于20世纪80年代的递归神经网络可以处理单词序列。但有一个问题是,它们的训练速度很慢,而且可能会忘记序列中之前的单词。
1997年,计算机科学家斯皮·哈切瑞特(Sepp Hochreiter)和尤尔根·斯成杜博(Jürgen Schmidhuber)通过发明长短期记忆(LSTM)网络解决了这个问题,这是一种具有特殊成分的循环神经网络,可以让输入序列中的过去的数据保留更长时间。LSTMs可以处理几百个单词长的文本字符串,但他们的语言技能有限。
在人工智能处理自然语言出现重大突破前夕,神经网络和机器学习在2016年发生了一次“出圈”事件。谷歌公司的AlphaGo在各种围棋比赛中大获全胜,给全世界做了一次人工智能科普。DeepMind创始人之一沙恩·莱格(Shane Legg)认为,超越人类水平的人工智能将在2025年左右出现。谷歌公司战略委员会成员雷·库兹韦尔(Ray Kurzweil)则提出了令人震惊的“奇点理论”,认为2029年完全通过图灵测试的智能机器将会出现,以强人工智能为基础的智能爆炸将会在2045年出现。
谷歌发布Transformer的那篇著名论文。
Transformer能够同时并行进行数据计算和模型训练,训练时长更短,并且训练得出的模型可用语法解释,也就是模型具有可解释性。
经过训练后,Transformer在包括翻译准确度、英语成分句法分析等各项评分上都达到了业内第一,成为当时最先进的深度学习模型。
Transformer自诞生的那一刻起,就深刻地影响了接下来几年人工智能领域的发展轨迹。短短的几年里,该模型的影响已经遍布人工智能的各个领域——从各种各样的自然语言模型到预测蛋白质结构的AlphaFold2模型,用的都是它。
2018年:GPT-1
在Transformer诞生还不到一年的时候,人工智能研究机构OpenAI推出了具有1.17亿个参数的GPT-1模型,GPT是Generative Pre-training Transformer(生成式预训练Transformer)的缩写,即用大量数据训练的基于Transformer的模型。该公司希望开发多技能、通用的人工智能,并相信大型语言模型是实现这一目标的关键一步。
GPT将Transformer与无监督学习相结合,这是一种根据事先未注释的数据训练机器学习模型的方法。这让软件可以自己找出数据中的模式,而无需被告知它在看什么。机器学习先前的许多成功都依赖于监督学习和注释数据,但手动标记数据是一项缓慢的工作,因此限制了可用于训练的数据集的大小。
GPT最终训练所得的模型在问答、文本相似性评估、语义蕴含判定以及文本分类这四种语言场景,都取得了比基础Transformer模型更优的结果,成为了新的业内第一。
相关文章
猜你喜欢