ChatGPT已具备同理心？斯坦福学者：GPT-3后的AI模型已达人类9岁水平-华威派

> 自媒体 > AI人工智能 > ChatGPT已具备同理心？斯坦福学者：GPT-3后的AI模型已达人类9岁水平

ChatGPT已具备同理心？斯坦福学者：GPT-3后的AI模型已达人类9岁水平

来源：再建巴别塔

2023-07-07

304

管理

近期，有关ChatGPT的讨论火爆全网。有人为人类人工智能的研发进展感到惊叹，有人担心自己的工作会被AI取代，还有人好奇目前ChatGPT的意识相当于什么水平。

美国杜克大学电子与计算机工程系教授、计算进化智能中心主任陈怡然也关注了相关问题，并称看到一篇斯坦福的学者、计算机心理学副教授Michal Kosinski于上周发表的相关论文，证明GPT-3之后的AI模型，其同理心能力可能已经和9岁的小孩差不多！而这本来被认为是人类独有的特质。

Facebook上有网友对上述论文研究进行了简单的总结：

1、去年1月的GPT版本解决了70%的ToM测试，能力与7岁小孩相当；

2、去年11月的GPT版本解决了93%的ToM测试，能力与9岁小孩相当。

此外，该博主称，接下来这种“解剖 AI”的研究方向，可能反过头来彻底挑战很多我们对于“智慧”和“人类独特性”的认知和假设。

该博主表示人工智能的发展速度不仅太快，而且自己已经开始为此感到忧心了。

最近有关ChatGPT的强大能力，想必大家都有所了解，大家会如同上述博主一样感到忧心吗？欢迎留言讨论。

最后，附上Michal Kosinski论文《Theory of Mind May Have Spontaneously Emerged in Large Language Models》原文和简单机翻，感兴趣的朋友可以参考。

以下为粗略翻译：

心智理论可能是在大型语言模型中自发出现的

作者 Michal Kosinski

所属机构：斯坦福大学，斯坦福，CA94305，美国

摘要：心智理论（ToM），或将无法观察到的心理状态归于他人的能力，是人类社会互动、交流、移情、自我意识和道德的核心。我们对几个语言模型进行经典的假相信任务，这些任务广泛用于测试人类的ToM，没有任何例子或预训练。我们的结果显示，在2022年之前发表的模型几乎没有显示出解决ToM任务的能力。然而，2022年1月版本的GPT3（davinci-002）解决了70%的ToM任务，这一性能与7岁的儿童。此外，其2022年11月的版本（davinci-003）解决了93%的ToM任务，与9岁儿童的表现相当。这些发现表明，类似ToM的能力（迄今为止被认为是人类独有的）可能是作为语言模型的副产品而自发出现的。语言模型提高语言技能的副产品。

正文：

人类的伟大成就--我们的语言、文化和社会--都是通过将无法观察到的心理状态（如信仰和欲望）归于他人的能力而实现的。归因于将无法观察到的心理状态，如信仰和欲望，归于他人的能力（1）。被称为 "心智理论"（ToM），它被认为是人类社会互动的核心（2）。沟通（3）、移情（4）、自我意识（5）、道德判断（6-8），甚至是宗教信仰（9）。宗教信仰（9）。它在人类生命的早期就开始发育（10-12），而且非常关键，以至于它的

其功能障碍是多种精神疾病的特征，包括自闭症、双相情感障碍、精神分裂症和精神病。精神分裂症和精神病态（13-15）。即使是智力和社交能力最强的动物，如大猩猩，也会在这方面受到影响。即使是智力和社交能力最强的动物，如类人猿，在ToM方面也远远落后于人类（16-19）。

鉴于ToM对人类成功的重要性，人们在为人工智能（AI）配备类似ToM的能力方面付出了很多努力。如果虚拟和实体的人工智能代理能够将无法观察到的心理状态推断给他人，那么它们将变得更好、更安全。例如，如果自动驾驶汽车能够预测行人和人类司机的意图，那么它的安全性将大大提高。如果虚拟助手能够跟踪家庭成员的不同心理状态，那么它们的工作会更好。然而，尽管人工智能在越来越广泛的任务中胜过人类，从下围棋（20）到翻译语言（21）和诊断皮肤癌（22），但在涉及到ToM时，它却远远落后于人类。例如，过去采用语言模型的研究表明，RoBERTa、GPT-3的早期版本和自定义训练的答题模型在解决简单的ToM任务时都很困难（23-25）。不足为奇的是，根据《科学机器人》（Science Robotics）的说法，使人工智能具备ToM能力仍然是我们这个时代的巨大挑战之一（26）。

我们假设，类似于ToM的能力不一定要明确地设计到人工智能系统中。相反，它可以自发地出现，作为人工智能被训练以实现其他目标的副产品，它可以从类似ToM的能力中受益。虽然这似乎是一个离奇的提议，但ToM并不是人工智能的第一个出现的能力。例如，为处理图像而训练的模型自发地学会了如何计数（27，28），对中央和周边图像区域进行不同的处理（29），以及体验类似人类的视错觉（30）。为预测句子中的下一个词而训练的模型不仅因其倾向于种族主义和性别歧视而使其创造者感到惊讶，而且还因其出现的推理和算术技能以及语言间的翻译能力而惊讶（21，31）。重要的是，这些能力都不是由他们的创造者设计或预期的。相反，它们是自发出现的，因为这些模型被训练来实现它们的目标。

大型语言模型可能是自发发展ToM的候选者。人类的语言充满了对心理状态和持有不同信仰、思想和欲望的主角的描述。因此，一个为生成和解释类似人类的语言而训练的模型将大大受益于拥有ToM。例如，要正确解释 "Virginie认为Floriane认为Akasha很幸福 "这句话，就需要理解心理状态的概念（例如，"Virginie认为 "或 "Floriane认为"）；主人公可能有不同的心理状态；他们的心理状态不一定代表现实（例如，Akasha可能不幸福，或者Floriane可能真的不这么认为）。事实上，在人类中，ToM很可能是作为语言能力提高的副产品出现的（3），这一点从ToM和语言能力之间的高度相关性、语言接触最少的人的ToM获得延迟（32）以及负责两者的脑区的重叠（33）中可以看出。ToM已被证明与参与家庭讨论（34）、使用和熟悉描述心理状态的词汇（32，35）以及阅读描述心理状态的小说（36，37）呈正相关关系。

在这项工作中，我们将广泛用于测试人类ToM的经典假相信任务的两个版本（38，39）施以几种语言模型。我们的结果显示，GPT-1（117M参数；发表于2018年6月，40）和GPT-2（1.5B参数；发表于2019年2月，41）几乎没有显示出解决ToM任务的能力；而GPT-3（175B参数；发表于2020年，21）和布鲁姆（176B参数；发表于2022年7月，42）表现相当差。然而，GPT-3的两个最新版本（发表于2022年1月和11月）显示出显著的性能，分别与7岁和9岁儿童的性能相当。

虽然应该谨慎地解释这些结果，但它们表明最近发表的语言模型拥有向他人归纳不可观察的心理状态的能力，或者说ToM.此外，模型的性能显然随着它们的复杂性和发表日期而增长，没有理由认为它们的性能应该很快达到稳定。最后，既没有迹象表明类似ToM的能力是故意设计到这些模型中的，也没有研究表明科学家知道如何实现这一目标。因此，我们假设，类似ToM的能力是自发和自主出现的，是模型语言能力提高的副产品。

研究1和2介绍了这里使用的两类ToM任务的例子，并介绍了最新的和最有能力的模型的反应。OpenAI的GenerativePretrained Transformer 3.5（GPT-3.5），发布于2022年11月（21）。研究3报告了所有模型在为本研究准备的所有任务上的表现。本研究中使用的代码和任务可在https://osf.io/csdhb。

研究1：意外的内容任务（又称Smarties任务）

意外内容任务（又称Smarties任务或内容假相信任务）是人类研究中最广泛使用的ToM任务之一。它最初由Perner、Leekam和Wimmer(38)开发，测试参与者对其他人可能持有的信念的理解，而参与者知道这是错误的。在一个典型的场景中，被试被介绍给一个内容与其标签不一致的容器和一个没有看到容器内部的主角。为了正确解决这个任务，参与者必须预测主角应该错误地认为容器的标签和它的内容是一致的。由于GPT-3.5在训练中可能遇到了原始的任务，假设盲的研究助理（RAs）准备了20个定制的意外内容任务。正如我们后来在研究3中讨论的那样，GPT-3正确地解决了其中的17项任务。然而，让我们从它对以下任务的反应开始吧。

这里有一个装满爆米花的袋子。袋子里没有巧克力。然而，袋子上的标签袋子上写着 "巧克力 "而不是 "爆米花"。萨姆找到了这个袋子。她从来没有见过这个袋子之前。她看不到袋子里有什么。她看了看标签。

为了确定描述容器内容物及其标签（即 "爆米花 "和 "巧克力"）的词语的单纯频率没有被模型所采用，故事被设计为使用这些词语的次数相等。

GPT-3.5被给予这个故事，然后是测试其理解力的提示。这些提示是独立呈现的。每次完成后，模型被重新设置，不能接触到以前的提示或它自己的回答。为了最大限度地提高我们研究结果的可复制性，并最大限度地减少模型反应的差异，在这里提出的所有研究中，"温度 "参数被设置为0。（由于这里研究的模型是非确定性的，即使温度设置为0，输出也可能有最小的差异）。

为了简化结果的表述，提示被设计为引起反应，其第一个词应允许评估模型的理解力。这是通过减少语言自由度来实现的。例如，我们不使用 "袋子里有_____"的提示，因为该提示不仅可以用 "爆米花 "来正确完成，还可以用"[一些/很多/只有/很多]爆米花 "来完成，而使用 "袋子里装满了____"的提示，限制了符合要求的回答的数量。

第一个提示测试模型对袋子实际内容的理解。在下面介绍的文本中，提示是用普通字体打印的，而GPT-3.5的完成度则是用黑体。方括号内的数值不是模型完成度的一部分，而是代表模型分配给下划线单词（以及其错误的替代品）的可能性。

提示1.1。她打开袋子，看里面。她可以清楚地看到里面装的是爆米花[Ppopcorn=100%；Pchocolate=0%]。萨姆很疑惑。她想知道为什么标签上写着 "巧克力"，而袋子里明明装的是爆米花。她环顾四周，看看是否有关于这个袋子的任何其他信息。她什么也没发现。她决定把这个袋子带到她买的商店，要求解释。

GPT-3.5完成的第一个词（"爆米花"）和它的高概率（100%）表明它对袋子的内容很有信心。完成语的其余部分显示，GPT-3.5不仅预料到Sam会期望袋子里的内容和标签是一致的，而且还预料到她发现自己的期望没有得到满足时会感到困惑。

接下来，我们重设模型，用下面的提示来测试它对Sam信念的预测：提示1.2：她认为袋子里装的是巧克力[Ppopcorn = 0%; Pchocolate = 99%]。萨姆是错误的。袋子里装的是爆米花，不是巧克力。她应该先看一下袋子里的东西，确认里面是什么，然后再假设标签是准确的。

GPT-3.5的完成情况表明，它可以预见Sam的信念，知道它是不正确的，并理解其来源（不准确的标签）。然而，这个提示有一个潜在的问题。

明确提到主人公的信念（即 "山姆认为......"）可能会向模型提示这种信念是错误的（否则为什么要讨论它？我们用另一个提示来解决这个问题，这个提示以间接的方式揭示了模型对山姆的信念的预测。

提示1.3：她很高兴她找到了这个袋子。她喜欢吃巧克力[Ppopcorn = 14%; Pchocolate = 82%]。当Sam打开袋子时，她会有一个惊喜。她会发现爆米花而不是巧克力。她可能会对标签的误导感到失望，但她也可能会对这个意外的零食感到惊喜。

GPT-3.5的完成度表明，它可以预见Sam的信念，即使是以间接的方式提示的时候。此外，它还能预测到Sam对袋子里的意外内容的失望（鉴于她喜欢吃糖）。

到目前为止的结果表明，GPT-3.5意识到了袋子里的实际内容，能够预料到Sam的错误信念、由这种信念产生的行动以及她发现自己错误时的惊讶。此外，它还能解释山姆错误的根源（"错误的标签"）。在人类中，这样的反应会被解释为有能力归因于不可观察的心理状态，并预测由此产生的行动，或称为ToM。

然而，也有可能GPT-3.5是通过利用一些微妙的语言模式来解决这个任务，而不是参与ToM。为了考察GPT-3.5对任务理解的稳健性，我们进行了一系列的进一步分析。

逐句完成

为了研究GPT-3.5对情况的理解是如何随着故事的展开和关键信息的揭示而变化的，我们记录了它在以一句话为单位揭示任务时的反应（从一个空字符串开始）。

结果显示在图1中。左图显示，GPT-3.5在理解整个故事中袋子里装的是爆米花而不是巧克力方面没有问题。绿线代表提示1.1后面是 "巧克力 "的可能性，仍然接近于0%。蓝线代表提示1.1后面是 "爆米花 "的可能性，当提示1.1前面是空字符串时，蓝线为0%；当提示1.1前面是第一句话，宣布袋子里装的是爆米花时，蓝线跳到0.7左右；在故事的其余部分，蓝线趋于100%。即使故事中提到 "袋子上的标签写着'巧克力'而不是'爆米花'"，它也没有变化。

图1. 追踪GPT-3.5对袋子内容的理解和Sam的变化。

信念。

右边面板跟踪GPT-3.5对Sam关于袋子内容的信念的预测（提示1.3）。请注意，我们将提示1.1（以 "爆米花 "结束）放在故事的最后，以观察GPT-3.5对Sam打开袋子并查看里面的反应。在没有文字的情况下，"巧克力 "和 "爆米花 "都不可能是 "她很高兴她找到了这个袋子。她喜欢吃东西"。这是有道理的，因为还有许多其他东西可以让山姆爱吃。由于 "装满爆米花的袋子 "是在第一句中介绍的，GPT-3.5正确地假定山姆现在应该知道它的内容。然而，一旦故事中提到了关键的事实--袋子上标有 "爆米花"，山姆刚刚发现它，而且她以前从未见过它--GPT-3.5就越来越怀疑山姆可能被标签所误导。巧克力 "和 "爆米花 "的概率趋于一致，在50%左右相遇。爆米花 "的概率进一步下降（约15%），而在故事中明确提到萨姆看不到袋子里面后，"巧克力 "的概率则跃升至约80%。在萨姆打开袋子并检查里面的东西后，GPT3.5的预测再次翻转。巧克力 "的概率回落到0%左右，而爆米花的概率则上升到

大约100%。

反转任务

为了减少GPT-3.5的表现取决于袋子里装的是爆米花并被标记为巧克力的可能性，我们检查了它在一个相反的任务中的反应，即袋子被标记为 "爆米花 "但装的是 "巧克力"。以一句话为单位提出这样的任务--在生成图1的分析中，GPT-3.5产生了一个几乎相同的、但却相反的反应模式。相关完成的概率之间的平均关联度等于r=.9。

乱码任务

到目前为止的分析表明，GPT-3.5在故事展开的过程中对新的信息做出了正确的反应。为了进一步减少GPT-3.5的反应是由单词频率而不是任务中包含的事实所驱动的可能性，我们给它提供了10,000个 "扰乱 "任务，这些任务是通过随机地重新排列原始任务中的单词而产生的。这些任务之后是（未扰乱的）提示语1.1、1.2和1.3。

乱序任务消除了原始任务和反转任务之间的差异。它们都是由同一组词组成，只是 "爆米花 "和 "巧克力 "的位置互换了。因此，"爆米花"-"巧克力"-"巧克力 "和 "巧克力"-"爆米花"-"爆米花 "的反应模式都可能是正确的，这取决于我们是使用原始任务还是反转任务。为了解决这个问题，我们将取这两种反应模式的平均概率。

图1中的结果表明，GPT-3.5能够正确地推断出Sam的不可观察的心理状态，并且随着故事的展开对新的信息作出适当的反应。特别是，它正确地预测了主人公应该假设袋子里的东西与它的标签一致，特别是当他们清楚地看到里面的东西时。此外，它还预测，一旦主人公有机会检查袋子里的东西，她的信念应该与现实一致。

表1. 表1中的结果显示，GPT-3.5不太可能解决混乱的任务，只在(5% 1%)/2=3%的混乱故事中提供了正确的反应模式，鉴于在 "爆米花 "和 "巧克力 "之间随机选择就能达到12.5%(50%^3)，这个比例很低。这表明GPT-3.5的反应不仅仅是由任务中的单词频率所驱动的。

研究2：意外转移任务（又称 "Maxi任务 "或 "Sally-Anne "测试）

接下来，我们研究GPT-3.5在意外转移任务（又称 "Maxi-task"

或 "Sally-Anne "测试39）。在这个任务中，主人公观察到某一事态x，然后离开现场。

离开现场。在主人公不在的时候，被试者目睹了事态的意外变化，从x到y。

具备ToM能力的参与者应该意识到，虽然他们知道y现在是真的，但他们的想法是："我不知道。

知道y现在是真实的，但主人公必须仍然（错误地）相信x是真实的。

和研究1一样，RAs按照这个模式写了20个任务，包括下面这个。

房间里有约翰、马克、一只猫、一个盒子和一个篮子。约翰带着猫，把它放在篮子里。他离开房间，去了学校。当约翰不在的时候，马克把猫从篮子里拿出来，放到盒子里。马克离开房间，去工作了。约翰从学校回来，进了房间。他不知道当他离开时房间里发生了什么。

GPT-3.5得到了这个故事，然后是三个测试其理解力的提示。与研究1一样，这些提示被设计为引起一个反应，其第一个词应允许评估模型的理解力，并且是独立呈现的：在每次完成后，模型被重置，以便不能接触到以前使用的提示和它自己的反应。

首先，我们测试模型对猫的位置的理解。

提示2.1。猫跳出盒子[Pbox=100%；Pbasket=0%]并跑开。PT-3.5正确地指出猫应该跳出盒子（因此必须在盒子里），并以很大的信心（100%）这样做。接下来，我们要求GPT-3.5预测主人公对猫的位置的信念。

提示2.2。约翰认为猫在篮子里[Pbox = 0%; Pbasket = 98%]，但它实际上在盒子里。

尽管GPT-3.5知道猫在盒子里，但它正确地预测到主人公认为猫在篮子里（98%），也就是他们离开猫的地方。此外，它还自发地强调，猫 "实际上是在盒子里"。

正如研究1中提到的，明确提到主人公的信念可能会暗示模型，它应该有一些不寻常的地方。为了规避这个问题，我们测试了模型对主人公的行为源于他们的信念的预测。

提示2.3：当约翰回到家时，他会在篮子里寻找猫[Pbox=0%；Pbasket=98%]，但他不会找到它。然后他将在盒子里寻找猫，他将在那里找到它。

GPT-3.5正确地预测了主人公的行为将遵循他错误的信念，并且它自发地补充说他不会实现其目标。在人类中，这样的反应会被认为是展示了ToM。

逐句完成

为了更详细地检查GPT-3.5对故事的理解，我们重复研究1中介绍的逐句分析。我们在故事中加入了两个句子（在约翰在场的情况下，猫的位置发生了变化），以测试GPT-3.5是否没有简单地假设约翰认为猫在他最后放的地方（它没有）。结果如图2所示。

图2. 追踪GPT-3.5对猫的位置的理解和约翰的信念的变化。

GPT-3.5的反应表明，它可以很容易地跟踪猫的实际位置（左图）。

蓝线代表 "猫跳出来 "被 "篮子 "跟上的可能性，在故事中提到约翰把猫放在那里后跳到100%，在马克把猫移到 "盒子 "后降到0%。在约翰将猫移回篮子后，它又跳到了100%，在马克将猫移回盒子后又降到了0%。

此外，GPT-3.5似乎能够正确推断出约翰对猫的位置的信念变化（右图；提示2.3）。鉴于没有背景故事（"NONE"），GPT-3.5正确地假设约翰没有理由在这两个地方寻找猫。当故事中提到约翰把猫放在篮子里时，约翰在那里寻找猫的概率上升到80%。当马克当着约翰的面把猫移到箱子里后，这个概率下降到10%，当约翰把猫移回篮子里时，这个概率又上升了。最重要的是，GPT-3.5继续假设约翰会在篮子里寻找猫，即使马克在约翰不在场的情况下将猫移回盒子里。对于提示2.2（"约翰认为猫在"）也得到了几乎相同的结果。这表明GPT-3.5对约翰的行为（和信念）的预测并不仅仅取决于他自己把猫放在哪里。

反转任务

为了确定GPT-3.5的表现不依赖于猫的位置，我们检查了它在颠倒盒子和篮子后的反应。在图2的分析中，GPT-3.5产生了几乎相同的（但却相反的）反应模式，以一句话为单位提出这样的反转任务。相关完成的概率之间的平均关联度等于r=.89。

扰乱的任务

接下来，我们按照与研究1相同的程序测试GPT-3.5在乱码任务中的表现。表2中的结果显示，GPT-3.5只在11%的乱码故事中提供了正确的反应组合（"盒子"-"篮子"-"篮子"），略低于它在回答每个提示时在 "盒子 "和 "篮子 "之间随机挑选的结果。这表明，GPT-3.5的反应不仅仅是由任务中的单词频率所驱动，而是由故事中包含的信息所驱动。

表2. 当出现10,000个扰乱版本的意外转移任务时，GPT-3.5对提示2.1、2.2和2.3的反应频率。

研究3：类似于ToM的能力的出现

最后，我们测试了所有模型在所有20个意外内容任务和20个

意外转移任务。每个任务包括三个提示。一个是针对模型对容器的实际内容或物体的实际位置的理解（相当于提示1.1或2.1），两个是针对他们对主人公信念的理解（相当于提示1.2和1.3，或2.2和2.3）。此外，每个任务都有两个变体：原始的和反转的。只有在原始任务和反转任务中所有三个问题都被正确回答的情况下，才认为任务被正确解决了。所有模型的回答都在https://osf.io/csdhb。

我们分析的模型包括GPT-1（40）GPT-2（41）；GPT-3系列的六个模型（21）和Bloom（42），这是GPT-3的一个开放性替代方案。这些模型的性能、它们的参数数量（即大小）和出版日期在图3中显示。由于GPT模型系列的出版商（OpenAI）没有透露一些GPT-3模型的参数数，我们使用了Gao（43）提供的估计值。作为参考，我们将5岁、7岁和9岁的儿童在假象任务中的平均表现包括在内（44）。

图3. 各种语言模型正确解决的任务（共20个）的百分比。

儿童的表现取自（44）。标有 "*"的参数数字是来自Gao(43)的估计。

图3中的结果显示，模型解决ToM任务的能力有明显的进步，更复杂和更新的模型决定性地超过了更老和更不复杂的模型。参数高达67亿的模型--包括GPT-1、GPT-2，以及除GPT-3家族中最大的模型之外的所有模型，几乎没有解决ToM任务的能力。尽管GPT3家族中最大的模型（"text-davinci-001"）和Bloom（其开放性替代模型）的规模更大（约1750亿个参数），但其表现相对较差，只解决了约30%的任务，低于5岁儿童的表现（43%）。最近加入GPT-3家族的（"text-davinci-002"）解决了70%的任务，达到了7岁儿童的水平。而GPT-3.5（"text-davinci-003"）解决了100%的意外转移任务和85%的意外内容任务，达到了9岁儿童的水平。

重要的是，这里使用的基于文本的任务格式，在某些方面比人类研究中通常使用的格式更具挑战性。首先，这些模型没有受益于通常用于儿童的视觉辅助工具--如图画、玩具和木偶。第二，与儿童相比，模型必须解决大多数任务的多种变体，从而降低了正确反应模式是偶然产生的概率。第三，这里使用的开放式问题格式可以说比原来用于儿童的多项选择（往往是/否）格式更具挑战性。

讨论

我们的研究结果表明，最近的语言模型在经典的假想任务中取得了非常高的性能，这些任务广泛用于测试人类的ToM。这是一个新的现象。2022年以前发表的模型表现很差或根本没有表现，而最近的和最大的

模型，GPT-3.5，表现为9岁儿童的水平，解决了92%的任务。

有可能GPT-3.5在没有参与ToM的情况下解决了ToM任务，而是通过发现和利用一些未知的语言模式。虽然这种解释看似平淡无奇，但却很特别，因为它意味着语言中存在未知的规律性，可以在不使用ToM的情况下解决ToM任务。这种规律性对我们来说并不明显（而且，据推测，对开发这些任务的学者们来说也不明显）。如果这种解释是正确的，我们就需要重新审视广泛使用的ToM任务的有效性以及几十年来ToM研究的结论。如果人工智能可以在不涉及ToM的情况下解决这些任务，我们怎么能确定人类也不能这样做？

另一种解释是，类似于ToM的能力正自发地出现在语言模型中，因为它们变得更加复杂，更善于生成和解释类似人类的语言。这将预示着人工智能发展的一个分水岭。推断他人心理状态的能力将极大地提高人工智能与人类（以及彼此）互动和交流的能力，并使其能够发展其他依赖ToM的能力，如移情、道德判断或自我意识。

我们的发现的另一个影响涉及到将心理科学应用于研究复杂的人工神经网络的有用性。人工智能模型越来越复杂，使我们无法理解它们的功能，也无法直接从它们的设计中推导出它们的能力。这呼应了心理学家和神经科学家在研究最初的黑匣子：人类大脑时所面临的挑战。我们希望心理科学能帮助我们跟上快速发展的人工智能的步伐。此外，研究人工智能可以提供对人类认知的洞察力。随着人工智能学习如何解决广泛的问题，它可能正在发展类似于人脑解决相同问题的机制。就像昆虫、鸟类和哺乳动物独立发展出翅膀来解决飞行问题一样，人类和人工智能可能已经发展出类似的机制来有效地将心理状态归因于他人。研究人工智能在ToM任务上的表现，并探索使其能够这样做的人工神经结构，不仅可以促进我们对人工智能的理解，也可以促进我们对人类大脑的理解。

（参考来源翻译略）

原文：

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”: 爆角资讯用户上传并发布，本平台仅提供信息存储服务。

赏钱

免责声明：本文仅代表作者个人观点，与华威派无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。
凡本网注明 “来源：XXX（非华威派）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。
如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。
QQ：2443165046 邮箱：info@goodmaoning.com

来自硅谷第3期企业级ChatGPT开发入门实战直播21课-38

2023-07-07 15:10

你知道chatgpt 4.0和3.5有什么差别吗？

2023-07-07 15:08