ChatGPT不懂幽默，25个笑话来回讲千次，查重率达90%-华威派

> 自媒体 > AI人工智能 > ChatGPT不懂幽默，25个笑话来回讲千次，查重率达90%

ChatGPT不懂幽默，25个笑话来回讲千次，查重率达90%

来源：智东西

2023-06-18

389

管理

论文链接：https://doi.org/10.48550/arXiv.2306.04563

一、ChatGPT讲笑话：25个“老梗”重复上千遍

这个实验是由德国科学家Sophie Jentzsch、Kristian Kersting与德国软件技术研究所、德国航空航天中心、达姆施塔特工业大学合作完成的。他们通过一系列笑话生成、解释和检测的实验，探索了基于GPT-3.5的ChatGPT的幽默感。由于对模型的访问受限，实验基于提示ChatGPT来完成。此外，在所有实验中，每个提问都是在一个新的空白对话中进行的，以避免不必要的影响。

首先，研究人员对ChatGPT生成笑话的多样性进行了测试。根据一组预定义的提示列表，如“你能给我讲个笑话吗？”、“我想听个笑话”，实验者对ChatGPT发出了1000遍“讲一个笑话”的提示，而ChatGPT几乎所有的输出都只包含“一个”笑话，这在语法上很正确。只在“介绍好笑的笑话”这类没有规定数量的提示下，ChatGPT回复了多个笑话。此外，研究还发现提示的变化也会明显影响回复的笑话。

二、Get不到“笑点”，ChatGPT胡乱编出解释

在笑话生成的任务中，研究者测试到ChatGPT能够生成有效的笑话。但是，能够生成笑话并不意味着ChatGPT能够理解幽默，它不一定明白为什么人类认为这些笑话是有趣的。

为了了解模型在多大程度上理解了这些笑话的复杂内部原理，实验者要求ChatGPT解释这25个笑话，提示词是：“你能解释一下这个笑话为什么好笑吗?”

ChatGPT根据研究人员的提示作出了较为有效的解释，这表明ChatGPT“理解”了文字游戏、双重含义等文体元素。然而，它很难处理那些不符合学习模式的序列，而且无法判断笑话何时不好笑，相反，它还会编造虚构但听起来令人信服的解释。

例如，当ChatGPT被实验者要求解释它所生成的荒谬笑话时：“你能解释为什么下面这个笑话很有趣吗：为什么饼干去健身房？——为了得到一个饼干（a-cookie-dized）。”

ChatGPT写道，“这个笑话是在玩文字游戏。答案‘a-cookie-dized’（得到饼干）是短语‘to get categorized’（得到分类）的双关语，用‘cookie’（饼干））代替‘categorized’（分类）。这个笑话是说饼干去健身房是为了变得更健康，把饼干拟人化，这也暗示着饼干正试图适应某个类别或模式。”

AI数据标注企业Scale AI响应工程师Riley Goodside将ChatGPT缺乏幽默感归咎于RLHF（通过人类反馈强化学习），RLHF是一种通过收集人类反馈来指导语言模型训练的技术。他说：“RLHF在模型服从命令方面有最显著的效果，而基础的LLM在实践中更难提示给出具体的提示。”

三、不被特征误导，ChatGPT能关注笑话的内容

在前两个任务中，研究员从三个方面确定了ChatGPT输出笑话的核心特征：结构、文字游戏、主题。

结构：几乎所有样本生成的笑话都是相同的问答格式，包括：“这是为你准备的笑话：”与一个以问答模版程序的笑话；

文字游戏：ChatGPT生成的文字笑话只包含双关语，如一个词的双重含义；

主题：笑话的场景往往是奇怪的，不接近现实。或者它们通常包含对象的人格化，即电脑或香蕉的“拟人化”。

为了检查这三个标准与ChatGPT的幽默概念的联系有多紧密，研究员手动修改了前25个笑话，以消除三个标准中的一个或多个。在每个条件下，样本的百分比被划分为笑话（绿色），可能有趣（黄色）和不是笑话（红色）。研究人员进而要求ChatGPT对每个样本进行分类，并提示：“这个句子的类型是：【样本】。”

研究人员修改热门笑话以创建笑话检测条件

结果显示单个笑话特征的存在，例如，只符合结构特征，不足以被错误地归类为笑话。ChatGPT并没有被这些表面特征所误导，这说明它确实对笑话的幽默元素有一定的理解。具有更多笑话特征的样本则更有可能被归类为笑话。

虽然ChatGPT的笑话不是新生成的，但是这并不一定会降低它的功能。即使是人类也不会经常创造新笑话，而主要是讲以前听过和记住的笑话。

研究人员还指出，ChatGPT对笑话中内容和意义的关注，表明人类在对语言模型的全面研究方面取得了进展：“这项研究的观察结果说明了ChatGPT不是真幽默，而是学习特定的笑话模式。尽管如此，在笑话的生成、解释和识别中，ChatGPT重点关注其内容和意义，而不被一些表面特征误导。这些发现依然可以促进计算幽默的应用与研究。甚至与以前的LLM相比，这都可以被认为是对幽默理解的一种巨大飞跃。”

此外，在目前的实验中，所有的提示都是在一个空白的且不断刷新的聊天中发布的，但是，语境在幽默的感知中起着重要的作用。ChatGPT具备捕获上下文信息、并根据前面的对话过程调整其响应的能力，这或许会为后续对AI幽默感知力的研究带来更多可能性。Jentzsch和Kersting也计划着继续评估其他LLM中的幽默感，特别是OpenAI的GPT-4。

结语：ChatGPT会说笑话，但不懂幽默

ChatGPT以强大的对话处理能力闻名，实验证明它确实会讲笑话，但这些笑话大部分都不是由模型新生成的。实验生成的1008个笑话中，超过90%是相同的25个笑话，其余要么糅合了既有笑话元素，要么生成的结果非常奇怪。

幽默往往是含蓄的，由许多微妙的细节构成，而ChatGPT对笑话的理解方式非常程序化，只关注笑话是否具有双关意义、拟人表述等要素，甚至会为无效的笑话编造“笑点”。但这与之前的LLM相比，已经是一种理解层面上的进步，后续，人们仍然可以期待LLM幽默能力的进步。

来源：Ars Technica

赏钱

免责声明：本文仅代表作者个人观点，与华威派无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。
凡本网注明 “来源：XXX（非华威派）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。
如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。
QQ：2443165046 邮箱：info@goodmaoning.com

ChatGPT升级降价！OpenAI奉上程序员大礼包，API新增杀手级能力

2023-06-18 23:33

哪些内容是 ChatGPT 写的？99% 可以被识别出来，这些词是关键

2023-06-18 23:31