AI群聊出现！用50万条真人聊天记录训练，个性十足年代感稍弱-华威派

> 自媒体 > AI人工智能 > AI群聊出现！用50万条真人聊天记录训练，个性十足年代感稍弱

AI群聊出现！用50万条真人聊天记录训练，个性十足年代感稍弱

来源：澎湃新闻

2023-07-18

244

管理

·这引发了一定程度的担忧。在过去，创建六个不同个性的成员参与且令人信服的AI群聊，可能需要一个大学团队几个月完成，现在只需要一点专业知识和很少的预算，而且聊天的可信度非常高。

美国数据科学家伊兹·米勒（Izzy Miller）从他七年的群聊中下载了50万条信息，然后训练人工智能语言模型学习他们的生活细节，模仿他们说话的方式，从而再造出他和朋友们的聊天。米勒说，其中一些对话感觉非常真实，以至于他不得不搜索群聊的历史记录，以检查模型不是简单地从训练数据中复制文本。

“群聊在当今社会是‘神圣的’，在那里可以事无巨细地和朋友分享生活。我的群聊是一条生命线、一种安慰和一个连接点。我举得用AI来模仿群聊会很有趣，同时还有点危险。”米勒告诉科技媒体The Verge。

这个系统能够模仿米勒和他朋友的行为，有些对话感觉非常真实，比如关于谁喝了亨利的啤酒的争论。

50万条消息复制“个性”

米勒使用与微软必应（Bing）和ChatGPT等聊天机器人相同的技术，再造了他最好朋友们的群聊。自从在大学第一次见面开始，他和五个朋友过去7年里每天都在聊天。他说，这个项目出乎意料地容易，花几个周末的时间和100美元就能完成。但最终的结果是令人震惊的。

“我真的很惊讶，这个模型能知道我们谁是谁，而不仅仅是模仿我们说话的方式。它知道我们在和谁约会，我们在哪里上的学，我们的住址是什么，等等。”米勒说。

虽然这一项目得益于人工智能的最新进展，但并不是任何人都能完成的。米勒是一名数据科学家，已经研究这类技术有一段时间。他目前就职于一家名为Hex的初创公司，该公司恰好提供有助于这类项目的工具。他在一篇博客文章中描述了这项工作所需的所有技术步骤。

米勒将人工智能群聊命名为“机器人男孩（robo boys）”。机器人男孩使用大型语言模型（LLM），但需要对模型进行微调，以便提供更集中的数据集。米勒根据从iMessage下载的50万条消息对系统进行了微调，并按每个个体对信息进行分类，提示模型复制每个成员的个性，他们分别是：哈维、亨利、怀亚特、基布斯、卢克和米勒本人。

米勒用来创建假聊天的语言模型是由Meta公司开发的LLaMA，该模型与OpenAI的GPT-3模型一样强大，且在宣布一周后被泄露到网上，引发了争议。一些专家警告说，这次泄露将使恶意行为者能够滥用该模型，但没有人猜到它会被用于复制闲聊。

米勒确信如果他通过官方渠道请求，Meta会给他访问LLaMA的权限，但使用泄漏的模型更容易。他说：“我看到了LLaMA的脚本，心想，这一定会从GitHub上撤下，所以我复制了它，并将其保存在我桌面上的一个文本文件中。五天后，当我有了这个好主意时，这个模型已经从GitHub上被’dmca（收回版权）’了。还好我保存了它。”

米勒说：“这个项目证明了构建这种人工智能系统是多么容易。与两三年前相比，做这些事情的工具已经完全不同了。”

这也引发了一定程度的担忧。在过去，创建六个不同个性的成员参与且令人信服的AI群聊，可能需要一个大学团队几个月完成，现在只需要一点专业知识和很少的预算，而且聊天的可信度非常高。

00:34

米勒在博客中晒出的AI群聊中的典型对话。(00:34)

缺陷是没有年代感

这个系统能够模仿米勒和他朋友的行为，有些对话感觉非常真实，比如关于谁喝了亨利的啤酒的争论。以至于米勒不得不搜索群聊的历史记录，以检查模型不是简单地从训练数据中复制文本。这在人工智能领域被称为“过拟合”，是一种可能导致聊天机器人直接抄袭其文本来源的机制。

米勒在他的博客中写道：“完美捕捉到朋友的聊天是一件非常令人愉快的事情。这不是怀旧，因为这段对话从来没有发生过，但我们依旧觉得非常有趣。”

不过，这个系统仍然存在问题。米勒指出，群聊中六种不同人格之间的区别可能会模糊，一个主要的限制是人工智能模型没有年代感，不能可靠地区分过去和现在的事件。例如，过去的女朋友可能已经是现在的妻子。

米勒说，该系统对事实的判断不是基于对聊天内容的全面理解和分析，而是单纯依靠信息量。换句话说，某件事被谈论得越多，机器人就越有可能引用它。一个意想不到的结果是，机器人男孩往往表现得好像他们还在大学，因为那是群聊最活跃的时候。

“这个模型认为现在是2017年，如果我问它我们多大了，它会说我们21岁和22岁。”“它会说‘你在哪里？’、‘哦，我在自助餐厅，快过来。’但这并不意味着它知道我现在在和谁约会，也不知道我住在哪里，它会认为我们还在大学时代。”米勒笑着说，“但这真的有助于它散发幽默。这是一扇通往过去的窗户。”

或引发“坏结局”

该项目展示了人工智能聊天机器人日益强大的力量，特别是它们再现特定个体的行为习惯和知识的能力。

虽然这项技术仍处于起步阶段，但这些系统所能发挥的力量已经逐步显现。微软的必应聊天机器人今年2月推出时，其“精神错乱”的性格让用户既高兴又害怕。同月，聊天机器人应用程序Replika的用户在开发者删除了AI伴侣色情角色扮演功能后感到沮丧，以至于该应用用户论坛的管理员发布了自杀求助热线，以帮助用户。

The Verge认为，人工智能聊天机器人有能力像真人一样影响用户，而且可能会在生活中发挥越来越重要的作用，无论是作为娱乐、教育还是其他方面。

当米勒的项目在Hacker News上被分享时，该网站上的评论人士纷纷猜测，这样的系统可能会有“坏结局”。有人指出，拥有大量个人数据的科技巨头，比如谷歌，可以用它们来建立用户的数字副本。还有人认为，人工智能机器人的普及可能会加剧社会隔离，在一个友谊时常发生在网络的时代，它提供的陪伴形式比真人更可靠、更便捷。

米勒说，这种猜测很有趣，但他在群聊中的经历也体现了更光明的一面。他解释说，这个项目之所以能成功，是因为它是对真实的模仿，是最初的真人群聊让AI变得有趣。他说：“我注意到，当我们和人工智能机器人一起玩的时候，当一些非常有趣的事情发生时，我们会截屏并发送到真正的群聊中。当我觉得机器人很有趣时，第一反应依旧是等不及要和真人分享。很多乐趣都来自于与机器人进行虚假对话，然后将其反馈到现实中。”

他说，换句话说，人工智能可以复制真正的人类，但不能取代人类。

事实上，米勒说，他和群聊里的朋友们正计划下个月在亚利桑那州见面。他们目前分散在美国各地，这将是很长一段时间以来他们第一次聚会。他说，他们的计划是把假群聊放到一个大屏幕上，这样朋友们就可以在看到人工智能模仿他们时互相取笑和起哄。

“我迫不及待地想坐下来喝点啤酒，一起玩这个游戏。”米勒说。

参考资料：https://www.izzy.co/blogs/robo-boys.html

赏钱

免责声明：本文仅代表作者个人观点，与华威派无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。
凡本网注明 “来源：XXX（非华威派）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。
如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。
QQ：2443165046 邮箱：info@goodmaoning.com

微信聊天

2023-07-18 20:01

结合自研AI模型和音乐专业能力，「音律闪动」希望让每个人都能成为专业音乐创作者｜Chat AI

2023-07-18 19:40