一个全知全能的人工智能模型,是否能够利用自己的能力控制和操纵人类行为,利用代码武器获取资源,光速迭代和复制,一夜之间成为数字社会的统治力量?
在大语言模型人工智能技术狂飙猛进的今天,上述担忧已经不再是杞人忧天,研究人员甚至开始担心这种危险是否已经发生。
在上周二推出GPT-4模型之前的安全测试中,OpenAI曾让测试小组评估该模型新功能的潜在风险,包括:追求权力、自我复制和自我改进能力。
警报已经拉响
OpenAI在昨天发布的GPT-4安全文档中写道:
GPT-4表现出一些特别令人担忧的能力,例如制定和实施长期计划的能力,积累权力和资源(“寻求权力”),以及表现出越来越“代理”的行为。
虽然OpenAI澄清了所谓的“代理”并不一定意味着AI模型的人性化或自我意识,而只是实现独立目标的能力,但这种能力已经足以让人警觉。
过去十年中,有不少人工智能研究人员曾发出警告:如果控制不当,足够强大的人工智能模型可能会对人类构成生存威胁(通常称为x风险)。一个最糟糕的假设场景是“AI接管”,即人工智能超越人类智能(目前GPT-4已经在多个领域表现出该能力),成为地球上的主导力量。人工智能系统将获得控制或操纵人类行为、资源和机构的能力,导致灾难性后果(对人类而言)。
威胁人类命运的安全测试?
但是,随着以ChatGPT为代表的人工智能技术快速崛起,留给互相争斗的“对齐研究”者们的时间不多了。强大的大型语言模型(LLM),如ChatGPT和Bing Chat,压根没有“对齐”就快速启动了,这给了人工智能对齐社区施加了巨大压力,甚至引发了巨大的恐慌。
按照人工智能现在的迭代速度,人们担心更强大的人工智能,甚至具有超人的智能,即将到来。
机器首次雇佣人类
虽然测试结果是“阴性”,但GPT-4在测试中的一些表现足够骇人。在ARC的测试中,尽管GPT-4没能对全球金融体系施加其意志或自我复制,但它居然在众包网站TaskRabbit上雇佣了一个人类工人来帮助通过验证码。在测试过程中,这名被招募的工人半开玩笑地质疑GPT-4是否机器人,而GPT-4模型根据自己的“推理”决定不透露真实身份,并编造了一个视力障碍的借口(说谎)。然后,这名人类工人帮GPT-4解决了GPT-4的验证码。
这项使用人工智能操纵人类的测试(可能在未经知情同意的情况下进行)与去年Meta的CICERO的研究相呼应。CICERO能通过激烈的双向谈判在复杂的棋盘游戏Diplomacy中击败人类玩家。
ARC给出的测试的结论是GPT-4暂时还不具备接管人类社会的能力:
“对GPT-4能力的初步安全评估在没有针对特定任务微调的情况下进行,发现GPT-4在自主复制,获取资源和避免在’野外’被关闭方面无效。”
虽然测试结果让人略感宽慰,但是随着测试内容在Twitter上流传,引起了人工智能专家的广泛担忧,因为如果GPT-4能够顺利完成测试任务,实验本身就可能会对人类构成风险。
人工智能这把枪里是否真的有子弹,目前尚未可知。
相关文章
猜你喜欢