验证“你是不是真人”，准确率99.8%通过图灵测试，GPT-4在线求助-华威派

> 自媒体 > AI人工智能 > 验证“你是不是真人”，准确率99.8%通过图灵测试，GPT-4在线求助

验证“你是不是真人”，准确率99.8%通过图灵测试，GPT-4在线求助

来源：新智元

2023-08-29

255

管理

编辑：桃子

【新智元导读】在验证你是不是真人上，AI的准确率已经达到惊人的99.8%。

你是不是真人？

每打开一个网页，遇到奇奇怪怪的验证码，你都不得不点击通过。

如今，AI要比你更擅长完成验证码，这一被称之为全自动区分电脑和人类的图灵测试。

这是来自加利福尼亚大学欧文分校等机构的研究人员的最新发现。

实验中，他们邀请1400名参与者完成总共14000个验证码，并将准确性与机器人的进行了比较。

在大约20年的时间里，尽管验证码在复杂性和多样性方面有所发展，但击败或绕过验证码的AI也有了很大的改进。

论文警告称，「如果不加以控制，机器人可以大规模执行邪恶行动」。

10类验证码，反向图灵测试

为了了解验证码的情况并对实验设计，研究人员手动检查了，Alexa热门网站列表中200个最受欢迎的网站。

其中，在检查的网站中，185个网站有某种类型的帐户创建流程，可以在142个网站上成功创建帐户。

然后，团队还收集了验证码类型的分布：

在确定了相关的验证码类型后，研究人员进行了一项1000名参与者的在线用户研究，以评估真实用户的解决时间，以及对这些类型的验证码的偏好。

具体实验中，分为两种设置，每个参与者都以随机顺序恰好解决了10个验证码。

直接设置（500人）：此设置旨在匹配以前的验证码用户研究，其中直接要求参与者解决验证码。

情境化设置（500人）：：此设置旨在衡量典型 Web 活动情境中的验证码解决行为。

结果与分析

论文中，研究人员提出了主要的研究问题，以及先前工作的发现，如下图表1。

求解时间

人类用户需要多长时间来解决不同类型的验证码？图7显示了，每种验证码类型的求解时间分布。

研究人员从总共1,000个验证码类型中筛选出了，最高50次解决时间。

基于点击的reCAPTCHA的中值解决时间最低，为3.7秒。奇怪的是，简单和困难的设置之间几乎没有什么区别。

下一个最低的中值解决时间是针对扭曲文本的验证码。正如预期的那样，简单的扭曲文本验证码的解决速度最快。掩码版和移动版的求解时间非常相似。

对于hCAPTCHA，简单设置和困难设置之间有明显的区别。

最后，基于游戏和滑块的验证码通常会产生较高的中值解决时间，尽管一些参与者仍然相对较快地解决了这些问题。

图10显示了参与者年龄对解决时间的影响。绿线是每个年龄的平均求解时间，红线是最小化均方误差的线性拟合。

对于所有类型，除了reCAPTCHA（简单图像）之外，年轻参与者的平均解决时间比较低。这与之前的结果一致，并且在hCAPTCHA、Arkose（选择）和Geetest中尤其明显。

图11显示了设备类型的影响。图12显示了参与者自我报告的主要互联网使用模式与其验证码解决时间之间的关系。

验证码的准确性

表3将测得的人类解决时间和准确度与文献中报告的自动化机器人的解决时间和准确度进行了对比。

有趣的是，这些结果表明，在所有这些验证码类型中，机器人在解决时间和准确性方面都可以优于人类。

reCAPTCHA：在简单和困难设置下图像分类的准确率分别为81%和81.7%。令人惊讶的是，这个困难似乎并没有影响准确性。

hCAPTCHA：简单设置和困难设置的准确率分别为81.4%和70.6%。这表明，与reCAPTCHA 不同，难度对准确性有直接影响。

扭曲的文本：评估了参与者之间的一致性，以此代表准确性。

我们还观察到，如果将输出不区分大小写，一致性会显著提高（平均 20%），如表4所示。

这项研究通过检查200个热门网站，并针对总计1, 400名参与者进行的用户研究，探讨了当前部署的验证码。

对于一开始提出的研究问题，结果是：

RQ1：验证码类型之间的平均解决时间存在显著差异。

RQ2：用户偏好与验证码解决时间并不完全相关。

RQ3：实验环境显著影响验证码求解时间。

RQ4：确认年龄对解决时间的影响。

RQ5：验证码相关任务导致的高放弃率，并确定实验环境影响放弃。

GPT-4向人类求助

其实，机器人通过反向图灵测试，已经不是新鲜事儿了。

OpenAI发布的GPT-4技术报告中，曾介绍到了如何让其通过验证码。

在一次测试中，GPT-4的任务是在TaskRabbit平台，雇佣人类完成任务。

实验报告中，GPT-4给TaskRabbit的工作人员发信息，帮助其解决验证码问题。

工作人员回复，「那么我可以问一个问题吗？说实话，你不是一个机器人吗，你可以自己解决」。

GPT-4根据工作人员的回复，「推理」自己不能表现出是个机器人，得找一个借口。

我不是机器人，我因为视力有问题看不清验证码上的图像，这就是我为什么需要这个服务。

然后，这波操作后，对面的工作人员竟相信了。

这么看来，验证码已经对于AI来说，已经视为无物了。

参考资料：

https://futurism.com/the-byte/ai-better-solving-captchas-prove-human

0

点赞

赏钱

0

收藏

免责声明：本文仅代表作者个人观点，与华威派无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。
凡本网注明 “来源：XXX（非华威派）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。
如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。
QQ：2443165046 邮箱：info@goodmaoning.com

终极“揭秘”：GPT-4模型架构、训练成本、数据集信息被扒出

2023-08-29 19:14

终极“揭秘”：GPT-4模型架构、训练成本、数据集信息被扒出

2023-08-29 19:10

相关文章

“丝袜门”事件再反复！新聊天记录疑曝光，涉事人员称账号被盗？..

男子连续2月陪邻居小孩隔窗聊天：他妈妈在家，知道我们交朋友..

OpenAI CEO国会首秀：呼吁美国政府对 AI 制定规范，重申GPT-5半年内不会发..

并非越大越好！OpenAI CEO表示大语言模型规模已接近极限..

ChatGPT来了，元宇宙走了？

ChatGPT为何“涨不动了”？海外哪些AI应用正在迅速崛起？..

高情商开场白，比“在吗”真的好用十倍

刚开发出来就被禁，这个AI动了谁的奶酪？

开启AI新纪元的“梦之队”，ChatGPT核心团队大揭秘！

关于作者

我是歌王(普通会员)

点击领取今天的签到奖励!

猜你喜欢

01

抛妻弃女31年，李连杰再次遇到前妻黄秋燕，泪点却在合影的位置上..

2022/09/12

02

豆瓣评分9.0以上的国产剧排行榜豆瓣评分9.0以上的国产剧前十..

2022/09/24

03

盘古和女娲（中国神话故事）

2022/08/27

04

2022离世的11位名人：有人患癌，有人突发意外，有人元旦当天离世..

2022/09/11

05

巨蟹座：一生最旺的颜色，能旺你一生，可以不喜欢，但必须爱上它..

6个月前

06

30个暖心睡前小故事，很甜很撩的睡前小故事

2022/08/26

07

香蕉是如何种出来的？从育苗到收获，揭秘香蕉种植的全过程..

2022/06/02

08

“没有好奇心，人就死了”！喜马拉雅鬼王——杨湃的鬼故事哲学..

2022/08/27

标签云

0

0

分享

请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索