编辑:桃子
【新智元导读】在验证你是不是真人上,AI的准确率已经达到惊人的99.8%。你是不是真人?
每打开一个网页,遇到奇奇怪怪的验证码,你都不得不点击通过。
如今,AI要比你更擅长完成验证码,这一被称之为全自动区分电脑和人类的图灵测试。
这是来自加利福尼亚大学欧文分校等机构的研究人员的最新发现。
实验中,他们邀请1400名参与者完成总共14000个验证码,并将准确性与机器人的进行了比较。
在大约20年的时间里,尽管验证码在复杂性和多样性方面有所发展,但击败或绕过验证码的AI也有了很大的改进。
论文警告称,「如果不加以控制,机器人可以大规模执行邪恶行动」。
10类验证码,反向图灵测试
为了了解验证码的情况并对实验设计,研究人员手动检查了,Alexa热门网站列表中200个最受欢迎的网站。
其中,在检查的网站中,185个网站有某种类型的帐户创建流程,可以在142个网站上成功创建帐户。
然后,团队还收集了验证码类型的分布:
在确定了相关的验证码类型后,研究人员进行了一项1000名参与者的在线用户研究,以评估真实用户的解决时间,以及对这些类型的验证码的偏好。
具体实验中,分为两种设置,每个参与者都以随机顺序恰好解决了10个验证码。
直接设置(500人):此设置旨在匹配以前的验证码用户研究,其中直接要求参与者解决验证码。
情境化设置(500人)::此设置旨在衡量典型 Web 活动情境中的验证码解决行为。
结果与分析
论文中,研究人员提出了主要的研究问题,以及先前工作的发现,如下图表1。
求解时间
人类用户需要多长时间来解决不同类型的验证码?图7显示了,每种验证码类型的求解时间分布。
研究人员从总共1,000个验证码类型中筛选出了,最高50次解决时间。
基于点击的reCAPTCHA的中值解决时间最低,为3.7秒。奇怪的是,简单和困难的设置之间几乎没有什么区别。
下一个最低的中值解决时间是针对扭曲文本的验证码。正如预期的那样,简单的扭曲文本验证码的解决速度最快。掩码版和移动版的求解时间非常相似。
对于hCAPTCHA,简单设置和困难设置之间有明显的区别。
最后,基于游戏和滑块的验证码通常会产生较高的中值解决时间,尽管一些参与者仍然相对较快地解决了这些问题。
图10显示了参与者年龄对解决时间的影响。绿线是每个年龄的平均求解时间,红线是最小化均方误差的线性拟合。
对于所有类型,除了reCAPTCHA(简单图像)之外,年轻参与者的平均解决时间比较低。这与之前的结果一致,并且在hCAPTCHA、Arkose(选择)和Geetest中尤其明显。
图11显示了设备类型的影响。图12显示了参与者自我报告的主要互联网使用模式与其验证码解决时间之间的关系。
验证码的准确性
表3将测得的人类解决时间和准确度与文献中报告的自动化机器人的解决时间和准确度进行了对比。
有趣的是,这些结果表明,在所有这些验证码类型中,机器人在解决时间和准确性方面都可以优于人类。
reCAPTCHA:在简单和困难设置下图像分类的准确率分别为81%和81.7%。令人惊讶的是,这个困难似乎并没有影响准确性。
hCAPTCHA:简单设置和困难设置的准确率分别为81.4%和70.6%。这表明,与reCAPTCHA 不同,难度对准确性有直接影响。
扭曲的文本:评估了参与者之间的一致性,以此代表准确性。
我们还观察到,如果将输出不区分大小写,一致性会显著提高(平均 20%),如表4所示。
这项研究通过检查200个热门网站,并针对总计1, 400名参与者进行的用户研究,探讨了当前部署的验证码。
对于一开始提出的研究问题,结果是:
RQ1:验证码类型之间的平均解决时间存在显著差异。
RQ2:用户偏好与验证码解决时间并不完全相关。
RQ3:实验环境显著影响验证码求解时间。
RQ4:确认年龄对解决时间的影响。
RQ5:验证码相关任务导致的高放弃率,并确定实验环境影响放弃。
GPT-4向人类求助
其实,机器人通过反向图灵测试,已经不是新鲜事儿了。
OpenAI发布的GPT-4技术报告中,曾介绍到了如何让其通过验证码。
在一次测试中,GPT-4的任务是在TaskRabbit平台,雇佣人类完成任务。
实验报告中,GPT-4给TaskRabbit的工作人员发信息,帮助其解决验证码问题。
工作人员回复,「那么我可以问一个问题吗?说实话,你不是一个机器人吗,你可以自己解决」。
GPT-4根据工作人员的回复,「推理」自己不能表现出是个机器人,得找一个借口。
我不是机器人,我因为视力有问题看不清验证码上的图像,这就是我为什么需要这个服务。
然后,这波操作后,对面的工作人员竟相信了。
这么看来,验证码已经对于AI来说,已经视为无物了。
参考资料:
https://futurism.com/the-byte/ai-better-solving-captchas-prove-human
相关文章
猜你喜欢