Google验证码进化史:更加方便,也交出更多隐私(组图)

即使现在互联网已经渗透到我们生活的方方面面,但它依然只是现实的物理世界在虚拟的网络空间上按比特信息编码后的投射。

这就意味着自动化程序同样可以模仿人的行为,同时,因为机器速度更快且不知疲倦,它会被用于批量在论坛、网站、app 中发布营销信息。而且,在监管不足的情况下,利润更高的行业往往底线更低,自动机器人发布的垃圾信息经常也和赌博、诈骗、色情等灰色产业有关。一些自动化程序还会尝试以「撞库」的方式窃取用户帐号、密码,给网站带来巨大的安全隐患。



验证码正是为了解决这样的问题而生的。它也是个自动化程序,不过存在目的是区分用户到底是机器人还是真实的人。

自动生成的扭曲的文字和图案是最常见的验证码,虽然它可以有效地识别出很大一部分自动化程序,但它对真人用户的体验并不好。而且随着机器学习的发展,它的破解也越来越容易。


▲验证码风格的艺术品. 图片来自:Becky Stern



Google 的验证码团队做了很多创新,比如创造性地把验证码用于纸质典籍数字化。而在扭曲文字、图片的主流路线之后,Google 的团队还尝试了新的思路,通过追踪点击行为等来识别用户是否是真人,用户只需要点击「我不是机器人」的复选框进行验证即可。

在最新版本的 Google 验证码 reCAPTCHA v3 中,你甚至什么都不用做,系统就在悄悄核验当前的用户是不是机器人。技术正在让「验证码」越来越隐形,人类不必再为了自证身份去做「反向图灵测试」,但验证码的进步也带来了一些新的问题。



初代验证码 CAPTCHA:歪歪扭扭的文字是为了故意让机器人看不懂

卡内基梅隆大学校舍不大,学校排名也和常春藤盟校也有一定差异,但它有全美排名第一的计算机科学专业。

这所学校出了 13 名图灵奖得主,其中的一位,Herbert Simon 还因为把计算机科学和系统理论、运筹学结合用于管理决策问题,开创了「决策理论」而在 3 年后获得了诺贝尔经济学奖。

在严肃的学术研究之外,卡内基·梅隆大学还有一些对计算机和互联网行业影响深远的「小发明」,比如给了 emoji 产业灵感的第一个笑脸符号 :-),以及「烦人」的验证码。

2000 年,从杜克大学数学系毕业,来到卡内基梅隆大学读计算机科学博士的路易斯·冯·安(Luis von Ahn)和导师一起提出了验证码的概念,全称是全自动区分计算机和人类的公开图灵测试(英语:Completely Automated Public Turing test to tell Computers and Humans Apart,简称 CAPTCHA)。


▲路易斯·冯·安. 图片来自:EneasMx

图灵测试由计算机先驱人物,「人工智能之父」阿兰·图灵提出,如果一台计算机能和人类对话而不被识别出是机器人即被认为通过图灵测试。验证码也是一种图灵测试,不过它的目的不是为了筛选出人工智能,而是识别出真实的人类用户。

一种最常见的验证码是由算法生成的扭曲的文字,这么做是为了防止被光学字符识别程序(OCR)自动识别出来。




还有一些更现代的方法包括在字母上加一条曲线、将不同的字母叠在一起或者添加复杂的背景。



图片验证码也大行其道,包括要求用户识别图片的物体,以及把缺失的部分拖到正确的位置和拼图等。






不管形式如何,这些验证码有一个共同的原则:人类很容易识别,但对计算机来说非常困难。一位人工智能研究者在自己的播客中有一个更详细的解释,为避免 CAPTCHA 过难而使网站损失用户,通常要求人类用户通过测试的时间小于 30 秒,用户通过率大于 90%(引用自 CSDN 用户  luolan9611)。

还有一个不被普通人知道的点,验证码被称为一种「图灵测试」,所以它在设计之初就有促进人工智能发展的初衷。

根据定义,验证码的算法必须公开,这样做的目的是为了让破解验证码的过程是在解决对应的人工智能问题,例如图像识别、准确度更高的 OCR 等,破解者不必花费心思通过逆向工程推演算法。

再次引用上文提到的研究者的博文:

CAPTCHA 机制的研究是一个双赢的局面。CAPTCHA 的设计和破解研究呈现出「设计 – 识别 – 再设计 – 再识别」的互相攀升现象,促使 CAPTCHA 研究不断向前发展,从而带来 CAPTCHA 机制的鲁棒性和可用性的不断提升。



reCAPTCHA:验证码还能用于纸质典籍数字化

验证码发明人路易斯·冯·安除了是个计算机科学家,还是一位企业家,但是是那种相信人性美好,希望借助技术,在创造商业价值的同时能附带创造社会价值的人。

冯·安的博士论文完成于 2005 年,他创造了一个新概念「人本计算」(Human-based Computation),即把人的脑力和计算机的能力结合起来,完成两者都无法单独完成的工作。具体的实现方式上,「众包」是最典型的一种,冯·安也被工人是众包的先驱。

不仅是理论提出者,冯·安也是实践的先驱。验证码已经被广泛用于各大网站、app 中,有数据显示,这项技术在推出后的短短五年内,每天就有 2 亿个验证码在被使用。

很快,他提出一个新的项目 reCAPTCHA,主要用于把互联网出现前的纸质典籍数字化。思路是这样的:验证码系统会向用户出示两个单词,第一个是正常的自动生成扭曲文字,另外一个则来自纸质典籍的扫描版,它们通常因为年代久远、纸上有污点等原因难以被 OCR 程序识别。




用户输入验证码时,只要第一个单词输入正确就可以被判别为人类,输入第二个单词就成了「义务劳动」。系统会默认这个单词输入正确,并与其他用户的输入结果进行对比,如果多名用户的答案一致,这个词的数字化就完成了。

不要小看这样一个词一个词的积累,推出之初,reCAPTCHA 每天就能录入 3000 万个字符。2011 年,它已经完成了全部的《纽约时报》数字化的工作,这份从 1851 年开始出版的老报纸有大量纯纸质版的内容。

2009 年,Google 看上了这个项目的价值,并出手收购了 reCAPTCHA,它也被 Facebook、Twitter、CNBC 等使用。在帮助这些流量最大的网站抵御自动化程序骚扰的同时,Google 图书中难以被自动识别的扫描版的古老典籍同样借助 reCAPTCHA 得以数字化。






此后,reCAPTCHA 还被用于帮助机器学习系统提高图像识别率,运作原理和前述方法一样,机器难以辨别的门牌号、猫狗照片都被拿来当做验证码考人类。

识别验证码的同时,用户实际在帮机器学习系统标注训练集,所以,AlphaGo 背后的人工智能技术,可能早就有你的功劳。






顺便提一下,在 reCAPTCHA 被 Google 收购后,冯·安还有很多基于「人本计算」的项目,比如「带着目的玩游戏」(Games With A Purpose,简称 GWAPs),游戏由两个人同玩,如果两名玩家对一张图片的描述一致即可得分,实际上,游戏的同时也在给人工智能标注数据。

2014 年,冯·安创办了一家更知名的公司——多邻国(Duolingo),这个学外语的应用同样采用「众包」的模式,用户在免费学习一种外语时,也在反过来协助建构多邻国的语言课程,让其他人也能多学习一种语言。

NoCAPTCHA:不用输入字符的新验证码,以及它带来的隐私风险

一家公司的「基因」通常和个人一样,与生俱来难以改变。

收购 reCAPTCHA 后,Google 对它进行了改进,以 Google 的方式。

2014 年,Google 推出了新的验证码系统——NoCAPTCHA reCAPTCHA,名字有点拗口,核心是不需要输入验证码的验证系统,用户只需要点击一个「我不是机器人」的复选框,Google 就能判别你是不是真正的人类。




reCAPTCHA 的口号也从「别发垃圾信息了,读点书吧」(Stop Spam. Read Books),变成了验证码最初的目的「对人类简单,对机器人困难」(Easy on Humans, Hard on Bots)。

NoCAPTCHA 的工作机制是跟踪用户点击验证框之前、当时和之后的行为,比如在网页上花费的时间,从而来判断是否是人为操作。

如果你被误判为机器人,还有一个「申诉」的机会,还是从一堆图片中选出正确的目标。







2018 年,Google 再次升级了 reCAPTCHA,在这个被称为 v3 的版本中,用户已经连「我不是机器人」的复选框也看不到了,系统会在背后悄悄分析用户浏览网站的方式,并根据其行为的恶意程度给出一个风险评分。如果用户评分过低,网站可能会要求用户输入更多的信息来证明自己的身份。

目前,已经有 65 万个网站使用了最新的 reCAPTCHA v3,而使用 reCAPTCHA 的网站超过了 450 万,包括 top 1000 网站中的 25%。

在 Google 看来,这是最好的体验,用户不需要任何输入,而且它很难被破解程序学习。唯一的问题是,Google 掌握了越来越多的用户隐私。

据 FastCompany 报道,两位研究者对 reCAPTCHA v3 进行了测试后发现,用户是否使用 Google Cookies 是决定评分的一个重要因素。也就是说,如果用户选择让 Google 记住登录信息的话,会得到更高的分数,没有登录 Google 帐号,或者使用 VPN 或者洋葱浏览器通常会被提示高风险。







另外,使用 reCAPTCHA v3 的网站被鼓励在网站的每个页面放置 reCAPTCHA v3 代码,而不只是在登录页面,因为 reCAPTCHA 系统会跟踪用户的所有浏览行为进行分析。

两个因素结合,Google 可以获得几乎所有的用户行为。在 FastCompany 的报道发出后,Google 确认,用户使用的硬件信息即设备上的软件会被发送回 Google 服务器,但它表示,获得的结果「只用于分析用户行为,不用于个性化广告推荐」。

2018 年,Facebook 遭遇了史上最大的危机,除了商业上的广告收入增速放缓,在监管和公众层面,作为最大的社交网络和在线广告公司之一,Facebook 对用户隐私保护不力激起了前所未有的质疑。Google 也牵连其中。但一个不可逆转的趋势是,我们的一举一动都在被互联网巨头「记录在案」,从这个层面来看,在隐私保护上,监管部门应该对大公司有更高的要求。

推荐阅读