-
6月27日
-
关于验证码,可能大家一致奇怪谷歌的验证码为什么这么长?
其实你在进行一项全球的活动,你的输入是有价值的: 因为你在解读自1905年《纽约时报》或者某个古老文献中难以辨识的单词或者词组,这是一项很有趣的工作。你貌似多余动作的10秒努力和全球各地网友们一起在工作,这短短的10秒汇集起来可能是15万小时的劳动力资源啊!(按照每天6千万次使用)假如有个未知单词“shushao”,同时推送给10000个人去鉴别输入,有9500个人输入的是“shushao”,后台计算机就会记录这个单词叫“shushao”。
这是典型的“社会计算”——通过“群体智能”的方式,让众多网民表面上看似无关的计算行为,总体上产生有序的、有意义的结果。最早这个问题是由图灵1950年提出的CAPTCHA项目。亦Completely Automated Public Turing Test to Tell Computers and Humans Apart (全自动区分计算机和人类的图灵测试):简单来说,如何自动的区分操作机器的是一个人类智能生物而非机器?
有人曾作过这样的计算,如果要把互联网档案馆的文本校对一遍,按照每天处理100万个单词的速度,需要400年!采用reCAPTCHA方法,每天可以校对160本书,精度可以超过99%。如此下去,可能不需要10年。2009年9月17日,Google购买了这项技术,作为书籍扫描中难以辨认字符的识别工作。就凭这一点,可以证明百度和谷歌绝对不是同一个数量级的对手。
最早网站、论坛为了防止机器人注册,进行简单的提问:例如:1+2=____。有些为了增加难度就再问一句,3-1=___. 是机器人越来越智能,因为人越来越聪明,于是,“注册机器人”和“反注册”开始了长达数十年的不断超越反超越,不断的解决问题,但始终没有彻底解决,至今也没有能出现能彻底解决的识别方式。
雅虎当年是最大的门户网站,受够了机器注册之苦,在1999年前后找到21岁的Luis von Ahn,这个刚从杜克大学获得数学学位,进入大学硕博连读的小伙子,研究出一种通过强制用户输入某个适当变形的字符串,机器不好识别,人类可以轻松辨认,基本解决了“CAPTCHA”这个历时50多年的程序问题,世人称之为“验证码”。但是后来,“OCR识别功能”的发展,提供给机器人更智能的方法,可以轻松识别并输入变形的字符串。captcha考验对手ocr程序的能力,验证码也有考验ocr程序的能力,直到现在都没有真正解决。
其实有一些很简单的问题就可以难住“注册机器人”,例如人工编辑一些逻辑性的问题:李白出生于哪一年? 机器人可能就要头疼了,人类也要费些时间。网上银行支付过程中,会在你的账户数字之间,随机选出四个数字做变色处理,然后让你输入正确数字。
当然现在技术发达,“OCR识别”一直作为计算机行业的分支学科,不断的被人超越,被人突破。中文验证码不算是创新,但是可以一定程度上阻止国外黑客。 由此衍生的周边产业也不断发展,现在深圳有公司专门做‘验证码广告’,将广告信息放到验证码图片中,使用户被动的接收宣传,输入其中的关键字。这个可以根据论坛、网站的性质分类进行针对性的区域细分,从而使广告投放更精准更有效。这就是大数据的好处。
标签:谷歌验证码 reCAPTCHA
除非注明,文章均为树梢老李原创,转载请注明本文地址:http://jiaweili.com/post/34.html
- 评论:(1)
- 隐藏评论
【评论很精彩,欢迎吐槽。定期精选优质评论发红包】