V2EX 验证码为什么做的这么复杂？还是因为我识别能力差？比google的还难识别，搞不懂为什么，求解！

识别

Google

V2EX

40 条回复 • 1970-01-01 08:00:00 +08:00

1

eilif

2012 年 3 月 16 日

同意啊，非常难搞

2

66450146

2012 年 3 月 16 日

我觉得比reCaptcha强多了。。。

3

fanzeyi

2012 年 3 月 16 日

@66450146 V2EX 的验证码不就是 reCAPTCHA 么？

reCAPTCHA 是我见过的验证码中人类识别率最高的一个了

4

huiyizhang

2012 年 3 月 16 日

就是不想让人注册

5

fanzeyi

2012 年 3 月 16 日

对了还有一个槽点

这个验证码就是 Google 的服务

6

kernel1983

2012 年 3 月 16 日

reCAPTCHA的眼中我们都不是人

7

SamuelBinYE

2012 年 3 月 16 日

你可以刷新直到清晰的字符出现

8

pepsin

2012 年 3 月 16 日

验证码还是pp书屋的好嘿嘿～～～

9

depthsky

2012 年 3 月 16 日

Google Books扫描了几十万本纸质书，它是如何完成数字化，以利于复制、供人检索的？原来是Google实验室项目reCAPTCHA在帮忙，扫描后的图片被裁减成一个个单词片段，用于网站防止机器注册时显示的验证码：人们在输入验证码的同时不知不觉就完成了图书数字化过程。世界各地图书馆有很多受损的古籍，页面泛黄、纸张脆弱，OCR是无能无力的，它无法识别褪色的和模糊的文本，而人类在这方面有卓越的表现。reCAPTCHA将我们输入的验证码正确识别后，拼接、排版，在化整为零中就完成了古籍的数字化。

10

lizheming

2012 年 3 月 16 日

LS让我感觉Google在下一盘很大的棋，哈哈！

11

brando

2012 年 3 月 16 日

這圖片看得確實累。註冊看不清的時候只能多刷新到清晰的圖片出現位置。

12

fanzeyi

2012 年 3 月 16 日

来怎么这么多人说看着累..

我做了个测试..

测试了18张验证码..

不直接贴图了, 豆瓣相册： http://www.douban.com/photos/album/66779038/

后一张的 success/failed 是前一张的结果..嗯

13

money

2012 年 3 月 16 日

当初为什么会出现验证码呢

14

fanzeyi

2012 年 3 月 16 日

又做了14个测试.. 修改了下测试用的页面.. 显示出了填入的内容..

然后在相册里提供了 scrot 的文件名.. 可以从中推算出我识别验证码用的秒数..

15

donie

2012 年 3 月 16 日

那个google 图书扫描的段子一直有个问题想问。。。既然OCR无法识别，reCAPTCHA怎么判断用户录入是正确的。。。

16

Elix

2012 年 3 月 16 日

@depthsky 我怎么觉得不符合逻辑啊？首先验证码必须有个“正确的答案”，如果通过您叙述的方法，验证码最初那个正确的答案从哪来的呢？

17

caomu

2012 年 3 月 16 日 via Android

吐槽验证码的你们都弱爆了，不就是为古籍ocr做点贡献么，那么气急败坏干嘛。

18

fanzeyi

2012 年 3 月 16 日

俺的测试结果显示人工识别率为 26/30 这个准确率能称得上复杂？

19

fanzeyi

2012 年 3 月 16 日

https://gist.github.com/2049177

这是测试用的代码 judge.base 就是 tornado.web.RequestHandler ..

reCAPTCHA 的代码来自于@lepture 的 tornado.third 项目..

20

cutehalo

2012 年 3 月 16 日

@donie @Elix 好像是根据这个验证码输入最多的答案来选择正确答案吧。。。不过最开始是怎么判断的我也混乱了- -！

21

gDD

2012 年 3 月 16 日

@Elix @donie @cutehalo

唉，给你们看来文档了：

> But if a computer can't read such a CAPTCHA, how does the system know the correct answer to the puzzle? Here's how: Each new word that cannot be read correctly by OCR is given to a user in conjunction with another word for which the answer is already known. The user is then asked to read both words. If they solve the one for which the answer is known, the system assumes their answer is correct for the new one. The system then gives the new image to a number of other people to determine, with higher confidence, whether the original answer was correct.

via [ https://www.google.com/recaptcha/learnmore ]()

22

cutehalo

2012 年 3 月 16 日

@gDD 好先进我说怎么有俩分开的验证码呢。。。

23

momou

2012 年 3 月 16 日

@Elix @donie reCAPTCHA 的验证码分为两部分，有一部分是已知的，只要这一部分对了就可以验证，另一部分完全是为了人工识别面出现的，以后根据识别最多的答案作为该部分的识别。。。

24

donie

2012 年 3 月 16 日

@gDD THX :)

25

TONYHEAD

2012 年 3 月 16 日

比较容易识别的那部分正确就可以了.

26

Elix

2012 年 3 月 16 日

@momou @gDD Thx

27

Jreen

2012 年 3 月 16 日

其实我反复刷新到能识别的单词为止。

28

fanzeyi

2012 年 3 月 16 日

@eilif @huiyizhang @kernel1983 @Jreen 我还是不明白为什么你们识别不出来.. 我人肉都能达到26/30的准确率你们还觉得这个很难么？

29

deepure

2012 年 3 月 16 日 via iPhone

@fanzeyi 是不是复杂不是用你这么算的，对于大多数普通用户来说，相比常见的验证码，第一眼看上去就复杂多了。
而且普通用户也不会知道只需要对一部分，这个跟用户的认知模型是不同的。
单从输入字符上讲也比常见的验证码多。就好像即使汉字验证码容易识别，但心里仍然觉得不如四字母方便

30

whtsky

2012 年 3 月 16 日 via Android

没见过验证码…

31

mjar

2012 年 3 月 16 日

一直不知道两个词中间要不要空格。。

32

sqbing

2012 年 3 月 16 日

@depthsky 是真的吗?!这难道是文字识别界的nuance?

33

agui

2012 年 3 月 16 日

恩恩，又长见识了~每次在这总能学到点新的东西

34

depthsky

2012 年 3 月 16 日

这是谷歌的众包模式，能够解决机器识别不了的问题。

35

lepture

2012 年 3 月 17 日

@fanzeyi 他们试着说明你的高级用户呢。我的识别率也不错。

36

Jreen

2012 年 3 月 18 日

@fanzeyi
平常我能识别，但扭曲过大或者很相似的字幕我无法识别。你那豆瓣的图我能之别。

37

fanzeyi

2012 年 3 月 18 日

@Jreen 额那个是完全随机出来的……

38

zythum

2012 年 3 月 18 日

@Elix @fanzeyi 记得有个站的验证码是段代码，让你给结果才能通过...
记不得是哪个了

39

liuhang0077

2012 年 3 月 18 日

@zythum www.ppurl.com

40

zythum

2012 年 3 月 18 日

@liuhang0077 老师下次出题目都不用默默想半天了。