V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
qwertty01
V2EX  ›  问与答

请教一个 TesseractOCR 训练识别验证码问题

  •  
  •   qwertty01 · 2017-10-18 09:22:41 +08:00 · 1783 次点击
    这是一个创建于 2598 天前的主题,其中的信息可能已经有所发展或是发生改变。

    是使用 3.05 版本进行训练的,训练了大约有 500 张图片。疑问是:400 张训练出的 traineddata 文件是 300 多 KB,500 张还是 300 多 KB,而且还少了几 KB,为什么呢? 然后识别率也不见提高? 还有就是有大佬知道 TesseractOCR4.0 怎么训练吗?(我看了官方文档,看的很懵逼)

    2 条回复    2017-10-18 09:36:46 +08:00
    2ME
        1
    2ME  
       2017-10-18 09:29:20 +08:00   ❤️ 1
    500 张 traineddata 300KB 是没问题的 如果是复杂的干扰比较多的验证码需要先预处理 二值化 文字分割等一些操作 减少图片复杂度后再进行训练识别才会有效果
    qwertty01
        2
    qwertty01  
    OP
       2017-10-18 09:36:46 +08:00
    @2ME 我已经二值化了,然后比较复杂的验证码过滤掉了。文字分割是 Tesseract 做的(当然需要自己手工调),我还是继续训练吧,看看 1000 张怎么样
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5409 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 05:50 · PVG 13:50 · LAX 21:50 · JFK 00:50
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.