V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
busterian
V2EX  ›  问与答

windows 平台 ocr 软件有什么好的选择

  •  
  •   busterian · 336 天前 · 3451 次点击
    这是一个创建于 336 天前的主题,其中的信息可能已经有所发展或是发生改变。

    我现在用的是天若 ocr 调用百度的接口,速度还可以就是准确率差点。微信电脑版点开图片自带 ocr 准确率挺高的,v 友有什么好建议?

    35 条回复    2024-01-29 15:16:40 +08:00
    GuryYu
        1
    GuryYu  
       336 天前
    PowerToys 里面有个离线的 OCR 工具
    freedgw
        2
    freedgw  
       336 天前 via Android
    白描,这个收费几块钱吧,但识别准确度很好;
    然后 gitee 上还有一个天若 OCR 离线版,我之前用的比较多,应该也是够用的;
    现在我主要用的 quicker ,里面有个 OCR 动作,但是这个软件功能太多了,单纯 OCR 的话可能不太推荐专门去下这个
    mainjzb
        3
    mainjzb  
       336 天前
    PowerToys 里的 ORC 一言难尽,好像是调的 windows 系统级的 ORC 。目前看来是最拉跨的。被苹果和微信的 ORC 吊打
    datocp
        4
    datocp  
       336 天前
    上次找了一个 汉王 PDF OCR ,似乎挺牛逼的,转换出来的是真正的 word 文档,不是图片。不知道跟原始的格式是否有关系。
    daocyang
        5
    daocyang  
       336 天前
    微信电脑版的 ocr 识别目前用起来很顺手
    idragonet
        6
    idragonet  
       336 天前
    @daocyang #5 微信电脑版算了,笔画多的字识别率一塌糊涂。
    busterian
        7
    busterian  
    OP
       336 天前
    @idragonet 那你倒是说个能用的啊, 付费的也可
    idragonet
        8
    idragonet  
       336 天前
    @busterian #7 QQ 截图是云识别,这个识别率高!
    jacy
        9
    jacy  
       336 天前
    右键-打开方式-word
    jack4in
        10
    jack4in  
       336 天前
    @busterian
    paddleocr
    dengqixun
        11
    dengqixun  
       336 天前 via Android
    @jacy word 识别字体变化多,格式复杂一点的文档错别字太多了
    Yukiteru
        12
    Yukiteru  
       336 天前 via Android
    text-grab ,开源的,powertoys 的 orc 也是基于这个
    djoiwhud
        13
    djoiwhud  
       336 天前
    一哥是毛子的 abbyy
    XIU2
        14
    XIU2  
       336 天前   ❤️ 2
    翻了翻书签,找到了下面几个 OCR 相关的,你可以挨个试试(记得移除地址中的空格)。

    这四个都是离线的 OCR 软件(最后一个是 天若 OCR 离线版):
    https://github. com/xushengfeng/eSearch
    https://github. com/hiroi-sora/Umi-OCR
    https://github. com/xksoft/OcrHelper
    https://gitee.com/wanglifree/tianruoocr-cl

    这个我记得是论坛里人做的,虽然是个在线网站,但都是在浏览器端本地实现的 OCR:
    https://ocr. zjyl1994. com

    这个支持 OCR 但没说是离线还是在线的:
    https://gitee. com/smartoldfish/ocr-assistant
    sadfQED2
        15
    sadfQED2  
       336 天前 via Android
    免费,不要钱,安装方便且没广告,识别率还高的。只有 qq 微信
    goodgame
        16
    goodgame  
       336 天前
    tesseract 怎么样?没怎么用过,有没有用过的大哥讲一下?
    tutustream
        17
    tutustream  
       336 天前
    我买了迅捷 ocr 的会员
    ungrown
        18
    ungrown  
       336 天前   ❤️ 1
    @goodgame #16 tesseract 本身挺好,但是用起来并不方便。这玩意性能不弱,架构不落后,功能接口丰富,背后也一直有大厂在推着它走。但是,喂给它的图像必须够清晰,换句话说,预处理这块,它不负责。排版、格式、方向的识别,也是,它不负责,虽然它也提供这方面的功能接口,但用户得自己构建前置处理的环节。总之,这东西,不是傻瓜化的开箱即用的解决方案。字符清晰、明暗统一、排列整齐的文本图片,它能给出让人满意的结果,否则的话,消化不良。
    ungrown
        19
    ungrown  
       336 天前
    要么各种大厂的云端接口,免费或者付费,但说实话其实良莠不齐,各有短板。
    你还可以试试 EasyOCR ,我玩过还行,不过跟 paddleocr 一样,基于机器学习,所以设备算力不能太弱。
    或者就拿 tesseract 自己折腾。
    abbyy 是绝对的独一档,不过不知道它有没有编程调用接口。

    然后,提供个邪门,你知道漫画汉化这块吗,对 OCR 的需求很大。过去技术欠发展那也没人多寻思,都是汉化组手工修图、人肉翻译校对润色。但现在有了一整套自动化、半自动化方案,从图片预处理、去噪锐化拉伸、画面增强、角度扶正,到文字区识别、语言自动监测、多方 API 并行调用、格式排版自动识别,最后按照原图上的文本位置和排版自动将译文嵌入图中,用户只要手动选择、编辑、润色一下,讲真搞这玩意的那帮人虽然离第一梯队还有距离,但是完成度相当牛逼。社区驱动能做到这种程度,背后的需求肯定很大,搞不好成人色情漫画的汉化需求也是个大头。不过不是完全开源的,还收费,但如果能跟背后的团队联系上的话不妨去取取经。
    ErikaGao
        20
    ErikaGao  
       336 天前
    RapidOCR ?自己本地起个服务就行,是 PaddleOCR 的模型导出版本 https://github.com/RapidAI/RapidOCR
    shangyu7
        21
    shangyu7  
       336 天前
    Umi-OCR 离线版的,挺准确
    vincentV2
        22
    vincentV2  
       336 天前
    试试这款,准确率高,速度快。
    https://www.textin.com/experience/text_recognize_3d1
    Tan35haha
        23
    Tan35haha  
       336 天前
    白描? 用的还可以
    dobelee
        24
    dobelee  
       336 天前
    https://github.com/xushengfeng/eSearch
    这个简单用了段时间还可以。
    n18255447846
        25
    n18255447846  
       336 天前
    @goodgame 中文识别不太行,不如百度 paddleocr
    miaomiao888
        26
    miaomiao888  
       335 天前
    离线的基本都不好用,识别率不高,百度、腾讯、微信都一般,白描好像是基于有道,似乎比百度要稍好点。
    可以试试 PandaOCR.Pro (这是个名字不是域名)激活后试试里面的合合 OCR 或火山 OCR (字节跳动)接口,识别质量都挺高,合合应该算是业界识别质量最好的,没人能打。
    EngAPI
        27
    EngAPI  
       335 天前
    Umi-OCR 用的是飞桨,准确率还行
    hammy
        28
    hammy  
       335 天前
    白描
    QQ
    微信

    少量的话,虽然看起来滑稽但是 QQ 可能是最好用的。。。。
    opengps
        29
    opengps  
       335 天前
    quicker 里添加了一个截图 ocr ,很方便
    yuanix
        30
    yuanix  
       335 天前 via Android
    QQ 比 powertoy 好用,PDF 文件的话,Adobe reader 支持 ocr 。
    imycc
        31
    imycc  
       335 天前   ❤️ 1
    之前也想找个离线的 ocr ,找着找着发现微信跟飞书的截图都支持 ocr 了。。遂放弃
    732870147
        32
    732870147  
       335 天前 via Android
    在用 pearocr ,支持 PWA ,离线可用
    https://pearocr.com/
    streetShop
        33
    streetShop  
       335 天前
    推荐白描
    FaneLau
        34
    FaneLau  
       335 天前 via Android
    识别打印文件还是手写字?如果是识别打印文件,我觉得扫描王( Cam scanner )的准确率比白描高很多。前阵子识别很多公文的 PDF 文件,扫描王识别结果几乎没有错误,白描的错字相对多一些。两者都可以登录网页版进行识别,白描我是买了会员,扫描王好像普通用户是有限制识别次数不然要花钱买会员,我当时是用教育邮箱注册的账号所以能免费使用没有次数限制。
    pluto0x0
        35
    pluto0x0  
       60 天前
    @GuryYu PowerToys 的 OCR 就是 windows 自带的识别,能把 k 识别成 l<。太恐怖了。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   2856 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 34ms · UTC 13:00 · PVG 21:00 · LAX 06:00 · JFK 09:00
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.