V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
爱意满满的作品展示区。
zjyl1994

整了个免费的离线 OCR 网站

  •  
  •   zjyl1994 · Sep 25, 2022 · 6276 views
    This topic created in 1316 days ago, the information mentioned may be changed or developed.

    把 Tesseract.js 包装成直接能用的网站了,全程在你的浏览器中识别,不需要上传。

    个人主要用来识别测试反馈的截图, 抓里面的 TraceID 和接口调用参数,使用体验还不错。

    对英文的识别效果还可以,中文的有点菜。

    Lazydog OCR

    在线体验版: https://ocr.zjyl1994.com/

    Github: https://github.com/zjyl1994/lazydogocr

    注意:需要你的浏览器支持 WASM ,在线体验版部署在 CF Pages 上,加载训练数据需要 10 多 MB ,可能不会太快。

    20 replies    2023-10-12 14:55:30 +08:00
    jeesk
        1
    jeesk  
       Sep 25, 2022 via Android
    10s 都识别不出 😂
    zjyl1994
        2
    zjyl1994  
    OP
       Sep 25, 2022 via iPhone
    @jeesk 网络原因?训练数据在 cf pages 上估计没拉下来。超高分辨率的图片也有可能很慢
    jeesk
        3
    jeesk  
       Sep 25, 2022 via Android
    @zjyl1994 就是截图。 里面有 4 个字
    Kiriya
        4
    Kiriya  
       Sep 25, 2022
    可以考虑打包成本地应用😁
    HugoChao
        5
    HugoChao  
       Sep 25, 2022
    用了一下 感觉不错
    mozila
        6
    mozila  
       Sep 25, 2022
    先 m
    HiCoder
        7
    HiCoder  
       Sep 25, 2022
    试了下,不错
    zjyl1994
        8
    zjyl1994  
    OP
       Sep 25, 2022 via iPhone
    @Kiriya 仓库拖下来用任何一个 http 服务器提供服务就可以了,打包本地应用我还不会弄,前端苦手
    subframe75361
        9
    subframe75361  
       Sep 26, 2022
    好东西,可以考虑做个 pwa ?
    ShuaiYH
        10
    ShuaiYH  
       Sep 26, 2022
    个人感觉这个库识别率有点低,特别是对于手写的
    Aying
        11
    Aying  
       Sep 26, 2022
    试了一下,不是很妙,中英文都试了。
    https://ibb.co/Wn8tfMJ
    https://ibb.co/7Gqy3KW
    villivateur
        12
    villivateur  
       Sep 26, 2022
    中文识别,为什么每个字之间都会多出一个空格?
    vantis
        13
    vantis  
       Sep 26, 2022
    中文可以试试 paddle 阿里云有一件部署的 感觉识别率挺高

    我是本地用 python 跑的 搭配 Alfred workflow 除了慢都挺好……
    vtwoextb
        14
    vtwoextb  
       Sep 27, 2022
    现在开源的深度学习框架很多都包括 OCR ,这东西比较费资源
    marvinemao
        15
    marvinemao  
       Sep 27, 2022
    感觉不错
    macy
        16
    macy  
       Sep 27, 2022
    基于这个库做过一个 pdf 识别的软件,除了慢点,效果还好,可以做精准识别,配置截图,将大图截取指定部分,会快很多,也会准确一些
    caomingjun
        17
    caomingjun  
       Sep 28, 2022
    如果只开发 Windows 应用,可以试试自带的 OCR: https://learn.microsoft.com/en-us/uwp/api/Windows.Media.Ocr?view=winrt-22621
    bianz103
        18
    bianz103  
       Oct 5, 2022
    昨天把 paddleocr 整合到本地软件 verycapture 了,识别速度大概 8 秒左右,建议楼主可以试试
    superliy
        19
    superliy  
       Feb 23, 2023
    @bianz103 手写汉字吗?准确率怎么样
    Endocryne
        20
    Endocryne  
       Oct 12, 2023
    识别率不是很理想
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   781 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 71ms · UTC 21:37 · PVG 05:37 · LAX 14:37 · JFK 17:37
    ♥ Do have faith in what you're doing.