V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
hmxxmh
V2EX  ›  程序员

目前最好的开源手写体 ocr 识别是什么

  •  
  •   hmxxmh · May 8, 2025 · 4111 views
    This topic created in 358 days ago, the information mentioned may be changed or developed.
    • 1 、百度 ppocr
    • 2 、阿里读光 ocr
    • 3 、。。。
    Supplement 1  ·  May 8, 2025

    多模态大模型有考虑过,但是成本太高了,而且速度慢
    成本上单卡t4(16g) ,ocr小模型可以支持8个并发
    大模型可能智能部署小参数量化版本,效果还不行,换大参数成本更高

    22 replies    2025-05-12 11:14:43 +08:00
    daodao
        1
    daodao  
       May 8, 2025
    PaddleOCR
    Suonna
        2
    Suonna  
       May 8, 2025
    汉王可以了解一下,目前遇到过最强的手写 OCR ,软件还良心

    其次就是直接用 gemini 做 ocr
    zzfer
        3
    zzfer  
       May 8, 2025
    对过几家 SDK ,百度和微软的表现还不错
    realJamespond
        4
    realJamespond  
       May 8, 2025
    最新的 gemeni2.5 pro 变态强, 国内就是 internvl3 14b 非常强
    ma46
        5
    ma46  
       May 8, 2025
    @Suonna 普通 ocr 用大模型非常不划算
    Suonna
        6
    Suonna  
       May 8, 2025
    @ma46 请教是哪方面不划算?
    clf
        7
    clf  
       May 8, 2025
    @Suonna #6 应该指 token 消耗吧,得最好把图片先降低分辨率,不然 token 烧的有点多。
    luchenwei9266
        8
    luchenwei9266  
       May 8, 2025
    之前简单对比过:百度、腾讯、讯飞、阿里、有道。百度的效果会稍微好一点。
    lee88688
        9
    lee88688  
       May 8, 2025
    #4 说的 internvl3 14b 我也看过一些测评确实可以,但不知道具体场景情况,op 可以去试试。
    kuonkuon
        10
    kuonkuon  
       May 8, 2025
    做过测试,手写这东西,只有大模型识别率最高,但是也只有 70 几。测试数据是初中生的数学考试手写笔记
    hmxxmh
        11
    hmxxmh  
    OP
       May 8, 2025
    @Suonna 大模型太慢了,我们的业务场景要求响应速度,而且大模型成本高,1 张 t4 卡,小模型可支持 8 并发差不多,换大模型只能部署小参数的,大参数的至少 4 张卡,并发数还少
    hmxxmh
        12
    hmxxmh  
    OP
       May 8, 2025
    @kuonkuon 用的是哪家大模型
    yoghurtguy
        13
    yoghurtguy  
       May 8, 2025
    @kuonkuon 请问"初中生的数学考试手写笔记"是随便找了一张图片还是有相关的数据集吗? 我现在刚好希望使用开源大模型识别手写数学公式
    xiaomushen
        14
    xiaomushen  
       May 8, 2025
    PaddleOCR 或 RapidOCR
    其实是一个东东
    hmxxmh
        15
    hmxxmh  
    OP
       May 8, 2025
    @Suonna 这个我体验了一下,确实很准,不过是根据手写轨迹来识别的好像,如果输入是图片不行
    hmxxmh
        16
    hmxxmh  
    OP
       May 8, 2025
    @xiaomushen 这个我用来表格识别了,属于是开源最好的表格识别
    Suonna
        17
    Suonna  
       May 9, 2025
    @hmxxmh 您可以自己部署 gemini 号池
    owen800q
        18
    owen800q  
       May 9, 2025 via iPhone
    微信
    Yux0
        19
    Yux0  
       May 9, 2025
    @yoghurtguy HME100k
    kuonkuon
        20
    kuonkuon  
       May 9, 2025
    @hmxxmh #12
    @yoghurtguy
    那时候用的 gpt4o ,现在 4.1 出来了,最主要是学生不会给你规规矩矩写,大量存在歧义的符号,大模型好处是会联系上下文。 不是开源数据集,是我这儿学校扫描的答题卡,我自己整理的测试图
    yoghurtguy
        21
    yoghurtguy  
       May 10, 2025 via iPhone
    @Yux0 感谢,还是中国的
    @kuonkuon 感谢,API 太贵了用不起,想用开源的自己部署
    Yux0
        22
    Yux0  
       May 12, 2025
    @yoghurtguy #21 可以一起交流,目前我也在弄识别数学公式的项目: https://github.com/yux-lab/TeXnically
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   2509 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 54ms · UTC 12:20 · PVG 20:20 · LAX 05:20 · JFK 08:20
    ♥ Do have faith in what you're doing.