目前最好的开源手写体 ocr 识别是什么

hmxxmh · 2025-05-08T07:08:59Z

1 、百度 ppocr 2 、阿里读光 ocr 3 、。。。

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

For Existing Member Sign In

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

This topic created in 358 days ago, the information mentioned may be changed or developed.

1 、百度 ppocr
2 、阿里读光 ocr
3 、。。。

Supplement 1 · May 8, 2025

多模态大模型有考虑过，但是成本太高了，而且速度慢
成本上单卡t4(16g) ，ocr小模型可以支持8个并发
大模型可能智能部署小参数量化版本，效果还不行，换大参数成本更高

OCR

手写体

识别

22 replies • 2025-05-12 11:14:43 +08:00

daodao

May 8, 2025

PaddleOCR

Suonna

May 8, 2025

汉王可以了解一下，目前遇到过最强的手写 OCR ，软件还良心

其次就是直接用 gemini 做 ocr

zzfer

May 8, 2025

对过几家 SDK ，百度和微软的表现还不错

realJamespond

May 8, 2025

最新的 gemeni2.5 pro 变态强, 国内就是 internvl3 14b 非常强

ma46

May 8, 2025

@Suonna 普通 ocr 用大模型非常不划算

Suonna

May 8, 2025

@ma46 请教是哪方面不划算？

clf

May 8, 2025

@Suonna #6 应该指 token 消耗吧，得最好把图片先降低分辨率，不然 token 烧的有点多。

luchenwei9266

May 8, 2025

之前简单对比过：百度、腾讯、讯飞、阿里、有道。百度的效果会稍微好一点。

lee88688

May 8, 2025

#4 说的 internvl3 14b 我也看过一些测评确实可以，但不知道具体场景情况，op 可以去试试。

kuonkuon

May 8, 2025

做过测试，手写这东西，只有大模型识别率最高，但是也只有 70 几。测试数据是初中生的数学考试手写笔记

hmxxmh

May 8, 2025

@Suonna 大模型太慢了，我们的业务场景要求响应速度，而且大模型成本高，1 张 t4 卡，小模型可支持 8 并发差不多，换大模型只能部署小参数的，大参数的至少 4 张卡，并发数还少

hmxxmh

May 8, 2025

@kuonkuon 用的是哪家大模型

yoghurtguy

May 8, 2025

@kuonkuon 请问"初中生的数学考试手写笔记"是随便找了一张图片还是有相关的数据集吗? 我现在刚好希望使用开源大模型识别手写数学公式

xiaomushen

May 8, 2025

PaddleOCR 或 RapidOCR
其实是一个东东

hmxxmh

May 8, 2025

@Suonna 这个我体验了一下，确实很准，不过是根据手写轨迹来识别的好像，如果输入是图片不行

hmxxmh

May 8, 2025

@xiaomushen 这个我用来表格识别了，属于是开源最好的表格识别

Suonna

May 9, 2025

@hmxxmh 您可以自己部署 gemini 号池

owen800q

May 9, 2025 via iPhone

微信

Yux0

May 9, 2025

@yoghurtguy HME100k

kuonkuon

May 9, 2025

@hmxxmh #12
@yoghurtguy
那时候用的 gpt4o ，现在 4.1 出来了，最主要是学生不会给你规规矩矩写，大量存在歧义的符号，大模型好处是会联系上下文。不是开源数据集，是我这儿学校扫描的答题卡，我自己整理的测试图

yoghurtguy

May 10, 2025 via iPhone

@Yux0 感谢，还是中国的
@kuonkuon 感谢，API 太贵了用不起，想用开源的自己部署

Yux0

May 12, 2025

@yoghurtguy #21 可以一起交流，目前我也在弄识别数学公式的项目： https://github.com/yux-lab/TeXnically