V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
kisshere
V2EX  ›  程序员

有没有免费的 OCR API?自己服务器能部署的开源软件也行

  •  
  •   kisshere · 10 天前 · 1701 次点击
    有一大批图片需要识别里面的文字,有没有免费的 OCR API ,目前 GitHub 上浏览了一圈好的 OCR 都需要显卡才行,我的服务器没有显卡,有没有对服务器配置要求没那么高的 OCR 开源软件
    18 条回复
    ferock
        1
    ferock  
       10 天前 via iPhone
    支持图片的 llm
    ferock
        2
    ferock  
       10 天前 via iPhone
    哦…没有显卡
    EngAPI
        3
    EngAPI  
       10 天前
    本站有人分享过的
    pdf-craft:把 pdf 转换成 markdown 或者 epub (作者在本站)
    ocrmypdf:按原格式 ocr 语言(加一层)

    觉得有用点个赞把金币还我哦
    kisshere
        4
    kisshere  
    OP
       10 天前
    @EngAPI 谢谢,但我的全是图片,不是 pdf
    studyingss
        5
    studyingss  
       10 天前 via Android
    有的兄弟,有的

    https://www.v2ex.com/t/1120897
    Daybyedream
        6
    Daybyedream  
       10 天前
    umi-ocr 自己有 api 的= =这种?
    cobbage
        7
    cobbage  
       10 天前 via Android
    楼上说的微信那个,百度的 paddleocr ,不行了直接接个视觉大模型
    raycool
        9
    raycool  
       10 天前
    paddleocr
    iorilu
        10
    iorilu  
       10 天前
    api 怎么可能有免费的

    靠谱的就是上面有人提的微信 ocr, 也不需要 gpu

    其他 paddleocr 自己开发也可以
    lizhenda
        11
    lizhenda  
       10 天前
    使用 deepseek api 直接识别图片试试?
    photon006
        12
    photon006  
       10 天前
    mistral
    lemos1235
        13
    lemos1235  
       9 天前
    paddleocr 可以用 cpu ,稍微慢一些而已。
    GaGim
        14
    GaGim  
       9 天前
    mistral 和 paddle
    Lucoie
        15
    Lucoie  
       9 天前
    @cobbage 视觉大模型有哪些?
    cobbage
        16
    cobbage  
       8 天前
    @Lucoie #15 随便找一个就可以吧。我当时测试识别表格用的阿里 vl
    syaoranex
        17
    syaoranex  
       8 天前
    如果只是需要文字 OCR ,用微信的就行。链接楼上已经给了。
    如果需要多模态大模型来 OCR (例如一些表格,手写文字),那智谱的 GLM-4V-FLASH 是免费的,最大并发 10 ,可以用于 OCR 。
    kisshere
        18
    kisshere  
    OP
       8 天前
    @syaoranex 微信的没法再服务器上运行
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3238 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 20ms · UTC 12:05 · PVG 20:05 · LAX 05:05 · JFK 08:05
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.