billytv
V2EX  ›  问与答

为什么 PDF 转 word 都使用 OCR 识别, 即使文本可复制?

  •  
  •   billytv · Oct 27, 2016 · 3898 views
    This topic created in 3499 days ago, the information mentioned may be changed or developed.

    手头上有一份 PDF 想转为 word, pdf 不是扫描件, 本身只有数 MB 但有 100 多页全是文字. 该 PDF 没有权限限制, 直接使用 adobe reader 能选定文本并 100%准确复制.

    试了 Acrobat Pro 和其他好几款 PDF 转 word 的软件, 都是使用 OCR 扫描文字, 识别率低得离谱. 为什么不是从 pdf 中 "提取" 文本, 而要费大力气 "扫描 + 识别"? 是我姿势不对还是当中有内幕?

    12 replies    2016-10-28 09:37:58 +08:00
    chiensir1120
        1
    chiensir1120  
       Oct 27, 2016
    前两天刚手打了 70 页的文档
    Izual_Yang
        2
    Izual_Yang  
       Oct 27, 2016 via Android
    说明你的文档不是纯文字,可能是图像+文字层的 pdf ?不过从大小来看应该是纯文字格式啊
    mpco
        3
    mpco  
       Oct 27, 2016 via iPhone
    我也遇到了这个问题,同样有此疑问。
    garth
        4
    garth  
       Oct 27, 2016
    没用对软件。几个收费的 PDF 转 WORD 软件都正常转换成文字。
    liuxingou
        5
    liuxingou  
       Oct 27, 2016
    @garth

    能否 推荐几款?最好是跨平台的,支持 mac
    leafleave
        6
    leafleave  
       Oct 27, 2016 via Android
    手机 Google 翻译直接拍照,复制,识别率 99 %
    fen
        7
    fen  
       Oct 27, 2016
    找淘宝,分分钟给你转好还带校对排版
    duola
        8
    duola  
       Oct 27, 2016
    @leafleave 英文的认别率应该会高一些吧。
    duIT
        9
    duIT  
       Oct 27, 2016
    中文 OCR 的话, Abby 识别率最高了
    kingda
        10
    kingda  
       Oct 27, 2016
    额,你试试在线转化试试! http://app.xunjiepdf.com/
    garth
        11
    garth  
       Oct 27, 2016   ❤️ 1
    @liuxingou 我在 win 下使用 AnyBizSoft_PDF_to_Word
    leafleave
        12
    leafleave  
       Oct 28, 2016 via Android
    @duola 中英文识别率都很高
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   3185 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 77ms · UTC 12:34 · PVG 20:34 · LAX 05:34 · JFK 08:34
    ♥ Do have faith in what you're doing.