V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
kgdb00
V2EX  ›  程序员

pdf 文件的文本不能搜索,但导入到 google docs 里就可以搜索,怎么使 pdf 文件解除不能搜索文本的限制?

  •  
  •   kgdb00 · 2022-02-28 18:44:07 +08:00 · 2717 次点击
    这是一个创建于 759 天前的主题,其中的信息可能已经有所发展或是发生改变。
    22 条回复    2022-03-01 14:22:28 +08:00
    imldy
        1
    imldy  
       2022-02-28 19:52:03 +08:00 via Android
    换个浏览器或者 pdf 阅读器
    kgdb00
        2
    kgdb00  
    OP
       2022-02-28 20:00:54 +08:00
    @imldy 试了 chrome ,firefox ,evince 都不行,而且我这个 pdf 是要发给别人看的,所以应该要保证所有工具都能搜索。
    pendulum
        3
    pendulum  
       2022-02-28 20:41:08 +08:00   ❤️ 1
    可能你这个 PDF 是扫描件,本身没有文字。但传 Google 后,它帮你 OCR 了,所以你能搜索
    kgdb00
        4
    kgdb00  
    OP
       2022-02-28 21:36:34 +08:00
    @pendulum 文档看起来很清晰,不像是扫描件。
    qwq11
        5
    qwq11  
       2022-02-28 22:37:17 +08:00
    什么叫「不能搜索」,是搜索了没有任何结果,还是按 Ctrl F 弹个提示框出来说该文档不支持搜索
    如果是搜索了没有任何结果,那多半就是你 pdf 没有把字连成句之类的问题。
    lekai63
        6
    lekai63  
       2022-02-28 22:39:09 +08:00 via iPhone
    有些 pdf “已加密”就会能看但不能搜索

    ctrl+p 打印为 pdf 试试
    kgdb00
        7
    kgdb00  
    OP
       2022-02-28 22:52:49 +08:00
    @qwq11 用 chrome 搜索没有任何结果
    kgdb00
        8
    kgdb00  
    OP
       2022-02-28 22:53:23 +08:00
    @lekai63 用 chrome 试了,不行。
    mikewang
        9
    mikewang  
       2022-02-28 22:55:21 +08:00
    如果是加密文件,可 Unlock PDF: https://www.ilovepdf.com/unlock_pdf
    如果是内嵌图片(文件大小一般在 MB 级别,不一定是扫描件),你需要 OCR 。
    illl
        10
    illl  
       2022-02-28 23:02:43 +08:00 via iPhone
    用 adobe 的一款软件做一下光学文字识别,再保存一下就可以了
    kgdb00
        11
    kgdb00  
    OP
       2022-02-28 23:03:22 +08:00
    @mikewang Unlock PDF 试了,不行
    MacDows
        12
    MacDows  
       2022-02-28 23:04:48 +08:00 via Android
    @kgdb00 那就 acrobat 识别一下,大概率能用了
    duke807
        13
    duke807  
       2022-02-28 23:13:04 +08:00
    inkscape 導入看一下
    dingwen07
        14
    dingwen07  
       2022-03-01 00:17:13 +08:00
    使用 Okular ,设置里的“遵循 DRM”关掉
    kgdb00
        15
    kgdb00  
    OP
       2022-03-01 00:36:07 +08:00
    @dingwen07 试了,也不行。
    leaves7i
        16
    leaves7i  
       2022-03-01 01:50:55 +08:00
    上传 google docs 分享链接
    Tilie
        17
    Tilie  
       2022-03-01 07:38:16 +08:00
    acrobat 右侧有个开关 “所有页面可编辑” 打开之后会一页一页的 ocr 识别
    适用于扫描出来的
    danny1900
        18
    danny1900  
       2022-03-01 08:38:23 +08:00
    ABBYY FineReader ,试下这个 pdf 编辑器,自带 ocr 可以让你搜索
    luny
        19
    luny  
       2022-03-01 09:43:22 +08:00
    看一下文档的属性,里面有一些安全项
    有软件可以解除限制
    nanvon
        20
    nanvon  
       2022-03-01 11:40:49 +08:00
    那就说明这个 pdf 内不是文字,是图片。图片需要被 OCR 后才能被搜索文字
    nanvon
        21
    nanvon  
       2022-03-01 11:41:56 +08:00
    @kgdb00 如果光标能够选中文字,那才可以搜索。如果不能选中,那就说明是比较清晰的图片
    emhhb2ppy
        22
    emhhb2ppy  
       2022-03-01 14:22:28 +08:00
    “双层 PDF”,“可检索 PDF”是你需要的 PDF 。这种文件在创建的时候每个字符对应了带坐标信息的 OCR 步骤。所以才可以检索到。不是阅读软件的问题。上传 g doc ,是 g 自己 OCR 了一遍,所以才可以检索到。g 还开源了 OCR 引擎,叫 Tesseract Open Source OCR Engine ( https://github.com/tesseract-ocr/tesseract)
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   1018 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 19:45 · PVG 03:45 · LAX 12:45 · JFK 15:45
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.