求推荐一个能检索内容的 pdf 文件管理软件

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 1037 天前的主题，其中的信息可能已经有所发展或是发生改变。

因为平时会把一些论文、文章转成 pdf 保存，时间久了 pdf 文件非常多，所以想找个 pdf 管理软件，想要的特性如下：

能检索 pdf 标题和内容
最好能给 pdf 文件打标签
B/S 架构，这样可以部署到一台服务器上，多端访问

谢谢。

PDF

检索

文件

软件

30 条回复 • 2023-03-15 16:53:55 +08:00

jamosLi

2023 年 3 月 14 日

有了踢踢我

koto

2023 年 3 月 14 日

abbyy ？不过是收费的

DigitalG

2023 年 3 月 14 日

devonthink 有 server 版本，一次性付费，虽然比较贵。

DigitalG

2023 年 3 月 14 日

@DigitalG 不过除了 server ，client 只有 Apple 生态的版本

shalingye

2023 年 3 月 14 日 via Android

calibre ，能写元数据，自带 web 服务，但似乎不能检索 pdf 内容。

virlaser

2023 年 3 月 14 日

目前用的 NAS 实现这个功能
对于可以复制文字的 PDF ，NAS 可以直接索引里面的文字，直接搜索
对于不能复制文字的 PDF ，需要先通过 OCR 软件识别一下（之前用的 PDFElement ，不过好像调的还是 abbyy 引擎），在 PDF 上覆盖一层透明的文字层，然后再保存到 NAS 里面，这样就可以索引了
NAS 本身的文件管理提供了打标签、多端访问和索引的功能

MasterofNone

2023 年 3 月 14 日

为啥没人说 zotero 和 endnote

tool2d

2023 年 3 月 14 日

自己写一个 pdf 搜索并不难。你可以用工具批量 pdf to txt ，然后针对 txt 做文本搜索，就会方便太多。

f1ynnv2

2023 年 3 月 14 日

@mmm159357456 调研过 zotero ，这个好像就是个单体软件，只是能通过 webdav 同步，离 web-based 有些远。endnote 没接触过，我去了解下。

f1ynnv2

2023 年 3 月 14 日

@tool2d 理论上确实是可以自己写，但是时间花在这上面不太值。

f1ynnv2

2023 年 3 月 14 日

找到一个开源的，似乎完美符合我的要求。
https://github.com/papermerge/papermerge-core

litengyu86

2023 年 3 月 14 日

@koto abbyy 丢丢贵

TerranceL

2023 年 3 月 14 日

mendely

f1ynnv2

2023 年 3 月 14 日

@f1ynnv2 试了下，功能是有，但是不稳定。。

NutsoGao

2023 年 3 月 14 日

插眼，有了我踢踢我

beyondex

2023 年 3 月 14 日

sea desktop search ，满足 1 ，3 B/S 架构，这样可以部署到一台服务器上，多端访问
不过浏览器访问需要手动配置，倒也不复杂，不提供傻瓜化开关。

aitianci

2023 年 3 月 14 日

mendeley 和 zotero 确实符合条件，我现在在用的是 zotero ，可以手动导入 pdf 然后它自己会 OCR 搞一套检索，标题内容都能搜索，至于打标签那是基本功能，科研工具就是做笔记方便。另外可以用坚果云的 webdav 同步，多端访问也不成问题。

kukat

2023 年 3 月 14 日

paperless-ngx

congjinyebaiya

2023 年 3 月 14 日 via iPhone

zotero 貌似可以

wanghaoyang

2023 年 3 月 14 日

Confluence

hicdn

2023 年 3 月 14 日

继续安利 recoll ，https://www.lesbonscomptes.com/recoll/pages/index-recoll.html 支持全平台，功能十分强大，压缩包里的文件内容都可以索引，还能自己扩展可索引的文件后缀名，比如 xmind 的思维导图。

mmdsun

2023 年 3 月 14 日

我用的 Adobe Acrobat Pro DC 工具可以搜索 pdf 内容，用的微博 Vposy 大神出的 Adobe 全家桶

em70

2023 年 3 月 14 日

chatPDF

mmdsun

2023 年 3 月 14 日

抱歉没看 B/S 架构，建议用 Apache Solr 。PDF\word 各种格式都能搜索，类似 ES ，带 UI

Apache Solr：
https://solr.apache.org/features.html

f1ynnv2

2023 年 3 月 14 日

@kukat 试用了一下，这个确实很好用，基本满足我列的要求。非常感谢
不过默认自带的 ocr 不支持中文，用 Docker 的话得自己重新写个 Dockerfile

dier

2023 年 3 月 14 日 via iPhone

听说最近出了一个 chatPDF

enrolls

2023 年 3 月 14 日 via iPhone

这个整合一下应用，应该很快就能有雏形啊

kukat

2023 年 3 月 15 日

@f1ynnv2 不用啊，可以调整 OCR 的语言选项。https://docs.paperless-ngx.com/configuration/#ocr

用官方提供的安装脚本就行，不过语言项有点 bug ，一会下划线一会横线…… 记得改一下 docker-compose.env
PAPERLESS_OCR_LANGUAGE=eng+chi_sim
PAPERLESS_OCR_LANGUAGES=eng chi-sim

f1ynnv2

2023 年 3 月 15 日

@kukat 我启动 docker 时提示没安装 chi 的 ocr ，只好自己又装了一下重新做了个镜像

f1ynnv2

2023 年 3 月 15 日

@kukat 请问一下，docker 镜像里，我已经通过 apt install tesseract-ocr-chi-sim 了，但是启动的时候仍然提示

2023-03-15 16:36:16 Reading package lists...
2023-03-15 16:36:16 Package tesseract-ocr-eng already installed!
2023-03-15 16:36:17 Package tesseract-ocr-chi_sim not found! :(

不过奇怪的是确实已经可以 OCR 扫描到文字了。