pdf 是 mindshare 的书籍(出版时间大概 2000 年),看起来每个单词都是可以复制的,但是复制出来却是乱码。
用了好几种编辑器打开,复制都是乱码:wps 、SumatraPDF 、adobe reader 、zerote 。
网上看的方法: https://www.bilibili.com/read/cv23470141/ 查看了字体类型,去网站里搜,也搜不到。
PS:之前用 python 想读取这个 pdf 里面的内容,发现是程序读取出来都是乱码的。结果发现复制 都是乱码的。。
1
yinmin 2023-09-10 16:13:56 +08:00 via iPhone
OCR
|
2
kokutou 2023-09-10 16:15:00 +08:00 via Android
内嵌字体,字体和文字不是对应的,参考起点之类的在线加密。。。
|
3
yinmin 2023-09-10 16:19:04 +08:00
运行 QQ 电脑版,然后用快捷键 ctrl-alt-A ,选中屏幕区域点击“屏幕识图”按钮,等几秒就能 copy 文字了,识别率还是比较好的。
|
4
Puteulanus 2023-09-10 16:41:38 +08:00
不好识别的话淘宝还有代手打的
|
5
Ericcccccccc 2023-09-10 16:52:19 +08:00
截图到微信里然后用自带的 ocr 吧
|
6
n1cogrv 2023-09-10 16:57:19 +08:00
@kokutou #2 @amiwrong123
要真是这样的话,OP 直接考虑 OCR 吧,不要考虑从数字层面读取了。 可以看看 https://github.com/hiroi-sora/Umi-OCR |
7
amiwrong123 OP |
8
abc8678 2023-09-10 19:08:43 +08:00 via Android
我也遇到过,在某之家问,还被嘲笑了,说复制都不会
|
9
amiwrong123 OP @abc8678 #8
但比较神奇的是,在这个 pdf 里,搜索单词,却又是可以的。 |
10
cr51k2 2023-09-10 22:23:37 +08:00 via Android
pdf 转 word 没,或者一定要纯文字吗?之前我报价做单,有些标书是乱扫描的,懒得搞就直接截图放 excel 然后报价了。
如果工作下一步骤不是机器的话,还可以变通一下。 |
11
Jwyt 2023-09-11 00:23:14 +08:00
字体问题,无解的,最好最有效地办法就是 ocr
|
12
kergee 2023-09-11 07:24:26 +08:00
OCR ,然后让 GPT 整理
|
13
296727 2023-09-11 08:41:16 +08:00
有可能内外两层,跟蒙层一样
|