最近有需求是转换 pdf 到 jpg ,之前一直使用 Apache PdfBox 转换,一直也能满足需求,但最近有复杂的 PDF 文件,转换后,jpg 图片出现乱码情况,想问大佬们有没有其他免费转换的库或者工具能够处理啊 转换前 : 转换后 :
原 pdf 文件: https://www.lanzouw.com/igWLk1t346wb
1
aflow 231 天前
看起来是没找到对应中文字体,配置下字体信息应该就可以了
|
2
wxd21020 231 天前
升级依赖包
|
3
Puteulanus 231 天前
我们之前有个项目用 Poppler 转的
|
4
ho121 231 天前 via Android
盲猜是这个 pdf 没有内嵌中文字体,又没有在系统中找到中文字体,所以就显示方块
|
6
zhaoziyuan1989 231 天前 via Android
之前用 rust 调用 linux 下的 pdftoppm 实现过类似的需求,缺字体,是会乱码,字体的因素较大。
|
8
dropdatabase 231 天前 via iPhone
字体问题。你看看 pdf 中的文字是啥字体。Java 运行环境把相关字体加上就行了。
|
9
young1ee 231 天前
如果是 Windows 系统下正常,Linux 下不正常,可以把 Windows 字体文件全部复制到 Linux 的字体目录下
|
10
moshiyeap100 231 天前
试试看能不能指定一个缺省中文字体,如果找不到字体,就指定一个默认中文字体。
|
11
moshiyeap100 231 天前
我写了一个 demo ,能够正常处理,如果有需要可以联系我。绿色 :SnVuemhvdTE4MDkwOWR5
|
12
MrJerry OP 问题已处理,升级最新依赖包,换用加载方法解决;发现和 pdfbox 版本还有一定关系,Apache PDFBox3.0 以后版本 PDDocument.load 改成了 Loader.loadPDF ;同样方法,采用 2.x 版本的 PDDocument.load 加载 pdf 转换就会乱码
|