我在运行 Debian 的 Chromebook 上安装了 pdfgrep v2.1.2。我有一个完整的 Mueller 报告的 PDF 文件,我偶尔想在其中搜索特定的参考资料。使用 Pdfgrep 搜索文件中的任何模式,结果很快什么都没有返回。Pdftotext 似乎无法处理它,并生成一个非常短的垃圾文件。Pdfinfo 生成以下内容:
Title:
Creator: RICOH MP C6502
Producer: RICOH MP C6502
CreationDate: Wed Apr 17 15:23:21 2019 PDT
ModDate: Wed Apr 17 15:59:41 2019 PDT
Custom Metadata: no
Metadata Stream: yes
Tagged: no
UserProperties: no
Suspects: no
Form: AcroForm
JavaScript: no
Pages: 448
Encrypted: no
Page size: 792 x 612 pts (letter)
Page rot: 270
File size: 145509756 bytes
Optimized: yes
PDF version: 1.6
pdfgrep 是否与文件的 PDF 版本不兼容?
最佳答案
1
由于它是用多功能打印机生成的,因此 PDF 可能只包含报告的扫描图像。如果没有 OCR(打印机无法实现),它就不会包含任何文本pdftotext
或pdfgrep
要处理的文本。
图形 PDF 查看器非常适合显示图像,因此它们在显示相关的 PDF 时不会遇到任何困难。
|
|