我在运行 Debian 的 Chromebook 上安装了 pdfgrep v2.1.2。我有一个完整的 Mueller 报告的 PDF 文件,我偶尔想在其中搜索特定的参考资料。使用 Pdfgrep 搜索文件中的任何模式,结果很快什么都没有返回。Pdftotext 似乎无法处理它,并生成一个非常短的垃圾文件。Pdfinfo 生成以下内容:

Title:           
Creator:         RICOH MP C6502
Producer:        RICOH MP C6502
CreationDate:    Wed Apr 17 15:23:21 2019 PDT
ModDate:         Wed Apr 17 15:59:41 2019 PDT
Custom Metadata: no
Metadata Stream: yes
Tagged:          no
UserProperties:  no
Suspects:        no
Form:            AcroForm
JavaScript:      no
Pages:           448
Encrypted:       no
Page size:       792 x 612 pts (letter)
Page rot:        270
File size:       145509756 bytes
Optimized:       yes
PDF version:     1.6

pdfgrep 是否与文件的 PDF 版本不兼容?


最佳答案
1

由于它是用多功能打印机生成的,因此 PDF 可能只包含报告的扫描图像。如果没有 OCR(打印机无法实现),它就不会包含任何文本pdftotextpdfgrep要处理的文本。

图形 PDF 查看器非常适合显示图像,因此它们在显示相关的 PDF 时不会遇到任何困难。