如何从 MS Office 文件中轻松提取文本和图像
我们可能会遇到从 MS Word 或 MS Powerpoint 文件中提取图像或文本的需要。通常,这可能包括手动复制和粘贴,一次一页,对于超大文件,这将花费相当多的时间。
好吧,我们有一个简单的技巧可以帮助您从新格式的文件(即 DOCX、PPTX、XLSX)中提取图像和文本,而对于旧格式的文件(即 DOC、PPT、XLS),您所需要的只是一个免费软件来帮助您快速轻松地提取图像。
注意:为了演示这篇文章,我们将仅使用 MS Word 文件。该过程与 MS Powerpoint 和 MS Excel 文件相同。
以下是本文涵盖的内容:
- 如何从 DOCX、PPTX、XLXS 文件中提取图像和文本
- 如何从单个 DOC、PPT 或 XLS 文件中提取图像
- 如何从多个 DOC、PPT 或 XLS 文件中提取图像
- 如何使用“另存为网页”方法提取图像
- 如何提取纯文本而不是 XML
阅读更多:如何从图像中复制和提取文本
如何从 DOCX、PPTX、XLXS 文件中提取图像和文本
在执行这些步骤之前,请打开包含您的文件的文件夹。单击组织 > 文件夹和搜索选项 > 查看并取消选中 隐藏已知文件类型的扩展名。现在,您可以看到每个文件名的文件扩展名。
-
找到并选择要从中提取图像和文本的文件(注意:最好复制该文件)。在此示例中,我们的目标文件名为Sample File.docx。
-
按F2重命名文件并将扩展名替换为.zip。
-
将显示一条警告以确认文件扩展名的更改。单击是。
-
右键单击ZIP 文件,然后单击解压文件。
-
找到并打开包含提取数据的文件夹,然后打开word。
-
您将在其中看到一些文件夹和 XML 文件。在媒体文件夹中,您将找到提取的图像。对于提取的文本,使用记事本或XML Notepad打开document.xml文件。
这是您将在媒体文件夹中找到的内容。
如何从单个 DOC、PPT 或 XLS 文件中提取图像
如果您想从旧格式的MS office 文件中提取图像,上述方法将无法处理图像。为此,您需要一个名为 Office Image Extraction Wizard 的免费工具。该工具早在 2012 年就可以处理 MS Office 文件,并且可以一次性处理一个或多个 MS Office 文件。
-
下载并安装Office 图像提取向导。
-
选择要从中提取图像的文档(对于本例,我们将其提取到我命名为Ch1.doc 的文件夹),然后选择输出文件夹。您可以通过勾选在此处创建文件夹选项来选择创建一个文件夹来存放所有输出图像。完成后,单击下一步。
-
单击开始以开始该过程。
-
图像提取过程完成后,单击单击此处打开目标文件夹,它将打开输出文件夹。
-
如下所示,程序创建了一个Ch1文件夹。
-
文件夹内是提取的图像。
如何从多个 DOC、PPT 或 XLS 文件中提取图像
-
要从 DOC、PPT 或 XLS 格式的多个文件中提取图像,请勾选左下角的批处理模式选项。
-
单击添加文件,然后选择要从中提取图像的文件。按住Ctrl键一次选择多个文件。选择文件后,单击下一步。
-
单击开始。
-
该过程完成后,找到并打开输出文件夹。在这里,您将看到两个具有原始文件名的文件夹。打开这些文件夹以查看从其原始 MS Office 文件中提取的图像。
如何使用“另存为网页”方法提取图像
还有另一种方法适用于新旧MS Office文件。
-
打开 DOCX 或 XLSX 文件并单击File > Save As > Computer > Browser并将文件另存为Web Page。
-
找到具有您保存网页的文件名的文件夹。在这里,您将看到从文件中提取的所有图像。
如何提取明文而不是 XML
-
打开 DOCX 文件并单击文件 > 另存为 > 计算机 > 浏览器。选择将文件另存为纯文本(对于 XLSX 文件,将其另存为文本(制表符分隔))。
-
找到并打开您用于保存它的名称的文本文件。此文本文件将仅包含原始文件中的文本,不带任何格式。
如果您知道从 MS Office 文件中提取图像的任何其他方法或工具,请在评论部分提及。