从PDF和图像文件中提取文本


是否有PDF文档要提取所有文本?您想要转换为可编辑文本的扫描文档的图像文件怎么样?这些是我在处理文件时在工作场所看到的一些最常见的问题。

在本文中,我将讨论尝试从PDF中提取文本的几种不同方法。或者来自图像。您的提取结果将根据PDF或图像中文本的类型和质量而有所不同。此外,您的结果将根据您使用的工具而有所不同,因此最好尽可能多地尝试以下选项以获得最佳效果。

从图像或PDF中提取文本

最简单,最快捷的方法是尝试在线PDF文本提取器服务。这些通常是免费的,无需在您的计算机上安装任何内容即可准确地为您提供所需内容。以下是我使用的两个非常好的结果:

ExtractPDF

extractpdf

ExtractPDF 是一个从PDF文件中获取图像,文本和字体的免费工具。唯一的限制是PDF文件的最大大小为10 MB。那有点小;所以,如果你有一个更大的文件,请尝试下面的一些其他方法。选择您的文件,然后单击发送文件按钮。结果通常非常快,当您单击“文本”选项卡时,您应该看到文本的预览。

download text

这也是一个不错的选择它还增加了从PDF文件中提取图像的好处,以防万一你需要它们!总体而言,在线工具运行良好,但我遇到了几个PDF文档,给我有趣的输出。文本提取得很好,但由于某种原因,每个单词后都会有一个换行符!对于简短的PDF文件来说这不是一个大问题,但对于包含大量文本的文件来说肯定是一个问题。如果您遇到这种情况,请尝试下一个工具。

在线OCR

在线OCR 通常倾向于使用ExtractPDF无法正确转换的文档,所以尝试两种服务以查看哪些服务可以提供更好的输出是一个好主意。在线OCR还有一些更好的功能,对于拥有大型PDF文件的人来说非常方便,只需要在几页而不是整个文档上转换文本。

你要做的第一件事就是去提前并创建一个免费帐户。这有点烦人,但如果你不创建免费帐户,它只会部分转换你的PDF而不是整个文档。此外,您不仅可以只上传5 MB文档,而且每个文件最多可以上传100MB。

online ocr

,选择一种语言,然后选择您希望转换文件的输出格式类型。你有几个选择,如果你愿意,你可以选择不止一个。在多页文档下,您可以选择页码,然后仅选择要转换的页面。然后选择文件并单击转换

online ocr docs

转换后,您将被带到“文档”部分(如果您已登录),您可以在其中查看剩余的可用页面数量和链接下载转换后的文件。看起来你每天只有25页免费,所以如果你需要更多,你需要等一下或者购买更多的页面。

在线OCR做了很好的转换工作我的PDF因为它能够保持文本的实际布局。在我的测试中,我使用了一个Word文档,它使用了子弹,不同的字体大小等,并将其转换为PDF。然后我使用在线OCR将其转换回Word格式,它与原始格式相同,大约95%。这对我来说非常令人印象深刻。

另外,如果您希望将图像转换为文本,那么在线OCR就可以像从PDF文件中提取文本一样轻松。

免费在线OCR

由于谈论图像到文本OCR,让我提一下另一个在图像上运行良好的好网站。从我的测试图像中提取文本时,Free 在线OCR 非常好并且非常准确。我从iPhone的书页,小册子等页面上拍了几张照片,我很惊讶它能够很好地转换文本。

free online ocr

选择文件,然后单击“上传”按钮。在下一个屏幕上,有几个选项和图像预览。如果你不想对整个事情进行OCR,你可以裁剪它。然后只需单击OCR按钮,转换后的文本将显示在图像预览下方。它也没有任何限制,这是非常好的。

除了在线服务之外,还有两个免费软件PDF转换器我想提及,以防您需要在计算机上本地运行的软件来执行转换。使用在线服务,您将始终需要互联网连接,而且可能无法满足所有人的需求。但是,我注意到免费软件程序的转换质量明显低于网站的转换质量。

A-PDF文本提取器

A-PDF文本提取器 是一个免费软件,可以很好地从PDF文件中提取文本。下载并安装后,单击“打开”按钮选择PDF文件。然后单击Extract text以启动该过程。

apdf extractor

它会询问您存储文本输出文件的位置,然后它将开始提取。您还可以单击选项按钮,该按钮允许您仅选择要提取的特定页面和提取类型。第二个选项很有意思,因为它以不同的布局提取文本,并且值得尝试所有三个以查看哪些文本为您提供最佳输出。

PDF2Text Pilot

PDF2Text Pilot 可以提取文本。它没有任何选择;你只需添加文件或文件夹,转换并希望最好。它在一些PDF上运行良好,但对于大多数PDF,存在很多问题。

pdf2text

只需单击添加文件,然后单击转换即可。转换完成后,单击“浏览”以打开文件。您的里程数会因此程序而异,所以不要期望太多。

此外,值得一提的是,如果您在公司环境中或者可以从工作中获得Adobe Acrobat的副本,那么您可以获得更好的结果。 Acrobat显然不是免费的,但它有将PDF转换为Word,Excel和HTML格式的选项。它还可以最好地维护原始文档的结构并转换复杂的文本。

两分钟教你将照片里的文字转换为文本

相关文章:


13.11.2014