user1255895 Asked: 2020-12-28 23:01:12 +0800 CST2020-12-28 23:01:12 +0800 CST 2020-12-28 23:01:12 +0800 CST PDF中的模糊文本 772 我有一个文本模糊的pdf。文本本身是可读的,但会造成很大的压力。 这是文本的一个例子。 有没有办法清除它? pdf ocr 3 个回答 Voted Best Answer andselisk 2020-12-29T09:51:50+08:002020-12-29T09:51:50+08:00 这是一个栅格图层,不幸的是,它还包含文本。可以说修复此类 PDF 的最简单方法是使用ABBYY FineReader(商业版,适用于 Windows、Linux、mac OS)。根据所需场景加载和处理 PDF 或图像文件。例如,在这里我们真的不需要预处理,并且在为文档选择英语语言后 OCR 可以正常工作: 保存识别的文档时,请确保在保存模式部分选择仅文本和图片: 这将产生一个“干净”的 PDF,其矢量字体可以在没有像素化的情况下进行缩放: 或者,也可以使用其他免费和开源的 OCR 工具,例如tesseract / Capture2Text / NAPS2并使用LibreOffice Writer / LaTeX使用可识别的文本创建新的 PDF。 Tetsujin 2020-12-28T23:19:24+08:002020-12-28T23:19:24+08:00 文本已被光栅化 - 变成“点”。 它仍然应该是矢量 - 使用实时绘制到屏幕上的实际字体。 这可能是因为文档被扫描并且实际上只是一张照片,或者因为在其历史的某个时刻缺少预期的字体。 唯一真正的解决方法是找到一个 OCR(光学字符识别)应用程序并重新扫描它。 JRE 2020-12-30T06:27:28+08:002020-12-30T06:27:28+08:00 模糊的原因还有另一种可能:过滤层放置在扫描的光栅层上方。 几年前,我在一个网络中有文档扫描仪的地方工作。您扫描了您的东西,扫描仪通过电子邮件将副本发送给您 - 或者您可以将其直接发送到其他人的电子邮件地址。 有时,文本文档的扫描结果会非常模糊。作为最了解 IT 知识的人,我一直在努力找出问题所在。 事实证明,扫描仪错误地将文本识别为图片,并在其上方插入了一个过滤器,以减少由半色调图像的点和扫描仪分辨率导致的摩尔纹效果。 您可以通过使用 PDF 编辑器删除文本上方的过滤层来修复这些模糊的文本扫描。 我从来没有弄清楚为什么有些扫描有过滤器而有些没有。半色调识别算法中的一些错误或边缘情况 - 谁知道。 您的模糊可能不是由过滤器引起的,但请记住这一点。
这是一个栅格图层,不幸的是,它还包含文本。可以说修复此类 PDF 的最简单方法是使用ABBYY FineReader(商业版,适用于 Windows、Linux、mac OS)。根据所需场景加载和处理 PDF 或图像文件。例如,在这里我们真的不需要预处理,并且在为文档选择英语语言后 OCR 可以正常工作:
保存识别的文档时,请确保在保存模式部分选择仅文本和图片:
这将产生一个“干净”的 PDF,其矢量字体可以在没有像素化的情况下进行缩放:
或者,也可以使用其他免费和开源的 OCR 工具,例如tesseract / Capture2Text / NAPS2并使用LibreOffice Writer / LaTeX使用可识别的文本创建新的 PDF。
文本已被光栅化 - 变成“点”。
它仍然应该是矢量 - 使用实时绘制到屏幕上的实际字体。
这可能是因为文档被扫描并且实际上只是一张照片,或者因为在其历史的某个时刻缺少预期的字体。
唯一真正的解决方法是找到一个 OCR(光学字符识别)应用程序并重新扫描它。
模糊的原因还有另一种可能:过滤层放置在扫描的光栅层上方。
几年前,我在一个网络中有文档扫描仪的地方工作。您扫描了您的东西,扫描仪通过电子邮件将副本发送给您 - 或者您可以将其直接发送到其他人的电子邮件地址。
有时,文本文档的扫描结果会非常模糊。作为最了解 IT 知识的人,我一直在努力找出问题所在。
事实证明,扫描仪错误地将文本识别为图片,并在其上方插入了一个过滤器,以减少由半色调图像的点和扫描仪分辨率导致的摩尔纹效果。
您可以通过使用 PDF 编辑器删除文本上方的过滤层来修复这些模糊的文本扫描。
我从来没有弄清楚为什么有些扫描有过滤器而有些没有。半色调识别算法中的一些错误或边缘情况 - 谁知道。
您的模糊可能不是由过滤器引起的,但请记住这一点。