Marc Le Bihan Asked: 2024-01-31 15:38:58 +0800 CST2024-01-31 15:38:58 +0800 CST 2024-01-31 15:38:58 +0800 CST tesseract ocr:为什么当我将包含计算机数字的 png 图像转换为文本文件时,它会返回垃圾? 772 我已经安装了 tesseract ocr 5.3.0(在 Debian 12 上) 我想扫描并 ocr 这个 png 文件: 当我执行: tesseract cp1.png cp1 输出cp1.txt包含意外的垃圾: y seeseeggegegegenagesseagegs feésidaedsdcsdasaredadacd sgsessesesssesagess B isgsddsadsdecansas geverdcdessaguce sses SERRRERRRRSRSRSERRRERSEsesR an 为什么? png 1 个回答 Voted Best Answer DrMoishe Pippik 2024-02-01T02:27:39+08:002024-02-01T02:27:39+08:00 OCR 取决于清晰的图像。如果人类读者对细节有些不清楚,OCR 识别字符就会更加困难。 理想情况下,在扫描或拍摄文本时,应优化图像,以便文本和背景之间存在清晰的对比度。应尽量减少皱纹和折叠,例如,通过摄影时的垂直照明或扫描时的适度压力。如果存在彩色污渍,可以调整图像以去除该颜色的斑点。 之后还可以改进图像以用于 OCR。使用免费的IrfanView花了大约三分钟根据问题中的图像生成下面的图像。它经过“检查”处理,以减少伽玛值、增加对比度和清晰度,但可以通过使用 OCR 工具进行测试来改进此处理,以优化准确性。 此外,如果在类似数据上广泛使用Tesseract,则可以训练该工具识别特定字体和特定字符。例如,如果只处理数字数据,则可以训练Tesseract只识别数字、标点符号和空格,从而提高准确性。这种培训需要付出一些努力,并且只有对于具有大量数据的长期项目才可能是值得的(例如,将仅使用几种字体的报纸的许多过刊数字化)。
OCR 取决于清晰的图像。如果人类读者对细节有些不清楚,OCR 识别字符就会更加困难。
理想情况下,在扫描或拍摄文本时,应优化图像,以便文本和背景之间存在清晰的对比度。应尽量减少皱纹和折叠,例如,通过摄影时的垂直照明或扫描时的适度压力。如果存在彩色污渍,可以调整图像以去除该颜色的斑点。
之后还可以改进图像以用于 OCR。使用免费的IrfanView花了大约三分钟根据问题中的图像生成下面的图像。它经过“检查”处理,以减少伽玛值、增加对比度和清晰度,但可以通过使用 OCR 工具进行测试来改进此处理,以优化准确性。
此外,如果在类似数据上广泛使用Tesseract,则可以训练该工具识别特定字体和特定字符。例如,如果只处理数字数据,则可以训练Tesseract只识别数字、标点符号和空格,从而提高准确性。这种培训需要付出一些努力,并且只有对于具有大量数据的长期项目才可能是值得的(例如,将仅使用几种字体的报纸的许多过刊数字化)。