crazybyte Asked: 2010-03-01 11:52:14 +0800 CST2010-03-01 11:52:14 +0800 CST 2010-03-01 11:52:14 +0800 CST 可以在 Linux 上执行 OCR 吗? 772 我需要一个基于 Linux 的服务器,它可以设置为接收图像并将它们转换为将插入数据库的文本。这可能吗,尤其是通过 API 允许组织在需要时与服务交互? ocr 4 个回答 Voted Best Answer Ronald Pottol 2010-03-01T13:41:31+08:002010-03-01T13:41:31+08:00 Teseract 似乎是最好的。 http://code.google.com/p/tesseract-ocr/ 评论似乎说它是唯一比重新输入内容更好的方法。 http://www.linux.com/archive/feature/138511 http://www.linux.com/archive/feed/57222 人们不谷歌任何钱吗?5 分钟阅读我用“linux ocr”作为搜索词提取的内容。 mxg 2010-03-01T12:11:55+08:002010-03-01T12:11:55+08:00 我有一个需要 OCR 的项目。您可以将 GOCR 用于 OCR 部分。要转换为 pbm 图像格式,您可以使用 djpeg。如果需要与web集成,可以从PHP调用conversion/ocr,也可以从这里实现DB保存。 Tom O'Connor 2010-03-01T13:50:15+08:002010-03-01T13:50:15+08:00 我会设置一个消息队列并将任务提交给它进行处理。您真正需要做的就是将文件作为图像上传到共享存储平台(可能是 GlusterFS 或类似平台),然后将文件名和路径推送到消息队列中进行处理。然后,您需要做的就是设置一个进程来监听队列,并在其上运行 gocr,将输出数据推送到您的数据库中。 容易..理论上。;) rlangner 2010-07-03T13:14:54+08:002010-07-03T13:14:54+08:00 你看过WatchOCR吗?它是一个免费且开源的 OCR 服务器,可将仅图像 PDF 转换为来自监视文件夹或网络共享的文本可搜索 PDF。
Teseract 似乎是最好的。 http://code.google.com/p/tesseract-ocr/
评论似乎说它是唯一比重新输入内容更好的方法。 http://www.linux.com/archive/feature/138511 http://www.linux.com/archive/feed/57222
人们不谷歌任何钱吗?5 分钟阅读我用“linux ocr”作为搜索词提取的内容。
我有一个需要 OCR 的项目。您可以将 GOCR 用于 OCR 部分。要转换为 pbm 图像格式,您可以使用 djpeg。如果需要与web集成,可以从PHP调用conversion/ocr,也可以从这里实现DB保存。
我会设置一个消息队列并将任务提交给它进行处理。您真正需要做的就是将文件作为图像上传到共享存储平台(可能是 GlusterFS 或类似平台),然后将文件名和路径推送到消息队列中进行处理。然后,您需要做的就是设置一个进程来监听队列,并在其上运行 gocr,将输出数据推送到您的数据库中。
容易..理论上。;)
你看过WatchOCR吗?它是一个免费且开源的 OCR 服务器,可将仅图像 PDF 转换为来自监视文件夹或网络共享的文本可搜索 PDF。