lbhl 发表于 2019-10-5 14:20:38

哪个软件是最佳词典OCR软件?

目前自用的是ACROBAT,感觉效果不大好。

mtaa 发表于 2019-10-5 17:05:48

本帖最后由 mtaa 于 2019-10-5 17:08 编辑

要达到最佳的ocr效果,就要对词条义项进行切图分开处理。每个词条要切开,词头音标要单独处理,中英文释义要分别切开单独ocr,有预定义的单词表规则表去ocr效果更好,几乎100%的识别率(见第二条链接)。

参考:
https://github.com/tesseract-ocr/tesseract/wiki/ImproveQuality
https://github.com/tesseract-ocr/tesseract/wiki/APIExample-user_patterns

sszl 发表于 2019-10-5 14:32:14

能识别英语音标的才是最好的,不知道哪款能够实现,望高手指点

jayden527 发表于 2019-10-5 14:33:53

识别率最高的应该是:ABBYY FineReader。

woaini123 发表于 2019-10-5 14:46:24

文电通对中文的识别率和准确度很不错,曾经拿acrobat、Abbyy finereader最新版做过对比,文电通识别转换过来的文档是最好的。

999阿彌陀佛 发表于 2019-10-5 17:19:22

白描APP不錯,中文識別率還可以。不過不支持PDF,批量有些麻煩

lbhl 发表于 2019-10-5 18:52:16

woaini123 发表于 2019-10-5 14:46
文电通对中文的识别率和准确度很不错,曾经拿acrobat、Abbyy finereader最新版做过对比,文电通识别转换过 ...

现在都是先下载网上现成的扫描版PDF,然后再自己OCR。很少有人自己亲自扫描实体书。
文电通可以象ACROBAT那样生成双层PDF吗?
如果能的话,要不要先将PDF萃取出一页页的扫描图像文件之后才能做第二步OCR?ACROBAT是无需先转图像而是直接在PDF上OCR生成双层PDF的。

lbhl 发表于 2019-10-5 18:53:40

999阿彌陀佛 发表于 2019-10-5 17:19
白描APP不錯,中文識別率還可以。不過不支持PDF,批量有些麻煩

忘记强调,大部分扫描都是中英文混合的资料,词典都是这样的。仅仅对单纯的中文或对单纯的英文OCR识别率高并无太大意义。

woaini123 发表于 2019-10-5 19:01:14

lbhl 发表于 2019-10-5 18:52
现在都是先下载网上现成的扫描版PDF,然后再自己OCR。很少有人自己亲自扫描实体书。
文电通可以象ACROBAT ...

这个就不清楚了,只是用过他的pdf转word功能
页: [1]
查看完整版本: 哪个软件是最佳词典OCR软件?