掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 796|回复: 9

[讨论] 哪个软件是最佳词典OCR软件?

[复制链接]
  • TA的每日心情

    2019-9-23 23:38
  • 签到天数: 8 天

    [LV.3]偶尔看看II

    发表于 2019-10-5 14:20:38 | 显示全部楼层 |阅读模式
    目前自用的是ACROBAT,感觉效果不大好。

    本帖被以下淘专辑推荐:

  • TA的每日心情

    2023-3-29 00:54
  • 签到天数: 344 天

    [LV.8]以坛为家I

    发表于 2019-10-5 17:05:48 | 显示全部楼层
    本帖最后由 mtaa 于 2019-10-5 17:08 编辑
    / q9 B/ Z/ _) f4 c
    / I& o0 o9 n+ l* g0 d- `要达到最佳的ocr效果,就要对词条义项进行切图分开处理。每个词条要切开,词头音标要单独处理,中英文释义要分别切开单独ocr,有预定义的单词表规则表去ocr效果更好,几乎100%的识别率(见第二条链接)。
    & ]& ?7 `' e$ c7 w6 U8 N1 M5 Q) u
    9 X: C% U0 z$ ]8 D2 [9 c. }参考:
    : L% N- p( S; G1 D# y7 z6 ~4 Y% z5 }5 ghttps://github.com/tesseract-ocr/tesseract/wiki/ImproveQuality1 X" b9 ]6 `! S! g' ]/ z/ b
    https://github.com/tesseract-ocr/tesseract/wiki/APIExample-user_patterns  R; j* u# X  D% c* Q( h
    6 c+ |# t: O, u3 {5 y2 O" F
  • TA的每日心情
    开心
    2023-10-12 12:52
  • 签到天数: 1502 天

    [LV.Master]伴坛终老

    发表于 2019-10-5 14:32:14 | 显示全部楼层
    能识别英语音标的才是最好的,不知道哪款能够实现,望高手指点

    点评

    赞同。不能音标都不行。smiling  发表于 2019-10-5 14:40
  • TA的每日心情
    开心
    2020-7-4 12:37
  • 签到天数: 119 天

    [LV.6]常住居民II

    发表于 2019-10-5 14:33:53 | 显示全部楼层
    识别率最高的应该是:ABBYY FineReader。
  • TA的每日心情
    擦汗
    2023-11-29 11:30
  • 签到天数: 335 天

    [LV.8]以坛为家I

    发表于 2019-10-5 14:46:24 | 显示全部楼层
    文电通对中文的识别率和准确度很不错,曾经拿acrobat、Abbyy finereader最新版做过对比,文电通识别转换过来的文档是最好的。
  • TA的每日心情
    开心
    2020-1-5 08:04
  • 签到天数: 50 天

    [LV.5]常住居民I

    发表于 2019-10-5 17:19:22 | 显示全部楼层
    白描APP不錯,中文識別率還可以。不過不支持PDF,批量有些麻煩
  • TA的每日心情

    2019-9-23 23:38
  • 签到天数: 8 天

    [LV.3]偶尔看看II

     楼主| 发表于 2019-10-5 18:52:16 | 显示全部楼层
    woaini123 发表于 2019-10-5 14:46
    2 n/ U: y- o2 t# J' v# L文电通对中文的识别率和准确度很不错,曾经拿acrobat、Abbyy finereader最新版做过对比,文电通识别转换过 ...
    9 S: J. M8 Q4 C( z
    现在都是先下载网上现成的扫描版PDF,然后再自己OCR。很少有人自己亲自扫描实体书。
    * M( M# ]( D: x文电通可以象ACROBAT那样生成双层PDF吗?
    $ [$ Y' ^) j0 I, [# W( v7 I如果能的话,要不要先将PDF萃取出一页页的扫描图像文件之后才能做第二步OCR?ACROBAT是无需先转图像而是直接在PDF上OCR生成双层PDF的。
  • TA的每日心情

    2019-9-23 23:38
  • 签到天数: 8 天

    [LV.3]偶尔看看II

     楼主| 发表于 2019-10-5 18:53:40 | 显示全部楼层
    999阿彌陀佛 发表于 2019-10-5 17:19
    " K/ c3 ]/ a/ @! P- ~+ y; t' X7 k* F  A白描APP不錯,中文識別率還可以。不過不支持PDF,批量有些麻煩
    ) o# k* R+ b: a& z" H1 ~
    忘记强调,大部分扫描都是中英文混合的资料,词典都是这样的。仅仅对单纯的中文或对单纯的英文OCR识别率高并无太大意义。
  • TA的每日心情
    擦汗
    2023-11-29 11:30
  • 签到天数: 335 天

    [LV.8]以坛为家I

    发表于 2019-10-5 19:01:14 | 显示全部楼层
    lbhl 发表于 2019-10-5 18:528 h1 R- C# \0 L7 i$ S+ {
    现在都是先下载网上现成的扫描版PDF,然后再自己OCR。很少有人自己亲自扫描实体书。
    2 ?8 N- E' `6 V; e. C5 |文电通可以象ACROBAT ...

    6 X. o" v# k3 V/ S6 t* R这个就不清楚了,只是用过他的pdf转word功能
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-4-30 01:01 , Processed in 0.126290 second(s), 11 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表