掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 2841|回复: 7

[教程] 图片版词典,词头区域切片OCR,用FineReader识别

[复制链接]

该用户从未签到

发表于 2016-8-26 22:24:08 | 显示全部楼层 |阅读模式
0. 对所有的词典图片进行统一的精细处理
9 b8 d% R- b( N% K5 F, z1. 使用本论坛 @孤影 的工具软件,配合按键精灵脚本,对图片自动划线,获取所有词头的坐标
) [0 O7 y8 F- a! p$ B2. 使用OCR自动切片导出,得到所有图片的所有词头的切片
+ S8 e6 ]! B8 [4 @4 @, p! j! E3. 新建一个图片(大小同切片),添加文字内容为“aaaaaaaaaaa”(或者类似,用作标识)$ T8 n  n/ O6 Y; O' f
4. CMD获取所有切片名称,Excel里添加列,标识每页的开始标识
& _: E# p7 H. {  L5. 使用ImageMagick,在CMD里使用命令 convert -append 0.png 0001.png000.png 0.png 0001.png001.png 0.png 0001.png002.png ... _0001.png 得到最终的合并切片的总体图片8 A8 c2 q3 b6 e
6. 使用FineReader打开这些合并了的切片总体图片,进行文字区域设置,识别,保存为txt
/ j% f5 L$ I+ c) G5 r" C: ]7. 正则处理txt(标识为aaaaaaaaaaa)。。。+ b- e7 v1 u$ d9 M
8. 导入回到步骤①的词头,在高亮匹配提示下,继续进行人工核对7 D; H+ e- ~9 ~% V1 _" l, `* Z" E

+ d$ z7 s; Z' Y- p9 J% g7 d( U" v
& |' A. [8 ~; {  h4 w) Y% A) r6 {' K( V1 y6 K5 h, }. f, @

% m3 K- q6 X1 f# ]! Q# u
1 m' o3 d+ b/ g; w$ L+ X1 m! W

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?免费注册

x

本帖被以下淘专辑推荐:

该用户从未签到

发表于 2016-8-27 21:46:22 | 显示全部楼层
本帖最后由 zhu1234 于 2016-8-27 21:48 编辑 9 t) X2 i& |$ M* l. D
6 t) c4 g. S) f1 G; Z7 u) n, B
还有一种手工方法:用欧路等能ocr取词的词典把词头过一遍。再把查询历史按时间一次性导出,貌似很慢,但比校对一遍省时得多。6 w2 o' C; f8 f: |
  • TA的每日心情
    开心
    2023-1-18 23:24
  • 签到天数: 211 天

    [LV.7]常住居民III

    发表于 2016-8-27 22:11:51 | 显示全部楼层
    zhu1234 发表于 2016-8-27 21:46& [6 G# b4 T: _3 ?/ V3 q9 `8 F1 K- n
    还有一种手工方法:用欧路等能ocr取词的词典把词头过一遍。再把查询历史按时间一次性导出,貌似很慢,但比 ...
    % P1 r0 B! L. m' b8 c& P# E4 _
    我记得欧路词典有一个欧路词典论坛,制作的词典格式为.eudic

    该用户从未签到

     楼主| 发表于 2016-8-27 22:56:08 | 显示全部楼层
    zhu1234 发表于 2016-8-27 21:46
    , m1 a' M% }% |1 Z3 ~0 F: K2 f1 d# Y还有一种手工方法:用欧路等能ocr取词的词典把词头过一遍。再把查询历史按时间一次性导出,貌似很慢,但比 ...
    ! c* D) J% \* h0 n3 P$ h' |
    这样效率很低,就等于对所有词头都点击一次

    该用户从未签到

    发表于 2016-8-27 23:37:43 | 显示全部楼层
    批量ocr出来,还得校对一遍,效率也不高呀。

    该用户从未签到

    发表于 2016-10-31 01:04:09 | 显示全部楼层
    谢谢楼主分享,楼主辛苦了!

    该用户从未签到

    发表于 2016-10-31 01:04:22 | 显示全部楼层
    谢谢楼主分享,楼主辛苦了!
  • TA的每日心情
    擦汗
    2020-7-3 13:51
  • 签到天数: 19 天

    [LV.4]偶尔看看III

    发表于 2021-2-4 21:48:28 | 显示全部楼层
    zhu1234 发表于 2016-8-27 21:46
    , p9 y5 W" z$ Q" D# V5 r还有一种手工方法:用欧路等能ocr取词的词典把词头过一遍。再把查询历史按时间一次性导出,貌似很慢,但比 ...

    # z7 M/ r" H$ g& F! p' w我不相信这会比先OCR再校对会快。稍微高清一点的词典OCR词头可能连百分之一的错误率都不到。
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2025-5-21 09:54 , Processed in 0.022163 second(s), 24 queries .

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表