图片版词典，词头区域切片OCR，用FineReader识别

chigre3 · 发表于 2016-8-26 22:24:08

0. 对所有的词典图片进行统一的精细处理
1. 使用本论坛 @孤影的工具软件，配合按键精灵脚本，对图片自动划线，获取所有词头的坐标
2. 使用OCR自动切片导出，得到所有图片的所有词头的切片
3. 新建一个图片（大小同切片），添加文字内容为“aaaaaaaaaaa”（或者类似，用作标识）
4. CMD获取所有切片名称，Excel里添加列，标识每页的开始标识
5. 使用ImageMagick，在CMD里使用命令 convert -append 0.png 0001.png000.png 0.png 0001.png001.png 0.png 0001.png002.png ... _0001.png 得到最终的合并切片的总体图片
6. 使用FineReader打开这些合并了的切片总体图片，进行文字区域设置，识别，保存为txt
7. 正则处理txt（标识为aaaaaaaaaaa）。。。
8. 导入回到步骤①的词头，在高亮匹配提示下，继续进行人工核对

zhu1234 · 发表于 2016-8-27 21:46:22

本帖最后由 zhu1234 于 2016-8-27 21:48 编辑

还有一种手工方法：用欧路等能ocr取词的词典把词头过一遍。再把查询历史按时间一次性导出，貌似很慢，但比校对一遍省时得多。

kyletruman · 发表于 2016-8-27 22:11:51

zhu1234 发表于 2016-8-27 21:46
) g9 P6 ?- @; n$ }% C, |还有一种手工方法：用欧路等能ocr取词的词典把词头过一遍。再把查询历史按时间一次性导出，貌似很慢，但比 ...

我记得欧路词典有一个欧路词典论坛，制作的词典格式为.eudic

chigre3 · 发表于 2016-8-27 22:56:08

zhu1234 发表于 2016-8-27 21:46
, T0 E$ R0 T4 x, _2 P( [还有一种手工方法：用欧路等能ocr取词的词典把词头过一遍。再把查询历史按时间一次性导出，貌似很慢，但比 ...

这样效率很低，就等于对所有词头都点击一次

zhu1234 · 发表于 2016-8-27 23:37:43

批量ocr出来，还得校对一遍，效率也不高呀。

aiyingluck · 发表于 2016-10-31 01:04:09

谢谢楼主分享，楼主辛苦了！

aiyingluck · 发表于 2016-10-31 01:04:22

谢谢楼主分享，楼主辛苦了！

starmars · 发表于 2021-2-4 21:48:28

zhu1234 发表于 2016-8-27 21:46
! d7 K. |: n2 o+ C还有一种手工方法：用欧路等能ocr取词的词典把词头过一遍。再把查询历史按时间一次性导出，貌似很慢，但比 ...

我不相信这会比先OCR再校对会快。稍微高清一点的词典OCR词头可能连百分之一的错误率都不到。

		自动登录	找回密码
密码			免费注册

[教程] 图片版词典，词头区域切片OCR，用FineReader识别

本帖子中包含更多资源

本帖被以下淘专辑推荐: