chigre3 发表于 2016-8-26 22:24:08

图片版词典,词头区域切片OCR,用FineReader识别

0. 对所有的词典图片进行统一的精细处理
1. 使用本论坛 @孤影 的工具软件,配合按键精灵脚本,对图片自动划线,获取所有词头的坐标
2. 使用OCR自动切片导出,得到所有图片的所有词头的切片
3. 新建一个图片(大小同切片),添加文字内容为“aaaaaaaaaaa”(或者类似,用作标识)
4. CMD获取所有切片名称,Excel里添加列,标识每页的开始标识
5. 使用ImageMagick,在CMD里使用命令 convert -append 0.png 0001.png000.png 0.png 0001.png001.png 0.png 0001.png002.png ... _0001.png 得到最终的合并切片的总体图片
6. 使用FineReader打开这些合并了的切片总体图片,进行文字区域设置,识别,保存为txt
7. 正则处理txt(标识为aaaaaaaaaaa)。。。
8. 导入回到步骤①的词头,在高亮匹配提示下,继续进行人工核对





zhu1234 发表于 2016-8-27 21:46:22

本帖最后由 zhu1234 于 2016-8-27 21:48 编辑

还有一种手工方法:用欧路等能ocr取词的词典把词头过一遍。再把查询历史按时间一次性导出,貌似很慢,但比校对一遍省时得多。

kyletruman 发表于 2016-8-27 22:11:51

zhu1234 发表于 2016-8-27 21:46
还有一种手工方法:用欧路等能ocr取词的词典把词头过一遍。再把查询历史按时间一次性导出,貌似很慢,但比 ...

我记得欧路词典有一个欧路词典论坛,制作的词典格式为.eudic

chigre3 发表于 2016-8-27 22:56:08

zhu1234 发表于 2016-8-27 21:46
还有一种手工方法:用欧路等能ocr取词的词典把词头过一遍。再把查询历史按时间一次性导出,貌似很慢,但比 ...

这样效率很低,就等于对所有词头都点击一次

zhu1234 发表于 2016-8-27 23:37:43

批量ocr出来,还得校对一遍,效率也不高呀。

aiyingluck 发表于 2016-10-31 01:04:09

谢谢楼主分享,楼主辛苦了!

aiyingluck 发表于 2016-10-31 01:04:22

谢谢楼主分享,楼主辛苦了!

starmars 发表于 2021-2-4 21:48:28

zhu1234 发表于 2016-8-27 21:46
还有一种手工方法:用欧路等能ocr取词的词典把词头过一遍。再把查询历史按时间一次性导出,貌似很慢,但比 ...

我不相信这会比先OCR再校对会快。稍微高清一点的词典OCR词头可能连百分之一的错误率都不到。
页: [1]
查看完整版本: 图片版词典,词头区域切片OCR,用FineReader识别