制作汉语图片词典索引词头用的方便软件
最近发现 汉王 PDF OCR 挺方便的,尤其是在识别中文 PDF 扫描文档方面,只要原始档案足够清晰,识别效果还算令人满意,配合着这个软件的版面分析,可以识别多分栏的 PDF,识别后的红框可以删除,调大,缩小,可以方便过滤掉无关内容,扫描出来的文字上方会有图片提示,方便改错,下面的图片窗格会随着相关内容移动,给改错提供了便利:初步过一遍,改完,符合正则表达式替换的规则后,处理起来就很快了:
根据我自己的测试,处理完一页得到完美的词头索引大概需要 5 分 40 秒,其中每页含词头 134 个。如果一本书,就像我图中的那本,词条 11899,需要总耗时大概 7.4 小时,也就是每天 1 小时,一周就可以做出来,比人工录入快多了。像中型词典 70000 个词头的话,大概 50 个小时,每天两个小时,需要一个不到人月的工作量。着实方便不少。如果大家一起加速,制作起来还是很快的。需要的朋友可是网上搜索试试这个软件。个人免费带广告,大概 30 多兆。
真是利器。不知道比acrobat的效果是不是更好一些。
谢谢排版和分享 请问词头转化为文本之后,如何制作呀?新建txt,每一行依次输入:
三有;85
三达;85
三轨;85
就可以了吗
soapy6 发表于 2017-4-27 07:27
请问词头转化为文本之后,如何制作呀?新建txt,每一行依次输入:
三有;85
三达;85
可参看tsiank大大的图片词典制作攻略https://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=13451
页:
[1]