|
本帖最后由 chigre3 于 2018-6-30 21:37 编辑
1 N; r6 Y% h) E; c9 \; N! m" t1 d% V8 Q9 N3 m: C# U
不用另外写个小程序,直接综合使用现有的工具软件。
$ \: Y+ L l4 o# J: l5 [, B% i( f9 Y, {+ L4 h
正文页面的首末单词索引制作方式:
2 m6 J8 D7 R& \; _% f& N注意:当然可以直接手工录入的方式,完成后再按步骤6检校3次。
4 O. v! C* f' u5 @# |( }0 ]- X8 U" @/ k6 ^
(1) 使用 ComicEnhancerPro 【批处理】将所有页面纯黑白化;
5 V$ O" L6 G5 e# Y9 N& @. }& q(2) 使用 ImageMagick 【批处理】(.bat) 对页面采取固定位置+固定大小切图,得到包含单词的页眉截图;5 n, S, M6 G& R4 g
(3) 使用 FineReader 对切图识别,导出文本文件, 每个切图对应一个文本;; D* Z; z+ L% \( N, i U8 H
(4) 使用 TextForever 合并文本,添加文件名信息和空白行,整理文本;
" C" C6 O! E8 d$ t5 ?(5) 屏幕左边使用 ComicsViewer 打开图片,适合宽度显示;屏幕右边使用 EmEditor 校对步骤4的文本 (第1次)。, M0 ]: M) z& J5 R% |
p.s. 原扫描图片为高清, OCR识别后的步骤5需要修改的地方不多,可能不是很有必要!修改的地方仅仅为:个别空格缺少,个别单词的字母识别错误(使用单词拼写检查无法检查出)6 f! o- u2 t4 ]) u4 M
(6) 使用 Excel 的拼写检查核对一下 (第2次),然后再使用排序检查 (第3次),最后将这些单词和MW英文版的大词库词条进行删除重复测试检查是否有范围外的单词 (第4次)
1 b7 o& Z9 _6 N6 c! q5 k$ x# _- L7 R$ k. q5 I+ Z0 g8 h
这样的单词索引,稍微加工之后,可用于Goldendict通过加载python脚本实现整页版查询、显示、翻页等等功能。* _ G1 q! k% B' Z. G/ x) U
延伸阅读:
$ I/ q1 E! j$ L[设想]一种新的词典格式[专为图片版词典设计]/ `) {1 k* m6 @) z
https://www.pdawiki.com/forum/fo ... hread&tid=22035# X7 _/ U+ e6 r7 D: j: m# J
我的楼层:( \% d( n+ l2 W
https://www.pdawiki.com/forum/fo ... 2035&pid=520858
% J' M, N% w5 k Y
* x7 T- q8 f6 ?0 V6 G* F% H6 W+ z1 D+ T4 i$ d) d% o0 _. i4 N! P
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?免费注册
x
评分
-
3
查看全部评分
-
|