|
|
本帖最后由 chigre3 于 2018-6-30 21:37 编辑 8 K4 h& `+ f& p- W) t$ \
s ]! G9 {* _0 V
不用另外写个小程序,直接综合使用现有的工具软件。* p, [: k3 }! J
6 l1 H, G* C, ?9 n y# J* N正文页面的首末单词索引制作方式:7 b4 y9 z0 G {
注意:当然可以直接手工录入的方式,完成后再按步骤6检校3次。
7 W/ E0 Q j& @( B, g
& c5 D( H* l" k2 [0 P(1) 使用 ComicEnhancerPro 【批处理】将所有页面纯黑白化;
9 S# ]/ x! s4 }$ A- x( k: M(2) 使用 ImageMagick 【批处理】(.bat) 对页面采取固定位置+固定大小切图,得到包含单词的页眉截图;
}/ N0 G9 A X6 C1 ? g1 ~(3) 使用 FineReader 对切图识别,导出文本文件, 每个切图对应一个文本;
1 O0 `1 `$ x0 o. z9 y% j(4) 使用 TextForever 合并文本,添加文件名信息和空白行,整理文本;' J' I& x' t7 u! R! Q" O
(5) 屏幕左边使用 ComicsViewer 打开图片,适合宽度显示;屏幕右边使用 EmEditor 校对步骤4的文本 (第1次)。- W( M8 N3 h: ~) ~, v9 S- O. r, }' L
p.s. 原扫描图片为高清, OCR识别后的步骤5需要修改的地方不多,可能不是很有必要!修改的地方仅仅为:个别空格缺少,个别单词的字母识别错误(使用单词拼写检查无法检查出)
$ c" J. M) Y7 N9 Z(6) 使用 Excel 的拼写检查核对一下 (第2次),然后再使用排序检查 (第3次),最后将这些单词和MW英文版的大词库词条进行删除重复测试检查是否有范围外的单词 (第4次)* e% r& h' t$ j" L: _
* n- D1 N- t. H. [# V
这样的单词索引,稍微加工之后,可用于Goldendict通过加载python脚本实现整页版查询、显示、翻页等等功能。
& Q5 c: z) D9 x延伸阅读:1 `( q. S4 Q0 n* w: S+ i
[设想]一种新的词典格式[专为图片版词典设计]7 @- C# `0 C1 H( u
https://www.pdawiki.com/forum/fo ... hread&tid=22035
. C2 C4 a3 r, F } 我的楼层:9 Q4 N F5 ]6 N# U8 E2 O3 V
https://www.pdawiki.com/forum/fo ... 2035&pid=520858
" z" C% o) p; w E/ E' G" n
3 k3 k; E& i5 a2 {% v
! }5 R" N% R' C/ a& Q( \7 ]/ t$ S |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?免费注册
x
评分
-
3
查看全部评分
-
|