|
本帖最后由 chigre3 于 2018-6-30 21:37 编辑 2 A8 m5 X6 k7 v* P2 b: l
: ~3 @4 f1 U2 `不用另外写个小程序,直接综合使用现有的工具软件。# c8 {' Q- g& T3 k" J* }5 L& H! P7 y
. N: h8 G+ K3 ^5 y6 U' D正文页面的首末单词索引制作方式:, a( R1 p' I7 o D3 `4 W7 o
注意:当然可以直接手工录入的方式,完成后再按步骤6检校3次。% S/ T* T5 z T+ W6 u1 ^: J) A
" F- T- U* C8 h3 y% _(1) 使用 ComicEnhancerPro 【批处理】将所有页面纯黑白化;
5 F/ u7 J9 o4 o2 G1 ^4 o(2) 使用 ImageMagick 【批处理】(.bat) 对页面采取固定位置+固定大小切图,得到包含单词的页眉截图;4 E: F9 \+ j6 d- h
(3) 使用 FineReader 对切图识别,导出文本文件, 每个切图对应一个文本;, }, y* O0 J; O T7 }6 G
(4) 使用 TextForever 合并文本,添加文件名信息和空白行,整理文本;! N1 L6 e- @! o- g$ G& U0 D7 m" W
(5) 屏幕左边使用 ComicsViewer 打开图片,适合宽度显示;屏幕右边使用 EmEditor 校对步骤4的文本 (第1次)。5 }7 r1 L' g$ s- @! Q) m
p.s. 原扫描图片为高清, OCR识别后的步骤5需要修改的地方不多,可能不是很有必要!修改的地方仅仅为:个别空格缺少,个别单词的字母识别错误(使用单词拼写检查无法检查出)
6 X9 X# _9 E( K: Y5 e(6) 使用 Excel 的拼写检查核对一下 (第2次),然后再使用排序检查 (第3次),最后将这些单词和MW英文版的大词库词条进行删除重复测试检查是否有范围外的单词 (第4次)
$ Q) f8 S6 x) ^9 ?/ G) f$ ~/ g- _6 B9 M& ]2 E8 P1 B A# W
这样的单词索引,稍微加工之后,可用于Goldendict通过加载python脚本实现整页版查询、显示、翻页等等功能。# Z- P3 }$ P* G$ X) m7 k
延伸阅读:. X Z+ i; h8 W0 n O# p# k
[设想]一种新的词典格式[专为图片版词典设计]
- x, P+ ?5 N1 |. O$ g, shttps://www.pdawiki.com/forum/fo ... hread&tid=22035! [7 }9 b K% _% _4 ^% z/ V# l
我的楼层:& {' z8 W/ V: Q3 \6 l* U/ c
https://www.pdawiki.com/forum/fo ... 2035&pid=520858
" i. N8 M& o0 o/ o3 M- T) _
, }: ^4 j! p2 m, V
" Q3 @9 }! v. \& S) D( \. I, W |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?免费注册
x
评分
-
3
查看全部评分
-
|