|
|
本帖最后由 chigre3 于 2018-6-30 21:37 编辑
" y) J9 `6 T( q6 X) Z' f7 V2 `6 v' z8 `) }! H0 g( q
不用另外写个小程序,直接综合使用现有的工具软件。- b L8 N% U3 G$ s( U$ o$ L2 W& R
7 n: \% q9 a# q( [. O, p$ Y$ B4 [
正文页面的首末单词索引制作方式:
: u. b6 {* s3 |注意:当然可以直接手工录入的方式,完成后再按步骤6检校3次。) v* K {3 h" F
& @, h4 G- E. S: _(1) 使用 ComicEnhancerPro 【批处理】将所有页面纯黑白化;/ }7 w1 y; h m; J( a G
(2) 使用 ImageMagick 【批处理】(.bat) 对页面采取固定位置+固定大小切图,得到包含单词的页眉截图;
, O) z( t" x; l3 E(3) 使用 FineReader 对切图识别,导出文本文件, 每个切图对应一个文本;- v' \1 o/ f# G3 C0 V, U1 ?1 P' H9 h
(4) 使用 TextForever 合并文本,添加文件名信息和空白行,整理文本;
! p. e0 n7 g$ J/ j9 G: L4 d(5) 屏幕左边使用 ComicsViewer 打开图片,适合宽度显示;屏幕右边使用 EmEditor 校对步骤4的文本 (第1次)。$ x1 X( s# |- I; Z. X3 i! G* A
p.s. 原扫描图片为高清, OCR识别后的步骤5需要修改的地方不多,可能不是很有必要!修改的地方仅仅为:个别空格缺少,个别单词的字母识别错误(使用单词拼写检查无法检查出)
+ {, S7 V7 K7 d# B! m: z5 {(6) 使用 Excel 的拼写检查核对一下 (第2次),然后再使用排序检查 (第3次),最后将这些单词和MW英文版的大词库词条进行删除重复测试检查是否有范围外的单词 (第4次)3 @" s5 V5 T" Z3 `+ K' K
# b; j y/ @. F: @* j; D; k
这样的单词索引,稍微加工之后,可用于Goldendict通过加载python脚本实现整页版查询、显示、翻页等等功能。
) v+ L5 F$ H, ~ M% K延伸阅读:. l x" H8 j9 j9 ~; Y: v+ ~/ T# q
[设想]一种新的词典格式[专为图片版词典设计]
9 D( R& b4 D! T/ T% W0 rhttps://www.pdawiki.com/forum/fo ... hread&tid=22035
9 M+ d- z# A% }6 a" I4 T 我的楼层:
3 ?0 a0 G& l/ x/ E8 g https://www.pdawiki.com/forum/fo ... 2035&pid=520858# z4 D4 P% G# Z& @- K
4 q4 ^8 b3 y/ _* ^/ i @
1 ]: M, b* o' s- X1 S) y) J
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?免费注册
x
评分
-
3
查看全部评分
-
|