|
本帖最后由 chigre3 于 2018-6-30 21:37 编辑 4 {/ [. d! T* U# p9 Z* M& x7 D* J& |
3 R6 N: o& @4 G3 j* W B7 R8 z不用另外写个小程序,直接综合使用现有的工具软件。
; d" j2 s0 u5 }& |. c6 U' U4 U1 {3 e* j) _) C
正文页面的首末单词索引制作方式:
9 n* R6 r, c3 X注意:当然可以直接手工录入的方式,完成后再按步骤6检校3次。
# ~$ l& s2 s/ y
% F( p) j( f" Y- A$ L6 q2 {(1) 使用 ComicEnhancerPro 【批处理】将所有页面纯黑白化;) m6 L( V% E8 ]. P; J2 e
(2) 使用 ImageMagick 【批处理】(.bat) 对页面采取固定位置+固定大小切图,得到包含单词的页眉截图;8 ] ~0 s4 U9 Z5 R
(3) 使用 FineReader 对切图识别,导出文本文件, 每个切图对应一个文本;
3 d& i1 s I' O: r" E! Z- P(4) 使用 TextForever 合并文本,添加文件名信息和空白行,整理文本;' ~" } `4 K7 R7 z& d8 z# i
(5) 屏幕左边使用 ComicsViewer 打开图片,适合宽度显示;屏幕右边使用 EmEditor 校对步骤4的文本 (第1次)。
3 i5 I; d0 L5 ^! D# ` p.s. 原扫描图片为高清, OCR识别后的步骤5需要修改的地方不多,可能不是很有必要!修改的地方仅仅为:个别空格缺少,个别单词的字母识别错误(使用单词拼写检查无法检查出)
% c5 ~; h' Z9 v! ?: f& ^(6) 使用 Excel 的拼写检查核对一下 (第2次),然后再使用排序检查 (第3次),最后将这些单词和MW英文版的大词库词条进行删除重复测试检查是否有范围外的单词 (第4次)
- X' {* {9 R; V9 M- r; x. |; N0 M9 ?: S% l. N; W$ W6 r3 P1 o! u
这样的单词索引,稍微加工之后,可用于Goldendict通过加载python脚本实现整页版查询、显示、翻页等等功能。: D6 S0 }2 @: K% u4 U
延伸阅读:* J' w8 _% [1 U) p- x8 x U+ {' a1 J
[设想]一种新的词典格式[专为图片版词典设计]
' r0 i/ }( i' J7 P$ n! [$ x) P$ \https://www.pdawiki.com/forum/fo ... hread&tid=22035
/ J1 a1 x# n5 R* a3 `$ Q$ e 我的楼层:
" t l: ?% e9 {: y, ]1 X https://www.pdawiki.com/forum/fo ... 2035&pid=520858) c7 e6 u1 C- |4 B) P/ [' t' A
* E* O: |7 i* Z1 M0 ^: b, H# T" ?6 u: k h' O4 N
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?免费注册
x
评分
-
3
查看全部评分
-
|