|
本帖最后由 chigre3 于 2018-6-30 21:37 编辑 7 U. A/ A/ A+ G$ n$ y
& w1 `5 A( @% k6 @$ x, [9 g8 E3 T
不用另外写个小程序,直接综合使用现有的工具软件。
" L o8 @# J; F
& x" _# U4 e0 r l; p# b正文页面的首末单词索引制作方式:
* v* N* d+ v" J- E; r5 E- I注意:当然可以直接手工录入的方式,完成后再按步骤6检校3次。
$ k0 t' S0 Y5 x
' h% X1 D& ~3 h+ T(1) 使用 ComicEnhancerPro 【批处理】将所有页面纯黑白化;& `9 J! B9 v& V5 ]! v! @
(2) 使用 ImageMagick 【批处理】(.bat) 对页面采取固定位置+固定大小切图,得到包含单词的页眉截图;8 U A' h/ f, X
(3) 使用 FineReader 对切图识别,导出文本文件, 每个切图对应一个文本;9 Z: ~. m) K/ V- b e7 n. q, C
(4) 使用 TextForever 合并文本,添加文件名信息和空白行,整理文本;
7 h* V3 T/ G7 ^: s(5) 屏幕左边使用 ComicsViewer 打开图片,适合宽度显示;屏幕右边使用 EmEditor 校对步骤4的文本 (第1次)。
+ l2 F* E; Z0 g# e- f8 ? p.s. 原扫描图片为高清, OCR识别后的步骤5需要修改的地方不多,可能不是很有必要!修改的地方仅仅为:个别空格缺少,个别单词的字母识别错误(使用单词拼写检查无法检查出)* B0 T; V8 w* r7 p" N$ [# N
(6) 使用 Excel 的拼写检查核对一下 (第2次),然后再使用排序检查 (第3次),最后将这些单词和MW英文版的大词库词条进行删除重复测试检查是否有范围外的单词 (第4次)
* P. f( e/ y- A9 H6 h
: g8 t. O0 `! _, L9 ?8 |5 _1 }4 T这样的单词索引,稍微加工之后,可用于Goldendict通过加载python脚本实现整页版查询、显示、翻页等等功能。' Y/ L$ I) h& O! P4 [1 B2 Q
延伸阅读:
! u u6 p$ e! L8 D[设想]一种新的词典格式[专为图片版词典设计]. e# P6 P+ V$ r# J y
https://www.pdawiki.com/forum/fo ... hread&tid=22035
; f' f5 c! n% b- N 我的楼层:
& e# j0 H0 r% @5 n/ \ https://www.pdawiki.com/forum/fo ... 2035&pid=520858
: v8 x# s2 \ s4 t9 t
* K( H6 Z3 C) @1 n$ [. Z
* x/ p; X( R" Q1 A |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?免费注册
x
评分
-
3
查看全部评分
-
|