|
|
本帖最后由 chigre3 于 2018-6-30 21:37 编辑 ! m( B+ q F- L7 v- C
/ F; i" M& a9 A5 q$ ?9 I4 C( ?1 C& l
不用另外写个小程序,直接综合使用现有的工具软件。
( _% B9 c7 ^: A. p9 p6 y/ H
2 Q- s. V1 V9 ^$ ~3 f正文页面的首末单词索引制作方式:
* X4 S4 B8 B" U! |! N注意:当然可以直接手工录入的方式,完成后再按步骤6检校3次。
8 o u/ J- t; E6 R# G* t" g+ k) ?1 q" m! \- J" m' Y
(1) 使用 ComicEnhancerPro 【批处理】将所有页面纯黑白化;
+ v& p) K; `& v" a7 L7 |4 g/ Q: ](2) 使用 ImageMagick 【批处理】(.bat) 对页面采取固定位置+固定大小切图,得到包含单词的页眉截图;4 w5 |3 }( F0 O. m0 f% |
(3) 使用 FineReader 对切图识别,导出文本文件, 每个切图对应一个文本;% g4 t1 z o' G9 V/ k
(4) 使用 TextForever 合并文本,添加文件名信息和空白行,整理文本;6 N) [: @" G% B8 ]
(5) 屏幕左边使用 ComicsViewer 打开图片,适合宽度显示;屏幕右边使用 EmEditor 校对步骤4的文本 (第1次)。- ~. ] A# a+ P" E7 D6 P& s
p.s. 原扫描图片为高清, OCR识别后的步骤5需要修改的地方不多,可能不是很有必要!修改的地方仅仅为:个别空格缺少,个别单词的字母识别错误(使用单词拼写检查无法检查出)4 ~) m' N3 f, \" Y( d4 R9 u
(6) 使用 Excel 的拼写检查核对一下 (第2次),然后再使用排序检查 (第3次),最后将这些单词和MW英文版的大词库词条进行删除重复测试检查是否有范围外的单词 (第4次)6 ~6 N/ g+ h; y/ m# l4 W/ N; d: T# O
# c# K% Y2 O% i/ ?/ i7 y) v3 m这样的单词索引,稍微加工之后,可用于Goldendict通过加载python脚本实现整页版查询、显示、翻页等等功能。1 l3 {' d* |! S$ a
延伸阅读:
1 v1 l. Z! ~' {4 U[设想]一种新的词典格式[专为图片版词典设计]' ^' n8 A2 J4 Z
https://www.pdawiki.com/forum/fo ... hread&tid=22035
/ ^" v, |: M; v/ P. T 我的楼层:
+ K, J% Q7 W& y& `+ a https://www.pdawiki.com/forum/fo ... 2035&pid=520858
9 f6 k3 F/ i* z4 @% @ m, {; c5 B9 W3 {* T: J7 {
\6 A- f9 k- N. U' T V |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?免费注册
x
评分
-
3
查看全部评分
-
|