|
本帖最后由 chigre3 于 2018-6-30 21:37 编辑
' g$ c+ Q6 Q- Z; d* O4 L: I1 j% ]7 K
不用另外写个小程序,直接综合使用现有的工具软件。0 {+ S9 h5 ~. D2 V
/ b1 j5 b0 Q* y* I- E# @ E正文页面的首末单词索引制作方式:( W1 x/ m9 \: e8 C: j( Q
注意:当然可以直接手工录入的方式,完成后再按步骤6检校3次。# N; M! ?, |: k6 ~. V! \
3 ~2 G( i$ |# M+ H }. Z2 G
(1) 使用 ComicEnhancerPro 【批处理】将所有页面纯黑白化;
: `8 q4 {/ s- i6 o$ x* L+ T5 G(2) 使用 ImageMagick 【批处理】(.bat) 对页面采取固定位置+固定大小切图,得到包含单词的页眉截图;+ ?2 {; y* Q4 l7 p5 t) b& D1 Y
(3) 使用 FineReader 对切图识别,导出文本文件, 每个切图对应一个文本;/ j) i3 r8 p+ g# H
(4) 使用 TextForever 合并文本,添加文件名信息和空白行,整理文本;; r ]* g- X! x, R4 q
(5) 屏幕左边使用 ComicsViewer 打开图片,适合宽度显示;屏幕右边使用 EmEditor 校对步骤4的文本 (第1次)。
t3 Q0 v. F- @ p.s. 原扫描图片为高清, OCR识别后的步骤5需要修改的地方不多,可能不是很有必要!修改的地方仅仅为:个别空格缺少,个别单词的字母识别错误(使用单词拼写检查无法检查出); l# g& H$ x2 G) @& M* j9 u! w
(6) 使用 Excel 的拼写检查核对一下 (第2次),然后再使用排序检查 (第3次),最后将这些单词和MW英文版的大词库词条进行删除重复测试检查是否有范围外的单词 (第4次)) `! I- n" t+ [
, V' j" y6 Z. i& V( @
这样的单词索引,稍微加工之后,可用于Goldendict通过加载python脚本实现整页版查询、显示、翻页等等功能。/ f: p; V' a. T. \
延伸阅读:
$ ]+ g# Y! O! X8 Q6 m[设想]一种新的词典格式[专为图片版词典设计]
, t6 T+ d* \) }https://www.pdawiki.com/forum/fo ... hread&tid=22035
) _+ Q& F7 o2 l9 `) W1 M 我的楼层:
. B/ Z2 I0 A$ [- _. N+ H https://www.pdawiki.com/forum/fo ... 2035&pid=5208586 j# `- ^8 z/ ?) `
. {" b3 f& v$ c3 L
* B4 L7 n) B$ D D& `# F b% D8 R |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?免费注册
x
评分
-
3
查看全部评分
-
|