掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 2618|回复: 6

[教程] 获取正文页面的首末单词索引

[复制链接]

该用户从未签到

发表于 2018-6-30 19:28:21 | 显示全部楼层 |阅读模式
本帖最后由 chigre3 于 2018-6-30 21:37 编辑 ! m( B+ q  F- L7 v- C
/ F; i" M& a9 A5 q$ ?9 I4 C( ?1 C& l
不用另外写个小程序,直接综合使用现有的工具软件
( _% B9 c7 ^: A. p9 p6 y/ H
2 Q- s. V1 V9 ^$ ~3 f正文页面的首末单词索引制作方式:
* X4 S4 B8 B" U! |! N注意:当然可以直接手工录入的方式,完成后再按步骤6检校3次。
8 o  u/ J- t; E6 R# G* t" g+ k) ?1 q" m! \- J" m' Y
(1) 使用 ComicEnhancerPro 【批处理】将所有页面纯黑白化;
+ v& p) K; `& v" a7 L7 |4 g/ Q: ](2) 使用 ImageMagick 【批处理】(.bat) 对页面采取固定位置+固定大小切图,得到包含单词的页眉截图;4 w5 |3 }( F0 O. m0 f% |
(3) 使用 FineReader 对切图识别,导出文本文件, 每个切图对应一个文本;% g4 t1 z  o' G9 V/ k
(4) 使用 TextForever 合并文本,添加文件名信息和空白行,整理文本;6 N) [: @" G% B8 ]
(5) 屏幕左边使用 ComicsViewer 打开图片,适合宽度显示;屏幕右边使用 EmEditor 校对步骤4的文本 (第1次)。- ~. ]  A# a+ P" E7 D6 P& s
          p.s. 原扫描图片为高清, OCR识别后的步骤5需要修改的地方不多,可能不是很有必要!修改的地方仅仅为:个别空格缺少,个别单词的字母识别错误(使用单词拼写检查无法检查出)4 ~) m' N3 f, \" Y( d4 R9 u
(6) 使用 Excel 的拼写检查核对一下 (第2次),然后再使用排序检查 (第3次),最后将这些单词和MW英文版的大词库词条进行删除重复测试检查是否有范围外的单词 (第4次)6 ~6 N/ g+ h; y/ m# l4 W/ N; d: T# O

# c# K% Y2 O% i/ ?/ i7 y) v3 m这样的单词索引,稍微加工之后,可用于Goldendict通过加载python脚本实现整页版查询、显示、翻页等等功能。1 l3 {' d* |! S$ a
延伸阅读:
1 v1 l. Z! ~' {4 U[设想]一种新的词典格式[专为图片版词典设计]' ^' n8 A2 J4 Z
https://www.pdawiki.com/forum/fo ... hread&tid=22035
/ ^" v, |: M; v/ P. T    我的楼层:
+ K, J% Q7 W& y& `+ a    https://www.pdawiki.com/forum/fo ... 2035&pid=520858
9 f6 k3 F/ i* z4 @% @  m, {; c5 B9 W3 {* T: J7 {

  \6 A- f9 k- N. U' T  V

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?免费注册

x

评分

3

查看全部评分

本帖被以下淘专辑推荐:

  • TA的每日心情
    擦汗
    2019-8-11 08:28
  • 签到天数: 10 天

    [LV.3]偶尔看看II

    发表于 2018-6-30 20:37:16 | 显示全部楼层
    虽然不是很懂,但是还是要收藏,对于你最后那个“于Goldendict通过加载python脚本实现整页版查询、显示、翻页等等功能”,脚本能提供吗

    该用户从未签到

    发表于 2018-6-30 20:55:08 | 显示全部楼层
    哈哈,很详细了9 D. x/ M. q" F% p
    , i* o- w2 @  k. L, f6 p: k
    不过某双语辞海比较坑,它的页面高低不一,当初我用abbyy固定位置切图颇费周折

    该用户从未签到

     楼主| 发表于 2018-7-1 04:16:33 | 显示全部楼层
    本帖最后由 chigre3 于 2018-7-1 04:20 编辑
    + O; O0 _" t/ B, _) T5 x6 l) h- S( h8 s, g0 m/ b' d
    楼上几位,之前图片版词典在goldendict里如何实现整页查询有过讨论的,可以参考参考。3 Z7 ?" ]/ \5 D+ w
    所用的也就是页末单词索引,被查词文本替换后,将其在索引中进行定位,可以得到页码,显示该页码图片。
  • TA的每日心情
    奋斗
    2018-11-10 00:38
  • 签到天数: 346 天

    [LV.8]以坛为家I

    发表于 2018-7-26 22:10:11 | 显示全部楼层
    折腾图片的活儿,都是折磨人的活儿.辛苦了.
  • TA的每日心情
    奋斗
    2019-10-13 07:34
  • 签到天数: 209 天

    [LV.7]常住居民III

    发表于 2019-1-31 01:53:45 | 显示全部楼层
    关于第二步,可否给个案例?7 B6 p1 n# a% p2 c4 n3 S! m
    3 \7 d- |' \' p+ U) e8 m) f2 n+ ?: X
    使用 ImageMagick 【批处理】(.bat) 对页面采取固定位置+固定大小切图,得到包含单词的页眉截图;

    该用户从未签到

    发表于 2019-1-31 09:36:21 | 显示全部楼层
    VimVim 发表于 2019-1-31 01:534 x+ I; f0 q3 l, x! u
    关于第二步,可否给个案例?
      j  N2 N0 r5 P2 O
    你用别的软件都行,我用xnview
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2026-6-10 08:20 , Processed in 0.020994 second(s), 24 queries .

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表