掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 1290|回复: 5

[教程] 【图片版词典】整理框架

[复制链接]

该用户从未签到

发表于 2019-1-28 03:14:07 | 显示全部楼层 |阅读模式
从上而下,依照制作精力耗费、完美程度升序排列(越往下,耗费精力越多,质量越好):
. z$ @9 g1 q. X9 D* z* r7 o————————————————+ z: J; [5 n8 T& S, \2 [
1. 【页首单词】或者【页末单词】/ p5 `* }5 T, \6 W0 K
  解决方案:
; c" ?6 x- h; I  (1) 在GoldenDict中加载python外置小代码,实现查询单词定位到页的整页图片版
  F) X7 R4 J0 h# h9 ]/ x3 c! {( i: X( [  (2) 在Mdict PC版中加载制作好了页首页末索引,利用Mdict PC版本身的输入单词定位到页" ?: m4 Q& ?. g) F* q

/ j, R6 D  X8 p. A; H2. 使用【页首单词】或者【页末单词】,对更大范围的词头索引进行分隔操作# K' u, u' W! e  {% A# Z- }
  解决方案:# G* M0 A1 ~9 O+ c: n0 A. W
  (1) 分隔后的粗略索引直接定位到整页) J  @* Q# @  n" O
  (2) 分隔后的粗略索引进行人工校对,得到精确索引:" d3 Z- Q/ \  k; E3 q% Y9 T
    (A) 不带坐标9 A) L2 ]: s9 w$ E- t6 `
    (B) 附带坐标: 划线软件,在各种辅助提示下高效人工校对索引2 }. v; S9 V# Z
      (b1) 带高亮显示的精确定位框、支持锚点跳转的整页版
8 B0 c2 r  O( y  X2 I  J      (b2) 根据坐标信息进行计算而得到的切图版,一个词头对应1+以上的小切图
1 ?( l% ~9 w+ J0 `( z% S9 T1 b      (b3) 合并b1+b2的整页版+切图版
! H2 ^: k6 t( j+ q% \% A) {8 h————————————————
$ I( e3 @9 o5 z2 T- H+ L$ f. n目前,缺少的是精确校准处理的高清词典图片、精确的词条索引
/ G/ O& W: O+ O% n' z对于还没有完美文本版MDX的词典,短期内可以寄希望于图片版。
/ A9 E& k9 Q) m9 H  i# Q+ j' D8 t
3 D2 R! P: g, e- k

评分

1

查看全部评分

本帖被以下淘专辑推荐:

  • TA的每日心情
    开心
    2018-5-26 18:12
  • 签到天数: 11 天

    [LV.3]偶尔看看II

    发表于 2019-1-28 04:25:21 | 显示全部楼层
    对,图片版真的是 from scratch 的制作,虽然词条内容可以不用文本化,可以直接用图片来代替,但是用于检索的词头是必须要是文本格式的。
    9 Z, a/ m& Z9 j0 G$ C! d0 n! K. N6 T& \7 Z' Y8 d2 p& g+ T
    主要的难点就在词头的获取上。现在最好的方法也许只有OCR词头。这么来说,OCR词头的前提是已经获取了词头的坐标(这点应该没大问题)。然后要提高OCR精确度有几方面:1、图片的清晰度要好(也许单单把词头切出来识别率更高?)2、用于OCR的软件要好。
    # H8 i  ^9 |( D! ?% F; k1 b" A4 O" q. E% j' r5 V3 h
    接下来是校对。如何方便OCR后的文字和图片形式的词头的比对呢?我觉得把OCR后的对应文字和对应图片词头放一块比较好,用机器对词头正字法进行粗略筛查,不同颜色标出用以提醒,再人工检查(就是c大软件的模式),其中也可以利用些小技巧提高人工检查的效率(比如把文本的字体设置成与图片词头差不多大小)。总之,人工检查还是没法用机器代替,就是最烦的事了...
    * G& T6 |1 E0 u# D) @+ W7 ^8 K0 N8 o& q! K5 t
    文字版的要弄排版,图片版的要获取词头,各有各的难处...

    评分

    1

    查看全部评分

  • TA的每日心情
    奋斗
    2019-10-13 07:34
  • 签到天数: 209 天

    [LV.7]常住居民III

    发表于 2019-1-28 08:58:28 | 显示全部楼层
    关于词头,实际上直接人工输入也是挺快的,虽然有点枯燥,若真需要,这也都能克服。

    该用户从未签到

    发表于 2019-1-28 12:34:39 | 显示全部楼层
    thanks for sharing
  • TA的每日心情
    奋斗
    2019-10-13 07:34
  • 签到天数: 209 天

    [LV.7]常住居民III

    发表于 2019-1-28 12:56:07 | 显示全部楼层
    怎样快速扫描一本书并做成电子版? https://www.zhihu.com/question/31136504
  • TA的每日心情
    开心
    2022-7-13 14:57
  • 签到天数: 39 天

    [LV.5]常住居民I

    发表于 2019-1-28 14:48:27 | 显示全部楼层
    Fujitsu ix1500可以做到高速的书本转PDF并做OCR,大概每秒1面,缺点就是要把词典切掉封籍,OCR技术目前看成熟度也会是一个问题,可能会需要单独选择一个OCR软件做识别更好

    评分

    1

    查看全部评分

    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-4-23 21:40 , Processed in 0.058905 second(s), 17 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表