掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 2042|回复: 5

[教程] 【图片版词典】整理框架

[复制链接]

该用户从未签到

发表于 2019-1-28 03:14:07 | 显示全部楼层 |阅读模式
从上而下,依照制作精力耗费、完美程度升序排列(越往下,耗费精力越多,质量越好):
2 g: o' [- S1 g4 n! B1 j3 e————————————————
/ K7 `* L) {7 U, v8 R. n8 Y8 p1. 【页首单词】或者【页末单词】; K. x) G% A3 o9 b$ O6 G
  解决方案:
" J' o/ \0 B, S6 b3 @4 d8 C  (1) 在GoldenDict中加载python外置小代码,实现查询单词定位到页的整页图片版& L9 ^. O) G% ~  r  A, d. t
  (2) 在Mdict PC版中加载制作好了页首页末索引,利用Mdict PC版本身的输入单词定位到页/ @( G5 [# M- ?8 b. G4 G

2 {* l5 o3 L* t: I0 [% L2. 使用【页首单词】或者【页末单词】,对更大范围的词头索引进行分隔操作, k' R* @; j/ [% s$ ^% y' s
  解决方案:1 |$ }8 o9 H) u3 B1 A5 v  r5 P
  (1) 分隔后的粗略索引直接定位到整页
+ _+ S& ^9 l- r. d  (2) 分隔后的粗略索引进行人工校对,得到精确索引:. l6 g" U! Z6 k' H' R2 k
    (A) 不带坐标+ _  u$ u1 g7 x3 \) \% r9 _2 S$ m) ?- S7 t
    (B) 附带坐标: 划线软件,在各种辅助提示下高效人工校对索引
$ e& B+ i" u3 P      (b1) 带高亮显示的精确定位框、支持锚点跳转的整页版; a, S2 }) r" x2 x. s
      (b2) 根据坐标信息进行计算而得到的切图版,一个词头对应1+以上的小切图5 z' a  @' [! A' H+ z7 B: z
      (b3) 合并b1+b2的整页版+切图版% W: U6 e' d. l
————————————————& u9 d5 r& ^2 L6 U/ `2 ]
目前,缺少的是精确校准处理的高清词典图片、精确的词条索引
* C5 ^0 N" D) Z3 {/ U对于还没有完美文本版MDX的词典,短期内可以寄希望于图片版。6 H4 `0 S. t$ p$ ]' F
, U1 n4 c1 p5 h4 ?4 i: n

评分

1

查看全部评分

本帖被以下淘专辑推荐:

  • TA的每日心情
    开心
    2018-5-26 18:12
  • 签到天数: 11 天

    [LV.3]偶尔看看II

    发表于 2019-1-28 04:25:21 | 显示全部楼层
    对,图片版真的是 from scratch 的制作,虽然词条内容可以不用文本化,可以直接用图片来代替,但是用于检索的词头是必须要是文本格式的。5 D" E* T0 ]& @' o3 E: b% Z4 _# _

      f5 Y% F9 `3 V8 X主要的难点就在词头的获取上。现在最好的方法也许只有OCR词头。这么来说,OCR词头的前提是已经获取了词头的坐标(这点应该没大问题)。然后要提高OCR精确度有几方面:1、图片的清晰度要好(也许单单把词头切出来识别率更高?)2、用于OCR的软件要好。* r5 G" _+ I9 L
    8 [2 |8 n/ Y) s
    接下来是校对。如何方便OCR后的文字和图片形式的词头的比对呢?我觉得把OCR后的对应文字和对应图片词头放一块比较好,用机器对词头正字法进行粗略筛查,不同颜色标出用以提醒,再人工检查(就是c大软件的模式),其中也可以利用些小技巧提高人工检查的效率(比如把文本的字体设置成与图片词头差不多大小)。总之,人工检查还是没法用机器代替,就是最烦的事了.../ F7 H9 ?/ B, Y" u0 K: Q" P  q
    ( S4 Z3 Y2 ?+ B/ E, \; c) m
    文字版的要弄排版,图片版的要获取词头,各有各的难处...

    评分

    1

    查看全部评分

  • TA的每日心情
    奋斗
    2019-10-13 07:34
  • 签到天数: 209 天

    [LV.7]常住居民III

    发表于 2019-1-28 08:58:28 | 显示全部楼层
    关于词头,实际上直接人工输入也是挺快的,虽然有点枯燥,若真需要,这也都能克服。

    该用户从未签到

    发表于 2019-1-28 12:34:39 | 显示全部楼层
    thanks for sharing
  • TA的每日心情
    奋斗
    2019-10-13 07:34
  • 签到天数: 209 天

    [LV.7]常住居民III

    发表于 2019-1-28 12:56:07 | 显示全部楼层
    怎样快速扫描一本书并做成电子版? https://www.zhihu.com/question/31136504
  • TA的每日心情
    开心
    2022-7-13 14:57
  • 签到天数: 39 天

    [LV.5]常住居民I

    发表于 2019-1-28 14:48:27 | 显示全部楼层
    Fujitsu ix1500可以做到高速的书本转PDF并做OCR,大概每秒1面,缺点就是要把词典切掉封籍,OCR技术目前看成熟度也会是一个问题,可能会需要单独选择一个OCR软件做识别更好

    评分

    1

    查看全部评分

    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2026-6-10 07:11 , Processed in 0.020638 second(s), 24 queries .

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表