掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 1246|回复: 16

[讨论] 有關圖片辭典的製作淺見檢討

[复制链接]
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2020-2-14 03:29:06 | 显示全部楼层 |阅读模式
    本帖最后由 喬治兄 于 2020-2-20 08:51 编辑 9 z) `# w6 v/ R& f4 z
    ( v) r- w7 x) E) B  K
    因鑒於圖片辭典作耗時費力且查詢的實用性又大打折扣
    4 B; ]$ }% U* [/ h, l圖片辭典製作完後也往往成為擺設, 因限縮於詞頭搜索實用性也因而大減, 投入和實用性不成比例...! p' w1 h; o0 a$ u* P
    盼各位同好予以建議提供看法和觀點....
    / |7 c  C. v0 g3 b) g6 S1 x, k8 `1 P  x4 H
    圖片辭典目前缺陷如下:1 b# w# G' i, O) e
    1.  圖片辭典的 mdx vs. ocr 後的 pdf or djvu 格式檔案.....基本上沒有優勢* R5 m# d" P0 \; L0 ^( @; {
         ocr 後的 pdf or djvu 格式檔案 可全文搜索
    3 W% m) ^3 R* Y' y% R* v: l2 C6 S4 a2.  針對目前僅靠詞頭去調出那頁的的圖像或 highlight 位置所獲得的圖像訊息要再查詢或搜尋也相對乏善可陳6 h8 {6 P* C" W% a: N
         詞條內容也無法再查詢或搜尋....圖像所致
    % [! a4 A6 B2 z" s     就算在歐路能以 OCR 取詞卻也無法對其內容搜尋...GoldenDict...亦然2 w, i+ h# I' ~+ E! D( O
    3.  光是校對詞頭都已是非常吃重的負荷! L* S/ C. p' y% d$ z. _6 ?# {  X2 N
         然而 OCR 後的全文校對更是不太可能
    ; c2 a  c8 F( e  b; j* {' t- y2 i7 f% z8 x6 n1 O

    " b$ j! h9 c7 u: Q" y; u- J1 ^/ j有關圖片辭典的製作淺見如下:
    8 G5 Z, p4 h9 t
    ; O3 J" X/ s3 K( V9 s& ?1. 僅校對詞頭....圖片上列出當頁的導航詞頭
    ! C6 ]. t$ L! z4 L    搜索分兩部份:2 Q$ g; ^" w2 a# t) L
    a. 詞頭==>校對......此可借用 Chigre 兄的工具來達成
    . y/ P; }# t! d, [5 Q, [' _b. 內容==>OCR 不校對6 u4 G8 |6 ?( ^( W4 {$ J- k7 O2 Q/ l
    2 {8 i9 M  s! `+ ^1 E: M! [( k  K
    2. 結合圖片和 OCR 文字....把 OCR 文字利用起來於全文搜索
    $ p5 J5 f3 I5 C* w6 g2 j# C+ G3. 把圖片和 OCR 文字并列....縱然 OCR 不一定正確..但可從圖片獲得正確訊息
    0 s. V$ E2 A2 }9 n9 B    如此禰補 mdx 與 ocr 後的 pdf or djvu 的差距$ Z9 f5 e3 e9 q$ e7 o/ l9 R1 R# @
        如果辭典有 2 or 3 欄, 以顯示 1 欄 50% 的銀幕寬度 另外 50% 銀幕寬度顯示文字來并列: L9 Q9 n% |. C- {
        如此也好對照......highlight 文字列來定位也較為容易些2 D0 O, Y  p# v6 C( g" r' }
        <a href="#section1"> 類似此標簽於圖片是無法轉跳定位但文字是可以的2 p$ _- ?% C( b. I% \7 D
    4. 因可互相對照圖片和 ocr 文字....或許可供熱心人士後續來校對完善之) |4 N  x& f  X5 h1 K& `
    5. 若是純英英相對 OCR 良率高則把 OCR 文字利用起來於全文搜索較易達成/ ^- j+ T8 M& i9 J* X, r
    6. 若能以切圖到每個單字區塊且加上 OCR 文字則最是完美, 但無奈的是此又難度太高.....' |! n) D; H9 X, I# B5 a5 e! J
        此 Chigre 兄已完美的達成單字區塊的切圖....唯缺OCR 文字實在令人扼腕.....* E- W* i8 t0 x  j8 @) [, \1 F  d6 ~
        或許折衷一下簡化一點
    7 _5 w* }* _  [" N/ X    但若以切欄為單位 + OCR 文字....此應較易達成6 g* C6 _$ [; c, c
    : m* }; P" j3 p
       
    2 ?3 [" @+ N- `5 X* h. Q/ b& I# p0 @7 K# T; b& P' l

    : h2 R% O0 T3 }) b* K" F9 _3 `, ^5 p( N* |0 x4 D
  • TA的每日心情
    擦汗
    2023-9-2 09:16
  • 签到天数: 1103 天

    [LV.10]以坛为家III

    发表于 2020-2-14 10:20:29 | 显示全部楼层
    个人觉得图片版mdx格式基本没有任何意义,不值得化大量时间去制作。其实不少pdf/djvu阅读器可以直接定位到特定页面,结合简单的索引可起到mdx同样的效果。" `+ ]! V" M4 h' S( l* _! l
    4 s+ ^# E. r! a& ^
  • TA的每日心情
    慵懒
    2020-5-3 16:00
  • 签到天数: 207 天

    [LV.7]常住居民III

    发表于 2020-2-14 04:10:44 | 显示全部楼层
    我倒是觉得可以再等等技术更加完善了,用好的OCR软件变成正确率更高的文字版(有资源的用机构购买的服务,转换准确率应该会很高),核对后制作mdx。, g( O6 E. N; K3 b, |* ^: K+ V. Q
    或者花点功夫 做成切图版,虽然无法选中,无法上色和优化排版,但好歹解决了最基本的查词需求,也勉强可用。
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2020-2-14 11:14:17 | 显示全部楼层
    spoony1971 发表于 2020-2-14 10:205 N2 a. Z0 G" R3 X4 ]5 H
    个人觉得图片版mdx格式基本没有任何意义,不值得化大量时间去制作。其实不少pdf/djvu阅读器可以直接定位到 ...

    3 p, U8 K0 i8 w4 C6 a. A' k仁兄,所言甚是呀!,图片版实在是 mdx 的短板.......
  • TA的每日心情
    奋斗
    2020-5-15 23:04
  • 签到天数: 236 天

    [LV.7]常住居民III

    发表于 2020-2-14 13:22:31 | 显示全部楼层
    不能说图片字典没有用,有些资源本身价值比较好,又没有纯文字的mdx,做成图片版就很不错了
  • TA的每日心情

    2023-3-29 00:54
  • 签到天数: 344 天

    [LV.8]以坛为家I

    发表于 2020-2-14 04:09:24 | 显示全部楼层
    提个思路,firefox能把ocr后的双层pdf转换成html页面,可供mdx全文搜索。
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2020-2-14 04:19:57 | 显示全部楼层
    mtaa 发表于 2020-2-14 04:09
      F0 [( q3 }* E提个思路,firefox能把ocr后的双层pdf转换成html页面,可供mdx全文搜索。
    ! m+ |5 S9 n2 ~- F* n
    brother mtaa :3 i3 N  q$ O3 H8 D. V, \! ]5 c
    主要是 ocr 的結果不一定全是正確文字
    : M. Z7 P+ j, |0 C1 e9 ?' M是喔, 沒試過firefox ocr* S, }) K+ h5 I8 n' ~0 `
    謝謝提供思路' _8 c' N. w# C  l
    4 U5 L7 o4 s; ^  Z$ x6 j& m
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2020-2-14 04:25:41 | 显示全部楼层
    johannhuang 发表于 2020-2-14 04:10
    " p5 A* P9 s1 V- J我倒是觉得可以再等等技术更加完善了,用好的OCR软件变成正确率更高的文字版(有资源的用机构购买的服务, ...

    / y6 D6 V. F, _5 `1 z$ pBrother johannhuang :
    3 G7 g3 E7 `% h切图版 依然也只是詞頭.....并無 OCR 的內容
  • TA的每日心情
    开心
    2022-1-21 00:52
  • 签到天数: 699 天

    [LV.9]以坛为家II

    发表于 2020-2-14 12:25:36 | 显示全部楼层
    spoony1971 发表于 2020-2-14 10:20
    * U6 P: q& l) z* G个人觉得图片版mdx格式基本没有任何意义,不值得化大量时间去制作。其实不少pdf/djvu阅读器可以直接定位到 ...

    " z& [$ t$ {) ?& w( u/ G. a- m. |不应一概而论。; |* k7 W# F% {9 [" i- F  f
    百科全书、汉语大词典辞源、英语搭配使用同义词辨析、布莱克法律这些,在PDF中搜索定位有点宽泛不够精确,而且搜索速度不如切图版依据词头搜索快、一站式。
    1 Y- b# H) v( O
    & |/ i0 }$ A2 [+ M4 V6 C对于一些汉英英汉通用型词典,由于有太多更好的词典可替代的,倒是不必费力去做切图版
  • TA的每日心情
    开心
    2020-1-5 08:04
  • 签到天数: 50 天

    [LV.5]常住居民I

    发表于 2020-2-14 12:29:18 | 显示全部楼层
    文字版与图片版词典比较
    3 l) _* ^, e! fhttps://www.pdawiki.com/forum/thread-38624-1-1.html, |5 X- M; U& ^$ P( ^& ?& B1 B" G6 b
    (出处: 掌上百科 - PDAWIKI)
    # f, E# c3 _5 F; @8 i+ R7 K, y
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2020-2-14 13:10:43 | 显示全部楼层
    本帖最后由 喬治兄 于 2020-2-14 13:12 编辑
    # C+ Z- z- a$ T/ j4 O  n% D
    cocowind 发表于 2020-2-14 12:25
    ) _  P3 N  l5 t不应一概而论。+ P0 o) G# R& a7 j
    百科全书、汉语大词典辞源、英语搭配使用同义词辨析、布莱克法律这些,在PDF中搜索定位有 ...

    3 ~* J! I& B: {% s' ?& a& ^6 l/ T+ K! v
    cocowind 兄:% t) V5 Z1 O" c9 A$ u; Y
    所言及是呀......詞頭還是少不了的; {* C1 B) D# [8 _: y, S
    搜索分兩部份:. ^0 Y* _: t/ u
    1. 詞頭==>校對& C  v1 j% t. {
    2. 內容==>OCR 不校對# p. I% Z7 l% G# G
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2020-2-14 13:31:55 | 显示全部楼层
    海上1212 发表于 2020-2-14 13:22
    % f; H/ Y! _% w1 v, v- R不能说图片字典没有用,有些资源本身价值比较好,又没有纯文字的mdx,做成图片版就很不错了 ...

    " \4 N. R3 W5 L" C( Q1 sBrother 海上1212:$ Q5 K# ?8 p7 Z
    是的, 除詞頭外: W* Z8 A. V. J/ `. c
    OCR 的文字內容最好也能應用上
    * I: h/ H6 x( d
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

    发表于 2020-2-14 17:29:43 | 显示全部楼层
    之前有个DK的图解词典 不就全文搜索定位化了% ^4 z$ Q% G2 _0 A% z3 m
    就是mdx大了太多。。。毕竟包含了很多位置信息
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2020-2-14 18:07:57 | 显示全部楼层
    jonah_w 发表于 2020-2-14 17:29
    % u. \. I- ~0 b+ W; k8 Z7 H# C之前有个DK的图解词典 不就全文搜索定位化了1 I: y: U8 ~" }: q( M; @2 |% w
    就是mdx大了太多。。。毕竟包含了很多位置信息 ...
    2 ]! d+ h. k! d6 v; P( M; g9 U
    Brother jonah_w:
    + u! r/ J" C/ _; r! Y5 h6 G2 `5 q$ Q  O若不定位圖片就一欄圖片 + 一欄 OCR 文字 來顯示於畫面
    ) t" i6 s: d4 R- j$ P! }應會容易點% h! S8 @% G0 I; p
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

    发表于 2020-2-14 18:20:22 | 显示全部楼层
    喬治兄 发表于 2020-2-14 18:07
    , n6 w9 D7 m; O$ E  _Brother jonah_w:
    1 z) f+ n3 ~' i若不定位圖片就一欄圖片 + 一欄 OCR 文字 來顯示於畫面
    . s: i; V4 h# m# G應會容易點
    # J3 b0 j5 _* J" v' Z
    这个DK的v2版本就是这么弄的 哈哈 不过OCR的准确率不如你的V3版
    " \3 {2 P, D0 n3 P" dhttp://ww1.sinaimg.cn/large/6bccb95fgy1g71maxpflej20zw0rpdwh.jpg* M' S+ e& w5 \, j
    , }% W& ^4 g3 B8 W# `5 T- M8 r
    Chinese-English Bilingual Visual Dictionary DK_v2& q9 @5 h/ P# T& W: d
    https://www.pdawiki.com/forum/thread-35852-1-1.html?x=294297
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2020-2-14 19:01:08 | 显示全部楼层
    jonah_w 发表于 2020-2-14 18:20
    7 t+ W3 ?9 L0 O/ f7 p; k% v这个DK的v2版本就是这么弄的 哈哈 不过OCR的准确率不如你的V3版 $ b; Q! v3 \2 F  X" @5 W  K
    http://ww1.sinaimg.cn/large/6bccb95fg ...

    # G/ p4 \: N5 W$ `$ n8 O" fjonah_w 兄:$ e1 [7 J& i( z6 R$ ~$ S( v/ F
    仁兄神人也, 小弟難以言表對仁兄的孺慕之情也
    & p2 B% J# R6 w. O, v6 H# U其兵貴神速更是令人讚嘆也
    6 e* ?, w4 @- v, A
  • TA的每日心情
    擦汗
    2023-9-2 09:16
  • 签到天数: 1103 天

    [LV.10]以坛为家III

    发表于 2020-2-14 19:32:09 | 显示全部楼层
    cocowind 发表于 2020-2-14 12:25
    4 F1 z: r# d0 l. W' I  V5 k0 U& A* X3 Y不应一概而论。
    : d4 D! d' |6 q百科全书、汉语大词典辞源、英语搭配使用同义词辨析、布莱克法律这些,在PDF中搜索定位有 ...

    ) l( C2 e* F. H) g% c我说的定位不是你理解的定位,您所理解的定位确实不方便。我所说的定位使用如下:
    ) F% ~8 l, E2 Y5 B) D$ U输入命令"d hello"; \  C& k( H$ [5 C, |- U9 V5 q: Y
    pdf/djvu阅读器自动显示hello所在页面,如果阅读器没有运行则自动运行并定位。
    5 B: V6 `. ?$ d. j$ d
    3 W! ]- z4 D+ L8 b5 o0 X% v这种方案对阅读器有要求,不过不少阅读器都可做到这一点。
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-4-26 09:12 , Processed in 0.055903 second(s), 9 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表