掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 1241|回复: 16

[讨论] 有關圖片辭典的製作淺見檢討

[复制链接]
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2020-2-14 03:29:06 | 显示全部楼层 |阅读模式
    本帖最后由 喬治兄 于 2020-2-20 08:51 编辑 4 F. _) i- S5 g5 H: b& |; U5 H  A( m8 H

    , r# A- K+ Q$ o 因鑒於圖片辭典作耗時費力且查詢的實用性又大打折扣# Z! v7 Q9 d, W# j; E0 ~4 `& ?
    圖片辭典製作完後也往往成為擺設, 因限縮於詞頭搜索實用性也因而大減, 投入和實用性不成比例...
    6 m6 Z6 y* b0 i( C盼各位同好予以建議提供看法和觀點....
    ' r6 Z# W' b* D1 y9 B- S+ v! j+ \& ^$ A1 J# A7 ^& {
    圖片辭典目前缺陷如下:  x& @( k1 ~4 l) V
    1.  圖片辭典的 mdx vs. ocr 後的 pdf or djvu 格式檔案.....基本上沒有優勢5 j  X% d0 m! E3 T. w
         ocr 後的 pdf or djvu 格式檔案 可全文搜索
    # u/ s8 \& p2 T# e4 q- K2.  針對目前僅靠詞頭去調出那頁的的圖像或 highlight 位置所獲得的圖像訊息要再查詢或搜尋也相對乏善可陳: e' ^7 G. x% ?2 \9 R0 T" f
         詞條內容也無法再查詢或搜尋....圖像所致
    2 n9 k: _& B% }     就算在歐路能以 OCR 取詞卻也無法對其內容搜尋...GoldenDict...亦然
    : s# J3 J; s7 f) D! W" B3.  光是校對詞頭都已是非常吃重的負荷
    - R) X8 Y( I2 ]     然而 OCR 後的全文校對更是不太可能6 [  l$ L/ I6 S5 A8 g& l' Z& l% [8 W
    2 A2 w0 y5 ^, L$ v" ~. q1 v( A
    & u1 V* d1 Y8 N9 ~
    有關圖片辭典的製作淺見如下:
    $ f# t, ~1 X* u# i; r) e! q6 ^% L# _# i; [
    1. 僅校對詞頭....圖片上列出當頁的導航詞頭
    * a, I. I: t- R3 \  f6 ^9 C- ~: w+ X    搜索分兩部份:
    % H8 g  \( \5 Ma. 詞頭==>校對......此可借用 Chigre 兄的工具來達成
    ) ]7 ?, a8 S. d4 gb. 內容==>OCR 不校對
    & K1 W/ V4 p$ q& N" @% q
    5 i8 J0 D" y* V2. 結合圖片和 OCR 文字....把 OCR 文字利用起來於全文搜索4 n2 \0 m. a: l& \. }. L
    3. 把圖片和 OCR 文字并列....縱然 OCR 不一定正確..但可從圖片獲得正確訊息0 Z1 m/ y4 L) X  b0 l
        如此禰補 mdx 與 ocr 後的 pdf or djvu 的差距
    ) b& X3 }' X1 b( v, r$ A    如果辭典有 2 or 3 欄, 以顯示 1 欄 50% 的銀幕寬度 另外 50% 銀幕寬度顯示文字來并列$ b# e' V0 T4 E8 N* t9 w$ H
        如此也好對照......highlight 文字列來定位也較為容易些( o; P; w) T2 [# r' S0 o
        <a href="#section1"> 類似此標簽於圖片是無法轉跳定位但文字是可以的  H0 j" W: C9 ]( X2 _
    4. 因可互相對照圖片和 ocr 文字....或許可供熱心人士後續來校對完善之
    7 j3 @; \; _2 L1 s* X; T9 d8 P- t5. 若是純英英相對 OCR 良率高則把 OCR 文字利用起來於全文搜索較易達成5 d" B+ B7 H( E* a( M
    6. 若能以切圖到每個單字區塊且加上 OCR 文字則最是完美, 但無奈的是此又難度太高.....
    / |% ?0 J) e; z0 q6 `+ P    此 Chigre 兄已完美的達成單字區塊的切圖....唯缺OCR 文字實在令人扼腕....." f" Y* Z/ E2 p# p
        或許折衷一下簡化一點  [& `; {: x- M, w7 U% R3 k  `7 o& X
        但若以切欄為單位 + OCR 文字....此應較易達成
    : ^; X, k6 X/ d- I6 @; @
    ( {, K+ k8 H  X   
    / N$ K4 g/ E/ N  x$ i! D% g  h
      Q* V/ h) R) \5 o- n* D0 `
    0 \% d, G# W5 N& `/ s5 p( A: p6 s% j4 v% \# D
  • TA的每日心情
    擦汗
    2023-9-2 09:16
  • 签到天数: 1103 天

    [LV.10]以坛为家III

    发表于 2020-2-14 10:20:29 | 显示全部楼层
    个人觉得图片版mdx格式基本没有任何意义,不值得化大量时间去制作。其实不少pdf/djvu阅读器可以直接定位到特定页面,结合简单的索引可起到mdx同样的效果。
    1 E  k! X6 f# v$ k$ ?" @" Q: p' ^# P) c' b, R7 R4 H& }+ R0 M
  • TA的每日心情
    慵懒
    2020-5-3 16:00
  • 签到天数: 207 天

    [LV.7]常住居民III

    发表于 2020-2-14 04:10:44 | 显示全部楼层
    我倒是觉得可以再等等技术更加完善了,用好的OCR软件变成正确率更高的文字版(有资源的用机构购买的服务,转换准确率应该会很高),核对后制作mdx。
    , o1 T! r. ^; k2 ~或者花点功夫 做成切图版,虽然无法选中,无法上色和优化排版,但好歹解决了最基本的查词需求,也勉强可用。
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2020-2-14 11:14:17 | 显示全部楼层
    spoony1971 发表于 2020-2-14 10:20  }6 Y' O& }- J. W8 G
    个人觉得图片版mdx格式基本没有任何意义,不值得化大量时间去制作。其实不少pdf/djvu阅读器可以直接定位到 ...
    4 |# C& `: K* K+ ]
    仁兄,所言甚是呀!,图片版实在是 mdx 的短板.......
  • TA的每日心情
    奋斗
    2020-5-15 23:04
  • 签到天数: 236 天

    [LV.7]常住居民III

    发表于 2020-2-14 13:22:31 | 显示全部楼层
    不能说图片字典没有用,有些资源本身价值比较好,又没有纯文字的mdx,做成图片版就很不错了
  • TA的每日心情

    2023-3-29 00:54
  • 签到天数: 344 天

    [LV.8]以坛为家I

    发表于 2020-2-14 04:09:24 | 显示全部楼层
    提个思路,firefox能把ocr后的双层pdf转换成html页面,可供mdx全文搜索。
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2020-2-14 04:19:57 | 显示全部楼层
    mtaa 发表于 2020-2-14 04:09
    * h, o# ?; T7 H" U提个思路,firefox能把ocr后的双层pdf转换成html页面,可供mdx全文搜索。
    * P/ W; U, T; I# A) s
    brother mtaa :
    & X6 Z, O1 ^0 ~主要是 ocr 的結果不一定全是正確文字
    ( e. N$ A5 G$ ]# P6 Y, q, z% G是喔, 沒試過firefox ocr3 e& S( j% ^6 _6 ~, B, Q
    謝謝提供思路+ `4 v; j4 h5 f$ u4 B. j4 D( ~
    & l) F0 j5 Q5 ?4 p9 a% j* U$ A
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2020-2-14 04:25:41 | 显示全部楼层
    johannhuang 发表于 2020-2-14 04:10& c8 w( O5 X5 c+ e  }% M! G" S& D
    我倒是觉得可以再等等技术更加完善了,用好的OCR软件变成正确率更高的文字版(有资源的用机构购买的服务, ...

    1 l* n+ @0 F% A! A7 a" i. @" l) W& oBrother johannhuang :& r! m# _/ Z! f) g  R- f
    切图版 依然也只是詞頭.....并無 OCR 的內容
  • TA的每日心情
    开心
    2022-1-21 00:52
  • 签到天数: 699 天

    [LV.9]以坛为家II

    发表于 2020-2-14 12:25:36 | 显示全部楼层
    spoony1971 发表于 2020-2-14 10:201 X+ A0 f7 ?" ]$ S$ L1 e( F
    个人觉得图片版mdx格式基本没有任何意义,不值得化大量时间去制作。其实不少pdf/djvu阅读器可以直接定位到 ...

    2 b+ H% ?( `1 L& \2 G不应一概而论。3 U  C/ i6 v' v# X& Z3 S3 x+ d! e
    百科全书、汉语大词典辞源、英语搭配使用同义词辨析、布莱克法律这些,在PDF中搜索定位有点宽泛不够精确,而且搜索速度不如切图版依据词头搜索快、一站式。
    0 o# {) N% ^5 `# g
    3 ]) y# K! Y1 X+ d对于一些汉英英汉通用型词典,由于有太多更好的词典可替代的,倒是不必费力去做切图版
  • TA的每日心情
    开心
    2020-1-5 08:04
  • 签到天数: 50 天

    [LV.5]常住居民I

    发表于 2020-2-14 12:29:18 | 显示全部楼层
    文字版与图片版词典比较
    . r$ X) [$ j8 Y9 Z  Z* n" Ohttps://www.pdawiki.com/forum/thread-38624-1-1.html0 E5 q% b1 k- y4 {& V) R* t
    (出处: 掌上百科 - PDAWIKI)8 v( k" ?* a' X5 B, c
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2020-2-14 13:10:43 | 显示全部楼层
    本帖最后由 喬治兄 于 2020-2-14 13:12 编辑 + |3 V, R+ ~8 T! `9 d* a0 G+ p
    cocowind 发表于 2020-2-14 12:257 E7 R) l4 W0 N+ _8 H* e
    不应一概而论。! _; j0 s9 u0 w7 ^7 i; ~
    百科全书、汉语大词典辞源、英语搭配使用同义词辨析、布莱克法律这些,在PDF中搜索定位有 ...

    ; u( i9 h( @" `9 C) x: a" f7 t6 @1 U6 _2 Z* r1 b' R" _% ]) V1 v
    cocowind 兄:! |' O9 v& B8 g! d. U7 F
    所言及是呀......詞頭還是少不了的
    - f/ F8 d8 P" j4 f) c* H1 a& N* b; U搜索分兩部份:) D/ [6 s, Z. E; I, ~
    1. 詞頭==>校對
    . V. g, b# V# ~- K! m& N2. 內容==>OCR 不校對+ j; \; d& b: G# b! f
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2020-2-14 13:31:55 | 显示全部楼层
    海上1212 发表于 2020-2-14 13:22
    ! m" F  G: q( j' ]8 \* j  P不能说图片字典没有用,有些资源本身价值比较好,又没有纯文字的mdx,做成图片版就很不错了 ...
    6 }8 Y0 c7 S) X* m5 |  k  H; d* Q4 U% n
    Brother 海上1212:
    1 W# A7 a3 W  _! t# b- P- O0 a) x是的, 除詞頭外$ b* |' f2 a# v# L0 B0 Z8 R# p5 `
    OCR 的文字內容最好也能應用上( I6 F7 D* D' u" ^6 c
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

    发表于 2020-2-14 17:29:43 | 显示全部楼层
    之前有个DK的图解词典 不就全文搜索定位化了4 [0 O- a* V' i* P; j
    就是mdx大了太多。。。毕竟包含了很多位置信息
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2020-2-14 18:07:57 | 显示全部楼层
    jonah_w 发表于 2020-2-14 17:29: P' J* n# f, J% z2 j, L5 {
    之前有个DK的图解词典 不就全文搜索定位化了- U; N) y2 a+ v6 `( i  U, X
    就是mdx大了太多。。。毕竟包含了很多位置信息 ...
    1 U" D* b, x) m$ P
    Brother jonah_w:" s, C' U6 d7 S% h! ?1 Y7 b
    若不定位圖片就一欄圖片 + 一欄 OCR 文字 來顯示於畫面. ^3 ~8 V! ]8 P# w6 U8 k; x
    應會容易點$ v! f  E. U& Q# N7 n& A/ A7 p2 p3 b
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

    发表于 2020-2-14 18:20:22 | 显示全部楼层
    喬治兄 发表于 2020-2-14 18:07
    ) i* e1 m: g! A6 Q* [Brother jonah_w:
    . w: ?) {2 Z, ?7 s8 h若不定位圖片就一欄圖片 + 一欄 OCR 文字 來顯示於畫面
    , Q3 i: d3 ^& t* o應會容易點
    * i4 b  k& x# |+ [* a! _
    这个DK的v2版本就是这么弄的 哈哈 不过OCR的准确率不如你的V3版 % Z* O1 ^( @0 M# r% Z
    http://ww1.sinaimg.cn/large/6bccb95fgy1g71maxpflej20zw0rpdwh.jpg
    * H5 u$ I0 z! G1 e) {8 v- u7 U
    1 M# O. G' ?+ z, Y( B) ]: YChinese-English Bilingual Visual Dictionary DK_v2
    * f$ [, O6 t' V) [+ khttps://www.pdawiki.com/forum/thread-35852-1-1.html?x=294297
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2020-2-14 19:01:08 | 显示全部楼层
    jonah_w 发表于 2020-2-14 18:20
    & G* V3 W$ ?0 X& ?' Y, j3 I3 h4 u这个DK的v2版本就是这么弄的 哈哈 不过OCR的准确率不如你的V3版
    ( r* _0 {" \! n( R; |' {$ a0 }http://ww1.sinaimg.cn/large/6bccb95fg ...

    $ {# U* f5 c% E* X) [  I8 Njonah_w 兄:
    $ c5 F6 U+ r' h( y( X  |4 f& Y仁兄神人也, 小弟難以言表對仁兄的孺慕之情也2 }0 C" P! f1 k# l" V
    其兵貴神速更是令人讚嘆也) F7 \2 ~' S3 l/ K
  • TA的每日心情
    擦汗
    2023-9-2 09:16
  • 签到天数: 1103 天

    [LV.10]以坛为家III

    发表于 2020-2-14 19:32:09 | 显示全部楼层
    cocowind 发表于 2020-2-14 12:25" O1 E9 Q0 B$ C8 O. r
    不应一概而论。
    8 B1 ?' {- {( `1 I$ }百科全书、汉语大词典辞源、英语搭配使用同义词辨析、布莱克法律这些,在PDF中搜索定位有 ...
    ; H) J9 c+ V6 m" l6 X! m; S& g
    我说的定位不是你理解的定位,您所理解的定位确实不方便。我所说的定位使用如下:" @$ X# S4 o$ i
    输入命令"d hello"
    1 e* N. t6 S$ V9 W6 wpdf/djvu阅读器自动显示hello所在页面,如果阅读器没有运行则自动运行并定位。
    3 y) p5 P* c5 w2 O/ F/ M3 n0 i
    - n9 w4 t8 ^. v' ]" u4 `+ b1 Q这种方案对阅读器有要求,不过不少阅读器都可做到这一点。
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-4-20 14:19 , Processed in 0.083910 second(s), 9 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表