掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 1247|回复: 16

[讨论] 有關圖片辭典的製作淺見檢討

[复制链接]
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2020-2-14 03:29:06 | 显示全部楼层 |阅读模式
    本帖最后由 喬治兄 于 2020-2-20 08:51 编辑 0 R( s( |7 C, h- D; e4 C2 n

    # |: _) a7 V6 r 因鑒於圖片辭典作耗時費力且查詢的實用性又大打折扣
    $ u8 q( M! g/ \0 [& I3 e" w圖片辭典製作完後也往往成為擺設, 因限縮於詞頭搜索實用性也因而大減, 投入和實用性不成比例...- m. `1 G, }' u' _( I  \7 l
    盼各位同好予以建議提供看法和觀點....: q; I5 q5 k9 T/ l
    8 f& k% ]: F. m
    圖片辭典目前缺陷如下:
    2 O5 h2 i: a4 F) T0 ~- N1 u& C& u1.  圖片辭典的 mdx vs. ocr 後的 pdf or djvu 格式檔案.....基本上沒有優勢
    & \3 f/ N/ N. Y" L     ocr 後的 pdf or djvu 格式檔案 可全文搜索  L3 i+ g7 M! r: P$ q' }
    2.  針對目前僅靠詞頭去調出那頁的的圖像或 highlight 位置所獲得的圖像訊息要再查詢或搜尋也相對乏善可陳8 H) l. Y4 u* ]# }
         詞條內容也無法再查詢或搜尋....圖像所致
    " ^! H- c( O2 b     就算在歐路能以 OCR 取詞卻也無法對其內容搜尋...GoldenDict...亦然2 N* W* ]: S/ B. d& t% n! M# p0 \
    3.  光是校對詞頭都已是非常吃重的負荷9 K! N# r; b1 p% C6 M3 T3 y  Z8 U
         然而 OCR 後的全文校對更是不太可能
    % g- j( ]! f5 n2 k# I2 f/ h) [  _1 \8 ]# [: t2 D

    : u% p+ Y, L1 h7 Q+ \有關圖片辭典的製作淺見如下:* i. _5 I7 u6 D% v
    + i2 q. @7 ]& ^7 L6 F
    1. 僅校對詞頭....圖片上列出當頁的導航詞頭
    , I6 _0 l$ y6 H3 @    搜索分兩部份:; a6 p+ U/ S% i5 z& V
    a. 詞頭==>校對......此可借用 Chigre 兄的工具來達成3 g& m5 ~5 g( j8 L0 f, p$ p7 ^/ v4 i
    b. 內容==>OCR 不校對1 Y1 s0 k2 N/ R
    5 ], r, Z. v" H% `
    2. 結合圖片和 OCR 文字....把 OCR 文字利用起來於全文搜索* X& ^7 l: }/ A# i
    3. 把圖片和 OCR 文字并列....縱然 OCR 不一定正確..但可從圖片獲得正確訊息3 p- ?; t+ M( P& K# T2 K
        如此禰補 mdx 與 ocr 後的 pdf or djvu 的差距- B% w9 C3 @, C4 @
        如果辭典有 2 or 3 欄, 以顯示 1 欄 50% 的銀幕寬度 另外 50% 銀幕寬度顯示文字來并列: C% y! C3 l8 r$ [4 D% g& _' [
        如此也好對照......highlight 文字列來定位也較為容易些2 \4 {* f: `& ~: [
        <a href="#section1"> 類似此標簽於圖片是無法轉跳定位但文字是可以的
    - r* _9 _  L! U" e& J' V4 h$ I4. 因可互相對照圖片和 ocr 文字....或許可供熱心人士後續來校對完善之  ?1 h2 v: |3 a* h) ~- k5 L
    5. 若是純英英相對 OCR 良率高則把 OCR 文字利用起來於全文搜索較易達成* R5 U3 R: V4 \
    6. 若能以切圖到每個單字區塊且加上 OCR 文字則最是完美, 但無奈的是此又難度太高.....) u! h9 M( n1 _7 e5 v
        此 Chigre 兄已完美的達成單字區塊的切圖....唯缺OCR 文字實在令人扼腕.....9 @8 G) L: |5 w) a5 E  w3 J' E) r
        或許折衷一下簡化一點2 A9 e% r/ t9 H- b2 h4 y
        但若以切欄為單位 + OCR 文字....此應較易達成& G; Y* S; o( K& F* y" e" \
    0 G8 q& I" }* O5 B6 g  }7 B
        0 D. k) T; H- ^. I

    ( |5 e  j6 o& h9 D9 m( e: Y, M( }& o! I/ {+ \' _

    9 D' v% U4 K, d) d. Z6 E4 L
  • TA的每日心情
    擦汗
    2023-9-2 09:16
  • 签到天数: 1103 天

    [LV.10]以坛为家III

    发表于 2020-2-14 10:20:29 | 显示全部楼层
    个人觉得图片版mdx格式基本没有任何意义,不值得化大量时间去制作。其实不少pdf/djvu阅读器可以直接定位到特定页面,结合简单的索引可起到mdx同样的效果。
    / h9 P9 X' o3 d! g
    7 Q- v$ \: A3 o7 C$ z* k
  • TA的每日心情
    慵懒
    2020-5-3 16:00
  • 签到天数: 207 天

    [LV.7]常住居民III

    发表于 2020-2-14 04:10:44 | 显示全部楼层
    我倒是觉得可以再等等技术更加完善了,用好的OCR软件变成正确率更高的文字版(有资源的用机构购买的服务,转换准确率应该会很高),核对后制作mdx。
    : y' x. O' d1 O9 ~( b或者花点功夫 做成切图版,虽然无法选中,无法上色和优化排版,但好歹解决了最基本的查词需求,也勉强可用。
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2020-2-14 11:14:17 | 显示全部楼层
    spoony1971 发表于 2020-2-14 10:20* P6 T) w3 ^! {. Q; n5 W0 _' A
    个人觉得图片版mdx格式基本没有任何意义,不值得化大量时间去制作。其实不少pdf/djvu阅读器可以直接定位到 ...

    1 X% ?* a1 ?7 ]仁兄,所言甚是呀!,图片版实在是 mdx 的短板.......
  • TA的每日心情
    奋斗
    2020-5-15 23:04
  • 签到天数: 236 天

    [LV.7]常住居民III

    发表于 2020-2-14 13:22:31 | 显示全部楼层
    不能说图片字典没有用,有些资源本身价值比较好,又没有纯文字的mdx,做成图片版就很不错了
  • TA的每日心情

    2023-3-29 00:54
  • 签到天数: 344 天

    [LV.8]以坛为家I

    发表于 2020-2-14 04:09:24 | 显示全部楼层
    提个思路,firefox能把ocr后的双层pdf转换成html页面,可供mdx全文搜索。
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2020-2-14 04:19:57 | 显示全部楼层
    mtaa 发表于 2020-2-14 04:09
    9 F% J8 H* S% Q$ e提个思路,firefox能把ocr后的双层pdf转换成html页面,可供mdx全文搜索。
    5 l( p  M6 N& h! @
    brother mtaa :/ f  W7 s) A- K! r" ~* l
    主要是 ocr 的結果不一定全是正確文字; c2 S8 D" Y7 F! F! ?; D
    是喔, 沒試過firefox ocr
    1 i8 g# K' V- Z' b5 [* h謝謝提供思路/ x. q  _7 t9 S1 ^7 r" d
    2 F( z5 m- t: Z! V0 U! Q8 A
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2020-2-14 04:25:41 | 显示全部楼层
    johannhuang 发表于 2020-2-14 04:101 O! j! ?% K- H5 y* x, l. q
    我倒是觉得可以再等等技术更加完善了,用好的OCR软件变成正确率更高的文字版(有资源的用机构购买的服务, ...
    6 t2 I7 t6 m: C6 W; S# h6 Z- C
    Brother johannhuang :5 ?0 \+ m$ `5 W/ w: I, c5 ~
    切图版 依然也只是詞頭.....并無 OCR 的內容
  • TA的每日心情
    开心
    2022-1-21 00:52
  • 签到天数: 699 天

    [LV.9]以坛为家II

    发表于 2020-2-14 12:25:36 | 显示全部楼层
    spoony1971 发表于 2020-2-14 10:20* U" T1 P6 [, C* p3 R
    个人觉得图片版mdx格式基本没有任何意义,不值得化大量时间去制作。其实不少pdf/djvu阅读器可以直接定位到 ...
    . G5 I3 Q/ L8 S; y2 X# k* w
    不应一概而论。3 e! F- \- S3 a- s' z% h. }
    百科全书、汉语大词典辞源、英语搭配使用同义词辨析、布莱克法律这些,在PDF中搜索定位有点宽泛不够精确,而且搜索速度不如切图版依据词头搜索快、一站式。1 m) |- o. e" A- g# {' V

    7 T: d$ l! |& b0 W1 |. i$ a对于一些汉英英汉通用型词典,由于有太多更好的词典可替代的,倒是不必费力去做切图版
  • TA的每日心情
    开心
    2020-1-5 08:04
  • 签到天数: 50 天

    [LV.5]常住居民I

    发表于 2020-2-14 12:29:18 | 显示全部楼层
    文字版与图片版词典比较! o: H* B9 h, `& @2 e! f
    https://www.pdawiki.com/forum/thread-38624-1-1.html
    ) K5 L3 o) O2 o0 `6 u(出处: 掌上百科 - PDAWIKI)5 q* o# B1 {5 z
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2020-2-14 13:10:43 | 显示全部楼层
    本帖最后由 喬治兄 于 2020-2-14 13:12 编辑
    ( a+ D9 f" X) b4 X9 n# \: F
    cocowind 发表于 2020-2-14 12:25
    / x8 d9 Y  i0 b/ ^- @  Z! T  ~/ X不应一概而论。
    - w  I; g( m9 k' y( p- Y: ~6 M百科全书、汉语大词典辞源、英语搭配使用同义词辨析、布莱克法律这些,在PDF中搜索定位有 ...

    + v$ D! G  u2 q( F) T0 `& N9 J2 l2 f! e! I5 O
    cocowind 兄:1 @) \3 @$ L  `" @$ T, y0 a* X
    所言及是呀......詞頭還是少不了的
    + S6 D9 `0 ~& U' t7 o" X  i, J搜索分兩部份:
    + f. v* T0 ?4 |1. 詞頭==>校對
    1 L, Y, ^) A! J2. 內容==>OCR 不校對
    . a* c- V9 N# H# b1 \
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2020-2-14 13:31:55 | 显示全部楼层
    海上1212 发表于 2020-2-14 13:22) O3 Y8 U! y# Y% @) `
    不能说图片字典没有用,有些资源本身价值比较好,又没有纯文字的mdx,做成图片版就很不错了 ...

    5 h2 \7 g1 Z/ g& z& G- i' hBrother 海上1212:* V9 }1 h# G' Z3 D0 O
    是的, 除詞頭外
    # y) P+ b. K3 l7 jOCR 的文字內容最好也能應用上
    0 C2 q# E9 C% q
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

    发表于 2020-2-14 17:29:43 | 显示全部楼层
    之前有个DK的图解词典 不就全文搜索定位化了4 c9 {. Q3 Q' u, R1 e$ g7 \% l/ x
    就是mdx大了太多。。。毕竟包含了很多位置信息
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2020-2-14 18:07:57 | 显示全部楼层
    jonah_w 发表于 2020-2-14 17:29
    0 {# D3 V0 [2 S: K" y, N  s之前有个DK的图解词典 不就全文搜索定位化了) X3 S8 T& _, ~# x9 b6 [7 @
    就是mdx大了太多。。。毕竟包含了很多位置信息 ...

    $ w6 ~4 K. H' o9 P: |Brother jonah_w:+ s8 Z" O( c( k( Q! y
    若不定位圖片就一欄圖片 + 一欄 OCR 文字 來顯示於畫面& b, q' l& O( @1 H
    應會容易點
    9 v1 s( e4 V1 L
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

    发表于 2020-2-14 18:20:22 | 显示全部楼层
    喬治兄 发表于 2020-2-14 18:07
    ) t! B; a. p2 a- j/ U+ [Brother jonah_w:: N) ^$ B' \; a2 c0 s$ j3 h
    若不定位圖片就一欄圖片 + 一欄 OCR 文字 來顯示於畫面
    1 R5 o1 Z" m- P4 M! Z應會容易點

    5 k3 K/ f4 q- Q4 P0 y: ~这个DK的v2版本就是这么弄的 哈哈 不过OCR的准确率不如你的V3版 2 W- X! E# I, ?# F+ {5 R6 q
    http://ww1.sinaimg.cn/large/6bccb95fgy1g71maxpflej20zw0rpdwh.jpg. _5 J6 i* W6 y: X3 s
    & i9 S- l8 s4 O' U; K
    Chinese-English Bilingual Visual Dictionary DK_v2
      Y) t5 K" k, Vhttps://www.pdawiki.com/forum/thread-35852-1-1.html?x=294297
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2020-2-14 19:01:08 | 显示全部楼层
    jonah_w 发表于 2020-2-14 18:20% {  J, c9 M4 b
    这个DK的v2版本就是这么弄的 哈哈 不过OCR的准确率不如你的V3版
    ) t; B& e/ X$ m8 R! ehttp://ww1.sinaimg.cn/large/6bccb95fg ...

    ' O0 W! X7 b" R( C! fjonah_w 兄:
    ; R( R2 q* \1 K- ]: B( ~仁兄神人也, 小弟難以言表對仁兄的孺慕之情也
    ) s5 H5 K$ X* n+ F' I  S. C其兵貴神速更是令人讚嘆也, g  q& R( [/ ~0 m& c4 p, h( h3 j$ D
  • TA的每日心情
    擦汗
    2023-9-2 09:16
  • 签到天数: 1103 天

    [LV.10]以坛为家III

    发表于 2020-2-14 19:32:09 | 显示全部楼层
    cocowind 发表于 2020-2-14 12:25
    6 R  I- V! w2 C7 Q不应一概而论。
    ' z: n- z3 s+ E1 E' a! q( C3 U+ [百科全书、汉语大词典辞源、英语搭配使用同义词辨析、布莱克法律这些,在PDF中搜索定位有 ...

    / I+ w5 A6 f6 b2 [! u我说的定位不是你理解的定位,您所理解的定位确实不方便。我所说的定位使用如下:1 k5 x6 U4 }" A# {8 [. s* G
    输入命令"d hello"
    5 b# I8 j; T4 D3 epdf/djvu阅读器自动显示hello所在页面,如果阅读器没有运行则自动运行并定位。8 }0 j. `4 [$ {
    : g. b, Y. O9 N2 `# c
    这种方案对阅读器有要求,不过不少阅读器都可做到这一点。
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-4-27 00:14 , Processed in 0.056661 second(s), 9 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表