掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 1238|回复: 16

[讨论] 有關圖片辭典的製作淺見檢討

[复制链接]
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2020-2-14 03:29:06 | 显示全部楼层 |阅读模式
    本帖最后由 喬治兄 于 2020-2-20 08:51 编辑
    3 n% J$ e6 `0 v! R
    ; q5 R' h1 @7 D; I( g- G7 Q 因鑒於圖片辭典作耗時費力且查詢的實用性又大打折扣
    1 k6 B, ?" a/ V6 T, N圖片辭典製作完後也往往成為擺設, 因限縮於詞頭搜索實用性也因而大減, 投入和實用性不成比例.../ r  H- V1 q0 y
    盼各位同好予以建議提供看法和觀點....( M8 A: G/ y) R" U- n- F
    ) E- y, m+ ]- g; _, w: h
    圖片辭典目前缺陷如下:
    - S: Y5 e1 c' i( a1.  圖片辭典的 mdx vs. ocr 後的 pdf or djvu 格式檔案.....基本上沒有優勢2 @- L6 o5 U2 |1 `
         ocr 後的 pdf or djvu 格式檔案 可全文搜索
    ' `9 o3 M3 S% M: q# g. }2.  針對目前僅靠詞頭去調出那頁的的圖像或 highlight 位置所獲得的圖像訊息要再查詢或搜尋也相對乏善可陳: j) i. _9 J3 L
         詞條內容也無法再查詢或搜尋....圖像所致
    0 O0 o$ b$ v; j. V/ F/ u2 x     就算在歐路能以 OCR 取詞卻也無法對其內容搜尋...GoldenDict...亦然7 X% [5 |  ?: z( c
    3.  光是校對詞頭都已是非常吃重的負荷
    * F9 G( v  j- A8 j. ], Q" y5 v9 j     然而 OCR 後的全文校對更是不太可能
    2 V( H0 {5 u& E/ l4 g( U! W' F1 S# y1 }! q

    8 M6 R4 u1 s0 I7 ?有關圖片辭典的製作淺見如下:# G3 E9 H. B+ ]+ P! D" ]

    / l6 [3 c8 z3 ?: B  n1. 僅校對詞頭....圖片上列出當頁的導航詞頭
    6 l  [) ]) D7 E, i    搜索分兩部份:
    $ r  H) }+ ?+ B# f2 `! Ga. 詞頭==>校對......此可借用 Chigre 兄的工具來達成
    6 T9 G) g6 f" U0 qb. 內容==>OCR 不校對9 ~0 f# `# @" O7 l1 S6 g. A
    5 q/ J( _& a: Z1 _) ]: ^
    2. 結合圖片和 OCR 文字....把 OCR 文字利用起來於全文搜索
    7 m9 D+ B2 c9 u8 `3. 把圖片和 OCR 文字并列....縱然 OCR 不一定正確..但可從圖片獲得正確訊息
    % Y# M- @: `6 T* J0 p& c3 L0 s    如此禰補 mdx 與 ocr 後的 pdf or djvu 的差距
    , c% `% [. B# n% p    如果辭典有 2 or 3 欄, 以顯示 1 欄 50% 的銀幕寬度 另外 50% 銀幕寬度顯示文字來并列
    . i% i: q* m' @6 V& n1 t    如此也好對照......highlight 文字列來定位也較為容易些$ {1 ~. T5 f+ U4 h3 g7 D# V& e
        <a href="#section1"> 類似此標簽於圖片是無法轉跳定位但文字是可以的
    0 a- p  ]% F! Q/ f; I% H* p. S4. 因可互相對照圖片和 ocr 文字....或許可供熱心人士後續來校對完善之+ q; }) P, ]6 W0 U
    5. 若是純英英相對 OCR 良率高則把 OCR 文字利用起來於全文搜索較易達成
    8 d$ D0 {6 o. J$ y- o$ h6 j6. 若能以切圖到每個單字區塊且加上 OCR 文字則最是完美, 但無奈的是此又難度太高.....! @* Y& ~2 u9 M9 P+ H4 H
        此 Chigre 兄已完美的達成單字區塊的切圖....唯缺OCR 文字實在令人扼腕.....
    + P, h& d" l4 k# B5 \    或許折衷一下簡化一點9 A  t5 v) z- u4 Z7 f8 h
        但若以切欄為單位 + OCR 文字....此應較易達成; p0 X+ Y$ E4 X" |  U- j
    . p6 E1 ~! m: z. o4 @* e
        ' t' O5 v* v: Q3 Q4 J" U" x
    ' C5 Q4 s, W" S5 ?" P0 L
    . i) U) ]$ I& o! @' \) U
    1 K* {2 C  a5 r0 x
  • TA的每日心情
    擦汗
    2023-9-2 09:16
  • 签到天数: 1103 天

    [LV.10]以坛为家III

    发表于 2020-2-14 10:20:29 | 显示全部楼层
    个人觉得图片版mdx格式基本没有任何意义,不值得化大量时间去制作。其实不少pdf/djvu阅读器可以直接定位到特定页面,结合简单的索引可起到mdx同样的效果。
    + k7 s  r& o! Z& _8 U! |+ G) e
    $ f* \/ R9 E( X/ K# h4 u
  • TA的每日心情
    慵懒
    2020-5-3 16:00
  • 签到天数: 207 天

    [LV.7]常住居民III

    发表于 2020-2-14 04:10:44 | 显示全部楼层
    我倒是觉得可以再等等技术更加完善了,用好的OCR软件变成正确率更高的文字版(有资源的用机构购买的服务,转换准确率应该会很高),核对后制作mdx。2 I; m0 V8 @& v
    或者花点功夫 做成切图版,虽然无法选中,无法上色和优化排版,但好歹解决了最基本的查词需求,也勉强可用。
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2020-2-14 11:14:17 | 显示全部楼层
    spoony1971 发表于 2020-2-14 10:20" o1 ^3 t5 r: |5 N! m
    个人觉得图片版mdx格式基本没有任何意义,不值得化大量时间去制作。其实不少pdf/djvu阅读器可以直接定位到 ...
    / ?+ u. K) b  S; [  c* E- e$ k6 W) }
    仁兄,所言甚是呀!,图片版实在是 mdx 的短板.......
  • TA的每日心情
    奋斗
    2020-5-15 23:04
  • 签到天数: 236 天

    [LV.7]常住居民III

    发表于 2020-2-14 13:22:31 | 显示全部楼层
    不能说图片字典没有用,有些资源本身价值比较好,又没有纯文字的mdx,做成图片版就很不错了
  • TA的每日心情

    2023-3-29 00:54
  • 签到天数: 344 天

    [LV.8]以坛为家I

    发表于 2020-2-14 04:09:24 | 显示全部楼层
    提个思路,firefox能把ocr后的双层pdf转换成html页面,可供mdx全文搜索。
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2020-2-14 04:19:57 | 显示全部楼层
    mtaa 发表于 2020-2-14 04:09% |# p+ E( V$ r3 `
    提个思路,firefox能把ocr后的双层pdf转换成html页面,可供mdx全文搜索。
    7 |1 d. \" u0 X7 e! c
    brother mtaa :0 E* \1 b9 E3 O+ L/ M  r& N" }
    主要是 ocr 的結果不一定全是正確文字$ f( J- U0 m( r" Z4 v3 v$ Z, i
    是喔, 沒試過firefox ocr# a# U% \0 X& N6 _
    謝謝提供思路
    8 q" D$ Z/ v3 l
    & v1 S, G/ }4 h2 ?( P5 u* s9 |
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2020-2-14 04:25:41 | 显示全部楼层
    johannhuang 发表于 2020-2-14 04:10% b. V8 G9 [9 I# I
    我倒是觉得可以再等等技术更加完善了,用好的OCR软件变成正确率更高的文字版(有资源的用机构购买的服务, ...

    , g! s0 g$ |, ?% MBrother johannhuang :& W6 O- d% n8 r* t$ `, K1 R/ N' {; A
    切图版 依然也只是詞頭.....并無 OCR 的內容
  • TA的每日心情
    开心
    2022-1-21 00:52
  • 签到天数: 699 天

    [LV.9]以坛为家II

    发表于 2020-2-14 12:25:36 | 显示全部楼层
    spoony1971 发表于 2020-2-14 10:20
    ) W" J& a" Q. F  l个人觉得图片版mdx格式基本没有任何意义,不值得化大量时间去制作。其实不少pdf/djvu阅读器可以直接定位到 ...
    , C% p' ]' L# X$ Q9 l: {
    不应一概而论。/ Q! P6 v  p2 e8 t
    百科全书、汉语大词典辞源、英语搭配使用同义词辨析、布莱克法律这些,在PDF中搜索定位有点宽泛不够精确,而且搜索速度不如切图版依据词头搜索快、一站式。( T$ N9 N4 g5 e

    ) R1 ~# b0 Y2 r9 K0 |对于一些汉英英汉通用型词典,由于有太多更好的词典可替代的,倒是不必费力去做切图版
  • TA的每日心情
    开心
    2020-1-5 08:04
  • 签到天数: 50 天

    [LV.5]常住居民I

    发表于 2020-2-14 12:29:18 | 显示全部楼层
    文字版与图片版词典比较
    6 Q! G( A5 V% t+ T. bhttps://www.pdawiki.com/forum/thread-38624-1-1.html) X& r/ y. t0 A/ Y; r% U5 Z" ^& a/ w
    (出处: 掌上百科 - PDAWIKI)3 }. `* r; t: o# P: P
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2020-2-14 13:10:43 | 显示全部楼层
    本帖最后由 喬治兄 于 2020-2-14 13:12 编辑 , E! E. y0 {, ]! V4 N1 M9 a
    cocowind 发表于 2020-2-14 12:25( x, s* @9 f$ J. A( m
    不应一概而论。5 w' u& R/ W9 n! F+ C2 Z) V5 q
    百科全书、汉语大词典辞源、英语搭配使用同义词辨析、布莱克法律这些,在PDF中搜索定位有 ...
    2 N7 i" ?( ?- K8 m# t* c0 M5 ~

    / N: d( ]' ?+ Z) Wcocowind 兄:% D  B& U8 K5 @8 J8 n. f2 `
    所言及是呀......詞頭還是少不了的
    * ]* }/ v" P" x( w+ @搜索分兩部份:
    , S9 O$ t7 i9 H1. 詞頭==>校對& Y4 X3 T& {% y; B0 u
    2. 內容==>OCR 不校對* u3 g" q  L0 `. G
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2020-2-14 13:31:55 | 显示全部楼层
    海上1212 发表于 2020-2-14 13:22
    2 w; m  |9 z+ @不能说图片字典没有用,有些资源本身价值比较好,又没有纯文字的mdx,做成图片版就很不错了 ...
    . A3 D% W0 ]7 B/ _3 n; N+ ^
    Brother 海上1212:
    ! r- K+ C- K: U) b. {2 |- a是的, 除詞頭外
    0 {& J) h, A) W; `- |( SOCR 的文字內容最好也能應用上
    5 T0 w8 l& }2 n. d  W7 B
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

    发表于 2020-2-14 17:29:43 | 显示全部楼层
    之前有个DK的图解词典 不就全文搜索定位化了
    . G" ]; z& J0 p* b! d! b* n! t就是mdx大了太多。。。毕竟包含了很多位置信息
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2020-2-14 18:07:57 | 显示全部楼层
    jonah_w 发表于 2020-2-14 17:29
    4 D6 B2 M* T4 I0 K5 m之前有个DK的图解词典 不就全文搜索定位化了
    8 M+ k8 P; C: O9 L就是mdx大了太多。。。毕竟包含了很多位置信息 ...

    0 o9 K$ v7 I- s. L! ~2 N9 R( w. ?Brother jonah_w:
    ( r4 F8 o9 b: C# y9 }5 l7 `若不定位圖片就一欄圖片 + 一欄 OCR 文字 來顯示於畫面- w! I5 @9 g' U0 N! [9 l
    應會容易點
    $ D! t& F% l( K* g
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

    发表于 2020-2-14 18:20:22 | 显示全部楼层
    喬治兄 发表于 2020-2-14 18:07
    0 A/ T. z) Z0 S9 e, \  \3 j( uBrother jonah_w:# V% `; r; g( b+ ]
    若不定位圖片就一欄圖片 + 一欄 OCR 文字 來顯示於畫面
    2 z6 W+ t' q) \5 o/ ]! o4 U應會容易點

    7 u2 t  ~, f! _( D9 g) Y这个DK的v2版本就是这么弄的 哈哈 不过OCR的准确率不如你的V3版 8 v* l" W3 [- x7 X2 v9 \9 s- H
    http://ww1.sinaimg.cn/large/6bccb95fgy1g71maxpflej20zw0rpdwh.jpg, f% a" A. F% u: M: d
    ' F3 P  r( ]9 ~* J2 P
    Chinese-English Bilingual Visual Dictionary DK_v22 B" v! b( G% @5 K; t
    https://www.pdawiki.com/forum/thread-35852-1-1.html?x=294297
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2020-2-14 19:01:08 | 显示全部楼层
    jonah_w 发表于 2020-2-14 18:20
    3 c% g: C" R& w- A% b5 G这个DK的v2版本就是这么弄的 哈哈 不过OCR的准确率不如你的V3版
    % C6 K0 M# V6 M! d9 Yhttp://ww1.sinaimg.cn/large/6bccb95fg ...
    % _) }+ E7 C9 W' F" q
    jonah_w 兄:9 C, Z* t, ?; ], X, A5 I
    仁兄神人也, 小弟難以言表對仁兄的孺慕之情也2 }3 {( [6 {3 ~5 O
    其兵貴神速更是令人讚嘆也/ i- n6 T, K# o8 b
  • TA的每日心情
    擦汗
    2023-9-2 09:16
  • 签到天数: 1103 天

    [LV.10]以坛为家III

    发表于 2020-2-14 19:32:09 | 显示全部楼层
    cocowind 发表于 2020-2-14 12:25
      a+ ], v# B3 G# g) |& A不应一概而论。
    * m% K$ y' v0 ]& I" S; z百科全书、汉语大词典辞源、英语搭配使用同义词辨析、布莱克法律这些,在PDF中搜索定位有 ...
      L5 m0 q; l& }$ k4 h' Z
    我说的定位不是你理解的定位,您所理解的定位确实不方便。我所说的定位使用如下:
    ) G3 T( W0 o# x: D7 c输入命令"d hello": A6 B0 J4 M" q' _$ b4 d) }
    pdf/djvu阅读器自动显示hello所在页面,如果阅读器没有运行则自动运行并定位。
    7 V! t' e7 q+ z, G" U+ t
    $ ?% g. r, Y/ d8 V这种方案对阅读器有要求,不过不少阅读器都可做到这一点。
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-4-19 21:36 , Processed in 0.069550 second(s), 9 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表