掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 1244|回复: 16

[讨论] 有關圖片辭典的製作淺見檢討

[复制链接]
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2020-2-14 03:29:06 | 显示全部楼层 |阅读模式
    本帖最后由 喬治兄 于 2020-2-20 08:51 编辑 ) R! K) ^# \; \0 A+ I0 M; L

    8 Q+ \: B, D7 C( d2 o: P 因鑒於圖片辭典作耗時費力且查詢的實用性又大打折扣
    - l4 G5 j- W, G圖片辭典製作完後也往往成為擺設, 因限縮於詞頭搜索實用性也因而大減, 投入和實用性不成比例...
    % Q& [' c: Q8 r" x- l盼各位同好予以建議提供看法和觀點....4 X2 {5 K1 `9 r
      G( o' z' \. f& V1 W  x/ P
    圖片辭典目前缺陷如下:, D" W! K  s  z
    1.  圖片辭典的 mdx vs. ocr 後的 pdf or djvu 格式檔案.....基本上沒有優勢
    & X4 c+ N1 I: f, B     ocr 後的 pdf or djvu 格式檔案 可全文搜索3 t/ V( e2 o7 \, ^3 Z* w
    2.  針對目前僅靠詞頭去調出那頁的的圖像或 highlight 位置所獲得的圖像訊息要再查詢或搜尋也相對乏善可陳
    + h# p( G, f8 Q, x: o( |: L8 }     詞條內容也無法再查詢或搜尋....圖像所致
    1 N/ ?) S$ K+ Y     就算在歐路能以 OCR 取詞卻也無法對其內容搜尋...GoldenDict...亦然
    - f1 p3 d# c3 u- s; p3.  光是校對詞頭都已是非常吃重的負荷
    ( J& T. V8 D5 Y- z" |     然而 OCR 後的全文校對更是不太可能  m) V4 Y/ [" Q, m6 {) A& _! w

    + W3 H3 K3 |' J$ S1 E
    0 _  c( ^0 u2 T2 f5 K* \有關圖片辭典的製作淺見如下:
    . p" y9 D' H# z. f. {2 j
    : ~* m- I( h* [/ u+ A8 h( b  m1. 僅校對詞頭....圖片上列出當頁的導航詞頭
      H' S8 z; \5 d* G+ J3 ^. p. ^    搜索分兩部份:
    $ P$ ]6 }7 m/ p/ oa. 詞頭==>校對......此可借用 Chigre 兄的工具來達成1 g$ H$ I( ]1 W) f! R' g
    b. 內容==>OCR 不校對
    + N- x9 ]* v2 e: N7 J0 ^  m7 [2 q1 K3 p7 N  P. j* W+ @  V% I2 ~
    2. 結合圖片和 OCR 文字....把 OCR 文字利用起來於全文搜索
    ' Q: Y  J& B$ A0 b3. 把圖片和 OCR 文字并列....縱然 OCR 不一定正確..但可從圖片獲得正確訊息. n. D; F9 _: y* e+ P
        如此禰補 mdx 與 ocr 後的 pdf or djvu 的差距
    9 C) e+ r1 T! U% R. \& a2 t    如果辭典有 2 or 3 欄, 以顯示 1 欄 50% 的銀幕寬度 另外 50% 銀幕寬度顯示文字來并列' X$ _* n$ s5 n  [6 \
        如此也好對照......highlight 文字列來定位也較為容易些  z# k* V  M9 x0 r( ?7 t; {
        <a href="#section1"> 類似此標簽於圖片是無法轉跳定位但文字是可以的
    - W- I# C' ^  c0 R4 H4. 因可互相對照圖片和 ocr 文字....或許可供熱心人士後續來校對完善之/ h5 L: [) O! |$ c, V! y4 w
    5. 若是純英英相對 OCR 良率高則把 OCR 文字利用起來於全文搜索較易達成
    7 r" h; M3 U  n6. 若能以切圖到每個單字區塊且加上 OCR 文字則最是完美, 但無奈的是此又難度太高.....2 |/ C" F, t; K
        此 Chigre 兄已完美的達成單字區塊的切圖....唯缺OCR 文字實在令人扼腕.....
    $ `, ~5 @* |/ D: W' _2 q" T- j5 b( E    或許折衷一下簡化一點8 U; R# q; K9 ]4 X* F+ P
        但若以切欄為單位 + OCR 文字....此應較易達成% H* D, t: ]/ Q
    9 E8 J) |+ e0 g9 F$ n
       
    ( D' m$ m1 n8 s1 g* l
    $ Y7 o. z) P5 j4 @2 R5 M* |# r' }- c/ E1 v3 h# Q9 h6 z! y
      _$ _  c( o6 f% L( A
  • TA的每日心情
    擦汗
    2023-9-2 09:16
  • 签到天数: 1103 天

    [LV.10]以坛为家III

    发表于 2020-2-14 10:20:29 | 显示全部楼层
    个人觉得图片版mdx格式基本没有任何意义,不值得化大量时间去制作。其实不少pdf/djvu阅读器可以直接定位到特定页面,结合简单的索引可起到mdx同样的效果。7 P$ u: C. U! l4 m7 T( O0 s" V
    0 N( a5 x: X* v3 i, ?
  • TA的每日心情
    慵懒
    2020-5-3 16:00
  • 签到天数: 207 天

    [LV.7]常住居民III

    发表于 2020-2-14 04:10:44 | 显示全部楼层
    我倒是觉得可以再等等技术更加完善了,用好的OCR软件变成正确率更高的文字版(有资源的用机构购买的服务,转换准确率应该会很高),核对后制作mdx。9 W' ^/ D: d- l+ K
    或者花点功夫 做成切图版,虽然无法选中,无法上色和优化排版,但好歹解决了最基本的查词需求,也勉强可用。
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2020-2-14 11:14:17 | 显示全部楼层
    spoony1971 发表于 2020-2-14 10:20+ O0 X% x  R7 N
    个人觉得图片版mdx格式基本没有任何意义,不值得化大量时间去制作。其实不少pdf/djvu阅读器可以直接定位到 ...
      B7 |! ?4 ~; V9 o3 }# K
    仁兄,所言甚是呀!,图片版实在是 mdx 的短板.......
  • TA的每日心情
    奋斗
    2020-5-15 23:04
  • 签到天数: 236 天

    [LV.7]常住居民III

    发表于 2020-2-14 13:22:31 | 显示全部楼层
    不能说图片字典没有用,有些资源本身价值比较好,又没有纯文字的mdx,做成图片版就很不错了
  • TA的每日心情

    2023-3-29 00:54
  • 签到天数: 344 天

    [LV.8]以坛为家I

    发表于 2020-2-14 04:09:24 | 显示全部楼层
    提个思路,firefox能把ocr后的双层pdf转换成html页面,可供mdx全文搜索。
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2020-2-14 04:19:57 | 显示全部楼层
    mtaa 发表于 2020-2-14 04:09
      s: z# y8 _/ T- F# Z提个思路,firefox能把ocr后的双层pdf转换成html页面,可供mdx全文搜索。
    3 _' q2 t( W1 R9 L1 u
    brother mtaa :
    3 i* |) P( w* R# q9 ^  |# y2 B主要是 ocr 的結果不一定全是正確文字
    % Y/ h" E2 y4 X" q: ~: z" d: h是喔, 沒試過firefox ocr
    - ?  W$ f# m. g. a; }- ]) E1 w3 f1 E謝謝提供思路
    5 Y+ E7 s3 v; z1 G
    / h9 l( y* C/ `( k
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2020-2-14 04:25:41 | 显示全部楼层
    johannhuang 发表于 2020-2-14 04:10* @% L# P* ?7 A5 ^
    我倒是觉得可以再等等技术更加完善了,用好的OCR软件变成正确率更高的文字版(有资源的用机构购买的服务, ...
    ) ^% e) F- Z- x) _6 u) y
    Brother johannhuang :
    ) Z/ A) t7 H  a  P9 F1 ^% g6 w; q1 `切图版 依然也只是詞頭.....并無 OCR 的內容
  • TA的每日心情
    开心
    2022-1-21 00:52
  • 签到天数: 699 天

    [LV.9]以坛为家II

    发表于 2020-2-14 12:25:36 | 显示全部楼层
    spoony1971 发表于 2020-2-14 10:20
    8 e' G, r1 T# `个人觉得图片版mdx格式基本没有任何意义,不值得化大量时间去制作。其实不少pdf/djvu阅读器可以直接定位到 ...
    * g  h- G7 S1 O" y9 l8 S. H
    不应一概而论。
    6 y" I9 R: O: G$ f" a& N百科全书、汉语大词典辞源、英语搭配使用同义词辨析、布莱克法律这些,在PDF中搜索定位有点宽泛不够精确,而且搜索速度不如切图版依据词头搜索快、一站式。! m3 k3 U5 _* r

    & T" s; I7 _/ c1 s$ e& h$ m, B对于一些汉英英汉通用型词典,由于有太多更好的词典可替代的,倒是不必费力去做切图版
  • TA的每日心情
    开心
    2020-1-5 08:04
  • 签到天数: 50 天

    [LV.5]常住居民I

    发表于 2020-2-14 12:29:18 | 显示全部楼层
    文字版与图片版词典比较( j  \" m/ c* C* J" M. E
    https://www.pdawiki.com/forum/thread-38624-1-1.html
    7 c3 ^, I# F- D(出处: 掌上百科 - PDAWIKI)4 H8 Y' L: G0 |8 Y7 K* _1 ~" _
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2020-2-14 13:10:43 | 显示全部楼层
    本帖最后由 喬治兄 于 2020-2-14 13:12 编辑
    3 r5 e; p! }4 E2 C
    cocowind 发表于 2020-2-14 12:25
    1 X  g3 a. R9 f! [4 R4 @& C; Z( U: J不应一概而论。
    : B+ P$ P7 @" x百科全书、汉语大词典辞源、英语搭配使用同义词辨析、布莱克法律这些,在PDF中搜索定位有 ...

    $ |  V' F, ~6 q! F) `) _2 a" {3 g) a' v( r. [0 `+ w" \( T+ Y
    cocowind 兄:# V, ?0 j" [7 e/ U, {2 E% U$ H
    所言及是呀......詞頭還是少不了的0 A4 F% ^! P1 C6 I/ f2 {) |- }7 M
    搜索分兩部份:
    - [) a$ @- C5 M3 l1. 詞頭==>校對
    ) A& o* e2 G; s0 z. _2. 內容==>OCR 不校對
    ) e" L" j: O1 H! ]/ @+ z
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2020-2-14 13:31:55 | 显示全部楼层
    海上1212 发表于 2020-2-14 13:223 ]* X9 n+ H) c6 c" k
    不能说图片字典没有用,有些资源本身价值比较好,又没有纯文字的mdx,做成图片版就很不错了 ...

    6 ^2 ]: I8 o; U* GBrother 海上1212:3 s' {) L: q1 z
    是的, 除詞頭外: u/ P" [3 n9 N
    OCR 的文字內容最好也能應用上: x1 W  ~% {1 f( x
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

    发表于 2020-2-14 17:29:43 | 显示全部楼层
    之前有个DK的图解词典 不就全文搜索定位化了
    ) t; H' @: {/ ]5 `9 c5 B就是mdx大了太多。。。毕竟包含了很多位置信息
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2020-2-14 18:07:57 | 显示全部楼层
    jonah_w 发表于 2020-2-14 17:299 X# h" v6 N3 r- k6 W1 ?
    之前有个DK的图解词典 不就全文搜索定位化了
    " C4 `. K1 t4 w2 A9 ?就是mdx大了太多。。。毕竟包含了很多位置信息 ...
    5 i6 l; V& O1 F* M# Y/ Y+ c, V: R
    Brother jonah_w:
    ) i& j2 o- a% n' Y! J2 E; `若不定位圖片就一欄圖片 + 一欄 OCR 文字 來顯示於畫面/ G" {3 b: D) y% H7 u& p- I$ L
    應會容易點
    # ~& T0 L  b3 T$ h. ~7 z
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

    发表于 2020-2-14 18:20:22 | 显示全部楼层
    喬治兄 发表于 2020-2-14 18:076 v9 H  ]3 e' f
    Brother jonah_w:
    1 }3 d( y, v1 m, S* K8 ~. Q% V2 n1 H( Z若不定位圖片就一欄圖片 + 一欄 OCR 文字 來顯示於畫面: T- O, ]+ u5 k8 Q- L( b
    應會容易點

    1 L1 N- i' Y: o6 ?0 z' T这个DK的v2版本就是这么弄的 哈哈 不过OCR的准确率不如你的V3版
    : }7 v6 f/ a( Hhttp://ww1.sinaimg.cn/large/6bccb95fgy1g71maxpflej20zw0rpdwh.jpg$ [! @. S" J% G4 }+ t, t9 H
    $ _9 O, j( w3 {5 i3 h1 p
    Chinese-English Bilingual Visual Dictionary DK_v2" m. n, ?5 W% e7 E
    https://www.pdawiki.com/forum/thread-35852-1-1.html?x=294297
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2020-2-14 19:01:08 | 显示全部楼层
    jonah_w 发表于 2020-2-14 18:20
    / Z; B* H% t8 ]* _2 h+ i6 H这个DK的v2版本就是这么弄的 哈哈 不过OCR的准确率不如你的V3版 3 z! N) c( ^$ A1 J' G( c
    http://ww1.sinaimg.cn/large/6bccb95fg ...
    2 _5 N! ^+ G) R$ Q& P' y. {
    jonah_w 兄:- e% H2 p; k% I; E8 @2 H) v- U& j5 A
    仁兄神人也, 小弟難以言表對仁兄的孺慕之情也
    $ G: t8 o( d/ Z3 O6 j' O其兵貴神速更是令人讚嘆也
    0 p$ K4 _" U( P. R' W2 s2 m
  • TA的每日心情
    擦汗
    2023-9-2 09:16
  • 签到天数: 1103 天

    [LV.10]以坛为家III

    发表于 2020-2-14 19:32:09 | 显示全部楼层
    cocowind 发表于 2020-2-14 12:25! p8 b; B( @- s/ m
    不应一概而论。
    # i& m* \8 d7 g7 [# {1 Z百科全书、汉语大词典辞源、英语搭配使用同义词辨析、布莱克法律这些,在PDF中搜索定位有 ...

    % }* |+ O& k: I我说的定位不是你理解的定位,您所理解的定位确实不方便。我所说的定位使用如下:0 B! B8 G5 R9 T. z( k4 Q8 q" ]
    输入命令"d hello"
    $ [% v# G7 @3 L5 y/ p; {pdf/djvu阅读器自动显示hello所在页面,如果阅读器没有运行则自动运行并定位。" {  O2 r7 B; d. f

    . S4 V8 p4 X8 i$ y# S/ P; m+ e这种方案对阅读器有要求,不过不少阅读器都可做到这一点。
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-4-25 01:27 , Processed in 0.063725 second(s), 9 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表