掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 458|回复: 16

[讨论] 有關圖片辭典的製作淺見檢討

[复制链接]
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2020-2-14 03:29:06 | 显示全部楼层 |阅读模式
    本帖最后由 喬治兄 于 2020-2-20 08:51 编辑 ( {1 W, ^1 E- m+ K! R7 _
    + A5 d6 u! u+ \- R1 Z& ~5 y. ]) T: M
    因鑒於圖片辭典作耗時費力且查詢的實用性又大打折扣  j6 ]- l+ |5 T* O1 ?0 v; h, C
    圖片辭典製作完後也往往成為擺設, 因限縮於詞頭搜索實用性也因而大減, 投入和實用性不成比例...0 n, l0 Z# m' }' a
    盼各位同好予以建議提供看法和觀點....
    * A- v( H+ e9 G: [9 `7 J
    : W! I( X! @2 f7 E* d" Y8 q. F* w/ Y圖片辭典目前缺陷如下:
    - t0 Z  Q; I6 F1.  圖片辭典的 mdx vs. ocr 後的 pdf or djvu 格式檔案.....基本上沒有優勢2 E1 p) t# |. c7 J! v
         ocr 後的 pdf or djvu 格式檔案 可全文搜索  [- o( Q/ {6 E& O+ n  y9 z
    2.  針對目前僅靠詞頭去調出那頁的的圖像或 highlight 位置所獲得的圖像訊息要再查詢或搜尋也相對乏善可陳
    / u1 c0 w; f3 `. n: @     詞條內容也無法再查詢或搜尋....圖像所致. L0 ^' L% [+ z# m$ ~
         就算在歐路能以 OCR 取詞卻也無法對其內容搜尋...GoldenDict...亦然  @8 T. W7 \4 H5 z! H* b; p
    3.  光是校對詞頭都已是非常吃重的負荷
    8 R, {, x7 A- A8 x" A! r, W4 c     然而 OCR 後的全文校對更是不太可能, ~2 e1 h! V4 R* p$ c' y$ b/ A

    5 G& Y* z1 P- l3 h" Q# v4 p( v; c$ o/ y. P+ \
    有關圖片辭典的製作淺見如下:1 c4 n& d  B$ d% @5 Z

    0 M; k5 p5 ~# S5 [& n/ u- W1. 僅校對詞頭....圖片上列出當頁的導航詞頭
    , E% }1 i8 W6 k    搜索分兩部份:+ }3 v+ i7 `3 U* G) T4 a
    a. 詞頭==>校對......此可借用 Chigre 兄的工具來達成6 w: e/ k5 ^4 [* k7 ]% |3 Y
    b. 內容==>OCR 不校對
    # i  a0 s; u. [% F$ Z9 }2 q1 R5 s* S; d$ n& V/ I( s+ U
    2. 結合圖片和 OCR 文字....把 OCR 文字利用起來於全文搜索
    8 D7 {3 [4 ?9 `6 J  U3. 把圖片和 OCR 文字并列....縱然 OCR 不一定正確..但可從圖片獲得正確訊息+ J5 b* S+ u1 m/ U9 z2 V
        如此禰補 mdx 與 ocr 後的 pdf or djvu 的差距
    & j" f1 l9 N. G+ E" G  L) t# l1 }    如果辭典有 2 or 3 欄, 以顯示 1 欄 50% 的銀幕寬度 另外 50% 銀幕寬度顯示文字來并列
    $ F# J" J7 u5 N& D+ G" N    如此也好對照......highlight 文字列來定位也較為容易些3 [9 x) m7 V# I' E1 ~, A
        <a href="#section1"> 類似此標簽於圖片是無法轉跳定位但文字是可以的
    * P3 y5 {4 Y8 W4. 因可互相對照圖片和 ocr 文字....或許可供熱心人士後續來校對完善之
    4 Z( J/ |: R% n5. 若是純英英相對 OCR 良率高則把 OCR 文字利用起來於全文搜索較易達成
    9 B; s( l: G. f! f2 k5 r' P4 o0 l3 f  b6. 若能以切圖到每個單字區塊且加上 OCR 文字則最是完美, 但無奈的是此又難度太高.....
    0 L2 i1 j& }$ ^# L    此 Chigre 兄已完美的達成單字區塊的切圖....唯缺OCR 文字實在令人扼腕.....
    0 R- B7 t2 [6 T! t    或許折衷一下簡化一點# c! y8 I7 |. g
        但若以切欄為單位 + OCR 文字....此應較易達成
    # u! E4 K+ E: s+ {  n' D! x  B2 d$ e! J
       
    & ~: h0 W: Z6 g6 Q7 B
    " u3 B" y4 U! X, c. k( O! m7 X$ w& X0 M/ ?2 n2 x3 P
    ) {) o. u  N# u. P
  • TA的每日心情
    奋斗
    前天 09:58
  • 签到天数: 584 天

    [LV.9]以坛为家II

    发表于 2020-2-14 10:20:29 | 显示全部楼层
    个人觉得图片版mdx格式基本没有任何意义,不值得化大量时间去制作。其实不少pdf/djvu阅读器可以直接定位到特定页面,结合简单的索引可起到mdx同样的效果。
    5 e% X9 W8 O9 `: K% R6 U  M
    / v3 i2 h# B9 E- p! l
  • TA的每日心情
    慵懒
    2020-5-3 16:00
  • 签到天数: 207 天

    [LV.7]常住居民III

    发表于 2020-2-14 04:10:44 | 显示全部楼层
    我倒是觉得可以再等等技术更加完善了,用好的OCR软件变成正确率更高的文字版(有资源的用机构购买的服务,转换准确率应该会很高),核对后制作mdx。
    " d$ o* X. i* _' c! }$ A或者花点功夫 做成切图版,虽然无法选中,无法上色和优化排版,但好歹解决了最基本的查词需求,也勉强可用。
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2020-2-14 11:14:17 | 显示全部楼层
    spoony1971 发表于 2020-2-14 10:20
    # @" m- ^+ Z! \% C& `个人觉得图片版mdx格式基本没有任何意义,不值得化大量时间去制作。其实不少pdf/djvu阅读器可以直接定位到 ...
    - c. s1 D2 @! t/ s% h- z. f
    仁兄,所言甚是呀!,图片版实在是 mdx 的短板.......
  • TA的每日心情
    奋斗
    2020-5-15 23:04
  • 签到天数: 236 天

    [LV.7]常住居民III

    发表于 2020-2-14 13:22:31 | 显示全部楼层
    不能说图片字典没有用,有些资源本身价值比较好,又没有纯文字的mdx,做成图片版就很不错了
  • TA的每日心情
    奋斗
    2020-2-18 02:24
  • 签到天数: 182 天

    [LV.7]常住居民III

    发表于 2020-2-14 04:09:24 | 显示全部楼层
    提个思路,firefox能把ocr后的双层pdf转换成html页面,可供mdx全文搜索。
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2020-2-14 04:19:57 | 显示全部楼层
    mtaa 发表于 2020-2-14 04:09( O( R* X: h* W- {* c3 L
    提个思路,firefox能把ocr后的双层pdf转换成html页面,可供mdx全文搜索。

    . I* q  H9 o8 h3 Cbrother mtaa :1 |3 g8 z- u4 p! A7 L# [% ]% {/ E
    主要是 ocr 的結果不一定全是正確文字
    , j. S3 R. K& E是喔, 沒試過firefox ocr$ |8 c! T# W  q' v5 M
    謝謝提供思路
    " z2 C! ^+ ^+ Y( s5 L5 Z4 }5 r) W: a) @' s
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2020-2-14 04:25:41 | 显示全部楼层
    johannhuang 发表于 2020-2-14 04:10  Y. X( W" L* y
    我倒是觉得可以再等等技术更加完善了,用好的OCR软件变成正确率更高的文字版(有资源的用机构购买的服务, ...
    6 [" O4 u$ Q2 Y: p+ \& R. ~
    Brother johannhuang :& R5 R5 O. X1 J& J7 z7 x
    切图版 依然也只是詞頭.....并無 OCR 的內容
  • TA的每日心情
    开心
    4 小时前
  • 签到天数: 466 天

    [LV.9]以坛为家II

    发表于 2020-2-14 12:25:36 | 显示全部楼层
    spoony1971 发表于 2020-2-14 10:202 i: ?! q- }! K2 h& R: a  @6 {
    个人觉得图片版mdx格式基本没有任何意义,不值得化大量时间去制作。其实不少pdf/djvu阅读器可以直接定位到 ...
    9 S3 P; @) M0 G( f* @
    不应一概而论。
    $ z; F  e6 g5 C, o! O9 }1 l百科全书、汉语大词典辞源、英语搭配使用同义词辨析、布莱克法律这些,在PDF中搜索定位有点宽泛不够精确,而且搜索速度不如切图版依据词头搜索快、一站式。
    7 o# j! _; w4 \5 k  k; X; ]$ A, _; t- d3 Q, v* ?' M
    对于一些汉英英汉通用型词典,由于有太多更好的词典可替代的,倒是不必费力去做切图版
  • TA的每日心情
    开心
    2020-1-5 08:04
  • 签到天数: 50 天

    [LV.5]常住居民I

    发表于 2020-2-14 12:29:18 | 显示全部楼层
    文字版与图片版词典比较
    ) g8 e8 M+ _1 o4 L( @https://www.pdawiki.com/forum/thread-38624-1-1.html" \1 [1 C- s$ b% m$ ~+ |3 U. a
    (出处: 掌上百科 - PDAWIKI)
    , ]( [5 y4 u: C; m7 p- K$ Q4 z$ V) T
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2020-2-14 13:10:43 | 显示全部楼层
    本帖最后由 喬治兄 于 2020-2-14 13:12 编辑
    ( i; m3 o0 y9 X& p
    cocowind 发表于 2020-2-14 12:25
    ) n2 C" ~6 u  b5 M7 z, \- X1 N不应一概而论。& }5 k' f, n  }1 k
    百科全书、汉语大词典辞源、英语搭配使用同义词辨析、布莱克法律这些,在PDF中搜索定位有 ...

    0 u0 b6 a0 I7 B2 a1 h/ h& ^1 N/ }
    cocowind 兄:
    6 I/ h; v4 `& J1 W所言及是呀......詞頭還是少不了的
    5 k7 |: G5 V, j( ~: o搜索分兩部份:& f+ @/ r  t! j  _: K
    1. 詞頭==>校對
    % q0 x! v8 H. W  [; L8 L1 X2. 內容==>OCR 不校對7 o) h# g/ B4 e5 y6 O7 S& X' j6 d
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2020-2-14 13:31:55 | 显示全部楼层
    海上1212 发表于 2020-2-14 13:22' N" [5 p" ~: Z' t3 a
    不能说图片字典没有用,有些资源本身价值比较好,又没有纯文字的mdx,做成图片版就很不错了 ...

    0 X6 E+ N8 |$ o8 PBrother 海上1212:: M2 F" U/ i! D! E$ b+ M
    是的, 除詞頭外
    1 y: ], T; X# tOCR 的文字內容最好也能應用上
    7 ~( k8 g& D  [5 k9 a+ i( Z
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

    发表于 2020-2-14 17:29:43 | 显示全部楼层
    之前有个DK的图解词典 不就全文搜索定位化了6 ?* w  i4 X, y$ F% p
    就是mdx大了太多。。。毕竟包含了很多位置信息
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2020-2-14 18:07:57 | 显示全部楼层
    jonah_w 发表于 2020-2-14 17:29! v" `* l# ^$ H: K& ^+ k5 G
    之前有个DK的图解词典 不就全文搜索定位化了4 T+ d- z) @1 T3 d8 F; d
    就是mdx大了太多。。。毕竟包含了很多位置信息 ...

    7 U) `$ W& `9 _7 S, n& w7 ^  kBrother jonah_w:
    ) Q, A/ D- a) i若不定位圖片就一欄圖片 + 一欄 OCR 文字 來顯示於畫面" |. W* ]5 \9 w1 Y
    應會容易點) M2 A/ M% s. N2 D0 t3 S' f/ @
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

    发表于 2020-2-14 18:20:22 | 显示全部楼层
    喬治兄 发表于 2020-2-14 18:07' L, t2 L. H2 [4 f9 p$ E  s
    Brother jonah_w:, _+ D) M: y7 z8 I
    若不定位圖片就一欄圖片 + 一欄 OCR 文字 來顯示於畫面( t2 L, [% ]; U$ g/ y3 N
    應會容易點
    0 k* n' A/ x7 ^, d. c
    这个DK的v2版本就是这么弄的 哈哈 不过OCR的准确率不如你的V3版 3 h: L7 m7 C2 ?& X* n+ X
    http://ww1.sinaimg.cn/large/6bccb95fgy1g71maxpflej20zw0rpdwh.jpg1 M7 n$ A4 H4 A7 g$ n8 E' V
    9 G& D- h2 |( V" f. f1 n
    Chinese-English Bilingual Visual Dictionary DK_v2* T0 i- b2 Z/ I' I( h0 T
    https://www.pdawiki.com/forum/thread-35852-1-1.html?x=294297
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2020-2-14 19:01:08 | 显示全部楼层
    jonah_w 发表于 2020-2-14 18:20* m9 W! s6 C" A/ e" L1 q6 R
    这个DK的v2版本就是这么弄的 哈哈 不过OCR的准确率不如你的V3版   B6 v& W$ o1 V% x
    http://ww1.sinaimg.cn/large/6bccb95fg ...
    3 @, |9 D5 Q- q6 L9 g1 c3 s& b
    jonah_w 兄:' @, j7 j! `' w$ t! x
    仁兄神人也, 小弟難以言表對仁兄的孺慕之情也5 l" S! T$ D8 `" B! D! S( t" T# }$ O' F
    其兵貴神速更是令人讚嘆也
    ; S! J+ M. X8 x- t" U
  • TA的每日心情
    奋斗
    前天 09:58
  • 签到天数: 584 天

    [LV.9]以坛为家II

    发表于 2020-2-14 19:32:09 | 显示全部楼层
    cocowind 发表于 2020-2-14 12:25
    5 B# M" r% X+ k. E不应一概而论。
    . m7 _; U9 l# N: J百科全书、汉语大词典辞源、英语搭配使用同义词辨析、布莱克法律这些,在PDF中搜索定位有 ...

    ! B7 A# u' g/ h: E' W我说的定位不是你理解的定位,您所理解的定位确实不方便。我所说的定位使用如下:
    8 ^* b$ O6 ^, m* N! C输入命令"d hello"
    " K* ?, c8 P$ q) N( d2 ypdf/djvu阅读器自动显示hello所在页面,如果阅读器没有运行则自动运行并定位。
    4 v: N+ f! q0 |1 r0 |) ?4 m* A+ N( @; }6 B; A/ ], m
    这种方案对阅读器有要求,不过不少阅读器都可做到这一点。
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    顶部qrcode底部
    关注公众号送论坛充值码
    关注微信公众平台
    关注微信公众号 pdawiki,获取邀请码,看文抢积分,抽奖得浮云! Follow our Wechat official account "pdawiki", get invitation codes, and play the lottery to earn points (积分)!

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2020-8-9 05:24 , Processed in 0.027620 second(s), 7 queries , MemCache On.

    Powered by Discuz! X3.4

    © 2001-2017 Comsenz Inc.

    快速回复 返回顶部 返回列表