掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 198|回复: 16

[讨论] 有關圖片辭典的製作淺見檢討

[复制链接]
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 6 天前 | 显示全部楼层 |阅读模式
    本帖最后由 喬治兄 于 2020-2-20 08:51 编辑 2 e5 W- H1 @( \& r

    , Y7 X% P  f  w( P& r! g0 { 因鑒於圖片辭典作耗時費力且查詢的實用性又大打折扣( F2 q0 h0 C8 a  Q" H" R; I- y
    圖片辭典製作完後也往往成為擺設, 因限縮於詞頭搜索實用性也因而大減, 投入和實用性不成比例...% i, v, O2 G, o" o3 p# m
    盼各位同好予以建議提供看法和觀點....
    % E/ s8 b& M& h. h, T8 {
    ! Q- r7 V# J9 j" M1 f圖片辭典目前缺陷如下:3 d2 _) q$ y# M" i# ]
    1.  圖片辭典的 mdx vs. ocr 後的 pdf or djvu 格式檔案.....基本上沒有優勢2 E1 d" j! ^7 |) V, i
         ocr 後的 pdf or djvu 格式檔案 可全文搜索
    : w2 W7 ^4 @4 Z2.  針對目前僅靠詞頭去調出那頁的的圖像或 highlight 位置所獲得的圖像訊息要再查詢或搜尋也相對乏善可陳( K; C/ `6 Q. ]
         詞條內容也無法再查詢或搜尋....圖像所致( ]# J* m9 s' p( C9 y
         就算在歐路能以 OCR 取詞卻也無法對其內容搜尋...GoldenDict...亦然
    $ m8 H$ x" x- G/ V. ^/ d, x3.  光是校對詞頭都已是非常吃重的負荷. e2 [7 T& `7 I
         然而 OCR 後的全文校對更是不太可能
    " A' v; v! L4 @/ C3 ?% S+ S- c# ~2 ~, f( E- `4 j& n8 |% C
    $ X# |: F: q/ Y; W; S
    有關圖片辭典的製作淺見如下:0 e, D$ O. C* x2 a5 K3 b7 y$ {

    * C5 j7 H0 Q/ t$ D8 `) t1. 僅校對詞頭....圖片上列出當頁的導航詞頭
    ' D( [% S/ L/ w8 \$ w    搜索分兩部份:) ^8 e0 e5 J( q5 e+ J
    a. 詞頭==>校對......此可借用 Chigre 兄的工具來達成
    9 u0 J3 w" n+ n0 }0 @! ~% W: Ib. 內容==>OCR 不校對- z& u6 t/ U& O) G) V) P& o
    * z+ W# W8 Q0 F' s2 c0 m% u( e
    2. 結合圖片和 OCR 文字....把 OCR 文字利用起來於全文搜索
    - O0 `9 O+ |0 V- p3. 把圖片和 OCR 文字并列....縱然 OCR 不一定正確..但可從圖片獲得正確訊息. q9 E' X' @; ?3 u4 t
        如此禰補 mdx 與 ocr 後的 pdf or djvu 的差距
    + L: I* t" I# y* k+ v    如果辭典有 2 or 3 欄, 以顯示 1 欄 50% 的銀幕寬度 另外 50% 銀幕寬度顯示文字來并列
    ! F' ]* D' u3 n5 v    如此也好對照......highlight 文字列來定位也較為容易些4 ?9 [2 p6 S6 C% J+ d, R
        <a href="#section1"> 類似此標簽於圖片是無法轉跳定位但文字是可以的/ Q4 C! F; f0 C
    4. 因可互相對照圖片和 ocr 文字....或許可供熱心人士後續來校對完善之9 j* L4 l% ~0 [, @
    5. 若是純英英相對 OCR 良率高則把 OCR 文字利用起來於全文搜索較易達成
    9 P5 M" X9 E- |3 t7 |6. 若能以切圖到每個單字區塊且加上 OCR 文字則最是完美, 但無奈的是此又難度太高.....
    % M8 i8 e  a' ]* S' q% ~/ D1 {) x    此 Chigre 兄已完美的達成單字區塊的切圖....唯缺OCR 文字實在令人扼腕.....
    / f6 n' G; ~% B) t, W    或許折衷一下簡化一點
    - B8 f' e. l" c2 N- l5 l    但若以切欄為單位 + OCR 文字....此應較易達成
    7 u5 s+ L: Y2 p0 T+ Y; V+ P  @. z! m& m" V' {; f
       
      I( c8 D2 _+ c( u4 s0 ^
    % V  ]% H$ x! {! o  \( Z0 i0 E. V& w8 [/ I
    % _6 ~) l2 Z5 t( a+ A/ \
  • TA的每日心情
    擦汗
    昨天 11:12
  • 签到天数: 482 天

    [LV.9]以坛为家II

    发表于 6 天前 | 显示全部楼层
    个人觉得图片版mdx格式基本没有任何意义,不值得化大量时间去制作。其实不少pdf/djvu阅读器可以直接定位到特定页面,结合简单的索引可起到mdx同样的效果。' ?7 Z0 J. b2 K$ b

    2 F  f4 {2 U2 ]& w* l" Y9 F
  • TA的每日心情
    慵懒
    昨天 20:29
  • 签到天数: 181 天

    [LV.7]常住居民III

    发表于 6 天前 | 显示全部楼层
    我倒是觉得可以再等等技术更加完善了,用好的OCR软件变成正确率更高的文字版(有资源的用机构购买的服务,转换准确率应该会很高),核对后制作mdx。
    ' s! \& h# ]1 X2 C7 H9 }或者花点功夫 做成切图版,虽然无法选中,无法上色和优化排版,但好歹解决了最基本的查词需求,也勉强可用。
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 6 天前 | 显示全部楼层
    spoony1971 发表于 2020-2-14 10:209 E) l& d+ Z7 ]: ^
    个人觉得图片版mdx格式基本没有任何意义,不值得化大量时间去制作。其实不少pdf/djvu阅读器可以直接定位到 ...
    , R3 n0 e7 f! `/ C& c' T
    仁兄,所言甚是呀!,图片版实在是 mdx 的短板.......
  • TA的每日心情
    奋斗
    2020-2-12 13:12
  • 签到天数: 190 天

    [LV.7]常住居民III

    发表于 6 天前 | 显示全部楼层
    不能说图片字典没有用,有些资源本身价值比较好,又没有纯文字的mdx,做成图片版就很不错了
  • TA的每日心情
    奋斗
    前天 02:24
  • 签到天数: 182 天

    [LV.7]常住居民III

    发表于 6 天前 | 显示全部楼层
    提个思路,firefox能把ocr后的双层pdf转换成html页面,可供mdx全文搜索。
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 6 天前 | 显示全部楼层
    mtaa 发表于 2020-2-14 04:09- M9 d0 D1 j# D' O
    提个思路,firefox能把ocr后的双层pdf转换成html页面,可供mdx全文搜索。
    5 Y7 h+ R) b: X4 g; q
    brother mtaa :" K9 \, H5 z  w: P8 h9 Q0 W+ K( M
    主要是 ocr 的結果不一定全是正確文字
    # w8 L7 T' f. g5 T是喔, 沒試過firefox ocr, g& H8 J2 }* n7 l; l+ J6 P
    謝謝提供思路' F7 J/ Y. W+ q" _! \5 H  X2 X
      G5 L  f- e# p- j. H' `( t
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 6 天前 | 显示全部楼层
    johannhuang 发表于 2020-2-14 04:10" I1 Y) F8 U; y# [' |
    我倒是觉得可以再等等技术更加完善了,用好的OCR软件变成正确率更高的文字版(有资源的用机构购买的服务, ...
    5 |: ?. |- M" u1 k- T  }( h
    Brother johannhuang :
    ! \, i0 Q5 ?( V8 f切图版 依然也只是詞頭.....并無 OCR 的內容
  • TA的每日心情
    开心
    7 小时前
  • 签到天数: 308 天

    [LV.8]以坛为家I

    发表于 6 天前 | 显示全部楼层
    spoony1971 发表于 2020-2-14 10:20
    ) J( {0 z# ~* \6 [+ C# N0 x6 j个人觉得图片版mdx格式基本没有任何意义,不值得化大量时间去制作。其实不少pdf/djvu阅读器可以直接定位到 ...
    $ ^( E! o. Y2 Q5 v1 k! I4 F
    不应一概而论。7 }2 x6 n* Q) j, p; Z4 Q! H
    百科全书、汉语大词典辞源、英语搭配使用同义词辨析、布莱克法律这些,在PDF中搜索定位有点宽泛不够精确,而且搜索速度不如切图版依据词头搜索快、一站式。
    1 a& S0 d: W$ H. d+ v
    5 ~2 N& [. {- V9 D; s6 k. j, m对于一些汉英英汉通用型词典,由于有太多更好的词典可替代的,倒是不必费力去做切图版
  • TA的每日心情
    开心
    2020-1-5 08:04
  • 签到天数: 50 天

    [LV.5]常住居民I

    发表于 6 天前 | 显示全部楼层
    文字版与图片版词典比较
    ( v8 W  j3 K7 [https://www.pdawiki.com/forum/thread-38624-1-1.html: _! c4 l" e) m
    (出处: 掌上百科 - PDAWIKI); ^% Z" k8 |0 ^/ j/ Z. A% s2 |
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 6 天前 | 显示全部楼层
    本帖最后由 喬治兄 于 2020-2-14 13:12 编辑
    # O" H1 O1 W7 `1 }. e6 l
    cocowind 发表于 2020-2-14 12:25
    ) b7 L- Q; c9 a8 @2 v) v  P不应一概而论。
    5 T9 O4 `% ?, h) P, }百科全书、汉语大词典辞源、英语搭配使用同义词辨析、布莱克法律这些,在PDF中搜索定位有 ...

    8 a6 E! m( }7 o. ~; a9 F: u. p" q0 U# Q+ i+ c
    cocowind 兄:
    5 m, \) L: z7 l$ u9 S0 S% G所言及是呀......詞頭還是少不了的8 B% m3 K8 O3 H: t. `& y( S, Q; f* Q
    搜索分兩部份:
    + \" F% H: F  L0 [1 v" `8 n1. 詞頭==>校對. {1 _; w0 r' ^6 i: S$ F& d3 D
    2. 內容==>OCR 不校對
    ; U6 p) k0 N! r5 y. T
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 6 天前 | 显示全部楼层
    海上1212 发表于 2020-2-14 13:220 H. f. ^1 D/ e- _. o! t! B
    不能说图片字典没有用,有些资源本身价值比较好,又没有纯文字的mdx,做成图片版就很不错了 ...

    6 Z& r9 C' Y# J7 H+ k4 yBrother 海上1212:0 \- i8 H1 g. c- k- H9 d" b# G# l
    是的, 除詞頭外
    + O0 i6 Y4 r, pOCR 的文字內容最好也能應用上! G) I* p! M; w6 p( m
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

    发表于 6 天前 | 显示全部楼层
    之前有个DK的图解词典 不就全文搜索定位化了5 W2 M5 I: y6 e: n" Y, t2 x0 t) F
    就是mdx大了太多。。。毕竟包含了很多位置信息
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 6 天前 | 显示全部楼层
    jonah_w 发表于 2020-2-14 17:29
    ( k2 V. ?5 k! `; f' o0 b( l' u之前有个DK的图解词典 不就全文搜索定位化了0 Y' [  K$ [4 v* }. z
    就是mdx大了太多。。。毕竟包含了很多位置信息 ...
    ! P9 n2 F3 J7 k
    Brother jonah_w:
    6 t1 y. F) h- b* p8 v4 ?若不定位圖片就一欄圖片 + 一欄 OCR 文字 來顯示於畫面- b- U, f# j, w2 W7 M, Q
    應會容易點: |" p2 P" s- `9 g
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

    发表于 6 天前 | 显示全部楼层
    喬治兄 发表于 2020-2-14 18:07
    " h" a; Z* \( qBrother jonah_w:
    $ n9 G! s1 ~2 {  K% c9 L$ x若不定位圖片就一欄圖片 + 一欄 OCR 文字 來顯示於畫面
      {! r: ?+ O; D1 p  j# `應會容易點

    - M$ n. d# I8 h. `2 |6 D这个DK的v2版本就是这么弄的 哈哈 不过OCR的准确率不如你的V3版 2 X8 k7 g( z8 V) N: D
    http://ww1.sinaimg.cn/large/6bccb95fgy1g71maxpflej20zw0rpdwh.jpg
    ' I! G9 P% u# b, H, ?1 @, D! {) }8 y$ K+ d, J
    Chinese-English Bilingual Visual Dictionary DK_v2
    ; E: G) @1 M- X2 k) F. F8 c  w) ehttps://www.pdawiki.com/forum/thread-35852-1-1.html?x=294297
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 6 天前 | 显示全部楼层
    jonah_w 发表于 2020-2-14 18:20
    # z- m9 {  ?( j这个DK的v2版本就是这么弄的 哈哈 不过OCR的准确率不如你的V3版
    ( J' G3 ~& f) b( N4 z* Dhttp://ww1.sinaimg.cn/large/6bccb95fg ...

    8 \$ h) T# {& G' P! qjonah_w 兄:
    ) l6 [: n( G) ~0 }( K6 G( m仁兄神人也, 小弟難以言表對仁兄的孺慕之情也
    ( Y* t" e6 \$ n3 x( q3 \其兵貴神速更是令人讚嘆也
    ( i" {: g- _. z* _/ R8 z6 j
  • TA的每日心情
    擦汗
    昨天 11:12
  • 签到天数: 482 天

    [LV.9]以坛为家II

    发表于 6 天前 | 显示全部楼层
    cocowind 发表于 2020-2-14 12:25
    7 R3 s: W+ D) q" J& t& l不应一概而论。$ h: S- k$ @. L- A5 f3 ^4 u8 y1 }6 J
    百科全书、汉语大词典辞源、英语搭配使用同义词辨析、布莱克法律这些,在PDF中搜索定位有 ...

      o$ T/ |- R6 @3 D我说的定位不是你理解的定位,您所理解的定位确实不方便。我所说的定位使用如下:5 ?# f5 ~* H1 b- H" `) D
    输入命令"d hello") w. A" P& m9 r  B2 D7 @
    pdf/djvu阅读器自动显示hello所在页面,如果阅读器没有运行则自动运行并定位。
    4 [9 W! U/ U' ?6 I7 E! }; z5 N) W+ K
    % l( C( D  H* _( z! [  e这种方案对阅读器有要求,不过不少阅读器都可做到这一点。
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    顶部qrcode底部
    关注公众号送论坛充值码
    关注微信公众平台
    关注微信公众号 pdawiki,获取邀请码,看文抢积分,抽奖得浮云! Follow our Wechat official account "pdawiki", get invitation codes, and play the lottery to earn points (积分)!

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2020-2-20 17:24 , Processed in 0.141549 second(s), 8 queries , MemCache On.

    Powered by Discuz! X3.4

    © 2001-2017 Comsenz Inc.

    快速回复 返回顶部 返回列表