掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 1240|回复: 16

[讨论] 有關圖片辭典的製作淺見檢討

[复制链接]
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2020-2-14 03:29:06 | 显示全部楼层 |阅读模式
    本帖最后由 喬治兄 于 2020-2-20 08:51 编辑
    1 l8 s3 H. B5 S9 j# `% |# ?/ ~% ^% g* {. \
    因鑒於圖片辭典作耗時費力且查詢的實用性又大打折扣
    2 o, c1 ~  [( l5 j0 n* n圖片辭典製作完後也往往成為擺設, 因限縮於詞頭搜索實用性也因而大減, 投入和實用性不成比例...  L( r& {" x- y" p" [/ l5 O; f
    盼各位同好予以建議提供看法和觀點....  m7 |  N6 R; c  U
    - c- H( M# w- a; Y( P
    圖片辭典目前缺陷如下:
    + |6 ]7 R* d3 ?: }1.  圖片辭典的 mdx vs. ocr 後的 pdf or djvu 格式檔案.....基本上沒有優勢
    ; d! |* h+ ^- n- B8 N1 Q( T0 L     ocr 後的 pdf or djvu 格式檔案 可全文搜索0 j9 f$ x* {) S& ]7 G1 C7 N' a
    2.  針對目前僅靠詞頭去調出那頁的的圖像或 highlight 位置所獲得的圖像訊息要再查詢或搜尋也相對乏善可陳% z1 b5 D: w- R7 p9 a0 r
         詞條內容也無法再查詢或搜尋....圖像所致: j; x! q5 [* `. S
         就算在歐路能以 OCR 取詞卻也無法對其內容搜尋...GoldenDict...亦然
    9 ^: j* @! g; ?( i1 J3.  光是校對詞頭都已是非常吃重的負荷
    ' s* }$ J6 ]3 G" q- p     然而 OCR 後的全文校對更是不太可能
    6 z: C7 S0 q; ]) {) j9 B
    ( Q2 i/ ^9 |% Q: v9 q0 J7 I1 f
    - |$ ?) ^7 f! E7 {0 S6 F有關圖片辭典的製作淺見如下:! O3 C$ B0 s6 X$ s2 B

    4 X' U/ i; F* a# j% B7 E1. 僅校對詞頭....圖片上列出當頁的導航詞頭
    * J% l: Q; T/ ?2 i  A+ D    搜索分兩部份:& U4 y/ \) ~. @- X8 T1 T
    a. 詞頭==>校對......此可借用 Chigre 兄的工具來達成1 s2 X7 \! i$ B1 w
    b. 內容==>OCR 不校對, {& Z/ N. _! c
    : u5 D! g& U# q$ ^2 A
    2. 結合圖片和 OCR 文字....把 OCR 文字利用起來於全文搜索4 m7 P  [) j  @. b8 H2 p
    3. 把圖片和 OCR 文字并列....縱然 OCR 不一定正確..但可從圖片獲得正確訊息* U; O7 q! L- R+ G- S. s
        如此禰補 mdx 與 ocr 後的 pdf or djvu 的差距% e" w- J/ a. H; H, S. N1 `4 z
        如果辭典有 2 or 3 欄, 以顯示 1 欄 50% 的銀幕寬度 另外 50% 銀幕寬度顯示文字來并列! |0 B% k7 b% }6 W! j8 z+ g
        如此也好對照......highlight 文字列來定位也較為容易些
    $ o9 K2 u* n8 f) z% R7 {$ c    <a href="#section1"> 類似此標簽於圖片是無法轉跳定位但文字是可以的
    ( E) @% g9 ~3 ]6 y* h# m4. 因可互相對照圖片和 ocr 文字....或許可供熱心人士後續來校對完善之1 h1 L  q3 k" I3 A
    5. 若是純英英相對 OCR 良率高則把 OCR 文字利用起來於全文搜索較易達成
    ; V. Y( U" t: i6 x) ]' Q$ ]. ~6. 若能以切圖到每個單字區塊且加上 OCR 文字則最是完美, 但無奈的是此又難度太高.....6 B% t/ r& S: x
        此 Chigre 兄已完美的達成單字區塊的切圖....唯缺OCR 文字實在令人扼腕.....
    $ e2 a4 T: |& r+ H0 v7 D" U    或許折衷一下簡化一點5 a* Y: j& p% B- X' e3 U
        但若以切欄為單位 + OCR 文字....此應較易達成4 ~; e1 Z$ j4 G9 k  g

    8 v) W7 L) o, f8 J- N2 S   
    " g; q9 u9 A9 f8 H# j9 _$ q
    . Q3 A7 ]# b& ^, W* R1 d5 y( X" r  I: F% T, s% h( q  |

    - n% i& W7 }3 t# V
  • TA的每日心情
    擦汗
    2023-9-2 09:16
  • 签到天数: 1103 天

    [LV.10]以坛为家III

    发表于 2020-2-14 10:20:29 | 显示全部楼层
    个人觉得图片版mdx格式基本没有任何意义,不值得化大量时间去制作。其实不少pdf/djvu阅读器可以直接定位到特定页面,结合简单的索引可起到mdx同样的效果。& G2 _" f3 L. W/ ]
    6 N# i: r9 k: l: _6 f6 Q+ X+ M% B1 `
  • TA的每日心情
    慵懒
    2020-5-3 16:00
  • 签到天数: 207 天

    [LV.7]常住居民III

    发表于 2020-2-14 04:10:44 | 显示全部楼层
    我倒是觉得可以再等等技术更加完善了,用好的OCR软件变成正确率更高的文字版(有资源的用机构购买的服务,转换准确率应该会很高),核对后制作mdx。
    ; G4 y4 v2 @/ M或者花点功夫 做成切图版,虽然无法选中,无法上色和优化排版,但好歹解决了最基本的查词需求,也勉强可用。
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2020-2-14 11:14:17 | 显示全部楼层
    spoony1971 发表于 2020-2-14 10:20$ e8 v% X! L9 o2 U/ x
    个人觉得图片版mdx格式基本没有任何意义,不值得化大量时间去制作。其实不少pdf/djvu阅读器可以直接定位到 ...
    * r: k2 _1 B% Z2 e  R% H, s* s7 q
    仁兄,所言甚是呀!,图片版实在是 mdx 的短板.......
  • TA的每日心情
    奋斗
    2020-5-15 23:04
  • 签到天数: 236 天

    [LV.7]常住居民III

    发表于 2020-2-14 13:22:31 | 显示全部楼层
    不能说图片字典没有用,有些资源本身价值比较好,又没有纯文字的mdx,做成图片版就很不错了
  • TA的每日心情

    2023-3-29 00:54
  • 签到天数: 344 天

    [LV.8]以坛为家I

    发表于 2020-2-14 04:09:24 | 显示全部楼层
    提个思路,firefox能把ocr后的双层pdf转换成html页面,可供mdx全文搜索。
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2020-2-14 04:19:57 | 显示全部楼层
    mtaa 发表于 2020-2-14 04:09
    ( z% ~2 G0 C8 ]# |+ b7 s) M' ?$ R提个思路,firefox能把ocr后的双层pdf转换成html页面,可供mdx全文搜索。

    : k- D/ a, Z2 o% a" Y; vbrother mtaa :
    $ z* I: h4 Q: Y) R+ b8 R主要是 ocr 的結果不一定全是正確文字
    9 ?3 t( b, s+ }  U/ v是喔, 沒試過firefox ocr
    ; |' Y+ D: @/ d: q# r' G謝謝提供思路
    1 [* J$ S: g! ~9 g
    4 n* g$ a/ r  _& {9 k' x
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2020-2-14 04:25:41 | 显示全部楼层
    johannhuang 发表于 2020-2-14 04:10
    ) Y/ r* z! |; \% x) L4 w9 {我倒是觉得可以再等等技术更加完善了,用好的OCR软件变成正确率更高的文字版(有资源的用机构购买的服务, ...

    4 }. ?$ w$ ~0 ~; Z& g+ g8 |: G% kBrother johannhuang :  c$ ]! _2 m( M: b7 ^  Y
    切图版 依然也只是詞頭.....并無 OCR 的內容
  • TA的每日心情
    开心
    2022-1-21 00:52
  • 签到天数: 699 天

    [LV.9]以坛为家II

    发表于 2020-2-14 12:25:36 | 显示全部楼层
    spoony1971 发表于 2020-2-14 10:204 k4 k0 ~7 f2 ]" g2 V7 i: N+ D# p
    个人觉得图片版mdx格式基本没有任何意义,不值得化大量时间去制作。其实不少pdf/djvu阅读器可以直接定位到 ...

    ! s& ]* v% ^- c$ }5 n8 Y不应一概而论。
    4 V, ^( B. q$ |$ F! u百科全书、汉语大词典辞源、英语搭配使用同义词辨析、布莱克法律这些,在PDF中搜索定位有点宽泛不够精确,而且搜索速度不如切图版依据词头搜索快、一站式。
    + d. }# u# s) ?) E) H6 F7 V. F- k# v1 U. O
    对于一些汉英英汉通用型词典,由于有太多更好的词典可替代的,倒是不必费力去做切图版
  • TA的每日心情
    开心
    2020-1-5 08:04
  • 签到天数: 50 天

    [LV.5]常住居民I

    发表于 2020-2-14 12:29:18 | 显示全部楼层
    文字版与图片版词典比较, ^" b: H# x  T' y( ^
    https://www.pdawiki.com/forum/thread-38624-1-1.html
    5 Q9 Z% H. s5 F: J(出处: 掌上百科 - PDAWIKI)
    4 y8 t& [! S1 ~( H. P+ ~
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2020-2-14 13:10:43 | 显示全部楼层
    本帖最后由 喬治兄 于 2020-2-14 13:12 编辑
    , d: `8 K/ o& F! X0 A
    cocowind 发表于 2020-2-14 12:25
    0 Z* _: p+ x7 o8 N* C5 I不应一概而论。
    : G( Z3 E2 _5 E; S百科全书、汉语大词典辞源、英语搭配使用同义词辨析、布莱克法律这些,在PDF中搜索定位有 ...

    2 B5 e9 ?; W" r1 c& F1 v$ w4 I- c5 ~3 o# b& c' n
    cocowind 兄:; V: _! S& B; U8 Q; l, J
    所言及是呀......詞頭還是少不了的  ~/ E2 ?+ B6 o- J0 ^. p+ a
    搜索分兩部份:
    7 v0 Y* b/ h; M4 M1 j  ?1. 詞頭==>校對8 t* y" H( w' ^; _9 @
    2. 內容==>OCR 不校對6 X. {$ M: P+ I1 d5 I/ Q) [- E
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2020-2-14 13:31:55 | 显示全部楼层
    海上1212 发表于 2020-2-14 13:22
    ; i; G5 |& c+ ^9 p不能说图片字典没有用,有些资源本身价值比较好,又没有纯文字的mdx,做成图片版就很不错了 ...
    ! i% H; K" }9 |
    Brother 海上1212:7 T# H' u" `- j; e
    是的, 除詞頭外7 K: ~' N+ L! t
    OCR 的文字內容最好也能應用上( o/ y4 u# n% a1 h% `, c0 q
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

    发表于 2020-2-14 17:29:43 | 显示全部楼层
    之前有个DK的图解词典 不就全文搜索定位化了
    3 M4 A7 W; X  P1 ^) D3 ~# Z# u就是mdx大了太多。。。毕竟包含了很多位置信息
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2020-2-14 18:07:57 | 显示全部楼层
    jonah_w 发表于 2020-2-14 17:29
    ! s6 D# f. j4 ^; ]之前有个DK的图解词典 不就全文搜索定位化了  n! q( B- f( K. ^7 O( U
    就是mdx大了太多。。。毕竟包含了很多位置信息 ...
    ; Q7 P6 d4 d( G/ ]- H
    Brother jonah_w:# B# ~1 R2 @' N" b9 ~6 b7 Q3 K
    若不定位圖片就一欄圖片 + 一欄 OCR 文字 來顯示於畫面
    # U, I2 e$ y% w6 W3 g9 W應會容易點
    6 T! m* G2 q9 ^) m/ L7 ?7 i
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

    发表于 2020-2-14 18:20:22 | 显示全部楼层
    喬治兄 发表于 2020-2-14 18:07- U& ]6 G% Z+ H$ L) _; _: c
    Brother jonah_w:) l5 ^* a$ Q; H2 i; [4 ^3 X
    若不定位圖片就一欄圖片 + 一欄 OCR 文字 來顯示於畫面! w- H4 O+ |$ J
    應會容易點

    # C" x7 {! W: M2 [: a, b这个DK的v2版本就是这么弄的 哈哈 不过OCR的准确率不如你的V3版
    3 ]% a, O# K) E/ m- G* chttp://ww1.sinaimg.cn/large/6bccb95fgy1g71maxpflej20zw0rpdwh.jpg
    9 G* T$ C4 c" P% H
    $ m$ G* d( S1 ZChinese-English Bilingual Visual Dictionary DK_v2; [2 G# }, `! F5 N1 v4 I
    https://www.pdawiki.com/forum/thread-35852-1-1.html?x=294297
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2020-2-14 19:01:08 | 显示全部楼层
    jonah_w 发表于 2020-2-14 18:20
    " u6 f, @7 i: F4 b$ U2 p这个DK的v2版本就是这么弄的 哈哈 不过OCR的准确率不如你的V3版 6 N, v2 b0 A. R+ o# N1 Q
    http://ww1.sinaimg.cn/large/6bccb95fg ...
    ( V" E- i" ^4 w* c4 T/ f, C0 w
    jonah_w 兄:
    + O2 H: P" J. B3 q' s仁兄神人也, 小弟難以言表對仁兄的孺慕之情也
    ! L( ~+ V# \; }. h1 W其兵貴神速更是令人讚嘆也& b# D3 F6 @$ }
  • TA的每日心情
    擦汗
    2023-9-2 09:16
  • 签到天数: 1103 天

    [LV.10]以坛为家III

    发表于 2020-2-14 19:32:09 | 显示全部楼层
    cocowind 发表于 2020-2-14 12:25, f2 ^- c3 \6 L5 ]! O: E, x) W: f. u
    不应一概而论。
    3 z0 f5 s6 [% ^4 k2 }百科全书、汉语大词典辞源、英语搭配使用同义词辨析、布莱克法律这些,在PDF中搜索定位有 ...
    ' I: o; B& G. I
    我说的定位不是你理解的定位,您所理解的定位确实不方便。我所说的定位使用如下:/ Y. T4 l" p4 T
    输入命令"d hello"
    1 m  k: I8 F) Zpdf/djvu阅读器自动显示hello所在页面,如果阅读器没有运行则自动运行并定位。: J! b1 F; L7 M+ b- n9 R
    2 I- D% G2 x; g% E
    这种方案对阅读器有要求,不过不少阅读器都可做到这一点。
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-4-20 09:52 , Processed in 0.048283 second(s), 9 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表