掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 1239|回复: 16

[讨论] 有關圖片辭典的製作淺見檢討

[复制链接]
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2020-2-14 03:29:06 | 显示全部楼层 |阅读模式
    本帖最后由 喬治兄 于 2020-2-20 08:51 编辑 ! l, a) s; I+ m) t, c

    4 b% E0 {% F& ~3 r8 X% a 因鑒於圖片辭典作耗時費力且查詢的實用性又大打折扣
    : `+ }$ v3 G% w6 G9 w圖片辭典製作完後也往往成為擺設, 因限縮於詞頭搜索實用性也因而大減, 投入和實用性不成比例...
    ) K( I! g; i8 r7 g, G/ v+ d盼各位同好予以建議提供看法和觀點....6 t6 l3 T! H) S& A: b( ]

    5 v& ~# h1 _6 e) d圖片辭典目前缺陷如下:/ d9 f1 b' M- q! B
    1.  圖片辭典的 mdx vs. ocr 後的 pdf or djvu 格式檔案.....基本上沒有優勢
    6 z- A; v; \$ [     ocr 後的 pdf or djvu 格式檔案 可全文搜索5 V. c5 T  W7 T. Z$ r
    2.  針對目前僅靠詞頭去調出那頁的的圖像或 highlight 位置所獲得的圖像訊息要再查詢或搜尋也相對乏善可陳
    $ M' A7 _; u5 Q, |9 I     詞條內容也無法再查詢或搜尋....圖像所致
    " _% c% d+ I) ~6 U: x     就算在歐路能以 OCR 取詞卻也無法對其內容搜尋...GoldenDict...亦然; X1 G0 s/ D& w( F9 |2 {
    3.  光是校對詞頭都已是非常吃重的負荷
    $ a! b" T) T& K( e4 j2 _     然而 OCR 後的全文校對更是不太可能; m7 O+ Q6 A$ ~0 b/ h
    8 ]# J) J( a2 z7 N# T# {  j3 [

    1 }: ~  Z! h( s$ g% ^+ I8 f0 h有關圖片辭典的製作淺見如下:* n; v. S% i( r5 b6 N1 ^! f7 [
    0 S0 y* n# o$ W1 [9 j( |" t
    1. 僅校對詞頭....圖片上列出當頁的導航詞頭
    2 E' q' n8 \9 }  V    搜索分兩部份:" h0 g/ b7 I4 N; c6 M2 O
    a. 詞頭==>校對......此可借用 Chigre 兄的工具來達成% z% Z6 ~$ @. ~  b2 s
    b. 內容==>OCR 不校對8 a  d9 L; y, K

    0 J$ |, t' p0 \; H! s2 W. w2. 結合圖片和 OCR 文字....把 OCR 文字利用起來於全文搜索- \8 s9 O( K. d( _( K5 p( @4 U
    3. 把圖片和 OCR 文字并列....縱然 OCR 不一定正確..但可從圖片獲得正確訊息
    : w# O7 Y/ ~6 \    如此禰補 mdx 與 ocr 後的 pdf or djvu 的差距
    9 l0 C$ \; q* g; `% _    如果辭典有 2 or 3 欄, 以顯示 1 欄 50% 的銀幕寬度 另外 50% 銀幕寬度顯示文字來并列
    2 ^9 |, v, ], L, `3 b% u) M% Y+ f    如此也好對照......highlight 文字列來定位也較為容易些5 r3 D' E4 u0 R3 [
        <a href="#section1"> 類似此標簽於圖片是無法轉跳定位但文字是可以的
    * Y' c# l: Z' b  F/ w2 R3 x4. 因可互相對照圖片和 ocr 文字....或許可供熱心人士後續來校對完善之
    - _$ e) k8 d1 y9 ]8 @5. 若是純英英相對 OCR 良率高則把 OCR 文字利用起來於全文搜索較易達成  \0 P& U3 p7 L! e$ O
    6. 若能以切圖到每個單字區塊且加上 OCR 文字則最是完美, 但無奈的是此又難度太高.....
    ; }9 z( K! z) s8 F$ m& x& B6 u2 K    此 Chigre 兄已完美的達成單字區塊的切圖....唯缺OCR 文字實在令人扼腕.....) x3 ?: c$ h2 \3 S& v
        或許折衷一下簡化一點9 z& p# g  A0 A6 \. j/ `
        但若以切欄為單位 + OCR 文字....此應較易達成: y, P6 Q, E* @* L7 P) E4 f

    ! z; {: `% ]' W   
    8 N( X7 q4 `+ R$ j% }$ m
    3 P1 e1 e1 ~# ?% J! ~6 `( |% G$ M- y4 Q( t
    ; |9 y0 [. g3 k% x$ b* q! B
  • TA的每日心情
    擦汗
    2023-9-2 09:16
  • 签到天数: 1103 天

    [LV.10]以坛为家III

    发表于 2020-2-14 10:20:29 | 显示全部楼层
    个人觉得图片版mdx格式基本没有任何意义,不值得化大量时间去制作。其实不少pdf/djvu阅读器可以直接定位到特定页面,结合简单的索引可起到mdx同样的效果。
    " Q+ T: L& T& O! b) g) [
    3 V, v* j9 w9 a( f8 s9 g
  • TA的每日心情
    慵懒
    2020-5-3 16:00
  • 签到天数: 207 天

    [LV.7]常住居民III

    发表于 2020-2-14 04:10:44 | 显示全部楼层
    我倒是觉得可以再等等技术更加完善了,用好的OCR软件变成正确率更高的文字版(有资源的用机构购买的服务,转换准确率应该会很高),核对后制作mdx。
    ) T9 ~& [+ ~2 C* F" L& q8 A6 U或者花点功夫 做成切图版,虽然无法选中,无法上色和优化排版,但好歹解决了最基本的查词需求,也勉强可用。
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2020-2-14 11:14:17 | 显示全部楼层
    spoony1971 发表于 2020-2-14 10:20
    9 R2 P4 d/ t' W  ?) X6 `7 Z个人觉得图片版mdx格式基本没有任何意义,不值得化大量时间去制作。其实不少pdf/djvu阅读器可以直接定位到 ...

    3 B, Q- S' D  l$ a8 F仁兄,所言甚是呀!,图片版实在是 mdx 的短板.......
  • TA的每日心情
    奋斗
    2020-5-15 23:04
  • 签到天数: 236 天

    [LV.7]常住居民III

    发表于 2020-2-14 13:22:31 | 显示全部楼层
    不能说图片字典没有用,有些资源本身价值比较好,又没有纯文字的mdx,做成图片版就很不错了
  • TA的每日心情

    2023-3-29 00:54
  • 签到天数: 344 天

    [LV.8]以坛为家I

    发表于 2020-2-14 04:09:24 | 显示全部楼层
    提个思路,firefox能把ocr后的双层pdf转换成html页面,可供mdx全文搜索。
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2020-2-14 04:19:57 | 显示全部楼层
    mtaa 发表于 2020-2-14 04:09
    . Y( ?) y9 B$ ^- O: U提个思路,firefox能把ocr后的双层pdf转换成html页面,可供mdx全文搜索。

      n* }8 ]! K7 ~+ T) X8 Pbrother mtaa :
    9 ]" Y6 q/ z4 g1 K: k主要是 ocr 的結果不一定全是正確文字
    1 _3 u. S' M) t+ |( l3 g是喔, 沒試過firefox ocr
    % O3 o1 `; b* M  W: e謝謝提供思路  ?" k2 Z- m- O" s

    1 a; m9 ?* z* Q! p3 N
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2020-2-14 04:25:41 | 显示全部楼层
    johannhuang 发表于 2020-2-14 04:10. [* {% F5 x( D* g  u
    我倒是觉得可以再等等技术更加完善了,用好的OCR软件变成正确率更高的文字版(有资源的用机构购买的服务, ...
    - @3 N  e* m. l/ q3 {
    Brother johannhuang :
    ; C- ]! o/ \) {9 E切图版 依然也只是詞頭.....并無 OCR 的內容
  • TA的每日心情
    开心
    2022-1-21 00:52
  • 签到天数: 699 天

    [LV.9]以坛为家II

    发表于 2020-2-14 12:25:36 | 显示全部楼层
    spoony1971 发表于 2020-2-14 10:20
    : R; y4 c# Z) w' a个人觉得图片版mdx格式基本没有任何意义,不值得化大量时间去制作。其实不少pdf/djvu阅读器可以直接定位到 ...
    2 C$ `0 l5 u: e" d3 G: ~
    不应一概而论。' ~- |7 j$ Z% N% J1 P
    百科全书、汉语大词典辞源、英语搭配使用同义词辨析、布莱克法律这些,在PDF中搜索定位有点宽泛不够精确,而且搜索速度不如切图版依据词头搜索快、一站式。
    1 X/ ], ]! K. b* w
    7 `8 g- D& G8 T; v( f对于一些汉英英汉通用型词典,由于有太多更好的词典可替代的,倒是不必费力去做切图版
  • TA的每日心情
    开心
    2020-1-5 08:04
  • 签到天数: 50 天

    [LV.5]常住居民I

    发表于 2020-2-14 12:29:18 | 显示全部楼层
    文字版与图片版词典比较5 s  l% K( l4 D  R2 c( E4 Y
    https://www.pdawiki.com/forum/thread-38624-1-1.html+ N  R  B. ^5 f; L* ?
    (出处: 掌上百科 - PDAWIKI)% f6 j7 B! I: D0 q9 c+ m
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2020-2-14 13:10:43 | 显示全部楼层
    本帖最后由 喬治兄 于 2020-2-14 13:12 编辑
    " l, N4 h  S+ Z7 }8 k$ c7 X
    cocowind 发表于 2020-2-14 12:25: x! q; y3 F# r
    不应一概而论。: m* ~/ w' H/ r2 k1 Q0 Q
    百科全书、汉语大词典辞源、英语搭配使用同义词辨析、布莱克法律这些,在PDF中搜索定位有 ...
    1 V1 W8 J9 n. ~! c6 B( i6 V( [

    7 \5 G$ _1 D) d7 a+ r5 W  ]cocowind 兄:
    : u1 e0 Q( @+ m- G7 N所言及是呀......詞頭還是少不了的
    & }$ k4 ]+ W$ a9 M* R& L搜索分兩部份:  W" e; z, H5 S5 b% g, z
    1. 詞頭==>校對
    8 u( R; c* I' |* {0 m& g2. 內容==>OCR 不校對
    ' Y- E( M* U4 d8 l, ~  f; \& O
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2020-2-14 13:31:55 | 显示全部楼层
    海上1212 发表于 2020-2-14 13:22& q% q! e3 s- o* W! m" B
    不能说图片字典没有用,有些资源本身价值比较好,又没有纯文字的mdx,做成图片版就很不错了 ...
    / Q" h3 X2 Q2 O3 w% Q% m
    Brother 海上1212:
    2 g$ U0 F5 s! X- q% K# t4 X) s是的, 除詞頭外
    & u: D3 w5 _' d, QOCR 的文字內容最好也能應用上) u6 k5 h# c! X* c3 y0 W6 x; B9 M8 \
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

    发表于 2020-2-14 17:29:43 | 显示全部楼层
    之前有个DK的图解词典 不就全文搜索定位化了5 q, s" |5 Y7 @, P6 C9 x0 n. Z
    就是mdx大了太多。。。毕竟包含了很多位置信息
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2020-2-14 18:07:57 | 显示全部楼层
    jonah_w 发表于 2020-2-14 17:29, h0 m7 K( L( u- b5 B' V: V9 R
    之前有个DK的图解词典 不就全文搜索定位化了0 K7 a4 }, A' g8 u8 |
    就是mdx大了太多。。。毕竟包含了很多位置信息 ...

    & x5 L. C  |5 P( VBrother jonah_w:4 O1 L6 K: `1 `- T3 B9 k
    若不定位圖片就一欄圖片 + 一欄 OCR 文字 來顯示於畫面, A3 z- X+ C; x9 ]" l+ T; S
    應會容易點+ u& q, k( b5 {) M+ p7 U
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

    发表于 2020-2-14 18:20:22 | 显示全部楼层
    喬治兄 发表于 2020-2-14 18:07
    + n3 {3 C2 l1 A/ kBrother jonah_w:, I# c9 S, W  ~9 o. t5 s
    若不定位圖片就一欄圖片 + 一欄 OCR 文字 來顯示於畫面# D8 P# F2 v+ e: q4 B$ F6 m4 _
    應會容易點

    9 Z  o6 `1 s( a. k( L  ^! F, e/ u这个DK的v2版本就是这么弄的 哈哈 不过OCR的准确率不如你的V3版
    3 U) @+ ?* O. k4 p& `http://ww1.sinaimg.cn/large/6bccb95fgy1g71maxpflej20zw0rpdwh.jpg
    , F& w& i- \4 d4 r0 i- F4 e0 d" l2 R+ F6 o( k( \
    Chinese-English Bilingual Visual Dictionary DK_v2
    0 u* e0 @* \2 i+ R/ w+ S  |https://www.pdawiki.com/forum/thread-35852-1-1.html?x=294297
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2020-2-14 19:01:08 | 显示全部楼层
    jonah_w 发表于 2020-2-14 18:20  F: u6 Y" A& p: t, m; P
    这个DK的v2版本就是这么弄的 哈哈 不过OCR的准确率不如你的V3版   ~! R% B6 y7 m! L, i0 |& ^
    http://ww1.sinaimg.cn/large/6bccb95fg ...
    9 K6 N- E! o1 n2 c; i8 ^8 ~
    jonah_w 兄:
    2 Y' |7 W; C) |& ^6 t仁兄神人也, 小弟難以言表對仁兄的孺慕之情也# `5 Z2 g4 o: j) x
    其兵貴神速更是令人讚嘆也6 {, x0 l3 a* d1 _! X' q! {1 v
  • TA的每日心情
    擦汗
    2023-9-2 09:16
  • 签到天数: 1103 天

    [LV.10]以坛为家III

    发表于 2020-2-14 19:32:09 | 显示全部楼层
    cocowind 发表于 2020-2-14 12:25
    # u2 ?- x" a) z9 c: ~& B6 z不应一概而论。% c- e) M: V1 y* w! t
    百科全书、汉语大词典辞源、英语搭配使用同义词辨析、布莱克法律这些,在PDF中搜索定位有 ...

    9 `& G5 T2 c3 G+ P& z# N我说的定位不是你理解的定位,您所理解的定位确实不方便。我所说的定位使用如下:
    + O% Q, R9 _+ F$ r) K输入命令"d hello"$ q. H/ Z% ~2 R, B) F6 h
    pdf/djvu阅读器自动显示hello所在页面,如果阅读器没有运行则自动运行并定位。8 [0 u% O9 c3 ^$ i/ G# D

    ) H, g( c- k  R  d2 j  q: E4 ?( p这种方案对阅读器有要求,不过不少阅读器都可做到这一点。
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-4-20 09:15 , Processed in 0.048121 second(s), 9 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表