掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 1242|回复: 16

[讨论] 有關圖片辭典的製作淺見檢討

[复制链接]
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2020-2-14 03:29:06 | 显示全部楼层 |阅读模式
    本帖最后由 喬治兄 于 2020-2-20 08:51 编辑
    - _) K/ E! |. |( L  K+ s1 E6 S& ?9 }+ `" b! G
    因鑒於圖片辭典作耗時費力且查詢的實用性又大打折扣
    1 u0 {2 L' f* R圖片辭典製作完後也往往成為擺設, 因限縮於詞頭搜索實用性也因而大減, 投入和實用性不成比例...
    6 E9 R) f$ U5 l- x& P盼各位同好予以建議提供看法和觀點....0 q% g  Q! ^9 t9 P( E# Y! L
    . S/ M6 M- B/ ^4 f
    圖片辭典目前缺陷如下:* o0 b  S% |9 k
    1.  圖片辭典的 mdx vs. ocr 後的 pdf or djvu 格式檔案.....基本上沒有優勢1 o- t  w# E6 M4 Z7 C
         ocr 後的 pdf or djvu 格式檔案 可全文搜索# B9 R# ^1 f6 e
    2.  針對目前僅靠詞頭去調出那頁的的圖像或 highlight 位置所獲得的圖像訊息要再查詢或搜尋也相對乏善可陳
    ; a- ]8 L: v. X  J% g) A  M     詞條內容也無法再查詢或搜尋....圖像所致
    2 I& i* A# Q5 r/ n* l3 f( \     就算在歐路能以 OCR 取詞卻也無法對其內容搜尋...GoldenDict...亦然
    + c, T( p+ a6 f6 }* R3 n# R0 c$ ^3.  光是校對詞頭都已是非常吃重的負荷
    4 {( ?) b! Y+ N6 x7 O; {     然而 OCR 後的全文校對更是不太可能
    4 D2 c8 U( C3 g, J
    ( i& E# p7 ?2 ^  I, o
    9 @* u% n& ]. N" w有關圖片辭典的製作淺見如下:
    ) p, `9 v; ^5 t. |3 j, R3 }# w
    . Z3 ]8 y4 M" `" L1. 僅校對詞頭....圖片上列出當頁的導航詞頭- O0 h) e  y" u+ t+ g' {
        搜索分兩部份:
    ; F  |. G  Y: `$ Na. 詞頭==>校對......此可借用 Chigre 兄的工具來達成
    ( T0 c4 i! H! o0 S7 {+ C* o2 ?b. 內容==>OCR 不校對
      g; Y6 ]; G# y  q* ]0 ~( J, r% Q+ j' z- Y. M
    2. 結合圖片和 OCR 文字....把 OCR 文字利用起來於全文搜索
    % w1 @! }$ z4 G% b3. 把圖片和 OCR 文字并列....縱然 OCR 不一定正確..但可從圖片獲得正確訊息- b3 H9 g' J3 K! }) Y/ \
        如此禰補 mdx 與 ocr 後的 pdf or djvu 的差距
    6 Z# S& m5 }/ O    如果辭典有 2 or 3 欄, 以顯示 1 欄 50% 的銀幕寬度 另外 50% 銀幕寬度顯示文字來并列$ o; l, q) T* Q6 F1 g. n
        如此也好對照......highlight 文字列來定位也較為容易些
    % }: V% y; m5 |" y    <a href="#section1"> 類似此標簽於圖片是無法轉跳定位但文字是可以的/ h: r, M) e* }) {( p# n: c* l
    4. 因可互相對照圖片和 ocr 文字....或許可供熱心人士後續來校對完善之! y' E1 s! B: l5 h+ V, v$ M
    5. 若是純英英相對 OCR 良率高則把 OCR 文字利用起來於全文搜索較易達成% J& j5 A, D$ l" {' q
    6. 若能以切圖到每個單字區塊且加上 OCR 文字則最是完美, 但無奈的是此又難度太高.....# {2 [7 k3 w; p/ A. U/ N
        此 Chigre 兄已完美的達成單字區塊的切圖....唯缺OCR 文字實在令人扼腕....., `* I3 v4 f9 I) y. W) ^
        或許折衷一下簡化一點) C! P; r; M$ l- K
        但若以切欄為單位 + OCR 文字....此應較易達成
    7 O* X; {1 h7 m9 i/ ?
    ' \* }, {. `" {  u" x    # G- E8 ^6 M" O) q. n, \

    8 w+ y$ O! ]) D8 r' H( `; S8 d$ M/ }1 u
    - G; }& C& z# [* E& j" B. K
  • TA的每日心情
    擦汗
    2023-9-2 09:16
  • 签到天数: 1103 天

    [LV.10]以坛为家III

    发表于 2020-2-14 10:20:29 | 显示全部楼层
    个人觉得图片版mdx格式基本没有任何意义,不值得化大量时间去制作。其实不少pdf/djvu阅读器可以直接定位到特定页面,结合简单的索引可起到mdx同样的效果。6 T% G2 K6 Y  n  P; ]4 T/ B
    ! W0 g- J) G+ U
  • TA的每日心情
    慵懒
    2020-5-3 16:00
  • 签到天数: 207 天

    [LV.7]常住居民III

    发表于 2020-2-14 04:10:44 | 显示全部楼层
    我倒是觉得可以再等等技术更加完善了,用好的OCR软件变成正确率更高的文字版(有资源的用机构购买的服务,转换准确率应该会很高),核对后制作mdx。
    " X+ w0 A# n8 o3 t" q% z$ a$ w& s或者花点功夫 做成切图版,虽然无法选中,无法上色和优化排版,但好歹解决了最基本的查词需求,也勉强可用。
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2020-2-14 11:14:17 | 显示全部楼层
    spoony1971 发表于 2020-2-14 10:20
    7 `( ~4 g& r4 |. M( O7 f个人觉得图片版mdx格式基本没有任何意义,不值得化大量时间去制作。其实不少pdf/djvu阅读器可以直接定位到 ...

    - k9 X: j/ _* V$ d+ Y+ d9 j/ |仁兄,所言甚是呀!,图片版实在是 mdx 的短板.......
  • TA的每日心情
    奋斗
    2020-5-15 23:04
  • 签到天数: 236 天

    [LV.7]常住居民III

    发表于 2020-2-14 13:22:31 | 显示全部楼层
    不能说图片字典没有用,有些资源本身价值比较好,又没有纯文字的mdx,做成图片版就很不错了
  • TA的每日心情

    2023-3-29 00:54
  • 签到天数: 344 天

    [LV.8]以坛为家I

    发表于 2020-2-14 04:09:24 | 显示全部楼层
    提个思路,firefox能把ocr后的双层pdf转换成html页面,可供mdx全文搜索。
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2020-2-14 04:19:57 | 显示全部楼层
    mtaa 发表于 2020-2-14 04:09
    " P% \5 I! |3 Z. J9 n提个思路,firefox能把ocr后的双层pdf转换成html页面,可供mdx全文搜索。
    4 r( R& J' l/ @1 q* \2 T/ _1 x
    brother mtaa :
    2 r: `1 T9 f" C% Y2 W主要是 ocr 的結果不一定全是正確文字
    7 `% d7 ]; z& ^2 X9 r是喔, 沒試過firefox ocr" q, C* b6 C% G' j
    謝謝提供思路
    / N  b5 k8 V4 I! ^5 `8 N; R; S! Y* G
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2020-2-14 04:25:41 | 显示全部楼层
    johannhuang 发表于 2020-2-14 04:10
    ' W6 k1 C# Z' y' d: T/ Z我倒是觉得可以再等等技术更加完善了,用好的OCR软件变成正确率更高的文字版(有资源的用机构购买的服务, ...

      `1 [3 N" F$ ^0 G1 G+ CBrother johannhuang :$ ?3 ]+ ?- G" T4 b! u' P% [
    切图版 依然也只是詞頭.....并無 OCR 的內容
  • TA的每日心情
    开心
    2022-1-21 00:52
  • 签到天数: 699 天

    [LV.9]以坛为家II

    发表于 2020-2-14 12:25:36 | 显示全部楼层
    spoony1971 发表于 2020-2-14 10:20
      H! L+ T3 T, o8 ^+ d' {: V个人觉得图片版mdx格式基本没有任何意义,不值得化大量时间去制作。其实不少pdf/djvu阅读器可以直接定位到 ...
    - Z- n8 q6 g4 s5 F
    不应一概而论。6 I7 @4 F  X; }( p
    百科全书、汉语大词典辞源、英语搭配使用同义词辨析、布莱克法律这些,在PDF中搜索定位有点宽泛不够精确,而且搜索速度不如切图版依据词头搜索快、一站式。
    $ j" k- u) P- P. @; ?- g
    ; r# J7 H, m6 E, K' C' `. h/ |对于一些汉英英汉通用型词典,由于有太多更好的词典可替代的,倒是不必费力去做切图版
  • TA的每日心情
    开心
    2020-1-5 08:04
  • 签到天数: 50 天

    [LV.5]常住居民I

    发表于 2020-2-14 12:29:18 | 显示全部楼层
    文字版与图片版词典比较4 U8 g3 W* }& n! w9 h- n
    https://www.pdawiki.com/forum/thread-38624-1-1.html4 l1 {! {! r( W- Y
    (出处: 掌上百科 - PDAWIKI); F" i+ o/ |7 `- ]
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2020-2-14 13:10:43 | 显示全部楼层
    本帖最后由 喬治兄 于 2020-2-14 13:12 编辑
    - h1 H* h9 u* M: i% S6 R
    cocowind 发表于 2020-2-14 12:253 O+ i3 e3 ?# V0 C9 i" K  H7 t
    不应一概而论。' Q, z. Y0 F: G5 }6 ~5 F
    百科全书、汉语大词典辞源、英语搭配使用同义词辨析、布莱克法律这些,在PDF中搜索定位有 ...
    6 `( A/ O1 e* m& S1 S7 q/ u
    + ?8 X3 z/ k! h
    cocowind 兄:
    & K& _5 y( h  I# P8 ?所言及是呀......詞頭還是少不了的8 Q  {0 E( c$ B& E
    搜索分兩部份:! l! l  T' v  s! E6 h
    1. 詞頭==>校對0 K3 b) `0 ~# ]2 A7 }
    2. 內容==>OCR 不校對/ O' f8 t6 k+ M
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2020-2-14 13:31:55 | 显示全部楼层
    海上1212 发表于 2020-2-14 13:22
    - ?" }- A3 h& a  Z+ U8 l* ?, v不能说图片字典没有用,有些资源本身价值比较好,又没有纯文字的mdx,做成图片版就很不错了 ...

    * k3 t0 b" N8 b" ]4 j8 Y2 Q' [Brother 海上1212:0 |( E2 \( \: {* _5 s- Y
    是的, 除詞頭外( S' R  c  P( i) ?4 z6 T/ l3 R
    OCR 的文字內容最好也能應用上
    # I& G# @3 h* j6 H% l  i: u; h
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

    发表于 2020-2-14 17:29:43 | 显示全部楼层
    之前有个DK的图解词典 不就全文搜索定位化了
    ' p" ~! J! r. z+ l就是mdx大了太多。。。毕竟包含了很多位置信息
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2020-2-14 18:07:57 | 显示全部楼层
    jonah_w 发表于 2020-2-14 17:29, \5 t* |) r, a# ~8 t+ [" A3 Z0 r: P" ~
    之前有个DK的图解词典 不就全文搜索定位化了0 x4 C' t8 @7 \  \( f  ]* x, f& i
    就是mdx大了太多。。。毕竟包含了很多位置信息 ...
    1 Q- f* ~2 f! B2 F! b
    Brother jonah_w:
    ' ^% k; y, f$ e6 P) h( ^; S. K若不定位圖片就一欄圖片 + 一欄 OCR 文字 來顯示於畫面
    $ m$ m4 y4 {  X0 _6 ]8 N6 T9 y應會容易點( `' K$ b/ r6 t8 u" [
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

    发表于 2020-2-14 18:20:22 | 显示全部楼层
    喬治兄 发表于 2020-2-14 18:079 y; C: x3 p' G1 K
    Brother jonah_w:
    ! P0 l. q3 y$ z& ?% X若不定位圖片就一欄圖片 + 一欄 OCR 文字 來顯示於畫面
    # R7 J8 u& i+ S+ h- K應會容易點

    2 ^/ g6 L8 N8 Q- s* M' A5 A5 d; ?这个DK的v2版本就是这么弄的 哈哈 不过OCR的准确率不如你的V3版
    & ~( h3 ~* z5 e2 a$ g: P1 ~* whttp://ww1.sinaimg.cn/large/6bccb95fgy1g71maxpflej20zw0rpdwh.jpg8 F7 q" _; ]. M  b7 m2 I

    * E, W9 g+ ~4 b2 ~9 O2 wChinese-English Bilingual Visual Dictionary DK_v21 r% V' V7 d, b8 V) P- Y7 L4 |
    https://www.pdawiki.com/forum/thread-35852-1-1.html?x=294297
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2020-2-14 19:01:08 | 显示全部楼层
    jonah_w 发表于 2020-2-14 18:20" l6 F. b& b0 u+ H0 l
    这个DK的v2版本就是这么弄的 哈哈 不过OCR的准确率不如你的V3版 ( p3 R) k) g; b3 i8 o
    http://ww1.sinaimg.cn/large/6bccb95fg ...
    9 `$ t7 O( v5 b) K; {0 L% n& G
    jonah_w 兄:
    7 I% P; `* }4 n3 H, P' Q; Y" A仁兄神人也, 小弟難以言表對仁兄的孺慕之情也9 g3 Z# z2 H( H
    其兵貴神速更是令人讚嘆也9 J( d3 x! r( p1 f& Q) Q
  • TA的每日心情
    擦汗
    2023-9-2 09:16
  • 签到天数: 1103 天

    [LV.10]以坛为家III

    发表于 2020-2-14 19:32:09 | 显示全部楼层
    cocowind 发表于 2020-2-14 12:25/ h/ e% k1 Q8 `
    不应一概而论。
    * f7 L5 @) ~+ T% B$ d百科全书、汉语大词典辞源、英语搭配使用同义词辨析、布莱克法律这些,在PDF中搜索定位有 ...
    2 v- m8 g4 m' H! W% J7 ?
    我说的定位不是你理解的定位,您所理解的定位确实不方便。我所说的定位使用如下:4 e1 v' J  l; L4 q2 o
    输入命令"d hello"1 @( L4 n: Z0 K+ e
    pdf/djvu阅读器自动显示hello所在页面,如果阅读器没有运行则自动运行并定位。
    # q3 Q3 W* U0 q! s& s: ~
    # w% ?" x. c: U9 a' V' w/ E+ e这种方案对阅读器有要求,不过不少阅读器都可做到这一点。
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-4-23 17:37 , Processed in 0.056676 second(s), 9 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表