掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 197|回复: 16

[讨论] 有關圖片辭典的製作淺見檢討

[复制链接]
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 6 天前 | 显示全部楼层 |阅读模式
    本帖最后由 喬治兄 于 2020-2-20 08:51 编辑 + \9 }# u6 {/ ^" D9 T1 P9 j
    8 O0 `5 k# [; j- e4 J; @0 p  h
    因鑒於圖片辭典作耗時費力且查詢的實用性又大打折扣
    8 j+ Z( b: y: A+ t" B7 k圖片辭典製作完後也往往成為擺設, 因限縮於詞頭搜索實用性也因而大減, 投入和實用性不成比例...
    / ?8 b: b) V7 |( x- o1 l+ \盼各位同好予以建議提供看法和觀點....# Y, R9 i" V% }3 _- }: y
    # Q9 n  _- Y+ d5 f- s$ h
    圖片辭典目前缺陷如下:; L% Q  m1 x0 U1 o, F( p  X; E
    1.  圖片辭典的 mdx vs. ocr 後的 pdf or djvu 格式檔案.....基本上沒有優勢/ P0 F" V; h5 J. ^  q. ?
         ocr 後的 pdf or djvu 格式檔案 可全文搜索
    4 d& K" p1 w3 W2.  針對目前僅靠詞頭去調出那頁的的圖像或 highlight 位置所獲得的圖像訊息要再查詢或搜尋也相對乏善可陳
    # W7 D. q9 L/ J' |     詞條內容也無法再查詢或搜尋....圖像所致6 x0 Q& f' ?5 p# w. q# i
         就算在歐路能以 OCR 取詞卻也無法對其內容搜尋...GoldenDict...亦然
    $ [3 C! r* B1 P. L1 e" N3.  光是校對詞頭都已是非常吃重的負荷
    8 c: i  e8 F1 W     然而 OCR 後的全文校對更是不太可能
    2 Y6 B/ U3 j4 l
    . ~) h% k- k+ T7 F; o9 Y
    ' P3 F% b* L) j2 N& u2 q. @& @) o" v有關圖片辭典的製作淺見如下:. X5 i" T/ p( K& P3 d; E
    ' \" L* W5 w& c! I3 H
    1. 僅校對詞頭....圖片上列出當頁的導航詞頭
    , Z$ \7 Z& ^; f0 `1 M    搜索分兩部份:
    ) x0 H0 y$ k8 ?0 c" P7 ea. 詞頭==>校對......此可借用 Chigre 兄的工具來達成. M9 R3 w0 j6 J# s
    b. 內容==>OCR 不校對
    % L2 f& m( F" m3 d) r$ L3 o; W& ]) {( C( U  \5 }
    2. 結合圖片和 OCR 文字....把 OCR 文字利用起來於全文搜索
    6 b" X+ k9 a* f; b3. 把圖片和 OCR 文字并列....縱然 OCR 不一定正確..但可從圖片獲得正確訊息* Z1 V7 ]* a% i3 \4 j
        如此禰補 mdx 與 ocr 後的 pdf or djvu 的差距0 y7 S5 l. A7 o! [; A
        如果辭典有 2 or 3 欄, 以顯示 1 欄 50% 的銀幕寬度 另外 50% 銀幕寬度顯示文字來并列  Z, h6 k: i8 a9 _$ u* F8 R
        如此也好對照......highlight 文字列來定位也較為容易些
      Z) H* }: I; i5 X5 e    <a href="#section1"> 類似此標簽於圖片是無法轉跳定位但文字是可以的
    2 {& K- d9 L, i9 G' G% m4. 因可互相對照圖片和 ocr 文字....或許可供熱心人士後續來校對完善之
    : z1 j* C! b* [0 ?% a5. 若是純英英相對 OCR 良率高則把 OCR 文字利用起來於全文搜索較易達成
    $ p( |$ l- t2 Z% B6. 若能以切圖到每個單字區塊且加上 OCR 文字則最是完美, 但無奈的是此又難度太高.....+ m6 {/ G3 o9 ]. g
        此 Chigre 兄已完美的達成單字區塊的切圖....唯缺OCR 文字實在令人扼腕.....) ~! C0 v3 x# y
        或許折衷一下簡化一點  r3 `' b/ c, B0 a. {
        但若以切欄為單位 + OCR 文字....此應較易達成# O: o; w. R( P0 [2 b; ]

    9 s- @+ Z8 Q6 R# J* q    ; r1 h9 G9 [. S* B: Q# b/ \
    $ A2 J' E% m4 t6 f! d6 l, J

    ' s8 y4 v4 X: l- u) p" J! H% e" a# p9 }' X0 N
  • TA的每日心情
    擦汗
    昨天 11:12
  • 签到天数: 482 天

    [LV.9]以坛为家II

    发表于 6 天前 | 显示全部楼层
    个人觉得图片版mdx格式基本没有任何意义,不值得化大量时间去制作。其实不少pdf/djvu阅读器可以直接定位到特定页面,结合简单的索引可起到mdx同样的效果。
    " o3 L7 D! e- [9 t) ]! q+ K  E5 L
    * u, b& E0 _: V8 {+ J
  • TA的每日心情
    慵懒
    昨天 20:29
  • 签到天数: 181 天

    [LV.7]常住居民III

    发表于 6 天前 | 显示全部楼层
    我倒是觉得可以再等等技术更加完善了,用好的OCR软件变成正确率更高的文字版(有资源的用机构购买的服务,转换准确率应该会很高),核对后制作mdx。( J+ ?, j7 a1 L' }/ Y5 u( ~
    或者花点功夫 做成切图版,虽然无法选中,无法上色和优化排版,但好歹解决了最基本的查词需求,也勉强可用。
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 6 天前 | 显示全部楼层
    spoony1971 发表于 2020-2-14 10:205 y1 c; N! b6 E2 {! V4 d) ~
    个人觉得图片版mdx格式基本没有任何意义,不值得化大量时间去制作。其实不少pdf/djvu阅读器可以直接定位到 ...
    3 C' f3 y; ?1 l2 c$ O
    仁兄,所言甚是呀!,图片版实在是 mdx 的短板.......
  • TA的每日心情
    奋斗
    2020-2-12 13:12
  • 签到天数: 190 天

    [LV.7]常住居民III

    发表于 6 天前 | 显示全部楼层
    不能说图片字典没有用,有些资源本身价值比较好,又没有纯文字的mdx,做成图片版就很不错了
  • TA的每日心情
    奋斗
    前天 02:24
  • 签到天数: 182 天

    [LV.7]常住居民III

    发表于 6 天前 | 显示全部楼层
    提个思路,firefox能把ocr后的双层pdf转换成html页面,可供mdx全文搜索。
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 6 天前 | 显示全部楼层
    mtaa 发表于 2020-2-14 04:09
    % G- l% @- p( m' a  a提个思路,firefox能把ocr后的双层pdf转换成html页面,可供mdx全文搜索。

    & f/ u+ h/ d! C" xbrother mtaa :/ @% c+ \5 o! z1 v
    主要是 ocr 的結果不一定全是正確文字
    # v" z/ V+ A) Z/ R; u是喔, 沒試過firefox ocr' y$ w! G; U& ^& x5 ]( z# y
    謝謝提供思路
    2 y4 y/ V# Z" c- Z% J1 g3 b% ]: u  w) ]. ]+ f% ?1 N- v8 K
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 6 天前 | 显示全部楼层
    johannhuang 发表于 2020-2-14 04:10$ b. U. n6 P! _; j- o0 b' G
    我倒是觉得可以再等等技术更加完善了,用好的OCR软件变成正确率更高的文字版(有资源的用机构购买的服务, ...

    2 H# {9 [6 r8 gBrother johannhuang :
    + A# R8 v: }4 ?7 r4 t切图版 依然也只是詞頭.....并無 OCR 的內容
  • TA的每日心情
    开心
    7 小时前
  • 签到天数: 308 天

    [LV.8]以坛为家I

    发表于 6 天前 | 显示全部楼层
    spoony1971 发表于 2020-2-14 10:20' ?4 [+ V7 H9 T$ \- h
    个人觉得图片版mdx格式基本没有任何意义,不值得化大量时间去制作。其实不少pdf/djvu阅读器可以直接定位到 ...
    5 I+ f, y  G; J% L
    不应一概而论。" \; c8 u) _) ]: c6 M! g7 L$ V! h0 S
    百科全书、汉语大词典辞源、英语搭配使用同义词辨析、布莱克法律这些,在PDF中搜索定位有点宽泛不够精确,而且搜索速度不如切图版依据词头搜索快、一站式。
    - ]# j9 Z  X; W+ ~  F- S1 p' ~' c; m0 f' b3 C2 M3 w
    对于一些汉英英汉通用型词典,由于有太多更好的词典可替代的,倒是不必费力去做切图版
  • TA的每日心情
    开心
    2020-1-5 08:04
  • 签到天数: 50 天

    [LV.5]常住居民I

    发表于 6 天前 | 显示全部楼层
    文字版与图片版词典比较
    : H9 ^. L5 z# l0 Thttps://www.pdawiki.com/forum/thread-38624-1-1.html
    8 Z' |2 A+ v$ p2 T(出处: 掌上百科 - PDAWIKI)
    9 C) Z) x$ f% R
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 6 天前 | 显示全部楼层
    本帖最后由 喬治兄 于 2020-2-14 13:12 编辑 8 x$ |- h, s3 Q! `
    cocowind 发表于 2020-2-14 12:25+ \3 k$ p+ n/ m% u& Y
    不应一概而论。
    . j9 ?- c/ F: t4 |百科全书、汉语大词典辞源、英语搭配使用同义词辨析、布莱克法律这些,在PDF中搜索定位有 ...
    ! Q* X- @* f: ?: ]: d
    # m! p+ j; H4 V1 D; b) S! A
    cocowind 兄:
    4 Q; }$ B) L8 \所言及是呀......詞頭還是少不了的# V! v2 W" _( I' e% ~; I
    搜索分兩部份:
    1 ?0 e- I* e* D& P7 `3 J9 l1. 詞頭==>校對! o% v. E$ I1 {4 G# H% Q; {( n
    2. 內容==>OCR 不校對' ^  Y0 @$ @6 @' W! c1 m
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 6 天前 | 显示全部楼层
    海上1212 发表于 2020-2-14 13:22
    ( t" u, {, [: S; y7 X" T不能说图片字典没有用,有些资源本身价值比较好,又没有纯文字的mdx,做成图片版就很不错了 ...
    . ]4 G- v+ _2 N8 N, Q* c0 H
    Brother 海上1212:
    " Y& Y8 r! P0 Y# w% g* D" P# a是的, 除詞頭外. A% j; g9 u9 z- U& q0 X
    OCR 的文字內容最好也能應用上
    : r8 m1 ?9 V, w: f3 v
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

    发表于 6 天前 | 显示全部楼层
    之前有个DK的图解词典 不就全文搜索定位化了; B5 V; _5 I" T! v3 M% R6 k7 L
    就是mdx大了太多。。。毕竟包含了很多位置信息
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 6 天前 | 显示全部楼层
    jonah_w 发表于 2020-2-14 17:29
    1 n* Y9 U5 T7 k# v之前有个DK的图解词典 不就全文搜索定位化了
    * s& B7 N* f9 A0 n0 e" z就是mdx大了太多。。。毕竟包含了很多位置信息 ...
    8 S; O6 L  Q4 u) p' V
    Brother jonah_w:
      V1 v% ]' o! K/ ]$ D2 V1 O4 x若不定位圖片就一欄圖片 + 一欄 OCR 文字 來顯示於畫面8 `+ h0 e  H6 G- u+ Z1 U) d
    應會容易點
    9 F+ S/ y2 `' L
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

    发表于 6 天前 | 显示全部楼层
    喬治兄 发表于 2020-2-14 18:07
    : b2 a8 H: Z1 l9 mBrother jonah_w:: W% D( B! }+ k# q: _% P
    若不定位圖片就一欄圖片 + 一欄 OCR 文字 來顯示於畫面
    ' m( b: r* w7 B3 E, Y應會容易點
    . u; g! p7 V5 \+ Q( S1 P- J
    这个DK的v2版本就是这么弄的 哈哈 不过OCR的准确率不如你的V3版 3 @/ _9 B9 z8 ^$ ~
    http://ww1.sinaimg.cn/large/6bccb95fgy1g71maxpflej20zw0rpdwh.jpg
    % a, [5 k! Z, _9 n  P, b4 h. Z4 _) p& q! F8 [6 e
    Chinese-English Bilingual Visual Dictionary DK_v2
    ! S2 X9 O3 ]5 dhttps://www.pdawiki.com/forum/thread-35852-1-1.html?x=294297
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 6 天前 | 显示全部楼层
    jonah_w 发表于 2020-2-14 18:20
    0 Z8 K( L2 s$ d这个DK的v2版本就是这么弄的 哈哈 不过OCR的准确率不如你的V3版
    - B- _4 Y' E4 K& Zhttp://ww1.sinaimg.cn/large/6bccb95fg ...
    6 h3 c4 e9 D8 J# h8 w
    jonah_w 兄:
    " S) g" l+ a0 y$ O# c8 k1 G% \仁兄神人也, 小弟難以言表對仁兄的孺慕之情也2 u2 f. m0 E6 H# T) K
    其兵貴神速更是令人讚嘆也7 l, l, L- f  f% \& G
  • TA的每日心情
    擦汗
    昨天 11:12
  • 签到天数: 482 天

    [LV.9]以坛为家II

    发表于 6 天前 | 显示全部楼层
    cocowind 发表于 2020-2-14 12:25) x; k# E0 B0 Z4 l5 m: L
    不应一概而论。
    + }% Y( O" X# z/ ]# H1 \+ T百科全书、汉语大词典辞源、英语搭配使用同义词辨析、布莱克法律这些,在PDF中搜索定位有 ...

    8 G7 q: |0 V; I# A( o我说的定位不是你理解的定位,您所理解的定位确实不方便。我所说的定位使用如下:
    , _- H! z; f& G! _2 }! ]9 o: j输入命令"d hello"4 E% F0 |& b& m! X
    pdf/djvu阅读器自动显示hello所在页面,如果阅读器没有运行则自动运行并定位。
    + O- N' L; g. \  Z4 f; R! {, t& G5 X' ]* z8 I
    这种方案对阅读器有要求,不过不少阅读器都可做到这一点。
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    顶部qrcode底部
    关注公众号送论坛充值码
    关注微信公众平台
    关注微信公众号 pdawiki,获取邀请码,看文抢积分,抽奖得浮云! Follow our Wechat official account "pdawiki", get invitation codes, and play the lottery to earn points (积分)!

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2020-2-20 17:00 , Processed in 0.217060 second(s), 8 queries , MemCache On.

    Powered by Discuz! X3.4

    © 2001-2017 Comsenz Inc.

    快速回复 返回顶部 返回列表