TA的每日心情 | 开心 2018-8-8 03:13 |
---|
签到天数: 1 天 [LV.1]初来乍到
|
本帖最后由 喬治兄 于 2020-2-20 08:51 编辑 9 z) `# w6 v/ R& f4 z
( v) r- w7 x) E) B K
因鑒於圖片辭典作耗時費力且查詢的實用性又大打折扣
4 B; ]$ }% U* [/ h, l圖片辭典製作完後也往往成為擺設, 因限縮於詞頭搜索實用性也因而大減, 投入和實用性不成比例...! p' w1 h; o0 a$ u* P
盼各位同好予以建議提供看法和觀點....
/ |7 c C. v0 g3 b) g6 S1 x, k8 `1 P x4 H
圖片辭典目前缺陷如下:1 b# w# G' i, O) e
1. 圖片辭典的 mdx vs. ocr 後的 pdf or djvu 格式檔案.....基本上沒有優勢* R5 m# d" P0 \; L0 ^( @; {
ocr 後的 pdf or djvu 格式檔案 可全文搜索
3 W% m) ^3 R* Y' y% R* v: l2 C6 S4 a2. 針對目前僅靠詞頭去調出那頁的的圖像或 highlight 位置所獲得的圖像訊息要再查詢或搜尋也相對乏善可陳6 h8 {6 P* C" W% a: N
詞條內容也無法再查詢或搜尋....圖像所致
% [! a4 A6 B2 z" s 就算在歐路能以 OCR 取詞卻也無法對其內容搜尋...GoldenDict...亦然2 w, i+ h# I' ~+ E! D( O
3. 光是校對詞頭都已是非常吃重的負荷! L* S/ C. p' y% d$ z. _6 ?# { X2 N
然而 OCR 後的全文校對更是不太可能
; c2 a c8 F( e b; j* {' t- y2 i7 f% z8 x6 n1 O
" b$ j! h9 c7 u: Q" y; u- J1 ^/ j有關圖片辭典的製作淺見如下:
8 G5 Z, p4 h9 t
; O3 J" X/ s3 K( V9 s& ?1. 僅校對詞頭....圖片上列出當頁的導航詞頭
! C6 ]. t$ L! z4 L 搜索分兩部份:2 Q$ g; ^" w2 a# t) L
a. 詞頭==>校對......此可借用 Chigre 兄的工具來達成
. y/ P; }# t! d, [5 Q, [' _b. 內容==>OCR 不校對6 u4 G8 |6 ?( ^( W4 {$ J- k7 O2 Q/ l
2 {8 i9 M s! `+ ^1 E: M! [( k K
2. 結合圖片和 OCR 文字....把 OCR 文字利用起來於全文搜索
$ p5 J5 f3 I5 C* w6 g2 j# C+ G3. 把圖片和 OCR 文字并列....縱然 OCR 不一定正確..但可從圖片獲得正確訊息
0 s. V$ E2 A2 }9 n9 B 如此禰補 mdx 與 ocr 後的 pdf or djvu 的差距$ Z9 f5 e3 e9 q$ e7 o/ l9 R1 R# @
如果辭典有 2 or 3 欄, 以顯示 1 欄 50% 的銀幕寬度 另外 50% 銀幕寬度顯示文字來并列: L9 Q9 n% |. C- {
如此也好對照......highlight 文字列來定位也較為容易些2 D0 O, Y p# v6 C( g" r' }
<a href="#section1"> 類似此標簽於圖片是無法轉跳定位但文字是可以的2 p$ _- ?% C( b. I% \7 D
4. 因可互相對照圖片和 ocr 文字....或許可供熱心人士後續來校對完善之) |4 N x& f X5 h1 K& `
5. 若是純英英相對 OCR 良率高則把 OCR 文字利用起來於全文搜索較易達成/ ^- j+ T8 M& i9 J* X, r
6. 若能以切圖到每個單字區塊且加上 OCR 文字則最是完美, 但無奈的是此又難度太高.....' |! n) D; H9 X, I# B5 a5 e! J
此 Chigre 兄已完美的達成單字區塊的切圖....唯缺OCR 文字實在令人扼腕.....* E- W* i8 t0 x j8 @) [, \1 F d6 ~
或許折衷一下簡化一點
7 _5 w* }* _ [" N/ X 但若以切欄為單位 + OCR 文字....此應較易達成6 g* C6 _$ [; c, c
: m* }; P" j3 p
2 ?3 [" @+ N- `5 X* h. Q/ b& I# p0 @7 K# T; b& P' l
: h2 R% O0 T3 }) b* K" F9 _3 `, ^5 p( N* |0 x4 D
|
|