TA的每日心情 | 开心 2018-8-8 03:13 |
---|
签到天数: 1 天 [LV.1]初来乍到
|
本帖最后由 喬治兄 于 2020-2-20 08:51 编辑 4 F. _) i- S5 g5 H: b& |; U5 H A( m8 H
, r# A- K+ Q$ o 因鑒於圖片辭典作耗時費力且查詢的實用性又大打折扣# Z! v7 Q9 d, W# j; E0 ~4 `& ?
圖片辭典製作完後也往往成為擺設, 因限縮於詞頭搜索實用性也因而大減, 投入和實用性不成比例...
6 m6 Z6 y* b0 i( C盼各位同好予以建議提供看法和觀點....
' r6 Z# W' b* D1 y9 B- S+ v! j+ \& ^$ A1 J# A7 ^& {
圖片辭典目前缺陷如下: x& @( k1 ~4 l) V
1. 圖片辭典的 mdx vs. ocr 後的 pdf or djvu 格式檔案.....基本上沒有優勢5 j X% d0 m! E3 T. w
ocr 後的 pdf or djvu 格式檔案 可全文搜索
# u/ s8 \& p2 T# e4 q- K2. 針對目前僅靠詞頭去調出那頁的的圖像或 highlight 位置所獲得的圖像訊息要再查詢或搜尋也相對乏善可陳: e' ^7 G. x% ?2 \9 R0 T" f
詞條內容也無法再查詢或搜尋....圖像所致
2 n9 k: _& B% } 就算在歐路能以 OCR 取詞卻也無法對其內容搜尋...GoldenDict...亦然
: s# J3 J; s7 f) D! W" B3. 光是校對詞頭都已是非常吃重的負荷
- R) X8 Y( I2 ] 然而 OCR 後的全文校對更是不太可能6 [ l$ L/ I6 S5 A8 g& l' Z& l% [8 W
2 A2 w0 y5 ^, L$ v" ~. q1 v( A
& u1 V* d1 Y8 N9 ~
有關圖片辭典的製作淺見如下:
$ f# t, ~1 X* u# i; r) e! q6 ^% L# _# i; [
1. 僅校對詞頭....圖片上列出當頁的導航詞頭
* a, I. I: t- R3 \ f6 ^9 C- ~: w+ X 搜索分兩部份:
% H8 g \( \5 Ma. 詞頭==>校對......此可借用 Chigre 兄的工具來達成
) ]7 ?, a8 S. d4 gb. 內容==>OCR 不校對
& K1 W/ V4 p$ q& N" @% q
5 i8 J0 D" y* V2. 結合圖片和 OCR 文字....把 OCR 文字利用起來於全文搜索4 n2 \0 m. a: l& \. }. L
3. 把圖片和 OCR 文字并列....縱然 OCR 不一定正確..但可從圖片獲得正確訊息0 Z1 m/ y4 L) X b0 l
如此禰補 mdx 與 ocr 後的 pdf or djvu 的差距
) b& X3 }' X1 b( v, r$ A 如果辭典有 2 or 3 欄, 以顯示 1 欄 50% 的銀幕寬度 另外 50% 銀幕寬度顯示文字來并列$ b# e' V0 T4 E8 N* t9 w$ H
如此也好對照......highlight 文字列來定位也較為容易些( o; P; w) T2 [# r' S0 o
<a href="#section1"> 類似此標簽於圖片是無法轉跳定位但文字是可以的 H0 j" W: C9 ]( X2 _
4. 因可互相對照圖片和 ocr 文字....或許可供熱心人士後續來校對完善之
7 j3 @; \; _2 L1 s* X; T9 d8 P- t5. 若是純英英相對 OCR 良率高則把 OCR 文字利用起來於全文搜索較易達成5 d" B+ B7 H( E* a( M
6. 若能以切圖到每個單字區塊且加上 OCR 文字則最是完美, 但無奈的是此又難度太高.....
/ |% ?0 J) e; z0 q6 `+ P 此 Chigre 兄已完美的達成單字區塊的切圖....唯缺OCR 文字實在令人扼腕....." f" Y* Z/ E2 p# p
或許折衷一下簡化一點 [& `; {: x- M, w7 U% R3 k `7 o& X
但若以切欄為單位 + OCR 文字....此應較易達成
: ^; X, k6 X/ d- I6 @; @
( {, K+ k8 H X
/ N$ K4 g/ E/ N x$ i! D% g h
Q* V/ h) R) \5 o- n* D0 `
0 \% d, G# W5 N& `/ s5 p( A: p6 s% j4 v% \# D
|
|