TA的每日心情 | 开心 2018-8-8 03:13 |
---|
签到天数: 1 天 [LV.1]初来乍到
|
本帖最后由 喬治兄 于 2020-2-20 08:51 编辑 0 R( s( |7 C, h- D; e4 C2 n
# |: _) a7 V6 r 因鑒於圖片辭典作耗時費力且查詢的實用性又大打折扣
$ u8 q( M! g/ \0 [& I3 e" w圖片辭典製作完後也往往成為擺設, 因限縮於詞頭搜索實用性也因而大減, 投入和實用性不成比例...- m. `1 G, }' u' _( I \7 l
盼各位同好予以建議提供看法和觀點....: q; I5 q5 k9 T/ l
8 f& k% ]: F. m
圖片辭典目前缺陷如下:
2 O5 h2 i: a4 F) T0 ~- N1 u& C& u1. 圖片辭典的 mdx vs. ocr 後的 pdf or djvu 格式檔案.....基本上沒有優勢
& \3 f/ N/ N. Y" L ocr 後的 pdf or djvu 格式檔案 可全文搜索 L3 i+ g7 M! r: P$ q' }
2. 針對目前僅靠詞頭去調出那頁的的圖像或 highlight 位置所獲得的圖像訊息要再查詢或搜尋也相對乏善可陳8 H) l. Y4 u* ]# }
詞條內容也無法再查詢或搜尋....圖像所致
" ^! H- c( O2 b 就算在歐路能以 OCR 取詞卻也無法對其內容搜尋...GoldenDict...亦然2 N* W* ]: S/ B. d& t% n! M# p0 \
3. 光是校對詞頭都已是非常吃重的負荷9 K! N# r; b1 p% C6 M3 T3 y Z8 U
然而 OCR 後的全文校對更是不太可能
% g- j( ]! f5 n2 k# I2 f/ h) [ _1 \8 ]# [: t2 D
: u% p+ Y, L1 h7 Q+ \有關圖片辭典的製作淺見如下:* i. _5 I7 u6 D% v
+ i2 q. @7 ]& ^7 L6 F
1. 僅校對詞頭....圖片上列出當頁的導航詞頭
, I6 _0 l$ y6 H3 @ 搜索分兩部份:; a6 p+ U/ S% i5 z& V
a. 詞頭==>校對......此可借用 Chigre 兄的工具來達成3 g& m5 ~5 g( j8 L0 f, p$ p7 ^/ v4 i
b. 內容==>OCR 不校對1 Y1 s0 k2 N/ R
5 ], r, Z. v" H% `
2. 結合圖片和 OCR 文字....把 OCR 文字利用起來於全文搜索* X& ^7 l: }/ A# i
3. 把圖片和 OCR 文字并列....縱然 OCR 不一定正確..但可從圖片獲得正確訊息3 p- ?; t+ M( P& K# T2 K
如此禰補 mdx 與 ocr 後的 pdf or djvu 的差距- B% w9 C3 @, C4 @
如果辭典有 2 or 3 欄, 以顯示 1 欄 50% 的銀幕寬度 另外 50% 銀幕寬度顯示文字來并列: C% y! C3 l8 r$ [4 D% g& _' [
如此也好對照......highlight 文字列來定位也較為容易些2 \4 {* f: `& ~: [
<a href="#section1"> 類似此標簽於圖片是無法轉跳定位但文字是可以的
- r* _9 _ L! U" e& J' V4 h$ I4. 因可互相對照圖片和 ocr 文字....或許可供熱心人士後續來校對完善之 ?1 h2 v: |3 a* h) ~- k5 L
5. 若是純英英相對 OCR 良率高則把 OCR 文字利用起來於全文搜索較易達成* R5 U3 R: V4 \
6. 若能以切圖到每個單字區塊且加上 OCR 文字則最是完美, 但無奈的是此又難度太高.....) u! h9 M( n1 _7 e5 v
此 Chigre 兄已完美的達成單字區塊的切圖....唯缺OCR 文字實在令人扼腕.....9 @8 G) L: |5 w) a5 E w3 J' E) r
或許折衷一下簡化一點2 A9 e% r/ t9 H- b2 h4 y
但若以切欄為單位 + OCR 文字....此應較易達成& G; Y* S; o( K& F* y" e" \
0 G8 q& I" }* O5 B6 g }7 B
0 D. k) T; H- ^. I
( |5 e j6 o& h9 D9 m( e: Y, M( }& o! I/ {+ \' _
9 D' v% U4 K, d) d. Z6 E4 L |
|