TA的每日心情 | 开心 2018-8-8 03:13 |
---|
签到天数: 1 天 [LV.1]初来乍到
|
本帖最后由 喬治兄 于 2020-2-20 08:51 编辑 ) R! K) ^# \; \0 A+ I0 M; L
8 Q+ \: B, D7 C( d2 o: P 因鑒於圖片辭典作耗時費力且查詢的實用性又大打折扣
- l4 G5 j- W, G圖片辭典製作完後也往往成為擺設, 因限縮於詞頭搜索實用性也因而大減, 投入和實用性不成比例...
% Q& [' c: Q8 r" x- l盼各位同好予以建議提供看法和觀點....4 X2 {5 K1 `9 r
G( o' z' \. f& V1 W x/ P
圖片辭典目前缺陷如下:, D" W! K s z
1. 圖片辭典的 mdx vs. ocr 後的 pdf or djvu 格式檔案.....基本上沒有優勢
& X4 c+ N1 I: f, B ocr 後的 pdf or djvu 格式檔案 可全文搜索3 t/ V( e2 o7 \, ^3 Z* w
2. 針對目前僅靠詞頭去調出那頁的的圖像或 highlight 位置所獲得的圖像訊息要再查詢或搜尋也相對乏善可陳
+ h# p( G, f8 Q, x: o( |: L8 } 詞條內容也無法再查詢或搜尋....圖像所致
1 N/ ?) S$ K+ Y 就算在歐路能以 OCR 取詞卻也無法對其內容搜尋...GoldenDict...亦然
- f1 p3 d# c3 u- s; p3. 光是校對詞頭都已是非常吃重的負荷
( J& T. V8 D5 Y- z" | 然而 OCR 後的全文校對更是不太可能 m) V4 Y/ [" Q, m6 {) A& _! w
+ W3 H3 K3 |' J$ S1 E
0 _ c( ^0 u2 T2 f5 K* \有關圖片辭典的製作淺見如下:
. p" y9 D' H# z. f. {2 j
: ~* m- I( h* [/ u+ A8 h( b m1. 僅校對詞頭....圖片上列出當頁的導航詞頭
H' S8 z; \5 d* G+ J3 ^. p. ^ 搜索分兩部份:
$ P$ ]6 }7 m/ p/ oa. 詞頭==>校對......此可借用 Chigre 兄的工具來達成1 g$ H$ I( ]1 W) f! R' g
b. 內容==>OCR 不校對
+ N- x9 ]* v2 e: N7 J0 ^ m7 [2 q1 K3 p7 N P. j* W+ @ V% I2 ~
2. 結合圖片和 OCR 文字....把 OCR 文字利用起來於全文搜索
' Q: Y J& B$ A0 b3. 把圖片和 OCR 文字并列....縱然 OCR 不一定正確..但可從圖片獲得正確訊息. n. D; F9 _: y* e+ P
如此禰補 mdx 與 ocr 後的 pdf or djvu 的差距
9 C) e+ r1 T! U% R. \& a2 t 如果辭典有 2 or 3 欄, 以顯示 1 欄 50% 的銀幕寬度 另外 50% 銀幕寬度顯示文字來并列' X$ _* n$ s5 n [6 \
如此也好對照......highlight 文字列來定位也較為容易些 z# k* V M9 x0 r( ?7 t; {
<a href="#section1"> 類似此標簽於圖片是無法轉跳定位但文字是可以的
- W- I# C' ^ c0 R4 H4. 因可互相對照圖片和 ocr 文字....或許可供熱心人士後續來校對完善之/ h5 L: [) O! |$ c, V! y4 w
5. 若是純英英相對 OCR 良率高則把 OCR 文字利用起來於全文搜索較易達成
7 r" h; M3 U n6. 若能以切圖到每個單字區塊且加上 OCR 文字則最是完美, 但無奈的是此又難度太高.....2 |/ C" F, t; K
此 Chigre 兄已完美的達成單字區塊的切圖....唯缺OCR 文字實在令人扼腕.....
$ `, ~5 @* |/ D: W' _2 q" T- j5 b( E 或許折衷一下簡化一點8 U; R# q; K9 ]4 X* F+ P
但若以切欄為單位 + OCR 文字....此應較易達成% H* D, t: ]/ Q
9 E8 J) |+ e0 g9 F$ n
( D' m$ m1 n8 s1 g* l
$ Y7 o. z) P5 j4 @2 R5 M* |# r' }- c/ E1 v3 h# Q9 h6 z! y
_$ _ c( o6 f% L( A
|
|