TA的每日心情 | 开心 2018-8-8 03:13 |
---|
签到天数: 1 天 [LV.1]初来乍到
|
本帖最后由 喬治兄 于 2020-2-20 08:51 编辑 ! l, a) s; I+ m) t, c
4 b% E0 {% F& ~3 r8 X% a 因鑒於圖片辭典作耗時費力且查詢的實用性又大打折扣
: `+ }$ v3 G% w6 G9 w圖片辭典製作完後也往往成為擺設, 因限縮於詞頭搜索實用性也因而大減, 投入和實用性不成比例...
) K( I! g; i8 r7 g, G/ v+ d盼各位同好予以建議提供看法和觀點....6 t6 l3 T! H) S& A: b( ]
5 v& ~# h1 _6 e) d圖片辭典目前缺陷如下:/ d9 f1 b' M- q! B
1. 圖片辭典的 mdx vs. ocr 後的 pdf or djvu 格式檔案.....基本上沒有優勢
6 z- A; v; \$ [ ocr 後的 pdf or djvu 格式檔案 可全文搜索5 V. c5 T W7 T. Z$ r
2. 針對目前僅靠詞頭去調出那頁的的圖像或 highlight 位置所獲得的圖像訊息要再查詢或搜尋也相對乏善可陳
$ M' A7 _; u5 Q, |9 I 詞條內容也無法再查詢或搜尋....圖像所致
" _% c% d+ I) ~6 U: x 就算在歐路能以 OCR 取詞卻也無法對其內容搜尋...GoldenDict...亦然; X1 G0 s/ D& w( F9 |2 {
3. 光是校對詞頭都已是非常吃重的負荷
$ a! b" T) T& K( e4 j2 _ 然而 OCR 後的全文校對更是不太可能; m7 O+ Q6 A$ ~0 b/ h
8 ]# J) J( a2 z7 N# T# { j3 [
1 }: ~ Z! h( s$ g% ^+ I8 f0 h有關圖片辭典的製作淺見如下:* n; v. S% i( r5 b6 N1 ^! f7 [
0 S0 y* n# o$ W1 [9 j( |" t
1. 僅校對詞頭....圖片上列出當頁的導航詞頭
2 E' q' n8 \9 } V 搜索分兩部份:" h0 g/ b7 I4 N; c6 M2 O
a. 詞頭==>校對......此可借用 Chigre 兄的工具來達成% z% Z6 ~$ @. ~ b2 s
b. 內容==>OCR 不校對8 a d9 L; y, K
0 J$ |, t' p0 \; H! s2 W. w2. 結合圖片和 OCR 文字....把 OCR 文字利用起來於全文搜索- \8 s9 O( K. d( _( K5 p( @4 U
3. 把圖片和 OCR 文字并列....縱然 OCR 不一定正確..但可從圖片獲得正確訊息
: w# O7 Y/ ~6 \ 如此禰補 mdx 與 ocr 後的 pdf or djvu 的差距
9 l0 C$ \; q* g; `% _ 如果辭典有 2 or 3 欄, 以顯示 1 欄 50% 的銀幕寬度 另外 50% 銀幕寬度顯示文字來并列
2 ^9 |, v, ], L, `3 b% u) M% Y+ f 如此也好對照......highlight 文字列來定位也較為容易些5 r3 D' E4 u0 R3 [
<a href="#section1"> 類似此標簽於圖片是無法轉跳定位但文字是可以的
* Y' c# l: Z' b F/ w2 R3 x4. 因可互相對照圖片和 ocr 文字....或許可供熱心人士後續來校對完善之
- _$ e) k8 d1 y9 ]8 @5. 若是純英英相對 OCR 良率高則把 OCR 文字利用起來於全文搜索較易達成 \0 P& U3 p7 L! e$ O
6. 若能以切圖到每個單字區塊且加上 OCR 文字則最是完美, 但無奈的是此又難度太高.....
; }9 z( K! z) s8 F$ m& x& B6 u2 K 此 Chigre 兄已完美的達成單字區塊的切圖....唯缺OCR 文字實在令人扼腕.....) x3 ?: c$ h2 \3 S& v
或許折衷一下簡化一點9 z& p# g A0 A6 \. j/ `
但若以切欄為單位 + OCR 文字....此應較易達成: y, P6 Q, E* @* L7 P) E4 f
! z; {: `% ]' W
8 N( X7 q4 `+ R$ j% }$ m
3 P1 e1 e1 ~# ?% J! ~6 `( |% G$ M- y4 Q( t
; |9 y0 [. g3 k% x$ b* q! B
|
|