TA的每日心情 | 开心 2018-8-8 03:13 |
---|
签到天数: 1 天 [LV.1]初来乍到
|
本帖最后由 喬治兄 于 2020-2-20 08:51 编辑
- _) K/ E! |. |( L K+ s1 E6 S& ?9 }+ `" b! G
因鑒於圖片辭典作耗時費力且查詢的實用性又大打折扣
1 u0 {2 L' f* R圖片辭典製作完後也往往成為擺設, 因限縮於詞頭搜索實用性也因而大減, 投入和實用性不成比例...
6 E9 R) f$ U5 l- x& P盼各位同好予以建議提供看法和觀點....0 q% g Q! ^9 t9 P( E# Y! L
. S/ M6 M- B/ ^4 f
圖片辭典目前缺陷如下:* o0 b S% |9 k
1. 圖片辭典的 mdx vs. ocr 後的 pdf or djvu 格式檔案.....基本上沒有優勢1 o- t w# E6 M4 Z7 C
ocr 後的 pdf or djvu 格式檔案 可全文搜索# B9 R# ^1 f6 e
2. 針對目前僅靠詞頭去調出那頁的的圖像或 highlight 位置所獲得的圖像訊息要再查詢或搜尋也相對乏善可陳
; a- ]8 L: v. X J% g) A M 詞條內容也無法再查詢或搜尋....圖像所致
2 I& i* A# Q5 r/ n* l3 f( \ 就算在歐路能以 OCR 取詞卻也無法對其內容搜尋...GoldenDict...亦然
+ c, T( p+ a6 f6 }* R3 n# R0 c$ ^3. 光是校對詞頭都已是非常吃重的負荷
4 {( ?) b! Y+ N6 x7 O; { 然而 OCR 後的全文校對更是不太可能
4 D2 c8 U( C3 g, J
( i& E# p7 ?2 ^ I, o
9 @* u% n& ]. N" w有關圖片辭典的製作淺見如下:
) p, `9 v; ^5 t. |3 j, R3 }# w
. Z3 ]8 y4 M" `" L1. 僅校對詞頭....圖片上列出當頁的導航詞頭- O0 h) e y" u+ t+ g' {
搜索分兩部份:
; F |. G Y: `$ Na. 詞頭==>校對......此可借用 Chigre 兄的工具來達成
( T0 c4 i! H! o0 S7 {+ C* o2 ?b. 內容==>OCR 不校對
g; Y6 ]; G# y q* ]0 ~( J, r% Q+ j' z- Y. M
2. 結合圖片和 OCR 文字....把 OCR 文字利用起來於全文搜索
% w1 @! }$ z4 G% b3. 把圖片和 OCR 文字并列....縱然 OCR 不一定正確..但可從圖片獲得正確訊息- b3 H9 g' J3 K! }) Y/ \
如此禰補 mdx 與 ocr 後的 pdf or djvu 的差距
6 Z# S& m5 }/ O 如果辭典有 2 or 3 欄, 以顯示 1 欄 50% 的銀幕寬度 另外 50% 銀幕寬度顯示文字來并列$ o; l, q) T* Q6 F1 g. n
如此也好對照......highlight 文字列來定位也較為容易些
% }: V% y; m5 |" y <a href="#section1"> 類似此標簽於圖片是無法轉跳定位但文字是可以的/ h: r, M) e* }) {( p# n: c* l
4. 因可互相對照圖片和 ocr 文字....或許可供熱心人士後續來校對完善之! y' E1 s! B: l5 h+ V, v$ M
5. 若是純英英相對 OCR 良率高則把 OCR 文字利用起來於全文搜索較易達成% J& j5 A, D$ l" {' q
6. 若能以切圖到每個單字區塊且加上 OCR 文字則最是完美, 但無奈的是此又難度太高.....# {2 [7 k3 w; p/ A. U/ N
此 Chigre 兄已完美的達成單字區塊的切圖....唯缺OCR 文字實在令人扼腕....., `* I3 v4 f9 I) y. W) ^
或許折衷一下簡化一點) C! P; r; M$ l- K
但若以切欄為單位 + OCR 文字....此應較易達成
7 O* X; {1 h7 m9 i/ ?
' \* }, {. `" { u" x # G- E8 ^6 M" O) q. n, \
8 w+ y$ O! ]) D8 r' H( `; S8 d$ M/ }1 u
- G; }& C& z# [* E& j" B. K
|
|