TA的每日心情 | 开心 2018-8-8 03:13 |
---|
签到天数: 1 天 [LV.1]初来乍到
|
本帖最后由 喬治兄 于 2020-2-20 08:51 编辑
1 l8 s3 H. B5 S9 j# `% |# ?/ ~% ^% g* {. \
因鑒於圖片辭典作耗時費力且查詢的實用性又大打折扣
2 o, c1 ~ [( l5 j0 n* n圖片辭典製作完後也往往成為擺設, 因限縮於詞頭搜索實用性也因而大減, 投入和實用性不成比例... L( r& {" x- y" p" [/ l5 O; f
盼各位同好予以建議提供看法和觀點.... m7 | N6 R; c U
- c- H( M# w- a; Y( P
圖片辭典目前缺陷如下:
+ |6 ]7 R* d3 ?: }1. 圖片辭典的 mdx vs. ocr 後的 pdf or djvu 格式檔案.....基本上沒有優勢
; d! |* h+ ^- n- B8 N1 Q( T0 L ocr 後的 pdf or djvu 格式檔案 可全文搜索0 j9 f$ x* {) S& ]7 G1 C7 N' a
2. 針對目前僅靠詞頭去調出那頁的的圖像或 highlight 位置所獲得的圖像訊息要再查詢或搜尋也相對乏善可陳% z1 b5 D: w- R7 p9 a0 r
詞條內容也無法再查詢或搜尋....圖像所致: j; x! q5 [* `. S
就算在歐路能以 OCR 取詞卻也無法對其內容搜尋...GoldenDict...亦然
9 ^: j* @! g; ?( i1 J3. 光是校對詞頭都已是非常吃重的負荷
' s* }$ J6 ]3 G" q- p 然而 OCR 後的全文校對更是不太可能
6 z: C7 S0 q; ]) {) j9 B
( Q2 i/ ^9 |% Q: v9 q0 J7 I1 f
- |$ ?) ^7 f! E7 {0 S6 F有關圖片辭典的製作淺見如下:! O3 C$ B0 s6 X$ s2 B
4 X' U/ i; F* a# j% B7 E1. 僅校對詞頭....圖片上列出當頁的導航詞頭
* J% l: Q; T/ ?2 i A+ D 搜索分兩部份:& U4 y/ \) ~. @- X8 T1 T
a. 詞頭==>校對......此可借用 Chigre 兄的工具來達成1 s2 X7 \! i$ B1 w
b. 內容==>OCR 不校對, {& Z/ N. _! c
: u5 D! g& U# q$ ^2 A
2. 結合圖片和 OCR 文字....把 OCR 文字利用起來於全文搜索4 m7 P [) j @. b8 H2 p
3. 把圖片和 OCR 文字并列....縱然 OCR 不一定正確..但可從圖片獲得正確訊息* U; O7 q! L- R+ G- S. s
如此禰補 mdx 與 ocr 後的 pdf or djvu 的差距% e" w- J/ a. H; H, S. N1 `4 z
如果辭典有 2 or 3 欄, 以顯示 1 欄 50% 的銀幕寬度 另外 50% 銀幕寬度顯示文字來并列! |0 B% k7 b% }6 W! j8 z+ g
如此也好對照......highlight 文字列來定位也較為容易些
$ o9 K2 u* n8 f) z% R7 {$ c <a href="#section1"> 類似此標簽於圖片是無法轉跳定位但文字是可以的
( E) @% g9 ~3 ]6 y* h# m4. 因可互相對照圖片和 ocr 文字....或許可供熱心人士後續來校對完善之1 h1 L q3 k" I3 A
5. 若是純英英相對 OCR 良率高則把 OCR 文字利用起來於全文搜索較易達成
; V. Y( U" t: i6 x) ]' Q$ ]. ~6. 若能以切圖到每個單字區塊且加上 OCR 文字則最是完美, 但無奈的是此又難度太高.....6 B% t/ r& S: x
此 Chigre 兄已完美的達成單字區塊的切圖....唯缺OCR 文字實在令人扼腕.....
$ e2 a4 T: |& r+ H0 v7 D" U 或許折衷一下簡化一點5 a* Y: j& p% B- X' e3 U
但若以切欄為單位 + OCR 文字....此應較易達成4 ~; e1 Z$ j4 G9 k g
8 v) W7 L) o, f8 J- N2 S
" g; q9 u9 A9 f8 H# j9 _$ q
. Q3 A7 ]# b& ^, W* R1 d5 y( X" r I: F% T, s% h( q |
- n% i& W7 }3 t# V |
|