TA的每日心情 | 奋斗 2019-10-13 07:34 |
---|
签到天数: 209 天 [LV.7]常住居民III
|
本帖最后由 VimVim 于 2020-6-28 16:01 编辑
' f M0 I! [6 x) p- I
, A' V( q7 k# R+ k* e1 a$ e## 背景
7 F. w/ G( k4 q+ e6 h, _) I8 Y" b6 @# @
时常遇到好资料,怎奈只有PDF扫描版,辛苦制作好词条,但成品的导航却不够理想,梳理
% e& Q+ E- j8 }: H; e一下现有获知的工具,提出图片词典应有的标准,希望各路高手能够借鉴打造理想的工
# s! h' W0 D; j" p& M% j具,造福广大词典爱好者。
/ E' `* ] O9 k
- J/ U5 O2 g7 s" E( i/ F* N. B) h/ f3 C; O
### 现有图片词典制作技术点评
5 \" K9 v# G2 T. f# ~3 M9 ~
8 s4 @3 P+ ~2 \- m * 图像版mdict字典制作方法 by tsiank
4 X, i% G0 q! ]5 K - src: https://www.pdawiki.com/forum/thread-13451-1-1.html
0 r# Z3 X9 e5 W - 这是最优秀的原创教程了,入门必修3 D( D2 S5 g2 \9 |/ e1 M
- 优点:理解图片词典的基本原理: {% a9 Y2 }. q; V7 a* V$ ]) f' M
- 问题:导航简陋,难以在页面中定位具体词条 N. U1 i2 | q5 u
* 图片版mdx源文件生成工具 by tsiank! C& |; s) R) ^* F( Y7 k
- src: https://www.pdawiki.com/forum/thread-33574-1-1.html
, i5 H& d, B+ N8 c/ P( l+ _ - 这是上述教程的升级版,带工具了!2 v$ {; D* m' s7 Z+ V) o' i
- 优点:导航体验大大提升;技术门槛极低,小白都可以使用
6 l4 R, N# _) l7 M0 a - 问题1:不能自动处理多部分构成的书籍,目前主要处理正文部分4 z* g% Y7 o- w7 s. q; `) M
- 问题2:生成的mdx源文件有很多细节问题需要进一步处理,如CSS缺文件名、多5 ]" A$ V2 L+ z F V
个标签属性之间缺空格、nobomb格式等/ r# W, B; X# G {1 F6 c9 R8 }8 ?( F
- 问题3:鉴于使用Excel,无法与其他工具链结合,从修订原始词条文件到生成( b: U$ w' B" p+ j
mdx源文件无法一步到位
; o, X+ ^9 G+ x - 问题4:导航依然有改进空间,VBA不熟悉,改造困难5 t" y; P, F" N4 [/ Q! B- R+ F
* 以Picture Capture为代表的切图版词典制作软件 by chigre3 等- D7 B$ R" w/ a2 W( d, S# G4 a! Y% n
- src: https://www.pdawiki.com/forum/thread-19040-1-1.html. c" Q4 W! Y, I
- 这是对终端词典用户体验最好的工具
) O% c3 f* f& b3 z: ?0 o8 W/ e! _( } - 优点:直接定位到具体词条、导航丰富3 x" G' ^$ w4 z! a
- 缺点1:工具非开源、偶尔开放下载、遇到问题没有反馈处理机制
- L2 w: o/ D. z+ Q5 s$ | - 缺点2:对于普通词典制作者来说极其复杂、体验糟糕1 A# r: ?, v9 h' F# L
* 使用CSS精确定位Visual词典 by 孤影 等2 y/ E( W# _2 o5 Z4 C
- src: https://www.pdawiki.com/forum/thread-20350-1-1.html' |7 \1 Y8 x( x1 T
- 对于Visual Dictionary词典用户来说,体验很不错5 x4 D' D2 E$ V4 ?+ W
- 优点:关键词加亮、可直接在图片上点击关键词链接
) u9 I; c, K% ^# H ], | - 缺点:具体技术细节不开放,仅可观摩案例Chinese-English Bilingual4 F: T4 ]4 g' R9 D1 y
Visual Dictionary (https://www.pdawiki.com/forum/thread-35929-1-1.html ),( K: Z. ]# j6 r F2 w! \, [& ]
大致是先OCR图片,并通过类似Picture Capture工具切片获取每个关键词的相
) z/ m2 f" h: b$ Z 对定位,最后使用CSS隐藏文字层并定位关键词,太复杂了! W, ^/ U1 B v; `
) g$ f8 d0 `3 b* O* y- U# b### 优秀的图片词典工具链标准
r7 q9 w2 T; I+ }8 i, ^1 ~" X6 g
0 Z% j9 K1 b7 @/ V" | * 词典成品的导航体验要足够好:核心是有助于快速定位具体词条位置
1 H* S* S8 j& c( d * 词典要能够适应不同尺寸的屏幕:阅读体验好,字体太大或太小都不可取
$ d9 X2 a0 g$ \0 [ * 图片处理要足够简单:使用扫描的整页图片即可,不要切片等复杂操作
; o9 v* ?$ c' j * 词条的录入、校对要足够简单:要一目了然,不容易出错,技术门槛降至最低" Z/ b; Z0 ]1 C& K6 ]" y
* 词典修订要快捷:修订原始词头文件后,通过工具可一步到位生成最终的mdx源文件
; N% e3 Q1 A+ p4 |! _6 ~5 X8 M' r6 X. S5 `/ i$ D1 A7 D3 N8 f6 `6 z
为了实现上述目标,拟根据自己制作十来个图片词典的实践经验,提出如下制作规范,大$ I: F( u! M) c, Y
家可将其看作是开发相应图片制作工具的用户需求文档。
9 |" ^6 Q( M2 g" q
* P$ H. H' {/ S/ c% u- F) w: O## 成品图片词典的导航构想( A, y- P8 |( B, L
8 ^9 S; u/ C: t* R% k6 y * 在页面顶部显示Pages导航 和 Keywords导航(或有)
/ M" v# J+ S- v/ y0 w - Pages:Previous Next Cover Preface Content Index etc.
2 U" {% M2 r) U# a8 {+ T) u - Keywords:A B C D E F G
$ w3 A. y. T1 r2 v& x2 V * 在页面底部显示Pages导航; m8 J. [: Q# Q( W1 e- h
- Pages:Previous Next Cover Preface Content Index etc.8 u' D- p5 p+ k, X8 D
' g. [' i V: {- _; l/ k
* 在Pages导航中:
# D( G7 t; t. C/ j2 W" Y - 上下页,可自动处理first和last页面
' W( f% \! g" I/ b' r3 T9 E - 上下页,可自动处理多个部分的页码体系为一个连续整体,如:
- Y' P( e$ c. M( f: }' J$ R& z, L - 正文前123(封面、目录等)、正文123、正文后123(索引、封底等)
; m' S! q8 T7 O m0 E - 除了上下页外,可自定义添加封面、前言、目录、索引等固定链接。
* b) G& k! J+ H* z. I# k * 在Keywords导航中:
% ^1 Y# Q S2 h5 h5 ^" A - 若没有关键词,则不显示Keywords导航,适配封面、前言、目录、索引等页面: ~! U! r) B, ^" C; E: D
- 若某个关键词作为mdx的keywords,即使用Keywords导航中的某个关键词进行查$ N- P: q9 X0 l' ~) {. u
询,则在Keywords导航中加亮该关键词。
1 i& E: n6 m9 Y9 T$ t - 若页面作为mdx的keywords,即使用Pages导航中的页码等进行查询,则在
6 y% B: j. G7 N( z Keywords导航中的关键词不做加亮处理。1 s, q3 T% g: m1 L; Z w
' w, q1 G2 j% P, K, C4 E## 源文件格式规范
, C$ X/ V5 ?2 w" p' j/ E9 c9 O1 q' f' z
* 图片文件命名格式:
* F5 ?( S: N% I- E/ m - 根据页码编排需要,可将书籍分为多个部分,如:正文前123(封面、目录
+ m+ _7 H! ?1 O 等)、正文 123、正文后123(索引、封底等)0 p% j8 b! J0 z+ Q) u
- 对于不同部分的图片,相应文件名命名规范为“前缀名+页码+后缀名”:
4 `. x# a# H8 C4 I - 前导名可自定义,中英文均可,建议采用书籍英文名或拼音缩写等个性化
) T H. G1 z0 o9 A 名称,避免多词典之间命名冲突' [$ a4 [8 J! K8 T
- 页码位数可自定义,默认4位,可根据需要设为3位或5位等
" y- V" a0 z- N7 t! x - 需要正确识别图片后缀名,如jpg、png等9 m% A3 _6 r# Y
- 图片文件名案例:某书前0001.jpg…某书正文0001.jpg…某书后0001.jpg* ]/ }" l9 r, J: r \- I
& L& c# c' v' \$ t * Keywords源文件格式:
q* F& `% t/ r, Y" Y* {& d - 对应书籍的多个部分,将keywords源文件分为多个部分,如:正文前123.txt(封1 R: G+ B. ^ d1 }3 L
面、目录等)、正文123.txt、正文后123.txt(索引、封底等)
% i3 x' k' ^$ b3 a& L& G! e8 W. a$ q - 具体内容格式(极大化方便用户输入词头、校对和修订):
! m$ K+ j& E' N0 K * 第1行页码:0001
; A: W1 _2 R2 s: T4 c: u! H7 ? * 第2行关键词:A Z2 V. B3 |; p2 I. A1 k& |' P8 P
* 第3行关键词:B
. n# ?) f6 o& _% ?0 M$ g/ g! G * 第n行关键词:N
+ w( [5 e* O/ T3 e# |7 o) | * 第n+1行页码:0002: P( z& M7 V0 d% o$ h& V
* 第n+2行关键词:X4 s, C) a+ w- s% {
* 第n+3行关键词:Y1 N6 _" h) J, f! g' n) a, p) l) u
* 第n+4行关键词:Z' A" `' m9 Q: O4 s; o8 H9 A
* ……
5 U% V% C) _. P; { - 页码之后,可以没有关键词
- \: d. n8 Y$ x$ [2 Z4 X. D- ~9 q - 若有关键词,则同时生成相应的Pages导航和Keywords导航% O8 }' J+ b; y4 M8 k. k/ a' N
- 若没有关键词,则仅生成Pages导航,而没有Keywords导航
+ m C5 y% p3 j# l5 Z
2 _3 G3 d/ A; p4 L7 y/ S. H+ [) X## 处理程序及配置文件规范
& I7 I2 l! r+ m5 L9 O9 C+ P( D" p3 P" j/ c6 R4 A8 M. }' T$ h+ A8 J
* 建议使用Python3,毕竟用户多,大家有能力按需改造
; ~; e& q, B( E* W * 程序作适当配置后,应可一键生成最终的mdx源文件和css+ v7 o4 A$ T5 P. A x3 R/ v0 }
* 主要配置包括:( q; n" o; b: o( |! |. Q F3 V9 M* P) I
- 书籍多个部分对应的Keywords源文件和图片文件: O. u% u7 T2 [& p
- Keywords源文件名称
8 ~% V; s3 _: S2 i. [* m8 {, M4 ~ - 对应的图片文件名:前缀名 + 页码位数 + 后缀名
5 l2 ^. t8 P A+ _: F) f - Pages导航中的自定义固定链接:
) E. d' t6 x" |. a9 q - 固定链接名称(如封面目录) + 对应图片文件名
/ O4 w& B& X% X, e& L - mdx目标文件名" X9 R1 T$ C# x( D
- CSS文件名
, R9 p* S" p; ?8 n% F. h - 导航的中英文 t0 D9 @" M. G% C+ `; l
- 简中:页面、上一页、下一页、关键词
/ q9 m$ L4 V- k/ x* Z- G - 繁中:頁面、上一頁、下一頁、關鍵詞
6 \* E0 C% e/ X+ j- \; y5 H" O- N - 英文:Pages、Previous、Next、Keywords4 l8 h9 P! R* S7 @: G$ |7 j4 @
% ?& Q P8 j( I4 X## 目标文件格式规范$ @4 V+ b3 I' j+ @
" l: N2 W; x) F ~: {) @, D * mdx源文件txt需要满足mdx源文件的格式标准:dos,nobomb,UTF-8
8 L0 X' U8 v: P1 e! @6 N * 生成的CSS可进一步配置:. ^* ~6 y- o# _2 |# i
- Pages导航样式
7 R# X" {5 `. C ^3 x - Keywords导航样式
" @. f' v" I% Z - 加亮Keyword样式, G8 D+ j* i/ L, p! ]. W3 w& T/ S
- 图片宽度:百分比(默认100%)或固定大小(px或em)
# E* v' l! _% k2 f
5 p0 ` F: P, K( b# W## 扩展1:整页版和多栏切片版二合一
6 h( ^' j3 N; G. Q7 W T- Q
% o0 o$ I) ^2 {" ^) K! T为适应手机等移动设备的查阅,需要将整页版适度分栏切片3 D# t6 a6 E' G; o# u& ~
, C' @2 O- `: Q7 Z0 }3 ? * 词条需要分栏处理5 G3 |4 d, d* B8 Y& `1 B L. H
* 图片文件名需要分栏处理4 i$ N$ |: L( Z5 E. a& s& I3 `& h7 r; g
* CSS要能够自适应不同屏幕尺寸的设备
/ g" C1 D0 G, U- S3 H
' G0 I$ m) M0 l; r具体改造略
( U/ _+ d3 e2 _5 P/ H3 C- d8 J6 o! I, F) ~& d5 L4 F Y
0 f; b6 d, w/ P" Z: B) _& \; l% e% x## 扩展2:多层次词头优化9 t6 k* d3 [" ]' T& h. W5 Q$ m
) S, Z! ]) L s3 {1 D为优化类似Longman Language Activator、朗文多功能分类词典、现代汉语词典等词头有2 Q+ _) \7 j" x2 }* N
多个层次的词典,可在原有标准基础上,进一步将Keywords区分为多个层次,如字、词:8 i1 p8 d8 b+ x" E w' \; b
* R& H, c0 A. g4 h$ o * 在页面顶部显示Pages导航 和 字词导航(或有)
3 g4 y+ d! |* i, p - 页面:Previous Next Cover Preface Content Index etc.& W, ^6 e% a8 k( Y5 E( Y
- 字:A B C D E F G
; ?1 B1 Y. O" d - 词: WordA1 WordA2 WordA3 WordA4' h% W+ R8 x9 w! Y. r9 C1 b( Z
* 在页面底部显示Pages导航% g/ n0 Q. C* ]# m! n7 U
- 页面:Previous Next Cover Preface Content Index etc.8 ?" I% V: t; E- ^4 K
, a3 N5 G: `' c" x
* 当查询页码(并未查询具体的字或词)时,仅显示页列表' z* f: q0 c0 ~) q$ A* n0 C3 E
* 当查询某个字或某个词时,不仅显示字列表,还显示这个字所包含的词列表
% Y3 \$ t, B$ q' o% {& R) S, L" v4 s& a0 x& A
具体改造略
1 J" `) W* e7 V6 _$ V5 r
4 j8 T. Q4 A* \) c$ J+ e6 L: p2 O/ v## 诚邀Python等高人打造开源的图片词典制作工具
& @0 |) c7 m: U1 d" u% x! n+ o* N+ f! N& o: H7 [
若能够制作符合上述标准的工具(先有标准版的即可,扩展版再逐步优化),必将造福广3 Z# B5 v; B% B' Z/ r
大词典爱好者,无论是字典制作者,还是字典使用者。/ C( U7 O/ A/ u1 n
# k9 ]" r$ k5 [0 z若有需要,我可提供相关案例词典:包括完整的图片、词条等。+ _: K4 [- a- r# ?6 Q
! _" q/ i0 d& s3 i* e* Z8 [
|
|