TA的每日心情 | 奋斗 2019-10-13 07:34 |
---|
签到天数: 209 天 [LV.7]常住居民III
|
本帖最后由 VimVim 于 2020-6-28 16:01 编辑
8 e) f3 s9 u1 g: w" T. {) q4 q# K6 A- C0 z8 O
## 背景
; m0 a( S/ }$ x6 ~, W: F' p
+ Q) a3 k4 V/ ]( @; E8 d时常遇到好资料,怎奈只有PDF扫描版,辛苦制作好词条,但成品的导航却不够理想,梳理
7 F2 Y' R. Y5 G一下现有获知的工具,提出图片词典应有的标准,希望各路高手能够借鉴打造理想的工
" V& y9 i. w# W' _具,造福广大词典爱好者。. u6 n. j$ S" b X/ @& B2 D8 P* Y/ Q* p
: ^! I" W. E0 h+ N: \! ~; \6 q2 Z2 W* j }: K
### 现有图片词典制作技术点评
6 K( c* l$ J! V( K' k, p/ v E$ c Z& C
* 图像版mdict字典制作方法 by tsiank
6 w' t+ a, h6 i- x. W5 K - src: https://www.pdawiki.com/forum/thread-13451-1-1.html" @0 z( n: h+ p. }% k
- 这是最优秀的原创教程了,入门必修
) a& Q5 y3 M$ i; \- h( B2 }9 a - 优点:理解图片词典的基本原理' R$ o) E1 J: v9 {4 k( z
- 问题:导航简陋,难以在页面中定位具体词条
% L# f" o* \3 }3 t- C * 图片版mdx源文件生成工具 by tsiank7 }3 ?' D( N6 n" a- {5 O
- src: https://www.pdawiki.com/forum/thread-33574-1-1.html
" i) F j2 d' }" l ~- t4 o: P - 这是上述教程的升级版,带工具了!7 v/ D( d0 W4 d( {) e! q+ `: H
- 优点:导航体验大大提升;技术门槛极低,小白都可以使用4 G n1 `) U' q) S8 g
- 问题1:不能自动处理多部分构成的书籍,目前主要处理正文部分( J0 t6 ^7 q6 L6 K: T7 v( x- I' v4 ]
- 问题2:生成的mdx源文件有很多细节问题需要进一步处理,如CSS缺文件名、多9 ]& k' b. N( l! m+ ~* U+ ?8 H$ z
个标签属性之间缺空格、nobomb格式等' J9 `! _7 a' c5 N+ R
- 问题3:鉴于使用Excel,无法与其他工具链结合,从修订原始词条文件到生成1 }8 Z; g! T6 \" s$ d
mdx源文件无法一步到位7 s6 Q& t& c* e( l" F0 t
- 问题4:导航依然有改进空间,VBA不熟悉,改造困难; b7 @2 E, Y# i+ |& L
* 以Picture Capture为代表的切图版词典制作软件 by chigre3 等: E/ l. {# p1 J) v9 \
- src: https://www.pdawiki.com/forum/thread-19040-1-1.html2 J7 O3 c" A, n* n* @1 b
- 这是对终端词典用户体验最好的工具
6 I; {( U+ x( }7 K - 优点:直接定位到具体词条、导航丰富9 d5 f3 H X$ T3 I* b$ `
- 缺点1:工具非开源、偶尔开放下载、遇到问题没有反馈处理机制: K! s( K) _; _4 d
- 缺点2:对于普通词典制作者来说极其复杂、体验糟糕
$ k. K5 x$ {9 S$ f! m$ i4 w* Y * 使用CSS精确定位Visual词典 by 孤影 等4 ~1 m7 j% s/ K2 O: x
- src: https://www.pdawiki.com/forum/thread-20350-1-1.html
5 |% q9 ~5 ]! {. S, i - 对于Visual Dictionary词典用户来说,体验很不错6 h- o$ U0 a; o5 j) I- e9 c5 c+ Z
- 优点:关键词加亮、可直接在图片上点击关键词链接9 }$ e f- C+ D; B
- 缺点:具体技术细节不开放,仅可观摩案例Chinese-English Bilingual
0 o' d0 F; |6 r5 R% S Visual Dictionary (https://www.pdawiki.com/forum/thread-35929-1-1.html ),
* D+ `; L5 E4 V! i% ^6 Q+ ~ 大致是先OCR图片,并通过类似Picture Capture工具切片获取每个关键词的相
+ ?8 t7 R% H1 l/ u" M 对定位,最后使用CSS隐藏文字层并定位关键词,太复杂了3 ^6 |% R b- Q
( f4 a" Y) S$ g### 优秀的图片词典工具链标准
7 P2 @% ~8 t2 z+ D& U/ H, g" I3 I6 N- }
* 词典成品的导航体验要足够好:核心是有助于快速定位具体词条位置! Q& l$ y, b6 L8 k7 U T* e! T
* 词典要能够适应不同尺寸的屏幕:阅读体验好,字体太大或太小都不可取
0 c1 p( s4 e2 u: ^. U# d * 图片处理要足够简单:使用扫描的整页图片即可,不要切片等复杂操作' r# [1 m7 W! Z3 ]0 G
* 词条的录入、校对要足够简单:要一目了然,不容易出错,技术门槛降至最低
( f, n, T' m" B8 n& T$ W * 词典修订要快捷:修订原始词头文件后,通过工具可一步到位生成最终的mdx源文件
3 H- i4 Z# d: ]3 z; X2 c
& B- t; a. K, K5 x$ X# J, D* l* \为了实现上述目标,拟根据自己制作十来个图片词典的实践经验,提出如下制作规范,大
" z. }6 I2 ^ Y3 ]1 W* C. G$ G8 X家可将其看作是开发相应图片制作工具的用户需求文档。
. M/ [ p/ D, y' D: F/ E: B& C; }2 H8 b& d* v! w, o8 A
## 成品图片词典的导航构想9 U0 ^, N/ N+ o/ m1 }
1 M4 O$ s6 G4 \3 L! P * 在页面顶部显示Pages导航 和 Keywords导航(或有)
s% N. q, ?3 A& n2 ?, a4 n - Pages:Previous Next Cover Preface Content Index etc.
% K! \! c: D0 u4 ]% I - Keywords:A B C D E F G
9 x1 \. n# N' b" {! e * 在页面底部显示Pages导航
4 Y+ A3 ]0 z6 m3 Z8 h, V# X6 ^" M - Pages:Previous Next Cover Preface Content Index etc.2 X/ D" @9 D1 r& k. J( t# @
- }' s& C/ t* K4 y * 在Pages导航中:
1 y" N2 T+ ^" F9 D [ - 上下页,可自动处理first和last页面% c% F% e' M% Z9 o ~
- 上下页,可自动处理多个部分的页码体系为一个连续整体,如:7 a% F1 t! o, M0 |* n
- 正文前123(封面、目录等)、正文123、正文后123(索引、封底等)
# S1 j2 P t" R% k, p- i: a6 }. k - 除了上下页外,可自定义添加封面、前言、目录、索引等固定链接。! q& ^0 ~. y" r3 R$ h1 z
* 在Keywords导航中:
( ] V7 J9 `0 g8 T - 若没有关键词,则不显示Keywords导航,适配封面、前言、目录、索引等页面" z. F* ~1 r; K3 @+ A, o
- 若某个关键词作为mdx的keywords,即使用Keywords导航中的某个关键词进行查
$ r: J' P, y5 ~: U4 p$ } 询,则在Keywords导航中加亮该关键词。) ~! d& g1 |! f. f6 T
- 若页面作为mdx的keywords,即使用Pages导航中的页码等进行查询,则在
9 f7 V% L6 P& k# c+ b G Keywords导航中的关键词不做加亮处理。& c2 @5 A, L F: e2 }" [0 a
- s" r/ ?3 U+ n% r2 f5 T! y## 源文件格式规范
2 x$ t9 }4 H; [
" w* r4 V1 n8 A * 图片文件命名格式:
: g( B% Y4 S5 L: G- w: A' j( ^ - 根据页码编排需要,可将书籍分为多个部分,如:正文前123(封面、目录
$ [ F! r3 \5 J- t- p0 l 等)、正文 123、正文后123(索引、封底等) g3 j: ]7 i8 U. L/ C
- 对于不同部分的图片,相应文件名命名规范为“前缀名+页码+后缀名”:* H; y4 ]3 e4 h/ |
- 前导名可自定义,中英文均可,建议采用书籍英文名或拼音缩写等个性化" n& s6 u9 u: g& N1 A& p$ O
名称,避免多词典之间命名冲突6 x, x! |6 O. }* R* ~$ W/ ?
- 页码位数可自定义,默认4位,可根据需要设为3位或5位等" H% ?( B/ G. S
- 需要正确识别图片后缀名,如jpg、png等4 G) {8 o& k+ _3 _4 I
- 图片文件名案例:某书前0001.jpg…某书正文0001.jpg…某书后0001.jpg
3 E1 V2 a) u7 m1 x1 a
! o @* M" t/ b( q2 U& u * Keywords源文件格式:& v P* q: g% E5 a8 E9 i
- 对应书籍的多个部分,将keywords源文件分为多个部分,如:正文前123.txt(封) N" u# O+ C6 @0 y( A4 n7 Z ]- }
面、目录等)、正文123.txt、正文后123.txt(索引、封底等)
" i5 @1 c( Q: L2 t$ E - 具体内容格式(极大化方便用户输入词头、校对和修订):
6 m% t t% h7 g0 p$ ^ * 第1行页码:0001+ s- ~1 \& p+ W
* 第2行关键词:A2 E% @# \& c) C$ D1 w+ C" o! T: ?
* 第3行关键词:B
6 H4 T+ Z( i: K * 第n行关键词:N
- G* S6 S9 A( H! H * 第n+1行页码:0002
1 O) S$ h7 Z1 U * 第n+2行关键词:X6 I; V2 c2 V0 I, f
* 第n+3行关键词:Y
0 }9 q3 J9 b% d# {! B * 第n+4行关键词:Z
" l0 i' [3 |2 i0 S" u7 S' R * ……
1 ~6 x/ W0 ?9 a$ z - 页码之后,可以没有关键词
5 c: r% e7 h9 b - 若有关键词,则同时生成相应的Pages导航和Keywords导航' X- y4 x' O& |# k
- 若没有关键词,则仅生成Pages导航,而没有Keywords导航
}" I2 Y% c( z8 h' h( }
* m" `8 U6 `% l# y! R( [( T## 处理程序及配置文件规范
# e4 c- c; r+ }, P! G+ C& t# y: j
* 建议使用Python3,毕竟用户多,大家有能力按需改造: |7 J; ~$ u5 T
* 程序作适当配置后,应可一键生成最终的mdx源文件和css
9 {. Q4 h1 \6 m) ^4 R# |" f3 ^ * 主要配置包括:
4 l: W9 l, S9 P - 书籍多个部分对应的Keywords源文件和图片文件
3 r J o6 H( q2 a1 f9 t- i - Keywords源文件名称
) M% D% t& [# J6 }' Z, R3 I( {8 k - 对应的图片文件名:前缀名 + 页码位数 + 后缀名
% v- F$ D8 M" [; W5 L' _) r& d5 J$ z* v - Pages导航中的自定义固定链接:
" y F& T6 n: b( _ - 固定链接名称(如封面目录) + 对应图片文件名
; K* l% k, ?/ Q4 h E - mdx目标文件名
4 Y% X$ c: q1 e5 o( S2 A2 a0 e! \ - CSS文件名# I' A: h! O4 s+ c& D; F6 A
- 导航的中英文
* @ O4 j, ~5 n# O/ V4 U0 P - 简中:页面、上一页、下一页、关键词
% |- p4 D8 J3 [ f. @+ h0 U' D6 M - 繁中:頁面、上一頁、下一頁、關鍵詞& B9 ]7 r9 ]' R% D" J
- 英文:Pages、Previous、Next、Keywords# [$ h" H5 ^6 o S# {; Q
# C' a8 K9 o% I& C D9 |3 ^6 N4 Q## 目标文件格式规范
: s8 T. R# r! P1 L, \' F& H! [% |2 l3 y5 c% L( `
* mdx源文件txt需要满足mdx源文件的格式标准:dos,nobomb,UTF-87 U" p( s( a ?4 `; w' b
* 生成的CSS可进一步配置: u" _* z# V9 ~, _; g
- Pages导航样式
8 d9 A6 D) c- f) b, b% n - Keywords导航样式
7 d2 V( [% x* p# x - 加亮Keyword样式3 ~9 L, h0 H* ]
- 图片宽度:百分比(默认100%)或固定大小(px或em)) C, z0 L" w/ h: M6 f: V& J* X
5 w* z8 g) x! E S4 f% k2 t. {9 D
## 扩展1:整页版和多栏切片版二合一( _- W* Y# [( s% p6 t3 x" h
1 h6 B- j7 i" e. V6 D$ F为适应手机等移动设备的查阅,需要将整页版适度分栏切片
. m$ G# ^# r( a0 j. a
3 `* T/ l/ C# _5 _2 I7 | * 词条需要分栏处理4 ~6 }6 {' v0 @1 G% j( g2 [
* 图片文件名需要分栏处理8 ^# C: z$ i5 e8 ]/ H# Y: t
* CSS要能够自适应不同屏幕尺寸的设备) Q% I3 s/ V/ U1 t# P
. k% y1 j# U- I- ^7 A/ Z s具体改造略 t1 j9 o% E" a" H! ?" L) s
4 O* |- F0 q y0 }% Y9 A5 H/ m5 z2 V: z
## 扩展2:多层次词头优化
& K& L5 m' c7 t5 J- ?' ~" K' f; p: W$ r, G u% |
为优化类似Longman Language Activator、朗文多功能分类词典、现代汉语词典等词头有1 B! ^% A9 i: C* W. L5 @
多个层次的词典,可在原有标准基础上,进一步将Keywords区分为多个层次,如字、词:
5 w1 J3 y0 C) Q/ p$ T
. D0 U# i+ O7 \0 @$ g! L! O0 h * 在页面顶部显示Pages导航 和 字词导航(或有)
; _& n: z! C B4 p2 M' e - 页面:Previous Next Cover Preface Content Index etc.
' u. B0 c, {! K t - 字:A B C D E F G4 i' E6 U4 D8 V
- 词: WordA1 WordA2 WordA3 WordA42 |+ {/ E1 }) K. O. H( g% W
* 在页面底部显示Pages导航; R7 ^" _7 v) P9 ]$ g/ f a, N
- 页面:Previous Next Cover Preface Content Index etc.
# E3 d) s' Z0 V# u1 r) g1 m \1 }+ T! Y |# Z6 O
* 当查询页码(并未查询具体的字或词)时,仅显示页列表
' D) ^/ I9 Y1 h6 S! p: p7 R$ w * 当查询某个字或某个词时,不仅显示字列表,还显示这个字所包含的词列表
; g( b, O4 d& y" _5 x( O# J ]- ^5 d. W4 Y( ?2 r
具体改造略
) a+ M, e# N) H7 u( }; H& r. X1 u% z" |: ?' [5 A% Y
## 诚邀Python等高人打造开源的图片词典制作工具1 p- R! S$ ~) f) i& C7 B8 `
2 A, b7 X( ]( n) B若能够制作符合上述标准的工具(先有标准版的即可,扩展版再逐步优化),必将造福广+ r: L; n- l" f
大词典爱好者,无论是字典制作者,还是字典使用者。
6 S2 e; w5 }% z: i: n3 a
7 d& d2 k% X2 O若有需要,我可提供相关案例词典:包括完整的图片、词条等。
) B; Q* D' O$ z j9 z+ C! u6 W; P7 z5 y; ?
|
|