TA的每日心情 | 奋斗 2019-10-13 07:34 |
---|
签到天数: 209 天 [LV.7]常住居民III
|
本帖最后由 VimVim 于 2020-6-28 16:01 编辑 1 F3 P8 J2 V+ `3 b
1 Q5 z, _5 \( H## 背景
% f% z4 x7 N: M" Z: h$ U4 T9 r* z. c ?8 u6 U. c1 B& O+ t
时常遇到好资料,怎奈只有PDF扫描版,辛苦制作好词条,但成品的导航却不够理想,梳理
/ O# G; f$ M, q2 S* ?6 _7 @一下现有获知的工具,提出图片词典应有的标准,希望各路高手能够借鉴打造理想的工$ c z- w$ r: E; q2 s- Z- Q# I
具,造福广大词典爱好者。4 K% Q) ^; y" E! ~7 n) f
" a7 R# s' T$ N2 W# \/ H' M
8 ]" f+ D% V; [### 现有图片词典制作技术点评
3 ~3 r8 o2 C' n
$ z( W# x/ o2 y, A2 D3 e * 图像版mdict字典制作方法 by tsiank
/ `# j- D; [* i+ w# s9 {$ R7 O/ h - src: https://www.pdawiki.com/forum/thread-13451-1-1.html; _, O: z/ t; q
- 这是最优秀的原创教程了,入门必修% i5 Y/ l1 u* y/ n2 ]# p$ ]. ^* {" `5 n
- 优点:理解图片词典的基本原理
" i% z5 ^& r% U+ N Y: {! a - 问题:导航简陋,难以在页面中定位具体词条: I: S9 P/ a' ?/ i0 x# r
* 图片版mdx源文件生成工具 by tsiank0 a6 m, r% w. f2 z
- src: https://www.pdawiki.com/forum/thread-33574-1-1.html
1 @4 A6 [3 w( N2 z1 z, J* T7 J - 这是上述教程的升级版,带工具了!
5 k8 X2 E' A' f. f5 K7 f8 E - 优点:导航体验大大提升;技术门槛极低,小白都可以使用
+ L- G+ i# Z+ J5 x: j ^ - 问题1:不能自动处理多部分构成的书籍,目前主要处理正文部分
& x2 o# N% |1 P9 P - 问题2:生成的mdx源文件有很多细节问题需要进一步处理,如CSS缺文件名、多1 Z% Z, E T* {1 \1 a: e
个标签属性之间缺空格、nobomb格式等
5 J- c" v: W" B! `2 M3 n6 h2 q - 问题3:鉴于使用Excel,无法与其他工具链结合,从修订原始词条文件到生成
8 j4 R) j: g0 g mdx源文件无法一步到位, n @6 t. I! x
- 问题4:导航依然有改进空间,VBA不熟悉,改造困难' ~ z n+ D" K$ o# k
* 以Picture Capture为代表的切图版词典制作软件 by chigre3 等0 q+ Z! ~! H6 y% q% l
- src: https://www.pdawiki.com/forum/thread-19040-1-1.html
o+ P' D* |* j4 L; U4 H# n8 G - 这是对终端词典用户体验最好的工具
/ ~3 A3 F6 J/ a# P* U - 优点:直接定位到具体词条、导航丰富
4 H# k8 W. q b! d c' C/ q' F7 W - 缺点1:工具非开源、偶尔开放下载、遇到问题没有反馈处理机制+ M% B `1 L/ V, C
- 缺点2:对于普通词典制作者来说极其复杂、体验糟糕
! C. D# R* b6 [0 x! a * 使用CSS精确定位Visual词典 by 孤影 等
( q6 Q3 I. m6 t - src: https://www.pdawiki.com/forum/thread-20350-1-1.html
+ f5 F4 L, G0 Q - 对于Visual Dictionary词典用户来说,体验很不错
! {! Y8 `6 G, G2 g4 [: A% c - 优点:关键词加亮、可直接在图片上点击关键词链接) q6 k# A% F% U& I, }' {# U5 u% k
- 缺点:具体技术细节不开放,仅可观摩案例Chinese-English Bilingual2 @' e( g* c- }; c: H& F, @
Visual Dictionary (https://www.pdawiki.com/forum/thread-35929-1-1.html ),1 e) S3 }* {! b5 x* g, c
大致是先OCR图片,并通过类似Picture Capture工具切片获取每个关键词的相
# }2 G$ U3 E1 {: p8 b 对定位,最后使用CSS隐藏文字层并定位关键词,太复杂了 ~! \: j2 |/ S/ T U& N: |
6 @$ u) x4 N8 T% [0 E& | t) d
### 优秀的图片词典工具链标准( I+ f% h$ U0 I; `/ e, Q
2 c4 [0 {9 N1 y9 h * 词典成品的导航体验要足够好:核心是有助于快速定位具体词条位置
+ c, }8 s5 d' T8 e. s1 g( n) ^ * 词典要能够适应不同尺寸的屏幕:阅读体验好,字体太大或太小都不可取8 {7 y d& l' q. H9 d
* 图片处理要足够简单:使用扫描的整页图片即可,不要切片等复杂操作
4 s. A) Y; E5 U& x$ k/ d) S * 词条的录入、校对要足够简单:要一目了然,不容易出错,技术门槛降至最低( Z! B( C# J+ H4 B% m$ \! k5 Z/ F
* 词典修订要快捷:修订原始词头文件后,通过工具可一步到位生成最终的mdx源文件, c6 [1 ~9 ?# b* v, S+ x2 D
: S$ n3 T- Y$ G为了实现上述目标,拟根据自己制作十来个图片词典的实践经验,提出如下制作规范,大
* E0 ]+ i) ]7 y" o2 `) G: b3 G X) P家可将其看作是开发相应图片制作工具的用户需求文档。
( F9 O9 u$ m2 G- n8 b9 O9 K. Q4 P u! j# c& d( Y+ @
## 成品图片词典的导航构想
2 ~4 G$ J9 g+ T+ ^( `5 J( _7 }" E8 e7 E2 E$ n, H1 N
* 在页面顶部显示Pages导航 和 Keywords导航(或有)
: C) l3 ?% t8 L7 |* d - Pages:Previous Next Cover Preface Content Index etc.
( d0 g! l- n0 ?7 {) w: G% p5 f' B - Keywords:A B C D E F G
( t3 g7 D+ r. h$ b5 v* H3 v * 在页面底部显示Pages导航
% M" L" Q4 x3 T" P+ J! U1 J' ? - Pages:Previous Next Cover Preface Content Index etc.
N9 f) x3 n; b5 |0 O5 Z, S6 @9 Q
* 在Pages导航中:
% v& D" k0 w3 B7 x/ Q' M - 上下页,可自动处理first和last页面
' e' [" T% |0 ] M - 上下页,可自动处理多个部分的页码体系为一个连续整体,如:! J8 P+ K# M$ h1 V# K1 n7 ?
- 正文前123(封面、目录等)、正文123、正文后123(索引、封底等)
_, a; W" u" |2 t - 除了上下页外,可自定义添加封面、前言、目录、索引等固定链接。
, L0 x2 g0 t# y * 在Keywords导航中:
( F$ G+ a; D) U/ ~. Z - 若没有关键词,则不显示Keywords导航,适配封面、前言、目录、索引等页面. F1 T }7 Q. t& w, G! D2 ?9 J
- 若某个关键词作为mdx的keywords,即使用Keywords导航中的某个关键词进行查
3 P2 q \# K! q4 ?# B% U. I) a; I 询,则在Keywords导航中加亮该关键词。
+ l* `$ f; V- B: }6 u# F) O - 若页面作为mdx的keywords,即使用Pages导航中的页码等进行查询,则在
2 h% z, i" e* c$ k& E& ~5 ~: S& Y Keywords导航中的关键词不做加亮处理。
& T, M% }- }5 _" `% C! e. z6 s, L k7 R
## 源文件格式规范 V0 S/ T! [/ f) g, _- B$ b
! f4 a# ?7 U- e7 R# ]+ I$ @
* 图片文件命名格式:; A( {7 E, i3 }& T* ~. T5 R
- 根据页码编排需要,可将书籍分为多个部分,如:正文前123(封面、目录/ w$ O+ H! `' O$ x5 k4 x
等)、正文 123、正文后123(索引、封底等)
) }. T& B* r8 C& z# h5 M, q' G$ ~ - 对于不同部分的图片,相应文件名命名规范为“前缀名+页码+后缀名”:
) u1 H- M' ^8 y9 L$ s - 前导名可自定义,中英文均可,建议采用书籍英文名或拼音缩写等个性化
/ `. y, T+ E6 @7 s 名称,避免多词典之间命名冲突 q/ M; ^6 K* A+ r7 {
- 页码位数可自定义,默认4位,可根据需要设为3位或5位等9 t$ D) J6 d1 m; Z9 @
- 需要正确识别图片后缀名,如jpg、png等
3 O# F# U( O2 h, t/ a9 S - 图片文件名案例:某书前0001.jpg…某书正文0001.jpg…某书后0001.jpg8 V- }: C' C( u- s
' n; ?6 U) o% r3 A2 b3 S; E
* Keywords源文件格式:
# ]7 J. t: [* C. F1 }5 L4 g3 ] - 对应书籍的多个部分,将keywords源文件分为多个部分,如:正文前123.txt(封
& {. \6 f( M* c4 Z; F7 L 面、目录等)、正文123.txt、正文后123.txt(索引、封底等)
- z1 Q$ _) }) f( L - 具体内容格式(极大化方便用户输入词头、校对和修订):
( ]3 n$ [! U1 _: g, V. r- t3 X * 第1行页码:0001& b3 a9 |% G' p9 A9 z/ Y! G; e/ p8 j3 c
* 第2行关键词:A
+ J$ R' W5 D2 a2 e2 A0 m% a * 第3行关键词:B
% v$ [3 I2 l# }% i * 第n行关键词:N2 m. i/ y: \- p' A/ \: I( [
* 第n+1行页码:00027 f/ O$ Y1 l: B6 L6 X& U& u
* 第n+2行关键词:X! @8 F/ \8 I8 ~7 `' i* l
* 第n+3行关键词:Y
4 u) {0 |( ?0 z% M5 R! d * 第n+4行关键词:Z
8 V; [' z0 v! l * ……
2 L# {( y1 ` F: t - 页码之后,可以没有关键词
2 o- `( T. a8 A& p - 若有关键词,则同时生成相应的Pages导航和Keywords导航
: [1 ^, h) D. x+ E9 x4 J L+ R8 v - 若没有关键词,则仅生成Pages导航,而没有Keywords导航+ o2 T. }7 ]% @! z, I8 q
! Y, q) I4 D. U## 处理程序及配置文件规范7 [( m. K4 h* L w$ a/ q1 ]
' q% a' H ^& d! h) g7 M. X
* 建议使用Python3,毕竟用户多,大家有能力按需改造# ?) @3 W5 p& |, p& e$ g
* 程序作适当配置后,应可一键生成最终的mdx源文件和css$ m9 }% w. `- B1 f2 A0 Y
* 主要配置包括:
: I0 w% h$ s: k4 P - 书籍多个部分对应的Keywords源文件和图片文件3 A4 ]! |5 g& A( a& C; G: ~& {
- Keywords源文件名称
. Z3 ?" ]7 e. E - 对应的图片文件名:前缀名 + 页码位数 + 后缀名
$ m0 v9 S% ~- i3 B4 ~) R5 I0 _ - Pages导航中的自定义固定链接:# _& ~! D" r/ p2 z2 x1 B
- 固定链接名称(如封面目录) + 对应图片文件名$ M% q) ~ x9 T1 Q& ?5 `
- mdx目标文件名% Q9 Q1 v3 z' n' x
- CSS文件名
# p0 n( p- F, z - 导航的中英文, j9 F+ I3 ?/ |2 r
- 简中:页面、上一页、下一页、关键词
+ k8 b7 O- \2 I- R - 繁中:頁面、上一頁、下一頁、關鍵詞7 I: {: Z* s; F! B/ H9 @8 d! A: a
- 英文:Pages、Previous、Next、Keywords/ g$ T) ~; V t3 R$ X
2 S. y, b8 l0 W+ ^; j
## 目标文件格式规范
# p9 [/ v+ k B7 l k9 Q- ^- f. R" `; f9 E
* mdx源文件txt需要满足mdx源文件的格式标准:dos,nobomb,UTF-8+ e0 r2 `+ T+ [( F$ j
* 生成的CSS可进一步配置:
- @7 h( G5 S! U# U1 B - Pages导航样式# M }+ }0 g5 x% K
- Keywords导航样式8 u. z3 x2 U/ A6 k% L9 O9 Y, L
- 加亮Keyword样式6 h7 a0 P7 _! T- Q7 t
- 图片宽度:百分比(默认100%)或固定大小(px或em)
7 Z. r7 P1 Q- I- D" I% A& A- P4 n/ p/ M& F' l' Z. W
## 扩展1:整页版和多栏切片版二合一
* R' Z$ W. `! ]
" \7 Y2 U- Y0 u8 k/ G' Z/ g为适应手机等移动设备的查阅,需要将整页版适度分栏切片
+ D! S6 C" _/ t+ z+ A
& x2 W) j' T, y' N+ Q5 r! G * 词条需要分栏处理
3 e* ?% x% j7 z( R * 图片文件名需要分栏处理
$ \2 q- h% {+ Y( z7 @1 c8 x * CSS要能够自适应不同屏幕尺寸的设备
+ {7 K- L$ ~: x. c5 B. n
. i- i" n" \# Y具体改造略1 k& x7 G; j% @* B% |: G5 a
* ]& h7 T8 o4 t$ R* b/ z
: h) y' w& }! z; M$ r4 V) z4 o, f## 扩展2:多层次词头优化
! a: v8 _, d& W# Q6 I2 N% t* T# n5 F$ X+ y3 x! Q4 y+ x7 q, H8 |
为优化类似Longman Language Activator、朗文多功能分类词典、现代汉语词典等词头有+ t3 z" H3 e+ |- M
多个层次的词典,可在原有标准基础上,进一步将Keywords区分为多个层次,如字、词:
! }) n5 j$ R2 B+ z' X' s# O
" ?5 H4 `2 A9 m: A8 T * 在页面顶部显示Pages导航 和 字词导航(或有)
, R3 t; w" m3 z" U, W - 页面:Previous Next Cover Preface Content Index etc.' _5 P. D& m: l4 Z2 }- S4 S
- 字:A B C D E F G
! [$ V5 p% Z! b+ A4 M- Z - 词: WordA1 WordA2 WordA3 WordA4% E* W: R* e' {* \+ z) u% l
* 在页面底部显示Pages导航5 y! O& D4 N2 `4 N6 @+ b9 f: S' s
- 页面:Previous Next Cover Preface Content Index etc.3 k- y6 V# O; G
( X) z5 _3 Z% R7 }) V& i* q
* 当查询页码(并未查询具体的字或词)时,仅显示页列表
4 T- ]! A: h0 B3 |1 C * 当查询某个字或某个词时,不仅显示字列表,还显示这个字所包含的词列表
8 v7 U, O( l) b {7 K' w+ A [# f
/ B# T t7 r" P& @7 c4 ~具体改造略* V! d! Z6 n$ L; r
6 [/ U5 _4 k; v# o1 o7 k
## 诚邀Python等高人打造开源的图片词典制作工具
; f/ H# l2 f {( }3 f0 p$ ]2 Y
/ T5 n9 h9 O9 ~5 q若能够制作符合上述标准的工具(先有标准版的即可,扩展版再逐步优化),必将造福广! r* i: m' S+ n, _6 b
大词典爱好者,无论是字典制作者,还是字典使用者。' z8 u9 v8 Q5 ]+ p
; T) f# H4 Y. `若有需要,我可提供相关案例词典:包括完整的图片、词条等。
( s5 L# P* \, b# d+ I ?8 i" s
) ^: K3 g c% \( G' h" W; y |
|