TA的每日心情 | 奋斗 2019-10-13 07:34 |
---|
签到天数: 209 天 [LV.7]常住居民III
|
本帖最后由 VimVim 于 2020-6-28 16:01 编辑 $ E% [0 D# v X& J
A7 E; l% B6 {
## 背景" I R" ]3 M. O" o! @2 h6 p
) a! v9 B3 e$ U2 V7 C
时常遇到好资料,怎奈只有PDF扫描版,辛苦制作好词条,但成品的导航却不够理想,梳理5 Y4 Z5 m% T. m/ A% T/ B: c3 D7 s
一下现有获知的工具,提出图片词典应有的标准,希望各路高手能够借鉴打造理想的工
4 @ Y$ {5 f: k2 u; ~具,造福广大词典爱好者。- @4 l! U x. A- V
/ U. M9 t( Q" o' q0 Z1 o/ F) L }5 [% C/ D( M
### 现有图片词典制作技术点评
: ? f; Z r- ^ S( Z8 s/ x# Y6 p8 r' F5 h
* 图像版mdict字典制作方法 by tsiank
: W) I# t, r# S! c0 f \+ n - src: https://www.pdawiki.com/forum/thread-13451-1-1.html. L- n7 s& d1 Z: V; X
- 这是最优秀的原创教程了,入门必修
9 A' Z7 R. ]6 S2 R5 R8 W( \& X7 ? - 优点:理解图片词典的基本原理
# A# @& m/ f& }& ] - 问题:导航简陋,难以在页面中定位具体词条
) g4 _4 L2 ?5 W * 图片版mdx源文件生成工具 by tsiank
, h3 Z! P& h3 m8 J - src: https://www.pdawiki.com/forum/thread-33574-1-1.html0 w8 k# R% a& W5 Q; k. s! n% o
- 这是上述教程的升级版,带工具了!
$ t% M2 z8 ]( X/ a' V - 优点:导航体验大大提升;技术门槛极低,小白都可以使用
) _4 l9 }$ r7 p% s$ I1 \ - 问题1:不能自动处理多部分构成的书籍,目前主要处理正文部分: Q) R( H3 G o
- 问题2:生成的mdx源文件有很多细节问题需要进一步处理,如CSS缺文件名、多
Y& I2 Q- H9 v7 ^% o1 U. N 个标签属性之间缺空格、nobomb格式等
+ ]' L; W- R/ q% J4 J8 g - 问题3:鉴于使用Excel,无法与其他工具链结合,从修订原始词条文件到生成
7 b5 q4 m( x7 u# k( d1 g( M2 q( u mdx源文件无法一步到位
x( C/ Z/ n& ^ - 问题4:导航依然有改进空间,VBA不熟悉,改造困难
+ ?* }! t9 C8 A! N( U3 e2 F0 R * 以Picture Capture为代表的切图版词典制作软件 by chigre3 等5 R, M# K. z- j! E
- src: https://www.pdawiki.com/forum/thread-19040-1-1.html
; m( r6 g, i- {9 H, c6 Y; k - 这是对终端词典用户体验最好的工具
/ L% b0 X" n* @2 G3 Y/ d+ ? c - 优点:直接定位到具体词条、导航丰富2 i/ O7 H( g+ y. h) s% z) g G
- 缺点1:工具非开源、偶尔开放下载、遇到问题没有反馈处理机制
8 R7 n$ b- N$ b3 X% F: U' Z) Z5 h0 b* ^ - 缺点2:对于普通词典制作者来说极其复杂、体验糟糕+ u! y# ^" r; x$ _# u9 _% u! M* `
* 使用CSS精确定位Visual词典 by 孤影 等9 s8 e( E1 e& I1 s
- src: https://www.pdawiki.com/forum/thread-20350-1-1.html" X; L2 G2 h k A. N3 O. l2 G
- 对于Visual Dictionary词典用户来说,体验很不错. f2 L8 G, G. u! [' o; `& I, @% @7 V
- 优点:关键词加亮、可直接在图片上点击关键词链接* s& X7 q% A% w8 J& |
- 缺点:具体技术细节不开放,仅可观摩案例Chinese-English Bilingual' ?* d/ e ^" x8 p
Visual Dictionary (https://www.pdawiki.com/forum/thread-35929-1-1.html ),
, _) c7 s# k% |% m2 S& M/ ~+ C 大致是先OCR图片,并通过类似Picture Capture工具切片获取每个关键词的相+ l" a* G9 g* y4 X' I
对定位,最后使用CSS隐藏文字层并定位关键词,太复杂了- ~0 X' I/ r% K# I+ U- z
, S& E* d; S2 ^### 优秀的图片词典工具链标准 r; `: R" V9 T' W3 V
0 @: O v9 A; F" B% t: C * 词典成品的导航体验要足够好:核心是有助于快速定位具体词条位置
2 U3 w/ B! \: F0 D: Z% o8 l * 词典要能够适应不同尺寸的屏幕:阅读体验好,字体太大或太小都不可取5 W$ t" m8 M- T' j$ s
* 图片处理要足够简单:使用扫描的整页图片即可,不要切片等复杂操作3 M2 E5 w7 [/ M. v; q6 `) X
* 词条的录入、校对要足够简单:要一目了然,不容易出错,技术门槛降至最低
; y, r! X! Q, j * 词典修订要快捷:修订原始词头文件后,通过工具可一步到位生成最终的mdx源文件
- e; r" |% w) i7 v9 W% _2 Q/ t; o" I; b! H: c
为了实现上述目标,拟根据自己制作十来个图片词典的实践经验,提出如下制作规范,大
* p% Q8 D# h0 e- |0 y: b家可将其看作是开发相应图片制作工具的用户需求文档。
: C+ s4 c3 K. Y8 W! Q! n& ^9 _
; D0 t6 P- F- ?, s7 h/ C0 O! Q## 成品图片词典的导航构想$ n( { H3 Q4 D4 e {" e
( h* H1 t( Q7 ?) f& z, H
* 在页面顶部显示Pages导航 和 Keywords导航(或有)
. t# X H* S* p7 d8 | - Pages:Previous Next Cover Preface Content Index etc.: U. v+ v. a! M
- Keywords:A B C D E F G: [6 U }/ k; Y' o, o
* 在页面底部显示Pages导航0 \# C/ [0 b& E' P w0 |1 B% m* i9 r
- Pages:Previous Next Cover Preface Content Index etc.
. N7 S! _0 w7 m( a$ D
+ q& Z: b: \3 W+ L t8 ? * 在Pages导航中:
& O5 Z2 t/ ^- A0 |! [- Z - 上下页,可自动处理first和last页面1 B) x* U D' e. b. w$ R, R
- 上下页,可自动处理多个部分的页码体系为一个连续整体,如:
+ b! Z |0 h8 u - 正文前123(封面、目录等)、正文123、正文后123(索引、封底等), o: m& ]2 ?4 k! I
- 除了上下页外,可自定义添加封面、前言、目录、索引等固定链接。
4 i5 `9 B+ P: H: m- m * 在Keywords导航中:1 Z% e; r! @3 }. O& W- T$ ]7 O
- 若没有关键词,则不显示Keywords导航,适配封面、前言、目录、索引等页面8 Z/ S( |/ F9 I) Y
- 若某个关键词作为mdx的keywords,即使用Keywords导航中的某个关键词进行查0 \' [! |$ j4 Y" l$ K- q
询,则在Keywords导航中加亮该关键词。
: H7 b6 ?% p7 i' l! G" j - 若页面作为mdx的keywords,即使用Pages导航中的页码等进行查询,则在: ~- F5 c! {1 g+ A( R, N
Keywords导航中的关键词不做加亮处理。
/ j4 B3 e) _: k. x- u; E! r3 H5 {$ l2 x6 M$ ?: |7 ~5 I
## 源文件格式规范4 r- G) N# ^, |) P1 ], ]
h3 ]: b; L& a; A0 J * 图片文件命名格式:
1 Z0 L3 \5 N. Y1 b - 根据页码编排需要,可将书籍分为多个部分,如:正文前123(封面、目录# M. b5 g0 o; U
等)、正文 123、正文后123(索引、封底等)- [1 F7 d: J7 G
- 对于不同部分的图片,相应文件名命名规范为“前缀名+页码+后缀名”:
, W& H7 N, b1 J: j! P* G9 ~' b3 N - 前导名可自定义,中英文均可,建议采用书籍英文名或拼音缩写等个性化
+ B! b/ \5 D2 T. }* G; l4 J 名称,避免多词典之间命名冲突6 S( c, Y1 x/ W, b$ n2 J4 _) d
- 页码位数可自定义,默认4位,可根据需要设为3位或5位等* J+ T: U: p7 q8 s. G
- 需要正确识别图片后缀名,如jpg、png等
2 d8 }+ F- \5 u( { O) s7 O; [ - 图片文件名案例:某书前0001.jpg…某书正文0001.jpg…某书后0001.jpg
* k6 l5 N' V9 _! V# a" K0 }5 Y: C' S- w: t. s0 j
* Keywords源文件格式:
2 N" ~" c6 u% f G( j - 对应书籍的多个部分,将keywords源文件分为多个部分,如:正文前123.txt(封7 _- }6 c, \% Z1 P, u
面、目录等)、正文123.txt、正文后123.txt(索引、封底等)
) |- V) x( J+ r& D5 L q - 具体内容格式(极大化方便用户输入词头、校对和修订):
5 Z$ U% ~2 y4 T" r* B' ~" U; B * 第1行页码:0001- z8 ~6 e n8 W- G, |
* 第2行关键词:A
I7 s) H0 O0 [$ j( [/ C * 第3行关键词:B
1 }1 j5 ^5 B7 g3 } * 第n行关键词:N
. S: Y- m7 p; i# V* y2 O/ a0 } * 第n+1行页码:0002) b7 |' Z8 L& h5 b: K+ `6 f
* 第n+2行关键词:X
$ t6 w# b0 U: H" J, r * 第n+3行关键词:Y
, o. t5 ]6 o6 Y) B * 第n+4行关键词:Z
% f9 b2 Y" m% K$ J+ m. K * ……
* Z5 d4 [" {! `4 P - 页码之后,可以没有关键词
/ G8 v5 i# V( E/ O0 |. ]3 F+ p - 若有关键词,则同时生成相应的Pages导航和Keywords导航
. c/ w" i, b! M8 r - 若没有关键词,则仅生成Pages导航,而没有Keywords导航8 k' r2 s2 u2 B$ f
5 |% R5 }) a/ ?1 I1 _* P
## 处理程序及配置文件规范
5 d b, s0 G# D
: I3 o/ E* r! _& ]+ `; _" A * 建议使用Python3,毕竟用户多,大家有能力按需改造
) G) U) l4 N. {0 Y d * 程序作适当配置后,应可一键生成最终的mdx源文件和css" c2 I2 j5 e% L1 Z0 H
* 主要配置包括:
, r( [( t1 h: s+ b# u; s+ e - 书籍多个部分对应的Keywords源文件和图片文件4 ?7 k0 d0 E0 f
- Keywords源文件名称" O: K0 @# [& j; b, f
- 对应的图片文件名:前缀名 + 页码位数 + 后缀名( p5 J1 K1 T( w' X9 P* r) g
- Pages导航中的自定义固定链接:
0 E' C5 B2 Y! h# E" \" p - 固定链接名称(如封面目录) + 对应图片文件名/ B- W% F/ s4 Q6 k
- mdx目标文件名
9 u% y1 F) \! ~$ t' Z - CSS文件名7 w7 O7 b( W( ?+ @ f5 y7 s
- 导航的中英文
2 E, N6 t& A$ O6 b - 简中:页面、上一页、下一页、关键词3 {! ~2 ?. x; Y1 E% ]0 B
- 繁中:頁面、上一頁、下一頁、關鍵詞
- d; R8 n2 q5 [: f - 英文:Pages、Previous、Next、Keywords
5 `' H5 B( y/ x5 T# X; U4 l2 E& F7 y. I/ n) u
## 目标文件格式规范
- y8 @" t" M2 B" d0 |' {8 j# E. G. m9 Z L$ O
* mdx源文件txt需要满足mdx源文件的格式标准:dos,nobomb,UTF-8: T$ G& T5 ] N. k
* 生成的CSS可进一步配置:' a, i2 {3 }/ M
- Pages导航样式
8 a4 _2 J2 l1 s - Keywords导航样式( k+ J% ^5 \* g# m! p
- 加亮Keyword样式2 J' K( }9 n% w/ z0 N- M6 B0 S
- 图片宽度:百分比(默认100%)或固定大小(px或em)
3 U/ E. S! G* H! S" b' P! p
; f6 U6 }! {& h# y- J## 扩展1:整页版和多栏切片版二合一- Q% t4 w) n3 u0 ~( |' a
2 W ]+ r0 ~, g! K, p/ z3 d
为适应手机等移动设备的查阅,需要将整页版适度分栏切片6 o4 x- M8 w3 d2 z! U
F! d- Y3 k) I$ H' N
* 词条需要分栏处理
3 i( P, E! p6 \ * 图片文件名需要分栏处理) z" l% m. s: H! A: g: E7 v
* CSS要能够自适应不同屏幕尺寸的设备
" [4 o( s0 r& {) _' b& |7 P4 ~
* G$ @" j# ?% O5 g7 |6 u# Z具体改造略+ [5 K: M0 d1 L& S* X
- q! t* o( \9 o; C$ ~1 u. D3 n) `+ x! Q! e g% l2 E& |1 A
## 扩展2:多层次词头优化, L5 T6 o! W1 w: m5 Q
; g( ^$ Q6 C O$ H' ~为优化类似Longman Language Activator、朗文多功能分类词典、现代汉语词典等词头有
! x# n5 ^. w0 H" k多个层次的词典,可在原有标准基础上,进一步将Keywords区分为多个层次,如字、词:
& i. O. c5 M+ |: k0 [* e
9 e# ^+ ~" o2 p6 a * 在页面顶部显示Pages导航 和 字词导航(或有)
7 t/ O1 O8 h8 Z z - 页面:Previous Next Cover Preface Content Index etc.; n( u) [( @3 p/ \
- 字:A B C D E F G
; H7 A+ E; P2 d9 y' H/ W8 m1 } - 词: WordA1 WordA2 WordA3 WordA4
( b1 l1 i! p& d * 在页面底部显示Pages导航
- Y4 G0 |# j( U4 X. k5 B( O0 | - 页面:Previous Next Cover Preface Content Index etc., Q b0 S W6 b, q5 b. n
1 J* n" a! J) i9 B* N. x; u
* 当查询页码(并未查询具体的字或词)时,仅显示页列表
8 P; ^3 i/ @; L4 h2 | * 当查询某个字或某个词时,不仅显示字列表,还显示这个字所包含的词列表
# P6 G/ H3 u$ A& ]/ B+ o0 U# ?
4 [, ]0 H% N5 w- v具体改造略
$ b6 i Z6 F% N1 o& w# m- o4 c) \! y) r: `( t4 S6 K y) z; p
## 诚邀Python等高人打造开源的图片词典制作工具
8 Q+ t0 l& _5 Z& |, ~, u+ @* E
# L. f3 T. `' e( [若能够制作符合上述标准的工具(先有标准版的即可,扩展版再逐步优化),必将造福广
' z' g0 \* M7 w0 f# a大词典爱好者,无论是字典制作者,还是字典使用者。
! Y% u8 ^1 a+ m* H) P$ \+ a
+ b% g! Z" ]: J R若有需要,我可提供相关案例词典:包括完整的图片、词条等。* D# R. X5 A3 v5 _1 L4 h+ B
6 T/ O0 r9 {: i" g8 q n9 G' B& Z
|
|