TA的每日心情 | 奋斗 2019-10-13 07:34 |
---|
签到天数: 209 天 [LV.7]常住居民III
|
本帖最后由 VimVim 于 2020-6-28 16:01 编辑 ( F, ^$ x. ?7 ]! C, V3 b
% L! x# _& o4 n1 P## 背景
& q; t g# P; Q4 Y8 x" H* ~
% d) L% P. M; ~. h, B" M0 f时常遇到好资料,怎奈只有PDF扫描版,辛苦制作好词条,但成品的导航却不够理想,梳理
K W3 C! \. I4 i5 G一下现有获知的工具,提出图片词典应有的标准,希望各路高手能够借鉴打造理想的工
9 m" N( M4 Y4 q* e; S具,造福广大词典爱好者。
" p# A0 g) W( D. W( T w0 ], P! V- r$ i/ y& n* q6 O
0 P- v1 Z0 K; I) R6 F5 f1 Y* Z# k### 现有图片词典制作技术点评1 D% `6 m% b7 B0 t2 v2 x+ H+ {6 H
7 g8 a5 z) h9 C) ^( o; G9 r& `% b * 图像版mdict字典制作方法 by tsiank3 ^$ v W2 K( a. d$ \3 \1 \
- src: https://www.pdawiki.com/forum/thread-13451-1-1.html
; ]: @! Y( j* t. ?, Y% N- q - 这是最优秀的原创教程了,入门必修! L/ v1 {9 S: t+ @3 _& k
- 优点:理解图片词典的基本原理) ~ z: k4 t; @
- 问题:导航简陋,难以在页面中定位具体词条
, I7 E- ? x- e x5 I! f" m * 图片版mdx源文件生成工具 by tsiank
+ e+ l5 |; ~- S* F - src: https://www.pdawiki.com/forum/thread-33574-1-1.html
) A1 q1 {( @' h - 这是上述教程的升级版,带工具了!
5 b$ W; G# |9 y ?# A# p6 y- Q - 优点:导航体验大大提升;技术门槛极低,小白都可以使用
' I$ h* r4 q2 [& @1 K - 问题1:不能自动处理多部分构成的书籍,目前主要处理正文部分. ~ _/ ?4 A5 X( D) j7 e$ {9 z4 `6 Y
- 问题2:生成的mdx源文件有很多细节问题需要进一步处理,如CSS缺文件名、多! w- p# x& Z# o
个标签属性之间缺空格、nobomb格式等" x! U$ Y6 J: I" L/ i# }1 m
- 问题3:鉴于使用Excel,无法与其他工具链结合,从修订原始词条文件到生成
2 u& W8 t$ J$ A1 o5 v$ Q; @( a1 K mdx源文件无法一步到位
. s8 ?6 d& l9 I2 m( g - 问题4:导航依然有改进空间,VBA不熟悉,改造困难
7 r' X, `; B% q8 F* f * 以Picture Capture为代表的切图版词典制作软件 by chigre3 等6 n, u2 I3 g( y x5 C
- src: https://www.pdawiki.com/forum/thread-19040-1-1.html! ?6 o" V! O/ e6 N7 [- X4 n
- 这是对终端词典用户体验最好的工具
9 b8 ]# ?* y, n4 w9 I$ y - 优点:直接定位到具体词条、导航丰富' l7 ^( S+ V+ {9 H7 I
- 缺点1:工具非开源、偶尔开放下载、遇到问题没有反馈处理机制
' z( p5 U" o9 E+ p# f - 缺点2:对于普通词典制作者来说极其复杂、体验糟糕: Z+ l8 d5 _( Q) w- m- v
* 使用CSS精确定位Visual词典 by 孤影 等
4 T( @* R$ K- g. f - src: https://www.pdawiki.com/forum/thread-20350-1-1.html1 C% X4 H: R, ^- H+ o
- 对于Visual Dictionary词典用户来说,体验很不错
+ ]' e9 x4 ~2 P8 Y3 y& q - 优点:关键词加亮、可直接在图片上点击关键词链接
2 |8 A! \% S: [3 r - 缺点:具体技术细节不开放,仅可观摩案例Chinese-English Bilingual; k, s9 z- l O& m4 Y* M5 U: x
Visual Dictionary (https://www.pdawiki.com/forum/thread-35929-1-1.html ),
, b' o( x$ W+ \ 大致是先OCR图片,并通过类似Picture Capture工具切片获取每个关键词的相
6 v$ P3 A8 L4 k" n8 l( k; O 对定位,最后使用CSS隐藏文字层并定位关键词,太复杂了# V! K5 q* g3 V! P& J `2 b9 f
8 {# t* p' X z5 A6 M+ D4 G
### 优秀的图片词典工具链标准
. K3 z+ t, ^3 W$ Z- ~8 [% \1 A. |2 R' u k
* 词典成品的导航体验要足够好:核心是有助于快速定位具体词条位置
. S; `- v( y1 E( d+ F * 词典要能够适应不同尺寸的屏幕:阅读体验好,字体太大或太小都不可取
4 y2 Q; v6 @; W1 E5 P2 v * 图片处理要足够简单:使用扫描的整页图片即可,不要切片等复杂操作
1 M; R- r8 w7 \; X * 词条的录入、校对要足够简单:要一目了然,不容易出错,技术门槛降至最低' Z9 V) g% u- w7 j6 e
* 词典修订要快捷:修订原始词头文件后,通过工具可一步到位生成最终的mdx源文件) t* _ K4 @1 m
' k/ m3 r/ P& A, h4 }9 _( I
为了实现上述目标,拟根据自己制作十来个图片词典的实践经验,提出如下制作规范,大6 n/ c& m0 U! | a" I$ T
家可将其看作是开发相应图片制作工具的用户需求文档。# a0 ?; {! k+ r3 C0 p9 v
( n; {# Y' c2 t) S F/ Z
## 成品图片词典的导航构想
- Q) g$ @! E6 U7 m" q; F
3 q1 r: @) d; ^ S5 }" w" D* _ * 在页面顶部显示Pages导航 和 Keywords导航(或有)
# I7 ]4 ^. W( I. V* L# n - Pages:Previous Next Cover Preface Content Index etc.4 b9 w1 W9 p5 l; Z6 y0 }$ q
- Keywords:A B C D E F G. o3 Z W& [: v6 {1 k
* 在页面底部显示Pages导航) y% i; y; O3 s" G
- Pages:Previous Next Cover Preface Content Index etc.: ~! W0 S% e+ x
' l! f% m$ G# l- ` * 在Pages导航中:
+ r g& u; M7 }" x* k* R. L - 上下页,可自动处理first和last页面
' ]+ M; }) T6 H8 n) H6 S' E+ v - 上下页,可自动处理多个部分的页码体系为一个连续整体,如:
y" y4 e% O( J& q7 R4 K- F k - 正文前123(封面、目录等)、正文123、正文后123(索引、封底等)7 N- O% s! Q" S4 r4 y
- 除了上下页外,可自定义添加封面、前言、目录、索引等固定链接。
- Z4 v( t( B+ `0 R9 K. {( t * 在Keywords导航中:
) x9 z+ H t' w0 z8 T. m - 若没有关键词,则不显示Keywords导航,适配封面、前言、目录、索引等页面& A# @2 x4 x; Z W3 Q+ I! L
- 若某个关键词作为mdx的keywords,即使用Keywords导航中的某个关键词进行查
+ M( \) X1 k2 n# G2 B: d0 `4 u 询,则在Keywords导航中加亮该关键词。
/ \1 f* D9 o1 A ^/ S; h- ~( O* M8 P - 若页面作为mdx的keywords,即使用Pages导航中的页码等进行查询,则在
8 ?) h9 o# X6 b/ ?# X. {3 o& Z# | Keywords导航中的关键词不做加亮处理。
4 T: b1 f& B3 \' I8 ?6 X
& n( [, c) \9 ^. L3 p$ ^## 源文件格式规范
/ ]7 Q! o' u8 I& r! Y. i" c! F j( M! M( X; r+ y2 i, r7 v
* 图片文件命名格式:8 t1 _2 j' L, X; Q ]
- 根据页码编排需要,可将书籍分为多个部分,如:正文前123(封面、目录4 D `2 ?8 @8 h5 B1 m r
等)、正文 123、正文后123(索引、封底等); z! q z* L) G/ a, ]8 B( E6 u
- 对于不同部分的图片,相应文件名命名规范为“前缀名+页码+后缀名”:6 D& O8 ?5 N' t5 X
- 前导名可自定义,中英文均可,建议采用书籍英文名或拼音缩写等个性化+ K }; B: e( b; s) n! n+ A: W4 i
名称,避免多词典之间命名冲突4 r' c, K6 a/ A
- 页码位数可自定义,默认4位,可根据需要设为3位或5位等( j8 }0 r) M. r9 z: q; D( K
- 需要正确识别图片后缀名,如jpg、png等! s* \8 N9 ^5 M. Y& c" Z9 H
- 图片文件名案例:某书前0001.jpg…某书正文0001.jpg…某书后0001.jpg
' R; h. `* r. r* F, z0 r
* S8 Y/ ^+ V0 }) M * Keywords源文件格式:
; J" a C8 L7 R9 w - 对应书籍的多个部分,将keywords源文件分为多个部分,如:正文前123.txt(封4 `( Q( N- P4 s: }9 a
面、目录等)、正文123.txt、正文后123.txt(索引、封底等)
2 f ^) G# Q r8 A - 具体内容格式(极大化方便用户输入词头、校对和修订):1 ~, s+ B8 A1 v
* 第1行页码:0001) F$ N( S L) m, L
* 第2行关键词:A/ k! T+ t! T' x. U/ ^
* 第3行关键词:B
- d" N, k3 N4 s# L * 第n行关键词:N' n7 U% w1 [7 o' t Z1 j
* 第n+1行页码:0002
% m9 |4 y3 O9 W * 第n+2行关键词:X" g% R m* ]; k+ n/ W3 M6 P% g" O
* 第n+3行关键词:Y) p7 O7 _1 ~+ Z$ h. ~& a; m
* 第n+4行关键词:Z
4 l. l8 o* h8 [$ J: W6 }) d/ [/ @ * ……
1 E S3 i% O1 F5 q( Z# h - 页码之后,可以没有关键词* `1 ^* Q+ Q$ ^) u$ e2 d; @
- 若有关键词,则同时生成相应的Pages导航和Keywords导航! S9 l1 Y' R+ b* C2 E X+ h7 P
- 若没有关键词,则仅生成Pages导航,而没有Keywords导航: I! l3 u- _9 |- h2 A
, a! v' q9 o$ H% f" L## 处理程序及配置文件规范
% }4 S; Z. n+ i/ }7 X3 Z
& d0 b# }4 p, a9 n * 建议使用Python3,毕竟用户多,大家有能力按需改造1 C- n# a5 h% ^/ t- @
* 程序作适当配置后,应可一键生成最终的mdx源文件和css
6 T/ Y8 E$ l" x, n * 主要配置包括:
/ u9 G/ e/ I; c2 n" K - 书籍多个部分对应的Keywords源文件和图片文件, s6 K0 O- e/ r. e
- Keywords源文件名称* T! V. A3 P; f$ V
- 对应的图片文件名:前缀名 + 页码位数 + 后缀名6 t& X7 D7 [# o4 D% t' K* B3 ~
- Pages导航中的自定义固定链接:0 _. i0 _' }8 N4 V N7 }6 }
- 固定链接名称(如封面目录) + 对应图片文件名+ O9 m; K' w" W* O* d1 _
- mdx目标文件名- |, @+ D* R" C& B$ N8 g* B! k
- CSS文件名
$ D% v" h4 k, s: M; P6 m [3 l - 导航的中英文. @- ]0 X+ h* y) `" O b/ {; Y! m
- 简中:页面、上一页、下一页、关键词0 Z& D% H s) O) U! G |+ I$ h
- 繁中:頁面、上一頁、下一頁、關鍵詞
/ v }2 D n; y - 英文:Pages、Previous、Next、Keywords5 Q: b2 L% X6 D/ B( g6 K
3 y) ?7 E& J" p% a
## 目标文件格式规范7 g6 k1 \& F! g( o. h& }
& @/ s# d# {* |* t- E3 ~+ L * mdx源文件txt需要满足mdx源文件的格式标准:dos,nobomb,UTF-8
, C4 @4 _- [# s8 K) V; {# h) t * 生成的CSS可进一步配置:
- }4 P; `' [% L% r ~: h$ K; g( p - Pages导航样式
! l! O% Z1 {$ A! I. {6 G - Keywords导航样式( C4 W+ E b5 h# }; v! Y+ J0 R# O
- 加亮Keyword样式) v* S9 g1 V. e+ S
- 图片宽度:百分比(默认100%)或固定大小(px或em)' ?! H5 H# P* o' V9 L: M
% k! ?2 j5 Y# R$ |## 扩展1:整页版和多栏切片版二合一8 {7 c J6 S' l
2 s. P8 b! A( k9 ^$ [$ a) E6 P. n; s' G
为适应手机等移动设备的查阅,需要将整页版适度分栏切片- M. ?9 h$ q3 s3 e" C
- O0 W4 u0 Z. Q3 a z * 词条需要分栏处理
; H" N0 V; X/ | * 图片文件名需要分栏处理
5 M) Q. r4 ]) a J- x: ?/ J B3 ^ * CSS要能够自适应不同屏幕尺寸的设备
% p3 @" ~) H( }) x: [# l# t+ S+ Q" f% b5 ~% o
具体改造略4 U- _5 G$ L# S( I: t
[- M( v) d. J5 [2 L. R- o, f
5 P8 a9 _" f1 L. Z## 扩展2:多层次词头优化' ]& {/ O$ n3 O4 K {* S
6 a+ u6 p f/ {! q: e3 P7 i9 `; Z; Y8 K
为优化类似Longman Language Activator、朗文多功能分类词典、现代汉语词典等词头有
% h( B9 z$ d6 K: b$ C- w, {多个层次的词典,可在原有标准基础上,进一步将Keywords区分为多个层次,如字、词:
: p) k7 ^; i7 s+ h7 h5 p' T( d! o6 l% U3 U+ E
* 在页面顶部显示Pages导航 和 字词导航(或有)
& S7 C$ L5 Z1 e1 S. A$ y& F! {$ ~ - 页面:Previous Next Cover Preface Content Index etc., C2 v- O& ~& W, E! e% p7 I+ K
- 字:A B C D E F G
! I: f: h1 ~# s& G$ k6 I - 词: WordA1 WordA2 WordA3 WordA4
U. O% P' @6 p# }$ i! `! Y5 X * 在页面底部显示Pages导航
. ~' K2 X7 d" ?9 t - 页面:Previous Next Cover Preface Content Index etc.
5 ~6 _) O; w) O1 E8 I8 o
2 Q( x6 l9 W2 v' ~$ R7 q * 当查询页码(并未查询具体的字或词)时,仅显示页列表
/ K. O6 _& ^- j/ {' Z5 i * 当查询某个字或某个词时,不仅显示字列表,还显示这个字所包含的词列表
7 Z2 ^9 I7 g& T' `, f" J( W7 A
2 o' H4 O$ E1 K: E+ I1 S具体改造略 l) F% {6 U, n: V2 ?
. O. e$ i- U" q5 H8 D$ E## 诚邀Python等高人打造开源的图片词典制作工具
: i7 I! P1 ]+ }1 j+ f1 R* t/ L+ v) A9 N1 D; W1 p
若能够制作符合上述标准的工具(先有标准版的即可,扩展版再逐步优化),必将造福广
2 C+ ?2 n3 S: q5 v大词典爱好者,无论是字典制作者,还是字典使用者。
/ V* J" b7 A1 g% U8 v: s. a; i
5 }7 c" c; y( g4 ~7 z5 g若有需要,我可提供相关案例词典:包括完整的图片、词条等。3 x& X7 A& |0 C' A
/ ]6 {5 S1 V/ W Y) _6 z |
|