TA的每日心情 | 奋斗 2019-10-13 07:34 |
---|
签到天数: 209 天 [LV.7]常住居民III
|
本帖最后由 VimVim 于 2020-6-28 16:01 编辑
, j- i7 `8 ~5 I H& U: }( W/ L! h% P- i, r0 U
## 背景. j- r3 l( E% y7 {# K
! P f- E/ M! K9 I$ i& i
时常遇到好资料,怎奈只有PDF扫描版,辛苦制作好词条,但成品的导航却不够理想,梳理
, n: p6 f. ~- A# z' w% x! j+ Q一下现有获知的工具,提出图片词典应有的标准,希望各路高手能够借鉴打造理想的工
. a5 b( k3 ^6 G+ E1 [2 \具,造福广大词典爱好者。+ v$ ?7 I8 i1 N p4 j$ ?7 P0 j! p. @7 b
4 Q& U' e6 j o7 i. m
* G( b9 ?# f, c7 b1 V### 现有图片词典制作技术点评; @1 W% G7 g' Z. t) [6 A/ u7 I
$ [4 y/ m2 o9 U# r% g8 a
* 图像版mdict字典制作方法 by tsiank
5 o5 w2 |4 N" G3 p1 ] - src: https://www.pdawiki.com/forum/thread-13451-1-1.html4 W! X$ W7 M1 L, a
- 这是最优秀的原创教程了,入门必修
1 W, b; A, ^, `2 | A7 _9 \! i - 优点:理解图片词典的基本原理% w$ F' C. u* I; r: q
- 问题:导航简陋,难以在页面中定位具体词条
6 B/ D g8 i1 q% b% v * 图片版mdx源文件生成工具 by tsiank
* {& f/ @; w$ W# S' s' ?, ~ - src: https://www.pdawiki.com/forum/thread-33574-1-1.html
4 l9 K! \0 C( k7 i; e' S" T$ h8 i - 这是上述教程的升级版,带工具了!
T0 b8 t/ {, ~$ ] - 优点:导航体验大大提升;技术门槛极低,小白都可以使用5 M" V! U6 `/ N" n
- 问题1:不能自动处理多部分构成的书籍,目前主要处理正文部分% ?% R" \% m; R
- 问题2:生成的mdx源文件有很多细节问题需要进一步处理,如CSS缺文件名、多
. n* X4 v- s$ Z O' c 个标签属性之间缺空格、nobomb格式等 f8 S% r2 H3 |8 ~
- 问题3:鉴于使用Excel,无法与其他工具链结合,从修订原始词条文件到生成2 v7 {. q1 @6 E( P/ S1 U7 j
mdx源文件无法一步到位7 t) X/ @& T ^, ?$ t
- 问题4:导航依然有改进空间,VBA不熟悉,改造困难
7 Y3 P9 d* F: }, ? * 以Picture Capture为代表的切图版词典制作软件 by chigre3 等
; Y- [+ Y: a) t; f1 N - src: https://www.pdawiki.com/forum/thread-19040-1-1.html. d' w: Z5 r4 E8 ~% u: i- p% p B
- 这是对终端词典用户体验最好的工具
0 D N+ @. ^" T/ U7 J - 优点:直接定位到具体词条、导航丰富; s+ s( i' Q; L
- 缺点1:工具非开源、偶尔开放下载、遇到问题没有反馈处理机制
6 I( m( D- a* H# }, H: ? - 缺点2:对于普通词典制作者来说极其复杂、体验糟糕; C- I7 ~, V6 \3 K4 U/ F
* 使用CSS精确定位Visual词典 by 孤影 等5 M$ ^( Y2 S% ~3 R0 O8 r1 z' M. q
- src: https://www.pdawiki.com/forum/thread-20350-1-1.html7 W \5 h9 ^# G/ t
- 对于Visual Dictionary词典用户来说,体验很不错 u5 Z( H2 E$ ]' b+ m' y/ c
- 优点:关键词加亮、可直接在图片上点击关键词链接4 E0 ?* f2 R6 J4 H8 o# ~; s, k3 S
- 缺点:具体技术细节不开放,仅可观摩案例Chinese-English Bilingual
& P! |0 Q0 x% r; I9 o" U9 \ Visual Dictionary (https://www.pdawiki.com/forum/thread-35929-1-1.html ),
( R- d+ Y! J, @2 r; g- o' ^ 大致是先OCR图片,并通过类似Picture Capture工具切片获取每个关键词的相
* a5 P. \3 b3 V, r1 C 对定位,最后使用CSS隐藏文字层并定位关键词,太复杂了
* F3 G ^" f' q+ L4 Y; S5 X
0 p/ ?" Y" Z, [6 F### 优秀的图片词典工具链标准: {9 H- C) u% N. c* v4 b. ~
: H. j' c3 Q/ t
* 词典成品的导航体验要足够好:核心是有助于快速定位具体词条位置& [: @( k! U7 j8 Q
* 词典要能够适应不同尺寸的屏幕:阅读体验好,字体太大或太小都不可取
1 l7 R' A# P& i1 _ {, T) N * 图片处理要足够简单:使用扫描的整页图片即可,不要切片等复杂操作
4 N# A; U% R9 I * 词条的录入、校对要足够简单:要一目了然,不容易出错,技术门槛降至最低
5 ^: T' L! T1 f0 R; L/ X2 b * 词典修订要快捷:修订原始词头文件后,通过工具可一步到位生成最终的mdx源文件, z7 ]) t1 J, X9 m3 F
: I/ Y( j2 f/ D6 m/ Q8 Q
为了实现上述目标,拟根据自己制作十来个图片词典的实践经验,提出如下制作规范,大
0 i `3 o7 Z! a5 b# Y/ O. |家可将其看作是开发相应图片制作工具的用户需求文档。( `, G9 |) D8 n; @! Z# ?1 t
+ Y ~5 X& }; z M( `) ?## 成品图片词典的导航构想
$ C3 _ d$ r' E
, |% E3 ?& }) i( v- E+ q * 在页面顶部显示Pages导航 和 Keywords导航(或有)
" C/ k# k5 R+ D* _ @; R - Pages:Previous Next Cover Preface Content Index etc.
. P6 t: I5 N' c& Z" o5 }9 u# d - Keywords:A B C D E F G
& j# @3 }1 w$ g. ~* }& }' v( \ * 在页面底部显示Pages导航) k$ J6 O4 D% g! T9 y3 b0 Z2 P& @
- Pages:Previous Next Cover Preface Content Index etc.& b# n4 h5 S& R3 f, |6 i
# v5 p5 c- J) ?, G0 O7 I. R
* 在Pages导航中:: Z: w& C3 q2 m3 r+ U: n
- 上下页,可自动处理first和last页面+ ~! a% {1 L! M
- 上下页,可自动处理多个部分的页码体系为一个连续整体,如:
9 A5 c( p% P: b/ }, X3 U - 正文前123(封面、目录等)、正文123、正文后123(索引、封底等)
' l+ P! g4 {0 _( A, r B9 k2 v - 除了上下页外,可自定义添加封面、前言、目录、索引等固定链接。. L# P+ F. e4 a8 J4 L
* 在Keywords导航中:
1 w C2 |+ I5 F+ B, S- a - 若没有关键词,则不显示Keywords导航,适配封面、前言、目录、索引等页面$ C' o5 X1 U1 W" B0 Z
- 若某个关键词作为mdx的keywords,即使用Keywords导航中的某个关键词进行查
0 D0 M' a9 A0 s$ l 询,则在Keywords导航中加亮该关键词。
3 n4 d# E+ [0 S2 g/ a - 若页面作为mdx的keywords,即使用Pages导航中的页码等进行查询,则在
0 C" }6 E2 c: i$ w& ] Keywords导航中的关键词不做加亮处理。
1 S- c+ G$ Q( l2 g6 ?- O7 O. _- Y# a( M0 T4 H# X+ v F$ H
## 源文件格式规范9 N; `1 o- g2 G# A, w& I/ M
( B& R V: `2 I
* 图片文件命名格式:5 {; n& c. r/ ^
- 根据页码编排需要,可将书籍分为多个部分,如:正文前123(封面、目录" y+ ~8 C( c1 P- I$ h* W
等)、正文 123、正文后123(索引、封底等)
7 ~$ U0 j; m9 k& Y9 e0 ^4 J) \$ L - 对于不同部分的图片,相应文件名命名规范为“前缀名+页码+后缀名”:; X& {" R; j/ a0 v3 |6 ~$ i6 V
- 前导名可自定义,中英文均可,建议采用书籍英文名或拼音缩写等个性化
- P& d# ]. ~- Z) O 名称,避免多词典之间命名冲突
8 t8 t/ f: f k6 k% c - 页码位数可自定义,默认4位,可根据需要设为3位或5位等
: N% W6 P: E9 }2 |1 \8 H, j9 ?3 } - 需要正确识别图片后缀名,如jpg、png等$ K8 ^) V$ d4 x6 x
- 图片文件名案例:某书前0001.jpg…某书正文0001.jpg…某书后0001.jpg
9 ?$ K4 c- s: i- U+ P: c) C0 b8 v* ^- g" B) v1 |0 g/ i
* Keywords源文件格式:
' [* |* E6 l! R2 x, [+ b - 对应书籍的多个部分,将keywords源文件分为多个部分,如:正文前123.txt(封
8 M- b4 r4 \8 E" ^8 x 面、目录等)、正文123.txt、正文后123.txt(索引、封底等)& l& r0 p' s$ E; U) I0 }, T
- 具体内容格式(极大化方便用户输入词头、校对和修订):
; f X2 }( h8 p% {& o8 U * 第1行页码:0001
9 O* c' \8 Z0 `4 g o1 ] * 第2行关键词:A
$ E) e/ m& [) l * 第3行关键词:B9 _' T4 d: Z D7 W2 F2 {
* 第n行关键词:N
8 r/ ~, ~+ z6 R( X. P | * 第n+1行页码:0002+ m+ L" Y3 W& B
* 第n+2行关键词:X3 }- C( _, ?, O3 Y
* 第n+3行关键词:Y
0 Y4 X6 _. \7 l5 ~4 L * 第n+4行关键词:Z' s! Q* N7 \$ ~3 n7 l
* ……
& u! W0 K$ C( ~( l! f* _5 d - 页码之后,可以没有关键词) X: {! ]6 ~/ G$ l
- 若有关键词,则同时生成相应的Pages导航和Keywords导航
( r+ n" A. z, {" D8 [ - 若没有关键词,则仅生成Pages导航,而没有Keywords导航$ Z# ~! w6 v6 x3 B; P2 N, s& H
$ W5 O9 \% C6 e" R+ r6 y( p## 处理程序及配置文件规范
4 w6 F6 k( Z* W6 B, \' x- Q {
* O; ?: c" X& R * 建议使用Python3,毕竟用户多,大家有能力按需改造
( b; a% }& i; u3 g * 程序作适当配置后,应可一键生成最终的mdx源文件和css' a' ^( x# X; O4 C0 }8 T: \' O2 C: p
* 主要配置包括:
; S2 n0 X4 w) l9 L( H - 书籍多个部分对应的Keywords源文件和图片文件 b W( J! j/ W( `) R
- Keywords源文件名称" {7 J- s7 {: x$ h
- 对应的图片文件名:前缀名 + 页码位数 + 后缀名6 _# V" @( z- M
- Pages导航中的自定义固定链接:* m/ n; y! K6 t; u- i
- 固定链接名称(如封面目录) + 对应图片文件名3 X& n' q& }% g- I
- mdx目标文件名
6 P- @5 a7 |8 B) r+ C - CSS文件名
" G6 L4 ~4 p% p+ ~ - 导航的中英文, S3 P6 Y: v% F; \, }
- 简中:页面、上一页、下一页、关键词 y$ j$ @5 B- D$ k6 g7 r: f
- 繁中:頁面、上一頁、下一頁、關鍵詞* _4 d! K e7 _, R, s3 @: a
- 英文:Pages、Previous、Next、Keywords
. J) `9 S0 P) ?7 i: Y9 N6 ^; y& G; f3 N; D( h
## 目标文件格式规范7 o0 Y, L. c" F# Q8 Z8 }
6 a7 @: r4 `: g
* mdx源文件txt需要满足mdx源文件的格式标准:dos,nobomb,UTF-88 B. e( L- B* A: J
* 生成的CSS可进一步配置:3 L7 C" @% g4 Q
- Pages导航样式# Q. u# f6 i$ Z: J2 m: c
- Keywords导航样式1 B9 w( Q4 _# M5 D$ G% T# X- ^# w$ B
- 加亮Keyword样式) s7 z# S' {2 f
- 图片宽度:百分比(默认100%)或固定大小(px或em)
1 ^$ S5 j" n H e/ n% K! m0 p9 D5 `
## 扩展1:整页版和多栏切片版二合一/ r2 w) I7 u2 J* q2 K& `
: [4 z$ W9 c: m" ?
为适应手机等移动设备的查阅,需要将整页版适度分栏切片
- a. N o* L) s9 c+ E, r0 T) ?8 Z9 j$ @1 H* v: L
* 词条需要分栏处理
" {& d6 d `$ U * 图片文件名需要分栏处理! O0 n/ e4 \4 [# `: M+ o
* CSS要能够自适应不同屏幕尺寸的设备2 S2 [+ v$ H7 A0 y, `' O& e
) n7 N! O1 k1 F( H# S具体改造略
& l1 V6 M3 h. d! I/ J& \7 q9 W- i( |) o* f' G
, g8 y1 E; ]$ A
## 扩展2:多层次词头优化
6 l6 b3 X# [2 I( f+ ?8 ]
9 O: W' g5 P U0 ^" J7 i" A为优化类似Longman Language Activator、朗文多功能分类词典、现代汉语词典等词头有" ~- n- q$ n; z
多个层次的词典,可在原有标准基础上,进一步将Keywords区分为多个层次,如字、词:, X$ X b. ~% _6 s( O4 ?
8 C# X; c* v7 w
* 在页面顶部显示Pages导航 和 字词导航(或有)- M/ }, P% G% y7 w! H
- 页面:Previous Next Cover Preface Content Index etc.
# g0 r5 T* Z; s2 D) M - 字:A B C D E F G) F: G8 l/ X/ l$ U' F9 ]
- 词: WordA1 WordA2 WordA3 WordA4
& @5 V* V# F( v. `( { * 在页面底部显示Pages导航/ |' \+ ~- ]% m8 G" D
- 页面:Previous Next Cover Preface Content Index etc.& |" _# K0 w" g* S# |7 X
% ~" [7 m! g8 `! [8 I * 当查询页码(并未查询具体的字或词)时,仅显示页列表2 t" N) _( L, Q. D
* 当查询某个字或某个词时,不仅显示字列表,还显示这个字所包含的词列表! E; }( }5 \; J: _8 j4 v* }4 ~6 _
* N$ a7 S$ @( u1 M4 N# h8 |3 G8 f7 }, a
具体改造略# p6 @- S5 z6 x& l4 h) M
, `3 M: d- y2 B## 诚邀Python等高人打造开源的图片词典制作工具4 \7 ?$ |0 P$ s% V7 B
8 v1 s+ n! ^( C& E. J若能够制作符合上述标准的工具(先有标准版的即可,扩展版再逐步优化),必将造福广
* }: u% l& R: g! u' G+ Y6 n4 _大词典爱好者,无论是字典制作者,还是字典使用者。
8 O+ x# F1 I$ U9 }' H% _
( P$ Y/ m) g4 S0 h若有需要,我可提供相关案例词典:包括完整的图片、词条等。& |" O p9 L! f: F; U( O
8 I7 [. A) `. h. r5 @1 J |
|