TA的每日心情 | 奋斗 2019-10-13 07:34 |
---|
签到天数: 209 天 [LV.7]常住居民III
|
本帖最后由 VimVim 于 2020-6-28 16:01 编辑 0 @" R& v& V G. A
" m- C7 I' b" s7 t3 H9 W
## 背景
' \$ C% X, m' W, ?. a- ?
' i, Q' k% f1 d X" x2 N时常遇到好资料,怎奈只有PDF扫描版,辛苦制作好词条,但成品的导航却不够理想,梳理
# E% n/ _/ p8 w. f% H, i一下现有获知的工具,提出图片词典应有的标准,希望各路高手能够借鉴打造理想的工" @! p8 ~' g' {- Z( x8 U
具,造福广大词典爱好者。
9 _( E* x( d; ]+ [" g! W1 T" B0 K, I# a( t5 n
" |! l1 l( S# k z0 q) `! D- }
### 现有图片词典制作技术点评
* a d: V% Z" j0 M3 Y0 x: i0 p0 K4 z( T- L
* 图像版mdict字典制作方法 by tsiank. j( _0 \% `3 `, k3 w' h
- src: https://www.pdawiki.com/forum/thread-13451-1-1.html
0 V% Y* w1 P) {$ ?# n; I - 这是最优秀的原创教程了,入门必修
% B+ C- H# m) u) f$ i; K - 优点:理解图片词典的基本原理
7 m# U& C9 J0 l, x! q1 R - 问题:导航简陋,难以在页面中定位具体词条1 d+ ?% X# i& j
* 图片版mdx源文件生成工具 by tsiank
5 T6 f0 x4 _9 Q$ R7 w: Q! \# ?4 V - src: https://www.pdawiki.com/forum/thread-33574-1-1.html
: h1 j' M* D \# G, y, F0 | - 这是上述教程的升级版,带工具了!
/ D3 M" K$ P# { - 优点:导航体验大大提升;技术门槛极低,小白都可以使用
/ V# p/ S+ p/ w. i - 问题1:不能自动处理多部分构成的书籍,目前主要处理正文部分
( }/ |" S' |/ A* \9 Q' y# Z+ p, r - 问题2:生成的mdx源文件有很多细节问题需要进一步处理,如CSS缺文件名、多
& [) b* p& Z. r* \ _0 ]. ^ 个标签属性之间缺空格、nobomb格式等
. p: k) `8 f2 T4 _3 a2 Q( O5 q - 问题3:鉴于使用Excel,无法与其他工具链结合,从修订原始词条文件到生成5 ~8 U [; u; A% N5 a2 O4 ?5 b9 f
mdx源文件无法一步到位
" ` J: V- f- d' \, v' u - 问题4:导航依然有改进空间,VBA不熟悉,改造困难
. l: ]1 ]+ q( w3 m# L * 以Picture Capture为代表的切图版词典制作软件 by chigre3 等6 l" h- N4 ~0 g1 E
- src: https://www.pdawiki.com/forum/thread-19040-1-1.html; [" N) |, {2 K8 Z# e
- 这是对终端词典用户体验最好的工具
+ d9 E6 H+ t0 v% F - 优点:直接定位到具体词条、导航丰富
) z2 O7 }# S4 C C3 t - 缺点1:工具非开源、偶尔开放下载、遇到问题没有反馈处理机制
% Y/ Y8 P, ~; ^* ]" D - 缺点2:对于普通词典制作者来说极其复杂、体验糟糕
' h% r# ~ Q) i9 ?: B3 Z% Y * 使用CSS精确定位Visual词典 by 孤影 等
9 y- e7 Y5 t, m+ D3 \' s' U2 Q - src: https://www.pdawiki.com/forum/thread-20350-1-1.html
% x0 ^0 o, @- p - 对于Visual Dictionary词典用户来说,体验很不错
0 u. r [/ `6 v - 优点:关键词加亮、可直接在图片上点击关键词链接
$ S& G; ^! a% p6 J: T7 \: c - 缺点:具体技术细节不开放,仅可观摩案例Chinese-English Bilingual* V8 ?2 e6 n4 m/ p
Visual Dictionary (https://www.pdawiki.com/forum/thread-35929-1-1.html ),
# n9 z4 `3 a9 `5 o2 e1 n- H 大致是先OCR图片,并通过类似Picture Capture工具切片获取每个关键词的相
# b% o- Q) r+ o3 ]- [1 ` 对定位,最后使用CSS隐藏文字层并定位关键词,太复杂了# p$ E2 l6 b0 @1 l6 j" [( s! }
' _5 T+ X' f. V. F) c8 b1 q### 优秀的图片词典工具链标准
* b+ O# p% M* z" I+ |7 ^' P7 j) k8 J
- ^7 S* U, x! b& c( p * 词典成品的导航体验要足够好:核心是有助于快速定位具体词条位置$ H/ w, ]/ W( U4 U
* 词典要能够适应不同尺寸的屏幕:阅读体验好,字体太大或太小都不可取* Z# f% I8 R! F" W: @) O
* 图片处理要足够简单:使用扫描的整页图片即可,不要切片等复杂操作
" ~9 K1 W' Z: F* P! y * 词条的录入、校对要足够简单:要一目了然,不容易出错,技术门槛降至最低) f5 Q) i% x) a$ F7 B; R; ~9 O
* 词典修订要快捷:修订原始词头文件后,通过工具可一步到位生成最终的mdx源文件) Y w c( t% E4 p# O3 f6 v" {
9 a: W! G% Q/ W" ~为了实现上述目标,拟根据自己制作十来个图片词典的实践经验,提出如下制作规范,大
! y8 j9 g0 ` W( N" Y家可将其看作是开发相应图片制作工具的用户需求文档。
7 `- Y3 ?6 `) p9 X
U4 d* |2 y3 F## 成品图片词典的导航构想
% |) v+ D% U2 a @ k( @" x3 x* b5 a& }3 {. n+ u5 r* W# u& U
* 在页面顶部显示Pages导航 和 Keywords导航(或有)0 ~9 X- w( |# X
- Pages:Previous Next Cover Preface Content Index etc.3 ^; D' T+ S: J" j' n9 |
- Keywords:A B C D E F G
$ j* K$ a2 `+ W/ S' q- B- b * 在页面底部显示Pages导航" J% c; o: |9 M
- Pages:Previous Next Cover Preface Content Index etc." ^ a* L5 x; b3 B! y
1 a/ J" e1 A) }- [ h$ o4 B
* 在Pages导航中:' m/ I6 Q8 M; C0 R5 S" O
- 上下页,可自动处理first和last页面7 c/ `' _/ m1 a% P/ _
- 上下页,可自动处理多个部分的页码体系为一个连续整体,如:
0 H8 l7 V2 o9 t5 S2 j - 正文前123(封面、目录等)、正文123、正文后123(索引、封底等)
; B! `8 a" B7 ?' W - 除了上下页外,可自定义添加封面、前言、目录、索引等固定链接。6 t1 G1 l$ l5 P5 A
* 在Keywords导航中:+ B0 ~$ s2 I# z8 f# @' A
- 若没有关键词,则不显示Keywords导航,适配封面、前言、目录、索引等页面
# |: {& G6 j/ X7 } - 若某个关键词作为mdx的keywords,即使用Keywords导航中的某个关键词进行查
& B' F- x9 u( b. S8 H 询,则在Keywords导航中加亮该关键词。
- X* k* J( c5 Z$ R# D, ^ - 若页面作为mdx的keywords,即使用Pages导航中的页码等进行查询,则在
" E3 o e. \$ S# g9 `( K Keywords导航中的关键词不做加亮处理。+ S4 K) Y, \3 i6 D/ N5 j: P$ |
a# {* v" \3 X3 O; A$ k" }
## 源文件格式规范" s# F* v! O. r, c; e
+ d2 p7 E; }* c, X% v5 @ * 图片文件命名格式:
' q1 p; ^% f- t9 |) R4 C1 X - 根据页码编排需要,可将书籍分为多个部分,如:正文前123(封面、目录; L9 o- D3 i7 ?1 a" Y$ J! K( s
等)、正文 123、正文后123(索引、封底等)
$ }* j4 V$ y* m: Q - 对于不同部分的图片,相应文件名命名规范为“前缀名+页码+后缀名”:
/ P- U# z. G( ~% r/ g - 前导名可自定义,中英文均可,建议采用书籍英文名或拼音缩写等个性化
) j5 i4 A' x, T* t, `' A- ^ 名称,避免多词典之间命名冲突( Q: J) @/ G6 K$ ~! M& Z5 n
- 页码位数可自定义,默认4位,可根据需要设为3位或5位等2 g0 J1 h& m8 m# V! _* [
- 需要正确识别图片后缀名,如jpg、png等/ J+ o, M8 l- [2 R3 ~- }0 \3 u9 r9 Z$ b
- 图片文件名案例:某书前0001.jpg…某书正文0001.jpg…某书后0001.jpg
, u; I" `. K! Y! ]' p3 I+ I: h) `# A$ F' A
* Keywords源文件格式:
; {; a, h$ t# t9 i1 ?" T! f - 对应书籍的多个部分,将keywords源文件分为多个部分,如:正文前123.txt(封
3 ]- E& R$ _& V! a! W2 B' q) O 面、目录等)、正文123.txt、正文后123.txt(索引、封底等)
V' u" K* }! `3 D3 y - 具体内容格式(极大化方便用户输入词头、校对和修订): ~( o3 T0 p; R; Y
* 第1行页码:0001
8 f0 r7 Q' F" E# t0 G * 第2行关键词:A0 D" ?) E. G+ E* v/ D
* 第3行关键词:B# s- i0 x3 \9 `, d2 P$ _
* 第n行关键词:N
# W6 g4 n6 I) h& ]1 h * 第n+1行页码:0002
6 \- [% g- m+ q * 第n+2行关键词:X4 z* c# S. R9 O6 Y% D D4 X
* 第n+3行关键词:Y) e$ i% O3 R$ n' f$ ^6 I% j" q, ~
* 第n+4行关键词:Z
/ A3 E4 M2 y; X' R * ……
]# J' v6 @( c# s2 z" j - 页码之后,可以没有关键词& ~4 n: N* `' {
- 若有关键词,则同时生成相应的Pages导航和Keywords导航
- o" `. Y3 c G4 v - 若没有关键词,则仅生成Pages导航,而没有Keywords导航4 \ T& c3 m6 k$ k2 P
" Z+ ~8 B+ ~+ p
## 处理程序及配置文件规范
! Z( w) m6 S- X- k; F9 A& O M& _/ Z, @5 ?
* 建议使用Python3,毕竟用户多,大家有能力按需改造$ {! [3 Q3 | V/ A9 k# p7 K0 y, ]
* 程序作适当配置后,应可一键生成最终的mdx源文件和css# o: g4 T3 t+ F& P* F
* 主要配置包括:
. N& n' c% k& Q- x" x5 h - 书籍多个部分对应的Keywords源文件和图片文件- p6 {) r% a- S
- Keywords源文件名称' P+ D5 I! _5 ^1 M8 z
- 对应的图片文件名:前缀名 + 页码位数 + 后缀名
m M. d& q6 t - Pages导航中的自定义固定链接:
. Z$ Q/ l8 t* k- D h% K% ` - 固定链接名称(如封面目录) + 对应图片文件名
; J' k+ J5 k( Z2 H - mdx目标文件名
~" t" k) U' G1 |: a2 K& j! F - CSS文件名
0 D0 b4 q( i2 I7 _7 M$ s" r: v - 导航的中英文
+ i$ w9 u9 Q2 ]- V; V( y - 简中:页面、上一页、下一页、关键词0 f8 Q# g. ^4 V" w* Q. L
- 繁中:頁面、上一頁、下一頁、關鍵詞
0 G3 x! E+ c/ Y4 W3 E - 英文:Pages、Previous、Next、Keywords- Z& F" V; c+ }9 G W- q
% l9 q# F% P- f M3 D) F8 o## 目标文件格式规范
& x7 O: J1 s* j: ^- w- k+ m" j0 u f' z# j0 E# o
* mdx源文件txt需要满足mdx源文件的格式标准:dos,nobomb,UTF-8: W9 v$ r. V* H: x( n
* 生成的CSS可进一步配置:' S' s4 n$ O# T d/ P: F) A
- Pages导航样式( [0 B& j8 i1 ]+ m; e7 |$ u0 Y
- Keywords导航样式" e2 C- ~( Y) I0 r5 j# R% H
- 加亮Keyword样式. Y- u- W3 ~. k L
- 图片宽度:百分比(默认100%)或固定大小(px或em)
$ D/ M& c# w; Q- u5 P9 b2 Y3 D; s0 x: x
## 扩展1:整页版和多栏切片版二合一6 s% Z( l2 \. ]% B1 j% s
. ^* Q$ _6 L( H% h为适应手机等移动设备的查阅,需要将整页版适度分栏切片
- O- d- ]+ L; {) v* W6 K2 a! P
* 词条需要分栏处理) E9 X! C' M; O% `+ R3 t) C
* 图片文件名需要分栏处理
/ n& [5 v. ]3 g7 Q4 u * CSS要能够自适应不同屏幕尺寸的设备
- R/ s7 l0 @. x0 l H0 ?: ]5 X" \" }% r s ^7 W
具体改造略
3 _/ Q" P* J4 ^: s' P, k$ _! a8 T3 {) O+ M# n2 j; f) V8 d0 _: ^
7 k2 T( j, n$ F0 q- ?% x
## 扩展2:多层次词头优化
4 \" _5 P$ O# m& v: `! Q0 |: h2 g {" z7 R
为优化类似Longman Language Activator、朗文多功能分类词典、现代汉语词典等词头有
; _$ ^! S& {# m% W! k, M+ V# I0 @多个层次的词典,可在原有标准基础上,进一步将Keywords区分为多个层次,如字、词:2 K$ n ~3 M# a
' H' W; \( Y3 o& \0 U
* 在页面顶部显示Pages导航 和 字词导航(或有)- \2 |. S! }9 u# k: m! N$ S7 l% [
- 页面:Previous Next Cover Preface Content Index etc.
" Q1 S" X+ Y% {3 M# m - 字:A B C D E F G$ c! `) G0 w4 g6 D% T! w2 a
- 词: WordA1 WordA2 WordA3 WordA4
" p8 s1 e# ~ o! }4 j- @, |6 R * 在页面底部显示Pages导航' ]2 I* @* f5 ^" B
- 页面:Previous Next Cover Preface Content Index etc.0 m" t2 d5 |1 X0 w- K: ?
1 Z3 I" D2 T* p- o# K/ B# z * 当查询页码(并未查询具体的字或词)时,仅显示页列表$ k" V2 s( ~1 T# k0 @1 ]8 j
* 当查询某个字或某个词时,不仅显示字列表,还显示这个字所包含的词列表7 d0 U' [! m8 O" I3 ^' r
( e" K. w; R7 f. F4 ^# k2 o' w具体改造略- q; }' n6 p; n/ X" U5 ~+ y
9 O4 t7 i Q6 e! S: [6 }
## 诚邀Python等高人打造开源的图片词典制作工具
6 M# D" g. F/ P: B
) `# y* G' D d& m8 h( U* p4 @若能够制作符合上述标准的工具(先有标准版的即可,扩展版再逐步优化),必将造福广2 [/ g+ A# O0 x+ z
大词典爱好者,无论是字典制作者,还是字典使用者。
, n& {( e% j7 ^
( v! j. q9 ^: Y5 Y9 a" G若有需要,我可提供相关案例词典:包括完整的图片、词条等。
6 x/ u$ M, K+ t n! S4 T& M/ ^5 k* O
|
|