TA的每日心情 | 奋斗 2019-10-13 07:34 |
---|
签到天数: 209 天 [LV.7]常住居民III
|
本帖最后由 VimVim 于 2020-6-28 16:01 编辑
* X! b' Z) L0 x! w. R4 f! Z4 y+ R1 M q
## 背景
, _& P* D. w' u1 U& m$ q8 ~+ x2 ^ k$ g
时常遇到好资料,怎奈只有PDF扫描版,辛苦制作好词条,但成品的导航却不够理想,梳理2 b, A9 Y: g3 v. N
一下现有获知的工具,提出图片词典应有的标准,希望各路高手能够借鉴打造理想的工7 p# T% E" ?5 I3 h- g
具,造福广大词典爱好者。
$ X9 p4 p8 L- e: |; C* `4 N3 [% @( R" _
( E" v4 U% q: {
### 现有图片词典制作技术点评$ u) g7 B; J& I) d; S
2 u2 ], u! F( F( t0 ?
* 图像版mdict字典制作方法 by tsiank
; l3 B# i1 q# \ - src: https://www.pdawiki.com/forum/thread-13451-1-1.html) R4 F0 k0 s) { [ P4 C
- 这是最优秀的原创教程了,入门必修: P5 C0 g+ [/ y7 }3 t
- 优点:理解图片词典的基本原理- N( I. f" v2 a
- 问题:导航简陋,难以在页面中定位具体词条; s& }$ v; b; J! q9 T" H
* 图片版mdx源文件生成工具 by tsiank
$ f/ r8 T0 G H9 r - src: https://www.pdawiki.com/forum/thread-33574-1-1.html3 e% r5 J7 Y( d+ l$ M+ s
- 这是上述教程的升级版,带工具了!9 v8 y I5 ]8 O7 e1 m3 E( X& U
- 优点:导航体验大大提升;技术门槛极低,小白都可以使用
* D7 f# j! c+ c8 o9 ]0 ?0 v" F - 问题1:不能自动处理多部分构成的书籍,目前主要处理正文部分
( ~# u4 k0 v* ], _0 R - 问题2:生成的mdx源文件有很多细节问题需要进一步处理,如CSS缺文件名、多9 {6 ]$ T" B# E5 M) \9 x0 R9 D' }
个标签属性之间缺空格、nobomb格式等
; ~; `) z/ O% y - 问题3:鉴于使用Excel,无法与其他工具链结合,从修订原始词条文件到生成5 G) n! B4 K0 _5 c6 B! t/ F& g
mdx源文件无法一步到位
9 l6 J! q8 Y5 w1 v" K" | - 问题4:导航依然有改进空间,VBA不熟悉,改造困难, D4 j6 t V2 j, w
* 以Picture Capture为代表的切图版词典制作软件 by chigre3 等
9 D9 a, W+ }2 Z. Q- H& _0 V! T - src: https://www.pdawiki.com/forum/thread-19040-1-1.html
( |# _4 g0 S4 `; W2 r; ~ - 这是对终端词典用户体验最好的工具+ \- H8 M# j8 c% ~+ c7 X
- 优点:直接定位到具体词条、导航丰富
' c: v4 y @* x2 i' f - 缺点1:工具非开源、偶尔开放下载、遇到问题没有反馈处理机制' ]3 `. [8 d, I" o4 Q: N8 O3 F
- 缺点2:对于普通词典制作者来说极其复杂、体验糟糕* O+ z7 r9 H2 q7 l3 ?
* 使用CSS精确定位Visual词典 by 孤影 等' V* |3 K0 B: o6 v" n9 d
- src: https://www.pdawiki.com/forum/thread-20350-1-1.html
8 a; t. _2 ^1 y6 I+ C3 }( p8 e - 对于Visual Dictionary词典用户来说,体验很不错5 g( e2 ~$ h6 L6 w1 g* F5 W1 N
- 优点:关键词加亮、可直接在图片上点击关键词链接
/ @$ c5 S+ L9 i7 { - 缺点:具体技术细节不开放,仅可观摩案例Chinese-English Bilingual
2 U/ h" o% c+ L" f/ n Visual Dictionary (https://www.pdawiki.com/forum/thread-35929-1-1.html ),
7 w- S' Q5 R) w" U6 ]; P3 M" e4 K! r 大致是先OCR图片,并通过类似Picture Capture工具切片获取每个关键词的相+ \# L: p( C/ z' I8 p& v0 l
对定位,最后使用CSS隐藏文字层并定位关键词,太复杂了% ?% [/ e* y3 _" K9 a+ s: m9 ?
6 L5 \8 u( L0 f! n% K# B
### 优秀的图片词典工具链标准' @$ U u4 [ i
+ H/ l9 q/ l( v* A- I9 d8 \ * 词典成品的导航体验要足够好:核心是有助于快速定位具体词条位置4 t4 [# G. [' F, q0 \, ?# ~/ {
* 词典要能够适应不同尺寸的屏幕:阅读体验好,字体太大或太小都不可取; m+ G2 W2 P$ c J! I% `
* 图片处理要足够简单:使用扫描的整页图片即可,不要切片等复杂操作. p4 J9 L5 _" x7 Y
* 词条的录入、校对要足够简单:要一目了然,不容易出错,技术门槛降至最低
! F$ _0 t+ j: A1 Z9 c, s0 g * 词典修订要快捷:修订原始词头文件后,通过工具可一步到位生成最终的mdx源文件
: N# j. b2 C/ H' k$ U1 J2 z6 w# ~: B; z% f
为了实现上述目标,拟根据自己制作十来个图片词典的实践经验,提出如下制作规范,大
$ \2 g0 x; l* f. [) z& M) r2 t: |家可将其看作是开发相应图片制作工具的用户需求文档。
2 `, _1 s! t. k( j
" B6 J/ {& ^; f- V# U6 I## 成品图片词典的导航构想4 O" J& e3 z) B+ a
* d, O- {7 N+ [8 w3 {
* 在页面顶部显示Pages导航 和 Keywords导航(或有)# x8 i' V0 U4 a
- Pages:Previous Next Cover Preface Content Index etc.
, P `+ r' Q5 b$ n - Keywords:A B C D E F G" b3 @7 d4 Z" ?( H
* 在页面底部显示Pages导航
% q5 ]1 p4 i. n% V$ ^ - Pages:Previous Next Cover Preface Content Index etc.% G' x3 D+ l4 A- Z* m
0 A4 f" S3 t+ M/ O * 在Pages导航中:3 O2 @$ C$ ~. n" F. G. @* [
- 上下页,可自动处理first和last页面
- d1 ?( k( T# j% x, I - 上下页,可自动处理多个部分的页码体系为一个连续整体,如:
- m9 |0 J; B* J8 c" K- T - 正文前123(封面、目录等)、正文123、正文后123(索引、封底等)
# ]1 C2 N0 N3 E* N9 t* b2 X - 除了上下页外,可自定义添加封面、前言、目录、索引等固定链接。
3 O2 l2 u" i1 N * 在Keywords导航中:
. e$ Y2 j8 I+ \; l: s% z Y - 若没有关键词,则不显示Keywords导航,适配封面、前言、目录、索引等页面
, T8 ~0 C! T, r( S7 Y8 o - 若某个关键词作为mdx的keywords,即使用Keywords导航中的某个关键词进行查6 K7 f5 X8 R1 N
询,则在Keywords导航中加亮该关键词。8 |- ~* t6 ]$ n* Z z
- 若页面作为mdx的keywords,即使用Pages导航中的页码等进行查询,则在, t& c8 P& D( X0 t3 z* t( O, F
Keywords导航中的关键词不做加亮处理。1 g) c* d+ z0 V
8 q. p! |6 |( ]9 g9 f" i% m
## 源文件格式规范
2 M: W) d9 d4 J3 [
1 o9 n# z0 u, B4 P, h9 y: Q& z * 图片文件命名格式:- ~) i, K7 k( o1 `0 Y2 @
- 根据页码编排需要,可将书籍分为多个部分,如:正文前123(封面、目录0 W; D Y% X( c* |; s; q4 e: |/ @
等)、正文 123、正文后123(索引、封底等)
7 q0 `& ?1 G( c - 对于不同部分的图片,相应文件名命名规范为“前缀名+页码+后缀名”:
, m7 O2 }5 W: M& t; V8 ]4 z - 前导名可自定义,中英文均可,建议采用书籍英文名或拼音缩写等个性化
/ x' U# Q0 g0 t 名称,避免多词典之间命名冲突
& d/ l: {. ?$ n4 y8 {3 c - 页码位数可自定义,默认4位,可根据需要设为3位或5位等1 H- O3 |" j& P8 w4 ~" y, {
- 需要正确识别图片后缀名,如jpg、png等! V- Y, u. b& i% j# k# l) S2 o
- 图片文件名案例:某书前0001.jpg…某书正文0001.jpg…某书后0001.jpg4 u4 F/ c3 t8 ?+ r
/ ] }$ e* |% {" {& E2 L * Keywords源文件格式:
' N& K( ~) R; d2 e' C+ r$ P' e F - 对应书籍的多个部分,将keywords源文件分为多个部分,如:正文前123.txt(封
! ]& D3 b! s" O; ]0 A+ F 面、目录等)、正文123.txt、正文后123.txt(索引、封底等)& v/ }( Y$ {2 T4 {; b5 @
- 具体内容格式(极大化方便用户输入词头、校对和修订):+ J$ y' l$ ? c) K
* 第1行页码:0001
9 O# t2 R# f! I" ?: X7 m8 r * 第2行关键词:A
4 M& Z; k3 `% R$ ~0 [ * 第3行关键词:B8 y& J/ E; \: ~- D0 X
* 第n行关键词:N
" ^: _+ c) D& H( i * 第n+1行页码:0002
0 L+ n5 J7 W3 K% G) c' L8 [ * 第n+2行关键词:X
! x$ o$ c6 _. K# @, [2 _% R$ W * 第n+3行关键词:Y
7 |0 p2 k4 L, U" x& A. P6 ?$ Q: f * 第n+4行关键词:Z
6 Y) m: X' v) n" [ * ……
5 [* u: ~8 s2 X; J0 |0 Q3 b+ G - 页码之后,可以没有关键词
* [& D( e4 Z2 D/ K1 w# Y! T4 e - 若有关键词,则同时生成相应的Pages导航和Keywords导航
) X- Y- {, D. C6 m( M6 T - 若没有关键词,则仅生成Pages导航,而没有Keywords导航, Q! S5 J- q7 O8 l9 q
1 O5 W5 j Y! n
## 处理程序及配置文件规范
' M% Q! l) S0 ?$ _
" w5 y" m& C4 f0 e( e * 建议使用Python3,毕竟用户多,大家有能力按需改造
& ^: F& e4 k U * 程序作适当配置后,应可一键生成最终的mdx源文件和css
" N2 P. o# E4 U * 主要配置包括:/ p! O/ `9 S$ M! h
- 书籍多个部分对应的Keywords源文件和图片文件" |) w! P' @ W- }! R
- Keywords源文件名称" L6 t9 x: k9 R4 \% |% A" t
- 对应的图片文件名:前缀名 + 页码位数 + 后缀名
4 J& d( }, @( d9 {6 H) w2 \ - Pages导航中的自定义固定链接:5 U2 v. q7 H' V
- 固定链接名称(如封面目录) + 对应图片文件名
- Y5 H7 U, @1 x! W, A - mdx目标文件名
4 N1 V2 }% O9 ?" Q - CSS文件名
0 q- ~ o S7 C - 导航的中英文& p8 ? s& O3 x7 h: j
- 简中:页面、上一页、下一页、关键词
% p& U+ D9 L) K5 z# ?0 n+ o - 繁中:頁面、上一頁、下一頁、關鍵詞, [* ?% a/ x2 j9 P/ X
- 英文:Pages、Previous、Next、Keywords
8 G; c1 B M9 Z8 Z
8 M; c& W& ^8 {/ y% x1 A## 目标文件格式规范
; {# s4 \/ J( E/ w5 z c3 r- y+ i9 m4 Y
* mdx源文件txt需要满足mdx源文件的格式标准:dos,nobomb,UTF-8, ^0 u9 O/ E t4 b7 u# |9 p8 d
* 生成的CSS可进一步配置:+ }6 `6 }( ^$ ?0 U6 Y
- Pages导航样式
X4 ?1 {( @1 k; ^2 @1 D" k# ? - Keywords导航样式7 `" k( I7 I H& }$ j
- 加亮Keyword样式
8 {. N: T7 n) X9 c% b9 K( v( ~ - 图片宽度:百分比(默认100%)或固定大小(px或em)2 I( z1 A. t$ N3 {2 r
# F' L8 t2 @6 U. e## 扩展1:整页版和多栏切片版二合一3 h ]9 a# x" r1 T$ i
@& |4 I# e% G- A( p
为适应手机等移动设备的查阅,需要将整页版适度分栏切片
- w& c+ j; I2 k
, Y4 \! g+ X+ \) J0 E * 词条需要分栏处理1 ]8 g6 D1 U8 f/ |; Y$ R. q
* 图片文件名需要分栏处理
. T8 P$ f$ w0 w9 ~ * CSS要能够自适应不同屏幕尺寸的设备& E$ D5 w) N( |4 m0 I
% V1 A9 x: }! g$ w& m具体改造略
% m& D6 s3 ^& L3 X
( f9 r' T& ]! U" P: B1 o( |
) B9 ]7 U+ Y6 p" Z8 |5 t I## 扩展2:多层次词头优化: L( p) X% v- _
5 c3 _6 C" x+ v- a" e8 ?为优化类似Longman Language Activator、朗文多功能分类词典、现代汉语词典等词头有
( Q4 {( {3 Y! n* ?' p0 M; j多个层次的词典,可在原有标准基础上,进一步将Keywords区分为多个层次,如字、词:
# L$ i$ T+ p \6 b, ~. \
, `' ^6 }& ]0 ]7 C4 e4 [/ ]8 v * 在页面顶部显示Pages导航 和 字词导航(或有)7 \. i* S/ m& q
- 页面:Previous Next Cover Preface Content Index etc.5 L7 @/ f% s, h1 N! V. Q
- 字:A B C D E F G. S- p e2 @ g2 c
- 词: WordA1 WordA2 WordA3 WordA4& u: k3 g$ \& x: J8 R; L. ~
* 在页面底部显示Pages导航$ u2 |+ m8 p6 u& Z3 O0 L
- 页面:Previous Next Cover Preface Content Index etc.
8 k* R0 X* Y1 b5 T+ s2 k
& R; C7 a: s T" |4 w0 ~* i* ^ * 当查询页码(并未查询具体的字或词)时,仅显示页列表
/ F3 U a2 J3 u: ?* R1 L * 当查询某个字或某个词时,不仅显示字列表,还显示这个字所包含的词列表
. Z1 M6 N! c# n( ^6 o r( p) G4 W1 Z8 P( z
具体改造略& x+ [# S6 K. j+ T- Q
9 @9 W7 o, _3 f( R8 k7 r
## 诚邀Python等高人打造开源的图片词典制作工具' G0 c. y) J1 M& j$ I. ?
6 X" r6 O+ U% G% K8 }+ o
若能够制作符合上述标准的工具(先有标准版的即可,扩展版再逐步优化),必将造福广
8 y K! ?( ^8 ^, P5 A$ }; i大词典爱好者,无论是字典制作者,还是字典使用者。
& V' j4 k( O/ T1 a0 n8 {9 D* H' h7 F
若有需要,我可提供相关案例词典:包括完整的图片、词条等。
8 x+ |3 f6 D! {$ }# X
6 Y- b' K' ~$ J$ N K2 C! a |
|