|
发表于 2016-12-21 22:13:56
|
显示全部楼层
' }; i2 H$ j& U' `& U+ a
个人经验浅谈, 首先只要知道 mdx 源文件的格式是这样就好了.# O! [, j# K8 a: L$ c& r
4 F8 d4 t# e% M/ K
词头
4 _# `8 V' K4 ]+ M释义内容
) J- z7 V* m7 T, }</>
) h G5 K7 h; Y# z8 t& z. \9 g4 d- p. A) b
### 一、格式良好的文本数据+ G: b- u( l( _0 B
- Kindle 文字版电子书(mobi、epub)/ x/ Q1 }3 L+ d8 d( [
- 原始的 XML、JSON 等格式的词典数据[有极个别词典光盘,数据就是一个或多个 XML 文件]1 f. \( L. O9 e8 f
- 区分了词头、内容的两列或多列 Excel 表格% s2 Q+ {2 M7 M3 }# C
- 自行整理、总结的各类适合制作为 mdx 的文本* @" l' `5 J7 Z0 w1 z
- 部分文字版 PDF ,这个得看运气了,有的好做,大部分尤其是多栏的、图文混排的很难做/ d, v1 W1 b6 R6 [) z. F
- 其他 5 x6 W+ G) s3 f( \
. X' Y% j; ?6 d# D0 i
1. 例如: CNET.epub, epub就是一个压缩文件, 解开, 内有两千多个 xhtml文件.' a' O5 G* T/ ~7 \ H; g- Q
使用 emeditor 提取出所有 <body>与</body> 之间的内容," g* X* [& ?; x+ T
用正则将词头整理出来, 再将</body> 改为</>, - s6 @* P% J, f" |# y9 @8 ^
最后用 MdxBuilder, 一个初版mdx词典就完成了.0 @+ W0 R6 B0 t- u+ e; s* G
再来就是要考虑如何排版与精美呈现.4 X9 p' O# M* ^1 C$ Q N
4 O" E0 w6 W& N8 l5 A4 w F, H
& r% J9 v8 N% _/ W9 h
2. 例如: 某个JSON格式的词典数据, 内容如:
. _! p( R! x8 r- "notes": [
8 J* L. T" @7 g0 m% X - "古国名,建国于主前753年,其最盛世时国境东西约九千里,南北约六千里。"
# T; N. j. X" V1 [: W - ],
_" B! g* d, U+ _ - "chinese": "罗马",
9 S1 O/ ^- f6 O7 V/ V - "english": "Rome"4 y% X; Q1 g f7 c: z% o$ [4 |
- },
复制代码 $ n# `6 D, n8 `: R+ h7 Z
使用emeditor提取出 "罗马" 和 "Rome" 为中英词头, "notes"底下的自然就是释义内容 z& G" `& l7 X. [, x8 J
然后将 }, 改为 </>, 完成
7 v. y: l/ L" d( |0 O A0 g3 Q' l& [3 k) B
3. 例如: 某个词频.xls 表格, 内容如下:
2 O- @1 i0 p& [ g+ N1 J) W! r7 q! S- 1 the$ }. v4 o" b9 R: c
- 2 be
9 `8 _8 K2 I8 v" k1 |. M+ i; H! S - 3 and
4 b0 b b- i3 K - 4 of$ E- Y) y% L7 B; H; c4 F
- 5 a
复制代码 + U' v# B1 ] Q6 w( \ {
复制到 emeditor, 找 (^.*?)\t(.*$), 取代为 \2\n\1 \2\n</>
$ D7 z6 m7 B5 M/ I; U% R* o 这样就完成了一个简单的词频词典, 要精美就要更多数据与排版了 a7 E4 |' |4 U
2 l9 m& ]% a3 {# k8 n4. 例如: 某个 基础词汇.doc 文件, 内容如下:
$ G7 x. p5 R& `+ L) @, I7 Y- 10. absolutely ['æbsəlu:tli] 3 _* {: v% T7 a2 B& L
- adv. 绝对地;完全地;是这样
复制代码 ! z7 q! X* J1 d e0 R' z) N' ?5 e
同样的, 复制到 emeditor, 再用emeditor整理成如下 mdx 格式.$ G5 k- C5 f1 j9 Q( S9 P( @1 G
absolutely# U2 B A1 T6 T+ U. u
<tit>absolutely</tit> ['æbsəlu:tli] <pos>adv.</pos><def> 绝对地;完全地;是这样 </def>6 w- t N( Q8 {/ a1 V7 o
</>
, g) g+ u. I% F: W 再制做个对应的 .css, 调整颜色与排版, 完成.
" {7 M. A& u. k/ u
: b7 J2 i) K9 O- P/ i+ K4 }: P5. 例如: 某个词频.pdf 文件, 内容如下:
& g# D9 E2 p4 a( H6 z+ w- 1152 absolutely r
9 e+ S. ?+ @) d: \7 q/ Z0 s, [ - no, right, • nothing, sure, • necessary, ...
复制代码 4 g: ~, m* H8 b9 h1 e: g! {
同样的, 复制到 emeditor, 再用emeditor整理, 排版, 完成.
6 C/ [7 _1 Z8 e3 C! u6 R, [, n# d% Q, ?0 r3 V$ ^3 r5 M
不过有些PDF就不是这么顺利了..1 B' B+ L6 ?/ g! c2 i% F
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?免费注册
x
评分
-
2
查看全部评分
-
|