|
发表于 2016-12-21 22:13:56
|
显示全部楼层
& I& P0 _2 O# ^* f5 q8 S
个人经验浅谈, 首先只要知道 mdx 源文件的格式是这样就好了.. V$ {( ?8 _* o7 `! [6 y9 |" B- I
+ E4 \1 Y# }- [词头
! |1 i4 m2 [, d. p7 i) p释义内容2 R6 Z# J9 s" ~- Z, g3 v% H, r
</>
1 [& K L/ U6 R$ j" J# {- y e9 ]- ~) d! ^3 L: n: E- }
### 一、格式良好的文本数据
+ ?8 o# ~1 I! v& M% _' u- Kindle 文字版电子书(mobi、epub)! `- u* f; D0 d& O8 H. x
- 原始的 XML、JSON 等格式的词典数据[有极个别词典光盘,数据就是一个或多个 XML 文件]
0 s) e- B" O2 Q( y: P- 区分了词头、内容的两列或多列 Excel 表格
3 ]0 W" V6 \- t* r' e- 自行整理、总结的各类适合制作为 mdx 的文本
3 @$ [+ V& R7 V- 部分文字版 PDF ,这个得看运气了,有的好做,大部分尤其是多栏的、图文混排的很难做
& }6 i/ W; Y$ X" i# d( ]2 Y- 其他
% @; [) P0 }9 S
) V" x: C0 l. k) N d6 X1. 例如: CNET.epub, epub就是一个压缩文件, 解开, 内有两千多个 xhtml文件.) l5 P3 a, v' c7 r$ v
使用 emeditor 提取出所有 <body>与</body> 之间的内容," t& X: ^' X+ p& b
用正则将词头整理出来, 再将</body> 改为</>,
! |5 b1 H. F7 t% p6 J 最后用 MdxBuilder, 一个初版mdx词典就完成了.
* W% }3 I) `) Q4 [8 o. C 再来就是要考虑如何排版与精美呈现.2 g, M4 W- t. u: N$ \2 r7 W
2 i, g, ]4 p1 T- E$ p5 h E( ^
5 E) n" \3 Y8 R# C0 T7 n
2. 例如: 某个JSON格式的词典数据, 内容如:
K0 I+ x9 P {/ ]- "notes": [
) `0 ]( }6 P- P - "古国名,建国于主前753年,其最盛世时国境东西约九千里,南北约六千里。"
$ _& k2 o3 G6 C7 O - ],
( S2 f9 _' ]6 M6 \# L - "chinese": "罗马", 9 M. I, {5 \, m2 D4 z) @( A
- "english": "Rome"
& p; J" l) c4 Q# | - },
复制代码
/ K# U: m; p, z* H& X 使用emeditor提取出 "罗马" 和 "Rome" 为中英词头, "notes"底下的自然就是释义内容
# ^$ ~" H( t0 L/ ~* ` 然后将 }, 改为 </>, 完成& I* g% `# e" `! G. j, I( e
$ Q$ m2 S9 m) K: L+ x, r, K' t
3. 例如: 某个词频.xls 表格, 内容如下:
& D7 E2 w' }: I. Q- o A- 1 the
_: M) z9 h9 R* @) _% |! h8 H+ t - 2 be J* Z: |, K, @2 G+ U! `
- 3 and
4 ^5 l5 R; a' b: c3 ]$ ~) n% L - 4 of6 n! l" ^) I% A1 d- b0 O; m
- 5 a
复制代码
, C7 F# k3 S0 `% Y8 | 复制到 emeditor, 找 (^.*?)\t(.*$), 取代为 \2\n\1 \2\n</>2 F% N2 k' u, _2 ^
这样就完成了一个简单的词频词典, 要精美就要更多数据与排版了/ @) K6 G2 @- n1 ~
$ q+ i' P* J7 x7 m4. 例如: 某个 基础词汇.doc 文件, 内容如下:. O3 p8 r4 F9 O% i4 B% o$ K
- 10. absolutely ['æbsəlu:tli]
8 Q! O: c! x; w* B# X3 i) A- V - adv. 绝对地;完全地;是这样
复制代码
. Z, F8 O& I7 I 同样的, 复制到 emeditor, 再用emeditor整理成如下 mdx 格式.5 j) N9 K" A8 j, W6 L( n* J; f# B
absolutely: k$ D3 w# A8 `7 w$ x
<tit>absolutely</tit> ['æbsəlu:tli] <pos>adv.</pos><def> 绝对地;完全地;是这样 </def>
, b6 }. ^) E5 y" r5 v3 F</>
! j M* D$ v% ~9 H. t 再制做个对应的 .css, 调整颜色与排版, 完成.* c3 ?! p0 E/ ^2 q! f5 {
* S% i3 u X' u# O) g9 t; t5. 例如: 某个词频.pdf 文件, 内容如下:
0 ^6 C) v X* }; t; ^- 1152 absolutely r
! H: V% o/ [3 Q. O* C. \5 @7 { - no, right, • nothing, sure, • necessary, ...
复制代码
6 M( r; Y: G5 c' T% U# G" {$ h 同样的, 复制到 emeditor, 再用emeditor整理, 排版, 完成.
' d- m; a7 a$ ?" x+ {+ x% x1 I9 v
6 q" f5 j4 S8 N" L4 G; }/ | 不过有些PDF就不是这么顺利了..; M) B8 W9 a4 W! {$ S% M
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?免费注册
x
评分
-
2
查看全部评分
-
|