|
发表于 2016-12-21 22:13:56
|
显示全部楼层
& _/ A" p O: Z! j; C
个人经验浅谈, 首先只要知道 mdx 源文件的格式是这样就好了.
1 D8 }4 G1 G+ [& i0 ~* f [1 b, Z; }5 S# d8 Q
词头" N. l5 `5 l; ~& p3 E) h
释义内容2 T) O8 U: e* a7 G6 f4 ~
</>, J$ e, [, Y7 f7 O
+ |' Y2 Z3 W# R### 一、格式良好的文本数据) M. C- P8 `1 c
- Kindle 文字版电子书(mobi、epub)% j6 E& |: D0 k$ m2 D, [
- 原始的 XML、JSON 等格式的词典数据[有极个别词典光盘,数据就是一个或多个 XML 文件]
: y) X' v+ k! R1 I1 N0 k% `- 区分了词头、内容的两列或多列 Excel 表格) H9 J6 R' @9 X- D$ a
- 自行整理、总结的各类适合制作为 mdx 的文本2 O: a1 ?3 K4 D8 ?# \2 W6 J/ @
- 部分文字版 PDF ,这个得看运气了,有的好做,大部分尤其是多栏的、图文混排的很难做
0 ~$ A( h, j9 [+ h V0 }) r% B- 其他 2 \! B5 h8 U5 F( r: m
! k2 Z5 K) ?+ x6 `. Y
1. 例如: CNET.epub, epub就是一个压缩文件, 解开, 内有两千多个 xhtml文件.
- K! P" y- I/ b. M7 h- \! _/ G 使用 emeditor 提取出所有 <body>与</body> 之间的内容,' r3 |8 U* {5 }) O2 j
用正则将词头整理出来, 再将</body> 改为</>, . }0 E- j4 n, Z/ u; P6 m7 l
最后用 MdxBuilder, 一个初版mdx词典就完成了.
7 h3 @( f* S2 ? 再来就是要考虑如何排版与精美呈现.# h" G2 _2 K0 s: i5 C
, n0 k) ^6 W4 r& _" H
& y9 p3 @4 Y5 ^4 N6 J2. 例如: 某个JSON格式的词典数据, 内容如:9 L7 a$ d2 z- }
- "notes": [
a( U5 J, F2 G* v/ b - "古国名,建国于主前753年,其最盛世时国境东西约九千里,南北约六千里。"' a# \1 ]1 L3 E8 k/ k+ p+ H; a. K
- ], ' U7 Z/ d3 S9 U+ ^4 m! G
- "chinese": "罗马", $ [! Z, G7 C" ?8 |: `- ?
- "english": "Rome"
T' h: b `* Y; z. E - },
复制代码 ! d8 u: ~4 D6 |* ?. z' I
使用emeditor提取出 "罗马" 和 "Rome" 为中英词头, "notes"底下的自然就是释义内容. L, A1 p9 f6 g- s
然后将 }, 改为 </>, 完成
0 D8 ~4 H( S @7 F& S
& _/ G( ]# h0 L* c' K3. 例如: 某个词频.xls 表格, 内容如下:2 K! ^( I# c& h0 @8 G) q# f
- 1 the- J% t! ?: y; U* q
- 2 be
9 r- D( |$ B9 R: c; g! ^ - 3 and
3 r* Q) m5 f: G) a p4 K1 O - 4 of
& k5 J0 X4 J/ W1 o U+ D; L - 5 a
复制代码
q$ f9 ?! y% _: |! S" s( g 复制到 emeditor, 找 (^.*?)\t(.*$), 取代为 \2\n\1 \2\n</>
+ H2 U, e1 M' f- Y7 w# ^: E9 q 这样就完成了一个简单的词频词典, 要精美就要更多数据与排版了
5 A+ T) e& {& `2 ?9 A! ~$ k- R
* r V" Z5 f$ O U4. 例如: 某个 基础词汇.doc 文件, 内容如下:
7 l; [! @& H2 L. W6 s+ U- 10. absolutely ['æbsəlu:tli] 7 A' I1 C% y9 k$ l& r `: n
- adv. 绝对地;完全地;是这样
复制代码
- m) o) d+ x+ ^ 同样的, 复制到 emeditor, 再用emeditor整理成如下 mdx 格式.
4 n8 z8 A9 G8 r3 y: sabsolutely+ m! G+ \% p- F) B( K
<tit>absolutely</tit> ['æbsəlu:tli] <pos>adv.</pos><def> 绝对地;完全地;是这样 </def>
# e3 T# ?* N# M1 f' s</>1 I; _& x( ?! d3 j3 j+ R& t
再制做个对应的 .css, 调整颜色与排版, 完成.
3 u: |0 r/ D& m
, J# Y) K* K" P. M4 T5. 例如: 某个词频.pdf 文件, 内容如下:6 A) h' u4 O6 }% A# X
- 1152 absolutely r
, e" k3 E% O' s0 P8 [5 B1 ?. ] - no, right, • nothing, sure, • necessary, ...
复制代码 $ I5 c* L* }+ _
同样的, 复制到 emeditor, 再用emeditor整理, 排版, 完成." Y+ Y. d$ E1 v7 z8 Y) Z) D
' e( E% ~: y2 U, k 不过有些PDF就不是这么顺利了..8 H+ D v' |# R% \4 h5 V
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?免费注册
x
评分
-
2
查看全部评分
-
|