|
发表于 2016-12-21 22:13:56
|
显示全部楼层
& T1 C. O8 T" z& k个人经验浅谈, 首先只要知道 mdx 源文件的格式是这样就好了.3 G. f5 i+ M# Y+ Z
* F6 V1 a* r9 r k) s
词头$ z4 _/ {% l& B; e# [2 S
释义内容; h2 H3 C0 O5 x( E
</>) F& X3 V0 G/ T5 M
2 Q0 s' Q4 C/ x% m/ P### 一、格式良好的文本数据: C5 o* z1 K) R
- Kindle 文字版电子书(mobi、epub)
# o4 C5 L2 v$ J& f `2 W, r- 原始的 XML、JSON 等格式的词典数据[有极个别词典光盘,数据就是一个或多个 XML 文件]! a- c0 Y$ \7 A7 y& o# S! z
- 区分了词头、内容的两列或多列 Excel 表格: Q6 z# f+ K3 v, m a
- 自行整理、总结的各类适合制作为 mdx 的文本) X3 B& N1 v$ y; {( j# ^7 G
- 部分文字版 PDF ,这个得看运气了,有的好做,大部分尤其是多栏的、图文混排的很难做2 o$ F3 H4 }% {% H; w8 @
- 其他 9 |3 T& \2 Q( O
% P3 {; t6 A" |1 [5 ?/ N
1. 例如: CNET.epub, epub就是一个压缩文件, 解开, 内有两千多个 xhtml文件. F& B" _+ Q" ]" c# v- X1 k
使用 emeditor 提取出所有 <body>与</body> 之间的内容,( |5 q9 F1 E& v3 ~* g
用正则将词头整理出来, 再将</body> 改为</>, - N8 o4 f( }( U- j( W" M* I
最后用 MdxBuilder, 一个初版mdx词典就完成了.
" I. w- A( t- F" K2 a" W' ~6 @4 O 再来就是要考虑如何排版与精美呈现.
7 R" ^8 f4 Z+ r+ z k$ ~2 t) I
' D7 C7 Z/ K1 @5 H: S( V1 P
' T3 P+ k" x6 R6 d" a0 p0 A2. 例如: 某个JSON格式的词典数据, 内容如:) b7 k/ [" j, n+ S2 X0 X
- "notes": [0 z) w: J/ V7 q
- "古国名,建国于主前753年,其最盛世时国境东西约九千里,南北约六千里。"
% X. I$ F# `1 D% \& x5 N" X7 ^/ x8 Q - ],
$ W8 R z# t0 h* e" N - "chinese": "罗马", 2 ]8 C1 y7 y; L u7 d f& r H
- "english": "Rome"& O. ]# N- F7 n7 B7 w: ]9 I( [% w
- },
复制代码 ) H. Z0 |! d8 x1 ^" P9 Q
使用emeditor提取出 "罗马" 和 "Rome" 为中英词头, "notes"底下的自然就是释义内容
1 X8 {$ E5 s- T 然后将 }, 改为 </>, 完成6 m0 s. o5 ^' y
( ]8 a' t3 A+ f' [. u- A3. 例如: 某个词频.xls 表格, 内容如下:
% O% A/ ~# W/ @- 1 the1 }" m* i1 U/ U5 d1 c+ k8 T# ?
- 2 be" m4 {0 x) l& u& i# R0 P
- 3 and( ^3 n4 m: c5 A
- 4 of
2 W( t, w# r3 A% R$ H - 5 a
复制代码
6 ^ O3 j& _% H4 R+ w! J 复制到 emeditor, 找 (^.*?)\t(.*$), 取代为 \2\n\1 \2\n</>
2 R$ K/ p# w2 L" \ 这样就完成了一个简单的词频词典, 要精美就要更多数据与排版了
! g6 k6 W) [- l6 F3 @% X% K5 h( N e6 j3 K6 J1 V0 M3 a8 j1 `
4. 例如: 某个 基础词汇.doc 文件, 内容如下:& J. {) W* Y) W7 W+ c( z$ X
- 10. absolutely ['æbsəlu:tli]
. L: f( U8 ^* O - adv. 绝对地;完全地;是这样
复制代码
; x) s$ x, {" V( C/ {5 S9 X 同样的, 复制到 emeditor, 再用emeditor整理成如下 mdx 格式.
- Q2 o- ~" K# p& V0 Vabsolutely4 i! g) U, O) J, ^" z5 y) c1 Z
<tit>absolutely</tit> ['æbsəlu:tli] <pos>adv.</pos><def> 绝对地;完全地;是这样 </def>
( F, a. u* Z1 w</>
, L+ X8 ?) _+ k4 C3 `! o 再制做个对应的 .css, 调整颜色与排版, 完成.5 S- R) W8 i# r( C+ `; t
) T' {1 R' c6 w Q. F
5. 例如: 某个词频.pdf 文件, 内容如下:
0 H2 B- T& {) a* q0 r& Z- u6 t8 v: g- 1152 absolutely r
8 {3 _! Z2 e$ k; n$ p9 ]* B8 q2 N7 ~! f - no, right, • nothing, sure, • necessary, ...
复制代码
& K) d! ~$ F5 n1 N 同样的, 复制到 emeditor, 再用emeditor整理, 排版, 完成.
9 I/ {& d- y" W' h# f3 r i- G( O9 ~0 t' A0 P
不过有些PDF就不是这么顺利了..
+ J# S. E8 z* } Z4 r Y" M |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?免费注册
x
评分
-
2
查看全部评分
-
|