|
发表于 2016-12-21 22:13:56
|
显示全部楼层
% k6 l+ C" \' h# m. v% o个人经验浅谈, 首先只要知道 mdx 源文件的格式是这样就好了.
) ~9 A5 g! b7 i7 |1 u% Q4 I# P1 l
词头3 |" M& C1 G4 n) T/ q
释义内容3 g! f( [! M, ~. {3 p( ~& ]
</>
, K B$ A1 E2 P3 r# z9 B
4 w, Y% h8 |" y5 Q0 e, ?9 I3 |### 一、格式良好的文本数据9 w/ g( L8 n+ K- j: e A+ A
- Kindle 文字版电子书(mobi、epub): W1 b8 ~) K5 S' V4 |2 _
- 原始的 XML、JSON 等格式的词典数据[有极个别词典光盘,数据就是一个或多个 XML 文件]& S; d& X* V0 d& Z
- 区分了词头、内容的两列或多列 Excel 表格
c9 i& B2 |1 I' O# C+ p- 自行整理、总结的各类适合制作为 mdx 的文本
, r' b- x& h1 }/ _* h0 m$ _. ~* b. L- 部分文字版 PDF ,这个得看运气了,有的好做,大部分尤其是多栏的、图文混排的很难做+ F- `' r0 O" q$ I
- 其他 $ y1 W3 ?8 B' V, B6 P$ w
* V: D% K# k; N/ z2 K
1. 例如: CNET.epub, epub就是一个压缩文件, 解开, 内有两千多个 xhtml文件./ v! ^& g+ e; c5 R9 Y% W
使用 emeditor 提取出所有 <body>与</body> 之间的内容,
& z( G8 z4 \, C# B- k- R# A' p9 n 用正则将词头整理出来, 再将</body> 改为</>,
4 U2 [8 J8 Z% E2 \% P 最后用 MdxBuilder, 一个初版mdx词典就完成了.; e* b" z* G0 G9 V- A
再来就是要考虑如何排版与精美呈现.9 c) S3 f3 k7 Y! o6 A
; [! h4 Q* p; L" C8 a3 y
7 Y5 \9 b$ S0 Q* p5 [2. 例如: 某个JSON格式的词典数据, 内容如:
3 g! W& q6 A! i* O+ \. A' A- "notes": [
. t1 M& v# A$ K; Z2 i) G - "古国名,建国于主前753年,其最盛世时国境东西约九千里,南北约六千里。"% y* F% N! x+ c7 T0 A T
- ],
4 F3 F2 F6 w( [- s2 B# H - "chinese": "罗马", 7 l6 F, E8 {9 y0 y
- "english": "Rome"$ i! u2 Y+ K Y, e0 o
- },
复制代码
; V) e" y6 Z) G3 X/ f9 e+ E 使用emeditor提取出 "罗马" 和 "Rome" 为中英词头, "notes"底下的自然就是释义内容1 J% w; n( p& q( ~! G6 `) s
然后将 }, 改为 </>, 完成8 `" H2 ?% @4 r
" X. ^) z% B) N! z
3. 例如: 某个词频.xls 表格, 内容如下:
7 W0 @% p0 E, `* @3 o+ n* u- 1 the
$ }7 Z8 M9 R0 I- Z - 2 be9 r' H/ o* m5 x3 Q
- 3 and, m. }: h6 Q2 y9 Y- e
- 4 of
# A0 g1 }. b0 N. l$ A - 5 a
复制代码 # I1 X a% v8 [
复制到 emeditor, 找 (^.*?)\t(.*$), 取代为 \2\n\1 \2\n</>7 S' r/ A! R. `1 Y5 {
这样就完成了一个简单的词频词典, 要精美就要更多数据与排版了
4 L0 [6 l- p0 ~- d& z8 M2 s. n2 \6 ^/ N" i8 r1 x9 g
4. 例如: 某个 基础词汇.doc 文件, 内容如下:
+ A& ]8 g2 n/ p- L# P" G- 10. absolutely ['æbsəlu:tli] ' K. c* `. Z' g: H* N
- adv. 绝对地;完全地;是这样
复制代码
3 M" Q) L5 p2 M6 k& e 同样的, 复制到 emeditor, 再用emeditor整理成如下 mdx 格式.
& m) v( B/ M4 T7 Jabsolutely
3 l, \ O& x J( u7 \<tit>absolutely</tit> ['æbsəlu:tli] <pos>adv.</pos><def> 绝对地;完全地;是这样 </def>- _. @. q' g1 M; i( k$ T
</>
/ _6 p. ]+ v4 R4 n: G M$ H( h 再制做个对应的 .css, 调整颜色与排版, 完成.6 A X8 l0 a1 c
$ |0 J; e& [0 T* F: P3 K% j- X0 \
5. 例如: 某个词频.pdf 文件, 内容如下:( k8 h3 C9 g) }' s4 @: q: ?& c# d, S
- 1152 absolutely r
% C; r) T, e: W1 r - no, right, • nothing, sure, • necessary, ...
复制代码 6 Y% h$ R1 B5 w0 Y1 B- K9 B% y
同样的, 复制到 emeditor, 再用emeditor整理, 排版, 完成.
& O. ?$ P7 t5 |. S; Y0 x" y- z% j' x/ j% u1 g. o7 b. M7 b
不过有些PDF就不是这么顺利了..
% n- @/ M2 X; }) w |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?免费注册
x
评分
-
2
查看全部评分
-
|