|
发表于 2016-12-21 22:13:56
|
显示全部楼层
2 p" O& c, b- V9 _4 d个人经验浅谈, 首先只要知道 mdx 源文件的格式是这样就好了.! o8 @" ]0 I! J/ i* b2 U; S* r
+ ?2 D1 Q* n6 ~词头% O$ Q6 Z0 \0 s' z7 H
释义内容+ C b) C( S" T) U5 K+ p! x# a) s9 X
</>
6 J! ~8 n; h4 K" i( [) W
: r' B! x9 ]; s- H9 _; p# E### 一、格式良好的文本数据
i. M. A6 ?. I1 m! {- Kindle 文字版电子书(mobi、epub)
! a4 q7 G+ a* D2 G0 Y! }0 i- 原始的 XML、JSON 等格式的词典数据[有极个别词典光盘,数据就是一个或多个 XML 文件]
. m5 F" C: r9 \1 ^+ o8 J- 区分了词头、内容的两列或多列 Excel 表格: Y" O! T1 H+ ^% j9 O- a% m7 \* H j* y+ m
- 自行整理、总结的各类适合制作为 mdx 的文本
+ ^6 g1 i$ d9 c8 b* A* {4 I. ?- 部分文字版 PDF ,这个得看运气了,有的好做,大部分尤其是多栏的、图文混排的很难做
1 o1 w2 k9 n0 |7 m6 h- 其他
2 C9 Z1 l+ W8 b
, u5 Z+ X) k; o. O1. 例如: CNET.epub, epub就是一个压缩文件, 解开, 内有两千多个 xhtml文件.
" H/ _6 n: p6 B' D 使用 emeditor 提取出所有 <body>与</body> 之间的内容,
7 a9 L M. ~/ x- P+ Y( ] 用正则将词头整理出来, 再将</body> 改为</>,
# `8 Q* y6 {$ p2 C- L# }! B 最后用 MdxBuilder, 一个初版mdx词典就完成了.
3 B) @5 w: Q+ V5 y' c) ?$ X+ z* l 再来就是要考虑如何排版与精美呈现.
9 p" Z0 d, t3 m/ y6 ~6 Z* A) a9 A W7 w6 I1 t
& w* r) p; d8 q3 t6 ?/ ^2. 例如: 某个JSON格式的词典数据, 内容如:2 ?) X2 G2 D& G. M6 c
- "notes": [9 |. W+ ]0 z/ j @8 u7 \
- "古国名,建国于主前753年,其最盛世时国境东西约九千里,南北约六千里。"' {& j" P+ s" ~8 v5 t! M2 _) a
- ], # W, ?8 P0 B" o7 [" H1 J
- "chinese": "罗马",
$ k) D) L! w8 u! w: s5 ^8 X - "english": "Rome"& S& v4 H- ~& b/ `1 x3 l
- },
复制代码
% A8 C) u- f& T# v. a, ]. x4 r3 h 使用emeditor提取出 "罗马" 和 "Rome" 为中英词头, "notes"底下的自然就是释义内容
, p/ G- ~5 W F: T1 U+ l$ e 然后将 }, 改为 </>, 完成" e/ i8 B: w2 ~/ {% H! [8 u
% b+ R, ~% y6 }- H2 L6 L0 W) {
3. 例如: 某个词频.xls 表格, 内容如下:* h! M) L" j, H0 J# a$ F& h3 J
- 1 the
6 y7 |7 _. ?5 D2 e/ h1 X7 i( M - 2 be
7 Y. {0 v( r( P) X8 w - 3 and8 I+ |/ @4 [. `3 a
- 4 of0 I" H; e# Q4 w" V) P: Z
- 5 a
复制代码
% @; `) q; v; H1 p 复制到 emeditor, 找 (^.*?)\t(.*$), 取代为 \2\n\1 \2\n</>) ?: q; y( g0 }( ^7 u7 Z# ^
这样就完成了一个简单的词频词典, 要精美就要更多数据与排版了7 M5 z; C1 U; \4 w
% {, w0 N3 O8 V3 b% R) D- d5 e
4. 例如: 某个 基础词汇.doc 文件, 内容如下:
2 x9 `$ `# [" [$ \: N) R9 P- 10. absolutely ['æbsəlu:tli]
) Y+ X; B7 `/ p2 J- |" W2 \6 C! u - adv. 绝对地;完全地;是这样
复制代码 * A, y+ a: i, Z) c) C
同样的, 复制到 emeditor, 再用emeditor整理成如下 mdx 格式.
( v1 ~ _7 {$ p: I' Babsolutely
/ {! ]- S+ {+ a2 P- z<tit>absolutely</tit> ['æbsəlu:tli] <pos>adv.</pos><def> 绝对地;完全地;是这样 </def>
! o( T% v$ q9 o& S( ]</>; ^: M/ N/ O4 p# s2 ~( d% [
再制做个对应的 .css, 调整颜色与排版, 完成.
/ i7 s/ M9 F# v# b3 O" _
# z7 i" ]1 w1 u: Z6 I' z( X* c( C5. 例如: 某个词频.pdf 文件, 内容如下:
u g; Y5 X6 }5 K3 A% g' s, ^+ A- 1152 absolutely r
8 E' p" [7 `: G2 `8 U# V" t; | - no, right, • nothing, sure, • necessary, ...
复制代码 1 Z# c) b6 |% p# Z/ {
同样的, 复制到 emeditor, 再用emeditor整理, 排版, 完成.
: b( r8 z s; D" r0 n; S0 S1 Y2 \% z5 H
不过有些PDF就不是这么顺利了../ w0 V2 ]7 D# Y- z; s9 @
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?免费注册
x
评分
-
2
查看全部评分
-
|