|
发表于 2016-12-21 22:13:56
|
显示全部楼层
* a- h/ w' G: p4 Z0 _# s! w个人经验浅谈, 首先只要知道 mdx 源文件的格式是这样就好了.
! W* x, {0 [1 t" R. c% D% Z$ @6 f! j0 D, |
词头8 |; i* ]1 t' f" Y
释义内容4 K) T, b. ?7 ?% e5 M! ?
</>
+ o& `3 L q* m& Z# v* _% z5 B
" x# l8 M- Z( Q+ s### 一、格式良好的文本数据
" Z! C/ m* t9 e5 n9 J( }- G- Kindle 文字版电子书(mobi、epub). E# l- G2 Y1 Z! m8 e$ e
- 原始的 XML、JSON 等格式的词典数据[有极个别词典光盘,数据就是一个或多个 XML 文件]
4 ]6 B" K2 ]5 Z8 M% S* @0 u& F# m4 q- 区分了词头、内容的两列或多列 Excel 表格
" f! i5 y; T/ a; j8 `- 自行整理、总结的各类适合制作为 mdx 的文本
# Y9 l- {" d- G. D1 ]! L `3 {% r- 部分文字版 PDF ,这个得看运气了,有的好做,大部分尤其是多栏的、图文混排的很难做
& E4 y' q* r, }: o% G9 E- 其他 2 N8 t5 ^! l* J; j5 z
( l, I: y+ M* F0 f: L# ~3 q1. 例如: CNET.epub, epub就是一个压缩文件, 解开, 内有两千多个 xhtml文件.7 y8 S' x3 J% H6 X
使用 emeditor 提取出所有 <body>与</body> 之间的内容, x# K/ s' g! M3 B
用正则将词头整理出来, 再将</body> 改为</>, $ f1 y4 }) k2 m2 a
最后用 MdxBuilder, 一个初版mdx词典就完成了.$ d7 ^2 l6 l$ S3 q6 {; i
再来就是要考虑如何排版与精美呈现.2 [* h+ P" @7 F) W. V; A% J2 C, ]9 b2 f
3 {% ^" W. X1 R! h. w, H
. [+ I9 D! m7 b Q: F' W
2. 例如: 某个JSON格式的词典数据, 内容如:! `7 i5 q }: g# q, Q ~
- "notes": [5 t, y2 M5 O* J$ v" u( V4 U$ O1 e
- "古国名,建国于主前753年,其最盛世时国境东西约九千里,南北约六千里。"6 F) q5 o% P V& Y0 V' w; W: c
- ], , {1 R k6 F3 Z% p9 a, L
- "chinese": "罗马",
) o \) X$ w" i' J `$ b - "english": "Rome"
6 E+ W/ T6 B( w* `& s" w - },
复制代码 , d5 r4 a- s0 R
使用emeditor提取出 "罗马" 和 "Rome" 为中英词头, "notes"底下的自然就是释义内容) a0 e0 p, b# X+ ^; o$ e4 I( s! S
然后将 }, 改为 </>, 完成
0 G# ?. M* V! ?# u
" L, j( J0 a+ X$ n( ^1 _* L3. 例如: 某个词频.xls 表格, 内容如下:
! i; c+ v; W7 m- o. C: u7 m- 1 the
# |1 i8 k c7 Q7 C0 f d# e# E - 2 be
# S; j: @; ~4 h+ e - 3 and
( K0 C3 r8 r2 y/ t m - 4 of! w% o3 g5 n+ ~( ?7 [. B: ?. C
- 5 a
复制代码 , I; D) }+ F3 f" H2 T- O2 ~
复制到 emeditor, 找 (^.*?)\t(.*$), 取代为 \2\n\1 \2\n</>, e- ?' V8 C- Z. F0 c) \/ {
这样就完成了一个简单的词频词典, 要精美就要更多数据与排版了
) Y( B' e0 N5 l% T8 g
* f1 A: p8 k4 L. h1 r4. 例如: 某个 基础词汇.doc 文件, 内容如下:) g3 }3 Y" Q n' f0 F
- 10. absolutely ['æbsəlu:tli] 7 y% x' a- _, y6 m
- adv. 绝对地;完全地;是这样
复制代码 # [+ z5 ^6 l9 B* h0 p
同样的, 复制到 emeditor, 再用emeditor整理成如下 mdx 格式.
$ }) e4 _6 G# H" Nabsolutely
X5 n! C) c# {<tit>absolutely</tit> ['æbsəlu:tli] <pos>adv.</pos><def> 绝对地;完全地;是这样 </def>
, g. d2 I5 Y7 [; n' ]' s1 l# z/ {</>+ G5 g1 Q' l$ Y* p4 P: I6 b, |0 u
再制做个对应的 .css, 调整颜色与排版, 完成.
* x Q! C2 u8 p4 V) I
3 A) _. B& `; w2 L4 p5. 例如: 某个词频.pdf 文件, 内容如下:
' T6 j q+ Y2 i" S# h- 1152 absolutely r: v8 a6 l- \! d9 x1 N }- Q6 ]
- no, right, • nothing, sure, • necessary, ...
复制代码
; L8 F6 W7 L2 j: E; a 同样的, 复制到 emeditor, 再用emeditor整理, 排版, 完成.9 ^( c8 _1 \+ i9 Y- d& [9 L- f/ h
9 ]+ Z! N+ M* l$ ~/ ]
不过有些PDF就不是这么顺利了..
* G" N" {3 w; r* z0 A) e9 d |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?免费注册
x
评分
-
2
查看全部评分
-
|