|
发表于 2016-12-21 22:13:56
|
显示全部楼层
- }2 |9 o8 V, v9 n) x6 _. ]个人经验浅谈, 首先只要知道 mdx 源文件的格式是这样就好了.* P. a' r8 w2 t) ~+ s6 `7 m
5 j2 v5 r' {, D: s
词头
7 U. B% k, S! v释义内容% ~' D7 T9 [7 U# @+ V) P
</>; g1 D, X. ?3 w% R5 J8 O
- X8 R. J$ i* M### 一、格式良好的文本数据 V5 {# z- [; i' b( j
- Kindle 文字版电子书(mobi、epub)" U' T7 z* e7 }6 D. L0 f: J% k
- 原始的 XML、JSON 等格式的词典数据[有极个别词典光盘,数据就是一个或多个 XML 文件]
- e! a# }7 ~! v7 Z( k. O- 区分了词头、内容的两列或多列 Excel 表格
& q' `' I6 N' @9 m7 R. @8 l( j- 自行整理、总结的各类适合制作为 mdx 的文本
: i4 m, S* u" x4 F/ o; P# C- 部分文字版 PDF ,这个得看运气了,有的好做,大部分尤其是多栏的、图文混排的很难做
4 O! \7 k1 {, A% k4 n- 其他
6 Y: Z/ r, [- a# i) r" x! H5 s: p8 X6 u
1. 例如: CNET.epub, epub就是一个压缩文件, 解开, 内有两千多个 xhtml文件.$ @. |$ e- }. |# b" {
使用 emeditor 提取出所有 <body>与</body> 之间的内容,% O& v! q' a$ y; W5 s: g: d
用正则将词头整理出来, 再将</body> 改为</>,
1 {1 v S {) p6 U# o$ y4 Z 最后用 MdxBuilder, 一个初版mdx词典就完成了.( {6 m7 [' r f2 ~% N
再来就是要考虑如何排版与精美呈现.
- L$ q9 b( ~, @9 a1 S) e# \. x: f
/ W) }5 d1 ~9 Q4 O1 T2. 例如: 某个JSON格式的词典数据, 内容如:- y q5 V1 [" k5 O
- "notes": [$ u1 W" f1 l: `7 K+ S
- "古国名,建国于主前753年,其最盛世时国境东西约九千里,南北约六千里。"
1 M1 D. L! q' Q0 z9 B - ],
; [( k* b; K7 v- n - "chinese": "罗马", 7 \" f2 ~) U6 r) ?' H9 A
- "english": "Rome"2 v. M4 N9 g! g& }% J# W/ R
- },
复制代码
- e6 H* c3 J T! L4 u4 ]9 E* z 使用emeditor提取出 "罗马" 和 "Rome" 为中英词头, "notes"底下的自然就是释义内容
' x/ ?# m. y9 V0 ^ 然后将 }, 改为 </>, 完成) T2 S9 J5 \$ Q
& @( Q7 s5 F$ B5 E) c% H7 H3. 例如: 某个词频.xls 表格, 内容如下:" m, \! `$ I& F$ G: O
- 1 the$ x4 c7 B) r" Z! q1 D' @% s2 K
- 2 be2 [/ D, P9 t* N/ E, W- O* t& s* o
- 3 and! Q {% f3 J1 e) \2 {$ T
- 4 of
2 ?' U I& ~- V1 B$ S) z& P) s% r$ e: ] - 5 a
复制代码 * _* |; |3 j" g9 v$ p7 B2 f/ L: I
复制到 emeditor, 找 (^.*?)\t(.*$), 取代为 \2\n\1 \2\n</>
) |% z( ^# \2 z, e. b4 e 这样就完成了一个简单的词频词典, 要精美就要更多数据与排版了' K+ V" q h; S9 ?3 s
3 ]% V1 e, A$ }1 b7 O4. 例如: 某个 基础词汇.doc 文件, 内容如下:( b( c, _, z/ l1 p; I; q
- 10. absolutely ['æbsəlu:tli] ) f0 R4 u: Y' e& y) V
- adv. 绝对地;完全地;是这样
复制代码 3 C7 {! _3 v* g6 U
同样的, 复制到 emeditor, 再用emeditor整理成如下 mdx 格式.1 O% N0 K" C9 ]( u/ z
absolutely
7 w/ V9 Z$ O' r( j<tit>absolutely</tit> ['æbsəlu:tli] <pos>adv.</pos><def> 绝对地;完全地;是这样 </def>
( n4 @7 d6 g9 o- F</>
2 L3 k2 w8 q+ B1 _( \ 再制做个对应的 .css, 调整颜色与排版, 完成.
4 l' k9 T+ L8 t) {
& J' v) D: m* n& E1 X3 b5. 例如: 某个词频.pdf 文件, 内容如下:( g6 q' l; {. f3 j4 b
- 1152 absolutely r
% D, `' _0 z; u; B3 ]- L& ` - no, right, • nothing, sure, • necessary, ...
复制代码 ! e1 O0 `4 W7 P- c8 W- g J
同样的, 复制到 emeditor, 再用emeditor整理, 排版, 完成.. j, n8 l+ @2 m# ~$ C! A6 z
W& p2 D6 G# g# k 不过有些PDF就不是这么顺利了..
) n9 z: E% ~% B8 ^9 `- I |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?免费注册
x
评分
-
2
查看全部评分
-
|