|
本帖最后由 philostone 于 2012-3-1 17:51 编辑 " K& q% h& L7 U7 ~$ i" l: Y* \# i- \' A
! i& A$ q% C5 j* i0 B# T% Y! k4 `2 C0 A1 J
一、准备维基资源数据文件
1 V' F U( J, [" z/ g9 }1. 登陆维基资源数据网站http://dumps.wikimedia.org/backup-index.html;
$ S8 m* L* ?& ~& {/ Y( V' g2. 在该网页上查找想要的维基资源(可以用ctrl+f快捷方式),中文代码为zh,意大利文代码是it,zhwiki就是中文维基百科的数据,itwiki就是意大利文的维基百科数据;
8 I7 R/ q, x# O7 R8 ]3. 在具体资源网页上下载文件结尾含pages-articles.xml.bz2的文件;9 N3 D0 H( f: }. o
4. 下载后解压出文件结尾含pages-articles.xml的文件,把文件名中pages-articles.xml前的部分删掉。
- `: M0 ~" ]- ~. {" S4 Z ~0 X3 t! ~) B
二、准备并使用xml转txt的工具,这种工具很多,操作最简单的主要有两种:
% `: i" A6 q. ]/ c. e' k1. WikiToMDict2.0.exe 下载地址http://115.com/file/dpdhh53x#3 H0 j6 E2 k1 y8 ~) c4 ?. E
在DOS下(CMD下)转到工具所在目录,(不管转何种语言的何种维基资源)键入wikitomdict2.0执行转换;
* @7 O o6 T' M/ _9 L; g2. Wiki2TXTv2.1.exe 下载地址http://115.com/file/e73kk63j#
. x) J$ e2 N. p* A; N在DOS下(CMD下)转到工具所在目录,键入wiki2txtv2.1 it wp(注意it前后各有一个空格)。其中it 表示意大利语,如果你转的是中文资源需要用zh 代替it;wp表示百科,如果你转的是文库,则应键入ws。$ X( Y ^7 Z' ]3 f5 x
3. 等待一定时间即可完成格式转换(转好的txt文件可以重命名)。
+ B8 {% I3 }4 Y$ N$ h1 ^
^7 v" e) _! J$ p4 d三、用Mdxbuilder转换TXT文件为MDX文件2 @1 S7 V+ f/ D. k" v/ |$ x% z
1. 下载最新版的Mdxbuilder程序文件,5 G) E; |7 A% R: H0 d: d
2. 在source栏浏览找到转好的txt文件,在Target栏键入想要转换成的mdx文件名(及其路径),style栏可以留空,data栏是在有图片、声音等其他附属文件时才用的,如果有这类文件,输入其所在地址和文件名,original format一般选 MDict(Html),encording一般默认选UTF-8(Unicode),但在法语等语种最好用UTF-16,当然相应的上面的txt也得先打开另存或用其他工具转为UTF-16编码;Title就随便写个标题了;Description主要是词典封面设计,可有可无,了解些html语言,如同设计网页一样可以把词典封面设计得很漂亮,比如你在data所指的文件夹中存了个名为X的图片,你就可以用<img src="/X">把图片弄到封面上……# m/ {% N% H$ R8 R) C& _# ]# u
这些完成后点start就开始转换了,依文件大小时间长短不等。) A" w, z) j4 Z' I/ N) H* F
( [ ~, r7 l H" d- s7 L8 @
四、可能遇到的问题
4 `/ N( N+ z* g3 l1 ^: i# w1. 如果转换时出现词条名过长的错误,就得按Mdxbuilder提示的位置,打开txt文件查找修改。打开大txt文件推荐使用uedit32(请自己到软件网站或利用迅雷等下载工具下载新版本来使用)。打开文档后,首先ctrl+h切换成十六进制模式,再ctrl+g 输入Mdxbuilder提示的出错位置并查找,然后再ctrl+h切换成文本模式找到对应位置对词条标题进行修正。修正时,如果不好确定词条名,建议到http://www.wikipedia.org/,在相应语种维基资源下,粘贴入从该问题词条中复制的一段正文来找到词条标题。
% Q" |0 b- Q2 f; q, T+ _% ^' {7 I) m$ P2. 下载解压后的XML文件过大,比如英、德、法等语种的维基资源,可以使用Split.exe这个程序(下载地址http://115.com/file/be6dijue#)来劈成多个部分来转为txt,再用TextForever.exe这个软件(下载地址http://115.com/file/dpdh0bl8#)来合并。
, n5 m' B+ k. z! `7 d% t; i( W) q! j% P; L/ F
5 g: B% h& V' j# F( _
附:ISO 639-1语言及代码
8 r1 F, Y- M6 L3 D |
|