发哥 发表于 2009-1-14 19:17:42

维基百科转mdx源文件制作工具

功能:
将所有mediawiki生成的dump文件转换为mdx html utf-8格式 可处理链接等一些东东。在条目大于1000000条时,会自动分割。如果想放到一起,可以用textforever再合并(超过1000000w条得wiki太大了。。,应该是其他语言的,非中文)

生成的文件名为wiki2mdx0.txt wiki2mdx1.txt等等

适用范围:
http://download.wikipedia.org里所有的xml文件:lol


用法:
1.cmd下 wiki2mdx abkdkeaf.xml
2.解压到和xml文件相同的目录下,把xml文件拖到此程序上,自动开始转换

下载地址:http://daminghome.com/tools/wiki2mdx.rar

http://blog.daminghome.com/tools/wiki2mdx.rar


优点:
基本不占内存,不影响正常上网。

缺点:
结构过于简单。最后会报一下无法找到吓一条的错误。懒得加判断了。~


作者:

我码出来的。。。

[ 本帖最后由 发哥 于 2009-3-14 19:26 编辑 ]

发哥 发表于 2009-1-14 19:30:16

速度视CPU牛B与否而定。
至强四核酷睿二大概是50页每秒
t5500的笔记本开最低频率是17页每秒左右。
生成的txt文件html标签较多,压缩率在26%左右。生成的txt比xml文件大一些。

发哥 发表于 2009-1-14 19:59:31

增加了一个自由指定最大页数的版本。
就是不能拖动着用了
http://daminghome.com/tools/wiki2mdxa.rar

发哥 发表于 2009-1-14 23:58:42

压缩率20%
试了个日文的。

ldlcau 发表于 2009-1-15 10:48:50

不错的帖子,谢谢楼主的努力和辛苦。

第3001人 发表于 2009-1-17 11:50:21

感谢提供

ern 发表于 2009-1-20 23:01:56

呵呵,感谢一下。

tony4d 发表于 2009-1-22 15:58:17

原帖由 发哥 于 2009-1-14 19:59 发表 https://pdawiki.com/images/common/back.gif
增加了一个自由指定最大页数的版本。
就是不能拖动着用了
http://daminghome.com/tools/wiki2mdxa.rar

运行后提示说"MUST SPECIFY THE MAX PAGE OF THE FILE"
请问怎么指定最大页数?

tony4d 发表于 2009-2-6 08:57:31

今天提取WIKI DIC日语版时出现错误提示无法转换:
"unable to handle any case setting besides 'first-letter' at w2.pl line 18."

发哥 发表于 2009-2-6 11:41:49

原帖由 tony4d 于 2009-2-6 08:57 发表 https://pdawiki.com/images/common/back.gif
今天提取WIKI DIC日语版时出现错误提示无法转换:
"unable to handle any case setting besides 'first-letter' at w2.pl line 18."
别理会这个..你看生成文件了没..
我忘记怎么指定页数了..
你在cmd下敲一下这个命令看看...

tony4d 发表于 2009-2-6 12:20:33

回复 10楼 发哥 的帖子

没有任何文件生成
要不你下载这个维基日文词典源文件看下是怎么回事
http://www.namipan.com/d/0203.xml/e0c779135dd95e8f95eefd5149bc273d014c0094af5b5a03

发哥 发表于 2009-2-6 16:17:47

不能处理分段的。。只能一次读一个整dump文件。。

tony4d 发表于 2009-2-6 16:47:50

回复 12楼 发哥 的帖子

啥意思啊。是我下载错了,还是维基词典的格式就是不行?
那MAC那英文维基词典是用什么工具做的啊,可否分享一下,我想做下这个日语维基词典。

发哥 发表于 2009-2-6 18:15:15

我只分析了维基百科和文库。辞典没注意过。貌似差不多吧。。这个程序本来是我写来处理英文维基的副产品。。

mac的词典是用原先的一个工具做的。。你发短信找他要就对了。

Macli 发表于 2009-2-6 21:37:44

转换工具在这儿:

https://pdawiki.com/forum/viewthread.php?tid=86&highlight=wikito

shinsenlin 发表于 2009-3-7 10:08:24

wiki2mdx文件生成

wiki2mdx转换后找不到生成的文件

tony4d 发表于 2009-3-7 11:38:02

在 C:\Documents and Settings\用户名\

borton 发表于 2009-3-7 23:35:33

几位大佬授人以渔,实在感谢。

santich 发表于 2009-3-18 03:08:57

报告使用结果:
我在转换西班牙文维基时报错,没有生成任何文本。西班牙文维基词条超过100万,xml文件体积在1.6G左右。

还请楼主解惑,谢谢了。

pdawiki 发表于 2009-5-6 20:31:44

wiki的图片文件是哪一个?
怎样制作有图片的wiki百科?
谢谢!
页: [1]
查看完整版本: 维基百科转mdx源文件制作工具