维基百科转mdx源文件制作工具
功能:将所有mediawiki生成的dump文件转换为mdx html utf-8格式 可处理链接等一些东东。在条目大于1000000条时,会自动分割。如果想放到一起,可以用textforever再合并(超过1000000w条得wiki太大了。。,应该是其他语言的,非中文)
生成的文件名为wiki2mdx0.txt wiki2mdx1.txt等等
适用范围:
http://download.wikipedia.org里所有的xml文件:lol
用法:
1.cmd下 wiki2mdx abkdkeaf.xml
2.解压到和xml文件相同的目录下,把xml文件拖到此程序上,自动开始转换
下载地址:http://daminghome.com/tools/wiki2mdx.rar
http://blog.daminghome.com/tools/wiki2mdx.rar
优点:
基本不占内存,不影响正常上网。
缺点:
结构过于简单。最后会报一下无法找到吓一条的错误。懒得加判断了。~
作者:
我码出来的。。。
[ 本帖最后由 发哥 于 2009-3-14 19:26 编辑 ] 速度视CPU牛B与否而定。
至强四核酷睿二大概是50页每秒
t5500的笔记本开最低频率是17页每秒左右。
生成的txt文件html标签较多,压缩率在26%左右。生成的txt比xml文件大一些。 增加了一个自由指定最大页数的版本。
就是不能拖动着用了
http://daminghome.com/tools/wiki2mdxa.rar 压缩率20%
试了个日文的。 不错的帖子,谢谢楼主的努力和辛苦。 感谢提供 呵呵,感谢一下。 原帖由 发哥 于 2009-1-14 19:59 发表 https://pdawiki.com/images/common/back.gif
增加了一个自由指定最大页数的版本。
就是不能拖动着用了
http://daminghome.com/tools/wiki2mdxa.rar
运行后提示说"MUST SPECIFY THE MAX PAGE OF THE FILE"
请问怎么指定最大页数? 今天提取WIKI DIC日语版时出现错误提示无法转换:
"unable to handle any case setting besides 'first-letter' at w2.pl line 18." 原帖由 tony4d 于 2009-2-6 08:57 发表 https://pdawiki.com/images/common/back.gif
今天提取WIKI DIC日语版时出现错误提示无法转换:
"unable to handle any case setting besides 'first-letter' at w2.pl line 18."
别理会这个..你看生成文件了没..
我忘记怎么指定页数了..
你在cmd下敲一下这个命令看看...
回复 10楼 发哥 的帖子
没有任何文件生成要不你下载这个维基日文词典源文件看下是怎么回事
http://www.namipan.com/d/0203.xml/e0c779135dd95e8f95eefd5149bc273d014c0094af5b5a03 不能处理分段的。。只能一次读一个整dump文件。。
回复 12楼 发哥 的帖子
啥意思啊。是我下载错了,还是维基词典的格式就是不行?那MAC那英文维基词典是用什么工具做的啊,可否分享一下,我想做下这个日语维基词典。 我只分析了维基百科和文库。辞典没注意过。貌似差不多吧。。这个程序本来是我写来处理英文维基的副产品。。
mac的词典是用原先的一个工具做的。。你发短信找他要就对了。 转换工具在这儿:
https://pdawiki.com/forum/viewthread.php?tid=86&highlight=wikito
wiki2mdx文件生成
wiki2mdx转换后找不到生成的文件 在 C:\Documents and Settings\用户名\ 几位大佬授人以渔,实在感谢。 报告使用结果:我在转换西班牙文维基时报错,没有生成任何文本。西班牙文维基词条超过100万,xml文件体积在1.6G左右。
还请楼主解惑,谢谢了。 wiki的图片文件是哪一个?
怎样制作有图片的wiki百科?
谢谢!
页:
[1]