|
1.我看下载原数据时,有好多个文件,不过我跟据自己的看法下了enwiki-20100312-pages-articles.xml.bz2.$ W* n+ n/ M' M( n- ?2 I9 f
不知道对不对,请大家说说,是不是用这个文件.
- H s! C7 F* L5 c2.解压后25.4G.太大了.我打算用minirain的Wiki2TXTv2.1.exe做.但是剩余时间超过了14400分钟.我现在在念大学.每天晚上要断电的.请问怎么把XML文件分割后转换.
3 b3 N$ {; d) `' `* V4 d$ B我看他的说明是用SplitXmlAndCollectTitles0.4.exe分解.请问,这个程度在哪里下载.我在网上找了,找不到.或者用其它的分解软件 也行,请告诉我下载地址和教程.% s5 u4 M4 w) D
3,当分解后是不是分别用Wiki2TXTv2.1.exe转换后,再用工具合并,合并后在用MdxBuilder制作?请问要用什么工具,怎么弄,谢了.......( v/ a3 u, p% U
就这么多了.3 X1 h7 ~! G: `2 \% O
谢谢大家了.如果我能做出来,就算让我的电脑一直转一星期也没问题得..关键是嘿 嘿 ,我这里要断电,要分开做.... |
|