掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 893|回复: 4

[求助] 我制作英文维基百科时遇到麻烦.

[复制链接]

该用户从未签到

发表于 2010-4-23 15:42:09 | 显示全部楼层 |阅读模式
1.我看下载原数据时,有好多个文件,不过我跟据自己的看法下了enwiki-20100312-pages-articles.xml.bz2.$ W* n+ n/ M' M( n- ?2 I9 f
不知道对不对,请大家说说,是不是用这个文件.
- H  s! C7 F* L5 c2.解压后25.4G.太大了.我打算用minirain的Wiki2TXTv2.1.exe做.但是剩余时间超过了14400分钟.我现在在念大学.每天晚上要断电的.请问怎么把XML文件分割后转换.
3 b3 N$ {; d) `' `* V4 d$ B我看他的说明是用SplitXmlAndCollectTitles0.4.exe分解.请问,这个程度在哪里下载.我在网上找了,找不到.或者用其它的分解软件 也行,请告诉我下载地址和教程.% s5 u4 M4 w) D
3,当分解后是不是分别用Wiki2TXTv2.1.exe转换后,再用工具合并,合并后在用MdxBuilder制作?请问要用什么工具,怎么弄,谢了.......( v/ a3 u, p% U
就这么多了.3 X1 h7 ~! G: `2 \% O
谢谢大家了.如果我能做出来,就算让我的电脑一直转一星期也没问题得..关键是嘿 嘿 ,我这里要断电,要分开做....
  • TA的每日心情
    开心
    2018-7-19 02:16
  • 签到天数: 20 天

    [LV.4]偶尔看看III

    发表于 2010-4-23 20:45:01 | 显示全部楼层
    可以让minirain老大给你写个分条转换的wiki2txt
    7 b9 J; e) g8 e- ^短信pm他即可。呵呵

    该用户从未签到

    发表于 2010-4-23 23:04:11 | 显示全部楼层
    本帖最后由 philostone 于 2010-4-24 07:28 编辑 2 w2 n( X+ `) r- }- ]
    . ^% `) k. b8 t* K/ ?
    这是分割工具,DOS下运行,输入需要分割成的文件体积(MB为单位)即可。
    1 u, d+ I1 Z" P4 \+ T! B% j. |前段时间我试做过3月12日版的。最后做出来的文件有4.76G(合并时因为空间有限直接删了切开的文件)。单个文件超过4G没办法在PPC上用,所以没打算上传!(附的两张图即为该文件PC使用效果图)7 @# A7 w" ^1 o
    如果维基4月下旬或5月上旬更新数据的话,我想应该学发哥上一版本的做法,分为两个文件来做,以便能放到卡上用。; [' I1 |+ E, X3 D3 Q' e1 v  d5 c
    做法的确是:
    & B9 g2 l9 V( @% i  Q! n1.下载pages-articles.xml.bz2文件;7 ?. a1 |1 s/ [9 L/ R
    2.解压并SplitXmlAndCollectTitles0.4.exe分割(建议分为8至9个文件);% ~$ T1 _4 D, B) r
    3.用WIKI2(TO)TXT工具转换为TXT文件;! W: G; D0 z" ^7 j
    4.用MDXBUILDER试转每个TXT文件,以便发现其中存在的问题,主要是几处词条题目超过1024字节;3 N  u5 c3 R9 T8 q
    5.修正几处词条题目超过1024字节的问题(大约有6、7处,记不清了),使用UE32比较好;
    + }0 ?* R9 Y& H6 n1 @  w6.用TXTFOREVER合并TXT为两部分;
    ' d% S' m* f6 M* a) o7.用MDXBUILDER转换……

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

     楼主| 发表于 2010-4-24 12:06:42 | 显示全部楼层
    3# philostone
    - N/ d1 W* o8 u' R, h4 g那算了,我还是不做了.....PPC上不能用,没意义得....不过老大能否把你做的精简一点点,控制在3.8G,再上传.在下感激不尽.......

    该用户从未签到

    发表于 2010-4-24 13:24:05 | 显示全部楼层
    因为3月12日版的数据是我第一次成功做成的英文维基百科,所以做的时候想得比较少。做完就删了XML和TXT文件,往卡上拷贝才发现问题。虽然知道像发哥上一版那样做成两个MDX文件就可以在PPC上用了。而且由于MDict词典的联合功能把两部分合在一起用应该没问题。但我已经不想再花时间去改做这个版本的MDX文件了。! `/ P' o6 L; t! _* m) k* c/ O
    而精简恐怕只能在分块转为TXT后,没合并前进行。但那些体积巨大的TXT我已经删了!2 d5 d1 k% I7 E3 s( ~
    即使没删,在不伤主体内容的情况下打开编辑并精简掉7、8百兆也是极为困难的。, d+ c4 G2 u3 {# i
    另外,如果你想试着做的话,最后一步应该用MDXBUILDER“大文件特别版”(论坛软件部分置顶帖里有)来转换TXT为MDX。- c/ K" v0 |2 [
    4# xtwfyvcb
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-5-24 02:01 , Processed in 0.133773 second(s), 13 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表