掌上百科

 找回密码
 马上开始注册

QQ登录

只需一步,快速开始

查看: 2586|回复: 8

[英语] 【2016/6/30更新】英文维基百科20160601/[June 30, 2016] English Wikipedia 20160601

[复制链接]
  • TA的每日心情
    无聊
    2018-3-10 09:40
  • 签到天数: 2 天

    [LV.1]初来乍到

    发表于 2016-6-30 19:09:20 | 显示全部楼层 |阅读模式
    本帖最后由 邱海波 于 2016-6-30 23:18 编辑 # }9 I4 |$ G! `' Y, T% n
    , U/ M+ F+ @" m. |- R
    ===========================================
    , y. s! I- Q* b! S. J& \*提示:如本帖关闭,无法回复,交流讨论,敬请移步专帖
    ' Z6 j& i/ T, L1 J. f+ c4 o! u===========================================  s- }1 L4 n1 ^- h0 f% ]$ }
    英文维基百科20160601(无图有公式试用版):
    ; u4 W& q  r- U/ L! v+ U7 ^# ~  S) _8 P* A' {* @
    (一).制作说明:! v% L' \$ F& Z: P  }
    1. 英文维基百科20160601(无图有公式试用版)
      . x* O* a0 K& k$ E
    2. ( R  ?1 u7 w! }
    3. 数据版本:2016年6月1日
      " i) F6 S* a' U/ j: _
    4. (1)制作信息:
      $ C8 ]2 O9 t9 Y8 L" F
    5. ·词条:12572680页面,352768公式
      2 ^" ?/ ^7 u% T& O
    6. ·日期:2016年6月30日 # I4 J3 R7 ^0 \5 \  R& @* m- E
    7. ·数据:http://dumps.wikimedia.org/enwiki : ]) x. j& y* H& w
    8. ·工具:wikicafe 1.0 & Mdxbulider 3.0 beta2 2 \% g6 A, ?& e7 D& \. C
    9. : B( W* H2 [+ l* p
    10. (2)更新日志:
      7 }1 [9 K& N; z" B0 ~7 `4 B" y9 s
    11. ·2016/6/30:20160601数据第一个无图有公式试用版 . f# Z! b( y& ~# u! z8 b+ k
    复制代码
    6 u; g+ a. a. Q+ Y2 F
    a.简介:2016/6/30更新。采用http://dumps.wikimedia.org/最新数据,使用wikicafe引擎(https://www.pdawiki.com/forum/fo ... hread&tid=13368)和mdxbulider转换制作。页面效果尚可,总计1257万词条+35万个公式内容。mdx文件总计12.03 GB,mdd文件总计0.92GB。
    / _" |8 o! {1 l(点击图片可以查看大图:)
    ' l& d. E4 S) B7 s- l+ P
    5 U' c# O( M3 ]! d& Fb.轶事:
    ! J6 j) D. B; |% G2 p. T) Z@@起因:制作英文维基百科的起因是因为几个论坛的朋友问我能不能制作英文维基。因为耗时耗力巨大,没想到自己这么有耐心和恒心,竟然完成了英文维基百科全文词典的制作。
    7 p* M0 E! A( r# y1 a@@耗时:词典源数据文件.bz2约12G,下载约一天。采用wikicafe引擎处理文本约一天,得到约45GBtxt数据文本。转制mdx、mdd约两天。上传耗时约两天,大约13GB文件,除其中一个1.3GBmdx上传用的联通上网流量卡外,全部用的移动4G。(见本帖底附图)发帖子两到三小时。
    ' m, b1 P# C/ N. }* P. q/ k@@其他:
    * u: Q) R2 N" @9 u9 I5 W! s
    @不采用i-wiki引擎是因为,解压后xml约47GB,光解压可能需要半天。47GB分割成单个100Mxml文件,再挨个处理,还要纠错,耗时无法估量。同时我也不是专业制作词典者,为了生计还得工作。至于有图版,mdict版本基本上无能为力,zim版本尚有一些希望。, ]) g, a9 u( E2 ?; ~
    @不制成单个mdx+mdd文件是因为做不到。mdxbulider 3.0beta2无法处理如45GB这么大量文本数据,大文件特别版 3.0beta1也不行,软件报错FC掉了。事实上,mdxbulider已经是2019-2010年时期的软件了,作者大大Rayman不更新,难为无米之炊。
    1 L8 ?7 T0 Z3 t8 Q- i. C  Y@最后处理手段是:下载的.bz2文件不解压,直接wikicafe引擎处理成txt文本数据,约45GB。再分割成2GB文本文件一个,每2GB文本文件处理首尾行词条内容。4个2GB文本文件合并为8GB文本文件,这样共6个大文本文件:5个8GB+1个5GB。6个大文本文件再经mdxbulider处理,前五个约2.0-2.5G不等,最后一个约1.3G。于是便是得到6个mdx,暂称为分卷一至六。6个mdd由于用的同一data数据文件夹,故内容、大小完全一致。下载时下载一个即可。: V. V9 H9 o7 J6 v$ [

    : X" Y% V9 N/ q' S& i(二).一些情况:$ U# J: a- I9 ?# M! L
    a.wikicafe引擎处理效率高,但对词条内容模板形式几乎未作处理,所以可能导致某些页面尤其是人名词条排版效果较差。介意效果者请勿使用。3 F% x, Z" ?5 _' c
    b.该版本无图有公式,仅供试用!不保证后续能对词条页面效果有所改善及及时更新。

    / D, j& {+ X! X" l8 s

    8 a$ R7 s# w1 m3 B, \- k9 K(三).下载地址:(.mdx+.mdd)* N  x) \5 a0 Z# F
    英文维基百科20160601(无图有公式试用版):   
    " q/ x+ x7 t& ~; w! L注意:一共六个分卷mdx,part1-part6。mdd文件六个完全一样,只下载一个即可。使用哪个mdx文件时复制改成同名mdd即可,如同时联合使用六个mdx,须有相应6个同名mdd文件。mdx文件总计12.03 GB,mdd文件总计157M(x6)。/ Y" @) b1 f3 _  \
    百度网盘: http://pan.baidu.com/s/1boZRhPt 密码: kkxd(开心刮刮乐:请按住鼠标左键向右刮奖,移动端请用复制功能刮奖)
    ( Z( r' O8 I2 ?' y. k6 f' p
    欢迎赞助!详见:https://www.pdawiki.com/forum/fo ... hread&tid=13545
    ; _6 }$ p$ a% L$ ~1 q8 B# @( v' y. ~$ C6 ?/ C% P& m4 m
    (四).联系本人:+ c) O& o# q3 t2 z* Y3 E
    微信qiuhaiboxujuan  " Z9 f+ ?& n2 d/ ?
    邮箱qiuhaibo@qiuhaibo.com  
    . T. M& t( M( j+ z9 ]( J% w* b  p  H" q
    (五).输出日志:
    7 |8 j; o& d* a7 `
    1. 英文维基百科20160601 Part1:
      6 C9 Y) o0 P9 p& C% g/ w+ M
    2. Begining loading source file...
      ; D9 ^! c9 X  z, c6 ?$ `9 D. _. {. M
    3. Done5 ]5 F4 a) q* \' }
    4. Time used for this section: 359 seconds
      4 X4 x8 ^5 ~% w
    5. Sorting dictionary...4 \1 M* Q% P5 i
    6. Done!, ~, ~5 ?" S! p( }5 f5 Y" k8 f
    7. Begin processing index...' x2 ]5 a# `! t! A' Y4 [
    8. Done!8 ~7 X7 f% t5 d- o- ?' A' d
    9. Original index size = 20506KB, compressed size = 8036KB, compression ratio = 39%6 s! k1 n% B' p, V* M
    10. Time used for this section: 38 seconds
      ; X9 ]3 m" y  z* Z# Z
    11. Begin processing data contents...
      7 w/ P) a( s: u- f
    12. Done!0 u, ~3 ^) z; \4 r$ {, i
    13. Original text size = 8370246KB, compressed size = 2469972KB, compression ratio = 29%9 p0 P# y2 s9 O6 r$ p8 S: _9 p
    14. Time used for this section: 4397 seconds: H& m3 ^8 F8 a, X! R
    15. Number of entries: 805657
      # |; O# s8 j1 b  |; Y' O
    16. Begining scaning data directory ...
      ( d0 x" s+ l2 U8 l) z9 B) u& Z
    17. Done+ S$ T! M/ n+ Y- m4 K, Z1 R6 T$ k- e
    18. Begin processing  data file index...- J3 t! l! \$ r  R% o0 p, y
    19. Done!+ c5 j. x5 [" F* P
    20. Original index size = 31004KB, compressed size = 9764KB, compression ratio = 31%
      5 ^0 N" q# x+ N+ ?( `- z" i
    21. Begin processing data file contents...2 X, f! V, s- [  }$ y3 ~2 b
    22. Done!. l% M- H$ O3 x6 G9 O
    23. Original text size = 183879KB, compressed size = 150311KB, compression ratio = 81%9 J! @- X* M1 h1 W5 [
    24. Number of entries: 3527684 y! L) a5 I  x7 u4 l6 d
    25. Conversion succeed!
      / }- C! z, \/ C7 \3 l9 {, I6 _" v9 J
    复制代码
    1. 英文维基百科20160601 Part2:# T- p; A: D4 a
    2. Begining loading source file...
      5 [% I) e% q; @! {
    3. Done- ~) }  G. [% R) F* K" F1 H& h( T
    4. Time used for this section: 478 seconds5 W: O9 Q+ r& F: X1 F0 c, i
    5. Sorting dictionary.../ D+ r: C% b  j& U" o( `4 h
    6. Done!# {% j4 K, t5 v4 ]) H' U
    7. Begin processing index...+ ~# j6 Z; U6 e
    8. Done!) y& j& f, C8 c; f- _( I: z. ~- d
    9. Original index size = 46356KB, compressed size = 18253KB, compression ratio = 39%
      . O2 k" w9 A6 t% p! Q
    10. Time used for this section: 82 seconds6 N7 r4 N; b6 h. `
    11. Begin processing data contents.../ e1 @0 V3 v6 r( r$ w
    12. Done!+ x/ w2 v- |! S! F
    13. Original text size = 8347297KB, compressed size = 2365370KB, compression ratio = 28%
      1 M3 H& l/ {, D4 F
    14. Time used for this section: 4540 seconds& b+ l8 `4 b- C- l8 I, L
    15. Number of entries: 1750061( ?0 J& Z1 m5 U1 p
    16. Begining scaning data directory ...
      / C8 d# ]! B4 E: |
    17. Done% ~* a' l: A) V: T# Y  }: ~: f
    18. Begin processing  data file index...0 C* g9 Q# l1 F; |: t# w
    19. Done!8 N; _2 Z; c) }5 N
    20. Original index size = 31004KB, compressed size = 9764KB, compression ratio = 31%' {9 E: }, Q$ d8 G$ I1 X# d0 M
    21. Begin processing data file contents...
      7 F7 V1 L! t+ u" f7 J8 r
    22. Done!* Q6 F% E" N( g/ J
    23. Original text size = 183879KB, compressed size = 150311KB, compression ratio = 81%) E! {: V; I) X9 w
    24. Number of entries: 3527683 v# d1 i- e; W7 ^, U) q
    25. Conversion succeed!
      3 z' D- O( ^0 w2 i9 k' u) T
    复制代码
    1. 英文维基百科20160601 Part3:9 e/ H0 }4 L8 t5 a- K* w
    2. Begining loading source file...
      " s% \$ g( L$ }
    3. Begining loading source file...+ u8 Y- V! A2 b& f/ ]( Q; {
    4. Done" V3 |/ Y, }8 R3 Y5 q, z9 T
    5. Time used for this section: 584 seconds5 H0 Q$ z% A: S7 m. x$ V
    6. Sorting dictionary...
      2 X! }. I0 F2 M* ?9 A8 N3 U2 P/ u0 l
    7. Done!; T) w/ M! v8 d4 g, K
    8. Begin processing index...
      9 z3 d" d: x: M2 `6 i! l6 n2 h
    9. Done!
      & u0 |9 g2 n& r  Z! z3 f% \
    10. Original index size = 72465KB, compressed size = 27582KB, compression ratio = 38%6 h7 u) u  [3 |+ T
    11. Time used for this section: 126 seconds& ]3 P  b" k. C+ Z- u- q
    12. Begin processing data contents...
      ( \, o0 E! Q) r5 P  f* }4 ^
    13. Done!& t6 I0 G) d8 `+ Q8 W
    14. Original text size = 8323802KB, compressed size = 2203724KB, compression ratio = 26%7 j  d( L: H* x4 _8 `: U" G- X
    15. Time used for this section: 4755 seconds
      2 F* l' I1 P4 e
    16. Number of entries: 2634700
      ' B, p- y! r6 j# u& k' _+ ?$ C0 [
    17. Begining scaning data directory ...+ F3 s& T6 K, }
    18. Done
      . @: R5 Y- }- Q
    19. Begin processing  data file index...
      / q! _, O. d) F: F
    20. Done!/ [6 t0 I, r7 a$ j" A7 Z7 A
    21. Original index size = 31004KB, compressed size = 9764KB, compression ratio = 31%
      ! I- ^" s2 l% }! ^6 W* |8 |
    22. Begin processing data file contents...7 E* Y* l) [8 n  T. ]& [
    23. Done!
      0 S5 I* X7 W7 i/ h' ?
    24. Original text size = 183879KB, compressed size = 150311KB, compression ratio = 81%2 f  Z5 U( V9 w$ C. k) @
    25. Number of entries: 3527681 |% Y8 P1 F* E
    26. Conversion succeed!
    复制代码
    1. 英文维基百科20160601 Part4:
      $ v4 e6 z0 ~7 C' O  J
    2. Begining loading source file...5 ~  ]- U/ k: M+ Y2 W
    3. Done
      ; |1 N- @) [( w+ _& i1 r- }
    4. Time used for this section: 606 seconds' J& g8 @1 |/ T1 u: T0 n* J
    5. Sorting dictionary...
      ( ~& r; h! U; m4 o
    6. Done!% a' p% s: o7 F# h
    7. Begin processing index.../ C4 K: e+ V; x# e+ n
    8. Done!" p: C& q3 w; W7 X" }
    9. Original index size = 81088KB, compressed size = 30120KB, compression ratio = 37%+ x! K2 y: H, `
    10. Time used for this section: 143 seconds( e+ j* P2 h1 U/ t. @
    11. Begin processing data contents...
      5 t5 v" I# m0 [% {5 Z4 N# c$ R
    12. Done!' o) L: N7 S4 w
    13. Original text size = 8315388KB, compressed size = 2101722KB, compression ratio = 25%
      ) }$ ~& b7 _- x
    14. Time used for this section: 5128 seconds3 p9 m9 I8 q; p
    15. Number of entries: 2848024
      7 X( [6 l  P. K+ M
    16. Begining scaning data directory ...
      9 {4 k+ N" Q. P$ y; e
    17. Done( Z! \5 q- V9 b. g
    18. Begin processing  data file index...2 n9 y; h1 N2 A7 f/ F) P- v4 {
    19. Done!
      0 v  _; R9 E$ D8 F- q7 @
    20. Original index size = 31004KB, compressed size = 9764KB, compression ratio = 31%+ V/ p9 ~, T, d! W+ M( @( e
    21. Begin processing data file contents.... J( {- y' a6 M6 u
    22. Done!
      ) M$ f* J* a5 c
    23. Original text size = 183879KB, compressed size = 150311KB, compression ratio = 81%
      8 s) A% D4 \5 |5 Y6 @, c* x
    24. Number of entries: 352768& ]8 l  Q2 I% A; @, R
    25. Conversion succeed!( X/ l5 z/ q4 W9 \4 a" }. L
    复制代码
    1. 英文维基百科20160601 Part5:2 t! ~. I7 `: L! }3 A
    2. Begining loading source file...
      0 L4 R% X5 p$ [2 Z- {0 `& L
    3. Done
      ; }% ]0 J2 i; K6 x2 G4 l7 [
    4. Time used for this section: 650 seconds" J0 J" B* w6 E6 v. f* o
    5. Sorting dictionary...% K  q4 C. V4 S8 C- P
    6. Done!4 I4 N" m) [! ^& Z6 b8 H- s
    7. Begin processing index...
      - X$ U5 J7 L8 i# m
    8. Done!; U7 L# t3 g8 Y- q$ a- c0 g
    9. Original index size = 76771KB, compressed size = 28896KB, compression ratio = 37%8 p+ }: o- b3 v' ?7 n9 F* S' v
    10. Time used for this section: 150 seconds: N# z) n( @7 ]$ m4 S
    11. Begin processing data contents...* ~# \1 H5 V) s: Y) K0 n
    12. Done!
      ; C! F% y9 C) d& O
    13. Original text size = 8319513KB, compressed size = 2036882KB, compression ratio = 24%+ e, m! }" f; H! }. [- i
    14. Time used for this section: 5448 seconds
      / l8 x# I; L4 s4 a9 Z; Q: s6 z
    15. Number of entries: 2681025
      # k6 c1 j1 j( i. A# {
    16. Begining scaning data directory ...2 v* f3 d: H! o+ \; r" q
    17. Done
      : `; y$ k/ |% E+ z
    18. Begin processing  data file index...
      9 x" d, t' Z0 y+ v
    19. Done!
      : H7 X! ~+ j8 ^7 Z& X  t
    20. Original index size = 31004KB, compressed size = 9764KB, compression ratio = 31%
      " H- ^  B0 W2 [  V) Y. K
    21. Begin processing data file contents...
      / F& p5 P" V; g+ ?( I
    22. Done!
      : h& X: o% }6 {; t! p& O, u
    23. Original text size = 183879KB, compressed size = 150311KB, compression ratio = 81%" @( k7 U8 ]5 ]/ \. u  Z
    24. Number of entries: 352768
      9 U% y) r. n  |) a0 N
    25. Conversion succeed!/ V; a& U7 {! z% b
    复制代码
    1. 英文维基百科20160601 Part6:! s. Y( M& z1 z+ {1 e) v# j  W
    2. Begining loading source file...
      6 o4 O2 ~% H  b1 V: c1 }" k' F
    3. Done( P" T- v: M3 B/ ?" b4 I
    4. Time used for this section: 370 seconds- P& Y' r7 v- U' q1 ^. Q- A0 Q
    5. Sorting dictionary...+ R3 Z. |/ T! j, Q8 m
    6. Done!& V- e5 ~7 |- P; L! ]* D
    7. Begin processing index...
      4 y7 F+ `! c' r1 _
    8. Done!/ t1 [+ y/ W! X% y8 J+ @- \* a
    9. Original index size = 55664KB, compressed size = 20975KB, compression ratio = 37%# `2 h2 O" k- u3 L+ }* K. I0 z
    10. Time used for this section: 89 seconds* w! N' E8 S# H) A0 x0 V
    11. Begin processing data contents...
      1 f6 e' J3 [$ F) _& J
    12. Done!7 N( z7 E, }* P3 ?+ N8 U+ T
    13. Original text size = 5246665KB, compressed size = 1275252KB, compression ratio = 24%
      / s8 H( _. ?( _/ e& h
    14. Time used for this section: 2826 seconds
      % C( P9 \/ x: \2 @
    15. Number of entries: 1853213
      9 N1 r9 k* M4 ]8 N9 k3 h! _2 O0 q7 J
    16. Begining scaning data directory ...) T3 Y. Z+ s# n+ j# B! j" d
    17. Done# U" g* s7 I6 H! W
    18. Begin processing  data file index...8 L2 N5 g" ~, \$ E; h1 w
    19. Done!
      8 _7 C! W% Q- H, I  ]9 ]" j
    20. Original index size = 31004KB, compressed size = 9764KB, compression ratio = 31%7 ]' C& D/ A1 C( b# j$ v# F: ]
    21. Begin processing data file contents...; q1 @& `5 @1 I5 L# g0 a
    22. Done!
      7 F" k0 e( d2 b% h, D
    23. Original text size = 183879KB, compressed size = 150311KB, compression ratio = 81%
      8 V/ K8 ]& y( S; n$ B0 m0 t- T
    24. Number of entries: 352768. m* ?4 S# ^2 `, k* g. B0 M
    25. Conversion succeed!
      9 Q% p$ _1 f! V$ n% j$ E
    复制代码

    * s; t  P) Y) W( j- C6 m===========================================7 w9 L" e% M. U! B1 ]5 c$ i! P+ ?

    # o) C1 W0 w" M2 k9 s) v9 X' R4 g6 m1 G
    ===========================================
    回复

    使用道具 举报

    该用户从未签到

    发表于 2016-7-2 08:32:43 | 显示全部楼层
    多謝波波分享。  x, J4 R! }9 G5 {. g- H, {. b
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    发表于 2016-7-2 09:34:33 | 显示全部楼层
    本帖最后由 arisaema 于 2016-7-2 09:50 编辑 * D; n, ]% N3 Y1 X% Q
    7 }3 i! V, v) d4 `: y, j
    工程浩大,必须支持!微信已捐Cam***_KBG
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    昨天 07:13
  • 签到天数: 160 天

    [LV.7]常住居民III

    发表于 2016-7-2 10:00:14 | 显示全部楼层
    感谢感谢 ,必须下载的。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    20 小时前
  • 签到天数: 57 天

    [LV.5]常住居民I

    发表于 2016-7-4 21:22:55 | 显示全部楼层
    本帖最后由 kyletruman 于 2016-7-4 21:38 编辑 5 J  W1 \& w# s0 D, e" O- @
    ! X: U, H' F+ c+ U% J, l
    感谢楼主制作分享,但我发现了一个问题:2016.6.1的文维基百科缺Donald Trump词条
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    无聊
    2018-3-10 09:40
  • 签到天数: 2 天

    [LV.1]初来乍到

     楼主| 发表于 2016-7-6 20:15:21 | 显示全部楼层
    arisaema 发表于 2016-7-2 09:34
    6 \1 u% T4 @+ B5 A8 B工程浩大,必须支持!微信已捐Cam***_KBG
    . ]% `9 I3 T- P9 m# o) |
    谢谢你的支持!
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    无聊
    2018-3-10 09:40
  • 签到天数: 2 天

    [LV.1]初来乍到

     楼主| 发表于 2016-7-6 20:15:52 | 显示全部楼层
    kyletruman 发表于 2016-7-4 21:22
    5 ?3 L  X1 z/ q. f1 b感谢楼主制作分享,但我发现了一个问题:2016.6.1的英文维基百科缺Donald Trump词条
    4 g2 t' O% o) K3 e
    好的,回头我看看。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    难过
    5 天前
  • 签到天数: 27 天

    [LV.4]偶尔看看III

    发表于 2016-7-18 20:00:39 | 显示全部楼层
    楼主威武,坚韧不拔。谢谢
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    无聊
    14 小时前
  • 签到天数: 53 天

    [LV.5]常住居民I

    发表于 2018-3-24 22:21:50 | 显示全部楼层
    手机不够用啦,电脑下。谢谢楼主!!!
    回复 支持 反对

    使用道具 举报

    您需要登录后才可以回帖 登录 | 马上开始注册

    本版积分规则

    Archiver|手机版|小黑屋|Pdawiki

    GMT+8, 2018-4-24 20:53 , Processed in 0.024683 second(s), 10 queries , MemCache On.

    Powered by Discuz! X3.4

    © 2001-2017 Comsenz Inc.

    快速回复 返回顶部 返回列表