掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 5726|回复: 8

[使用交流] 准备发布 fastwik-zim, 用于转换 zim 格式的文件

[复制链接]

该用户从未签到

发表于 2014-3-7 20:29:20 | 显示全部楼层 |阅读模式
fastwiki-zim 已经开发完成, 目前进入了非常细的格式调整, 所以在此请大家进行测试反馈.) u% {- H& I2 q& j( j; C! p
5 h5 U, L. P2 v) ?8 M/ S
维基百科软件 kiwix 发布了许多语言的维基百科离线数据包, 详见:
! ?6 K1 ~3 @" H; ?0 Shttp://download.kiwix.org/zim/wikipedia/?C=M;O=D( I) {6 _, g: X( M" F6 e$ W
http://www.kiwix.org! |: }; ?8 a7 \3 o) t6 V
8 f# K. D) p0 b4 ?, K
这些文件比较大, 无法用于版本比较低的手机, 并且 android 的 kiwix 只支持 android 3.0 及以上版本. & @- ~, a( N4 P( q6 K5 q
另外, 最关键的是, kiwix 制作的维基百科与网站几乎一模一样, 真是非常完美, 因此, 有必要提供转换工具 fastwiki-zim 专门用于转换 zim 文件.
% V0 |: g  w. _/ X. O% \4 ]
% D# x7 d* M: u所以, 如有兴趣进行测试并反馈的, 可以先下载 zim 文件, 中文版的带图文件有 12G, simple english 有 1.7G, 也可以在百度网盘下载:
4 j; R5 R+ T0 i: s; whttp://pan.baidu.com/share/link? ... ir/path=%2Ffastwiki
% K  G4 r1 M* U4 i* S1 W  r进入 zim 目录就对了. 由于这些文件比较大, 所以大家可先下载, 等大家下载完了, 就能直接转换了.
  q, P! p7 ]8 ^* s5 g* C/ j
6 s% J; Q) Y. A7 W" N目前 fastwiki-zim 转换 wikipedia_zh_all_12_2013.zim 耗时 14分钟, 转换 wikipedia_en_all_02_2014.zim 耗时 120分钟.( f, R) u) j) D1 B  y, m

. A7 d* ^4 f8 ^, l( W; Y7 X2 O

该用户从未签到

发表于 2014-3-9 10:25:35 | 显示全部楼层
其实kiwix也不完美,主要问题是丢词条入口,不知道是kiwix的问题,还是它的zim数据库问题。
3 `) P: `. B0 C9 A( v5 J已经提交了一个bug了,比如安卓平台的kiwix软件+最新的zim英文数据库,手机上输入“ITX”并不能正常列出以itx开头的词条。但是在kiwix网站上则可以列出itx开头的词条。类似的有问题的词条还非常非常多,可能英文wiki中超过10%的词条都不能被查询到,使用非常不方便。! |: s3 D. u; r: U+ b/ t

. Y9 _; F- r8 \2 r1 P; n% f类似的词还有”ZBAA“……
" R+ i) j0 r7 ^, s% a$ [7 ~  X8 Y! t* e4 D7 r7 ]8 e8 D4 N7 k
以上是kiwix的最大的问题。

该用户从未签到

 楼主| 发表于 2014-3-10 13:17:02 | 显示全部楼层
tedaz 发表于 2014-3-9 10:25 % z5 g# V( b- I
其实kiwix也不完美,主要问题是丢词条入口,不知道是kiwix的问题,还是它的zim数据库问题。" y& [3 q6 f1 \/ r4 r3 a3 X
已经提交了一个 ...

6 ?9 W( T) |2 g. v2 z9 w6 ]8 \  k( B! f& K" \4 L$ d
应该是 kiwix 的索引问题,  
5 x- F# q+ {$ A' M. G' `% {# f& Lfastwiki-zim 转换了  wikipedia_en_all_02_2014.zim ,  使用 fastwiki-httpd 进行测试,
+ ~4 A) [- h# r2 r/ ~8 E查找 "ITX" 和 "ZBAA" 都没问题, 你有没有兴趣下载这个 zim 帮忙测试一下?
! L) [5 ?0 O. n
7 S- K- l- T9 U' l2 E! ]1 c不过, 转换后比 zim 大 9G, 共 49G, 主要原因是 kiwix 的页面中有许多内容是重复的,; ^& c# N1 O( i3 Q& e. k3 o( d
而 kiwix 使用的压缩块比较大, 所以它能压缩得比较小. 而 fastwiki 使用的压缩块很小,
  l. c" }$ Q' S5 f; b6 q% c所以压缩后整体上变大了. 小的压缩块的优点是查找快.
, U( X# I) e. ?6 U& K1 A" k9 S5 ^3 {( ]1 t( f
  • TA的每日心情
    开心
    8 小时前
  • 签到天数: 2004 天

    [LV.Master]伴坛终老

    发表于 2014-3-10 14:51:41 | 显示全部楼层
    了不起!!!谢谢LZ!!!

    该用户从未签到

    发表于 2014-3-10 20:04:46 | 显示全部楼层
    fastwiki 发表于 2014-3-10 13:17 6 \: z2 |  F3 @& y% w1 ^2 ]
    应该是 kiwix 的索引问题,  
    4 |7 l: r) `$ Z, ~: }- Cfastwiki-zim 转换了  wikipedia_en_all_02_2014.zim ,  使用 fastwiki-h ...

    " p% D, h/ P6 ^我觉得有可能是“wikipedia_en_all_nopic_01_2014.zim”有问题,请问如何把zim转换成fastwiki的格式?没找到工具下载。

    该用户从未签到

     楼主| 发表于 2014-3-11 12:23:51 | 显示全部楼层
    tedaz 发表于 2014-3-10 20:04
    5 P. Z% a, m  o' e3 U( K% t我觉得有可能是“wikipedia_en_all_nopic_01_2014.zim”有问题,请问如何把zim转换成fastwiki的格式?没找 ...

    4 F* R. ~! K' `7 s, S3 t) L! ~2 L" @& r1 F; l' g! i6 n8 P
    应该是 wikipedia_en_all_nopic_01_2014.zim 的索引问题, 它的数据是对的.
    4 D3 _; q% _. B( H! k6 W不过 fastwiki-zim 没有用它的索引. 5 l9 \! r5 m6 k$ Y; Z7 Y6 n" h4 A
    fastwiki-zim 刚刚发布, 欢迎使用和测试.
    , ?- }% O5 K4 b! L$ f/ f( ]& O# e+ j1 k5 n" \9 E

    该用户从未签到

    发表于 2014-3-11 22:03:55 | 显示全部楼层
    fastwiki 发表于 2014-3-11 12:23 5 S8 D2 q' J. y( _
    应该是 wikipedia_en_all_nopic_01_2014.zim 的索引问题, 它的数据是对的.
    , n  N2 p3 ]8 o$ `! ?/ e不过 fastwiki-zim 没有用它 ...

    / P1 |8 E! F* g) a0 J0 wfastwiki-zim转换出错了。源文件大约11.7GB,转出了0,1,2,3四个文件,其中后缀为.3的文件大小仅100多MB时就出错了。能在程序中加个异常处理,比如遇到异常时就写个log文件出来吗?
  • TA的每日心情
    郁闷
    2018-12-17 20:03
  • 签到天数: 2 天

    [LV.1]初来乍到

    发表于 2014-8-6 09:25:10 | 显示全部楼层
    本帖最后由 zjzengdongyang 于 2014-8-6 13:32 编辑 $ b% M* U" d. r4 H7 m$ g. s) u

      p6 z/ t, y9 a/ r5 l- d& e其实他的zim并非完美,在2013\2014年的中文zim中,有一些标签没有处理(中文特有如:{zh-cn:误区; zh-hant:誤解;}格式{zh-cn:...; zh-hant:...;}).
  • TA的每日心情
    郁闷
    2018-12-17 20:03
  • 签到天数: 2 天

    [LV.1]初来乍到

    发表于 2014-8-18 12:03:56 | 显示全部楼层
    解释一下
    - a) y+ J$ b- \" D4 A5 NC:\Documents and Settings\Administrator>H:\msys2\zim\fastwiki-zim-1.0-beta5.exe
    2 T  j8 y3 x0 v/ V-l en -d 201407 -f H:\msys2\zim\libstdc++-api.zim: L9 T6 t9 @8 ?$ S& P% h  U+ k' E
    total[0] = 849
    + b7 s/ i4 O4 `- t; u. H# sall count=36962307, read_count=0, error=176951051 x: R  i0 N6 q
    PUB: fastwiki.math.en.201407 count=0, error=17695105
    4 h7 X  D* z, v; }( bdone.5 c! e% k1 [8 @
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-4-29 16:11 , Processed in 0.061101 second(s), 9 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表