掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 5727|回复: 8

[使用交流] 准备发布 fastwik-zim, 用于转换 zim 格式的文件

[复制链接]

该用户从未签到

发表于 2014-3-7 20:29:20 | 显示全部楼层 |阅读模式
fastwiki-zim 已经开发完成, 目前进入了非常细的格式调整, 所以在此请大家进行测试反馈.
6 N( T: f% @4 k1 [& ^
+ V$ N  i  s$ `) Y. i维基百科软件 kiwix 发布了许多语言的维基百科离线数据包, 详见:% \0 ]# }$ {- M8 B9 e
http://download.kiwix.org/zim/wikipedia/?C=M;O=D1 B* e3 ?  r2 c( B* a' s, @
http://www.kiwix.org" m. _" s9 O: ?

2 D1 ^: `5 j' |: R+ o这些文件比较大, 无法用于版本比较低的手机, 并且 android 的 kiwix 只支持 android 3.0 及以上版本. ) |! r. Y2 s5 m! A  A% i' j# X$ h
另外, 最关键的是, kiwix 制作的维基百科与网站几乎一模一样, 真是非常完美, 因此, 有必要提供转换工具 fastwiki-zim 专门用于转换 zim 文件.
& O' ]( S# e) H1 @6 L
" x3 ?, p% a6 R; M; ?, n所以, 如有兴趣进行测试并反馈的, 可以先下载 zim 文件, 中文版的带图文件有 12G, simple english 有 1.7G, 也可以在百度网盘下载:9 R: z& U' k; j4 m( l* f
http://pan.baidu.com/share/link? ... ir/path=%2Ffastwiki2 p. _7 I; i' w4 {" Q' K0 K; R
进入 zim 目录就对了. 由于这些文件比较大, 所以大家可先下载, 等大家下载完了, 就能直接转换了.
, Q" V- d0 X& D0 n. k
" `# J9 r! ?( e! _) l目前 fastwiki-zim 转换 wikipedia_zh_all_12_2013.zim 耗时 14分钟, 转换 wikipedia_en_all_02_2014.zim 耗时 120分钟.
& w& k' a+ h- ^+ m( y# T. r5 S, D. |

该用户从未签到

发表于 2014-3-9 10:25:35 | 显示全部楼层
其实kiwix也不完美,主要问题是丢词条入口,不知道是kiwix的问题,还是它的zim数据库问题。
$ _: ^4 C% B: ^7 J( U$ F已经提交了一个bug了,比如安卓平台的kiwix软件+最新的zim英文数据库,手机上输入“ITX”并不能正常列出以itx开头的词条。但是在kiwix网站上则可以列出itx开头的词条。类似的有问题的词条还非常非常多,可能英文wiki中超过10%的词条都不能被查询到,使用非常不方便。
1 K6 r/ _# d( ]) B2 Q9 |% {8 w) x, d" K3 C- X3 F2 D
类似的词还有”ZBAA“……
) t9 w& v7 \3 z% D1 ^5 t9 s- i$ t% |
以上是kiwix的最大的问题。

该用户从未签到

 楼主| 发表于 2014-3-10 13:17:02 | 显示全部楼层
tedaz 发表于 2014-3-9 10:25
0 Q" D7 H1 o3 w/ [其实kiwix也不完美,主要问题是丢词条入口,不知道是kiwix的问题,还是它的zim数据库问题。
, f7 s" M( U( h; Y( {0 t! K% O已经提交了一个 ...

& P# L  N2 l  |/ S2 f& c1 a
: L5 U: E- }8 S应该是 kiwix 的索引问题,  
' ^& ?5 q8 g* S9 H, kfastwiki-zim 转换了  wikipedia_en_all_02_2014.zim ,  使用 fastwiki-httpd 进行测试,2 c% s5 `5 S$ z7 K% a/ }9 u7 b0 K
查找 "ITX" 和 "ZBAA" 都没问题, 你有没有兴趣下载这个 zim 帮忙测试一下?
8 n# X4 b; G5 M% x
6 [8 E- \  S/ @# I8 s& w不过, 转换后比 zim 大 9G, 共 49G, 主要原因是 kiwix 的页面中有许多内容是重复的,
  W$ ~) {7 K: g/ a( ?而 kiwix 使用的压缩块比较大, 所以它能压缩得比较小. 而 fastwiki 使用的压缩块很小,$ Q8 F3 l) ]' {/ g# x4 E% X# h
所以压缩后整体上变大了. 小的压缩块的优点是查找快.
5 K+ B* L- C. E) M2 _* O" ?
; q2 H+ n6 l: X
  • TA的每日心情
    开心
    15 小时前
  • 签到天数: 2004 天

    [LV.Master]伴坛终老

    发表于 2014-3-10 14:51:41 | 显示全部楼层
    了不起!!!谢谢LZ!!!

    该用户从未签到

    发表于 2014-3-10 20:04:46 | 显示全部楼层
    fastwiki 发表于 2014-3-10 13:17 # n7 H: y* r) j2 J% a
    应该是 kiwix 的索引问题,  4 r8 a" w1 n9 q& @0 a
    fastwiki-zim 转换了  wikipedia_en_all_02_2014.zim ,  使用 fastwiki-h ...
    5 A; \. v$ D2 G$ [7 |
    我觉得有可能是“wikipedia_en_all_nopic_01_2014.zim”有问题,请问如何把zim转换成fastwiki的格式?没找到工具下载。

    该用户从未签到

     楼主| 发表于 2014-3-11 12:23:51 | 显示全部楼层
    tedaz 发表于 2014-3-10 20:04
    % W0 ]2 y/ J1 i, G. A$ [3 H0 ]我觉得有可能是“wikipedia_en_all_nopic_01_2014.zim”有问题,请问如何把zim转换成fastwiki的格式?没找 ...
    $ {  Y7 D5 F* v% C- Z
    & C* F! g) r+ s8 j4 T" @; f( y9 q1 p
    应该是 wikipedia_en_all_nopic_01_2014.zim 的索引问题, 它的数据是对的.
    + k: ~; ?8 p4 F: n" r) G5 s/ [不过 fastwiki-zim 没有用它的索引.
    8 I# k, K( V- K/ Dfastwiki-zim 刚刚发布, 欢迎使用和测试." P1 k! w) s) u$ {
    ! Q$ o; ~( L* t" E/ q  v9 w5 d

    该用户从未签到

    发表于 2014-3-11 22:03:55 | 显示全部楼层
    fastwiki 发表于 2014-3-11 12:23 6 ^" t) }) O) I- H# E8 m
    应该是 wikipedia_en_all_nopic_01_2014.zim 的索引问题, 它的数据是对的.* h( z( V( `# v( m" T
    不过 fastwiki-zim 没有用它 ...

    . k+ A6 j8 r7 Q7 Wfastwiki-zim转换出错了。源文件大约11.7GB,转出了0,1,2,3四个文件,其中后缀为.3的文件大小仅100多MB时就出错了。能在程序中加个异常处理,比如遇到异常时就写个log文件出来吗?
  • TA的每日心情
    郁闷
    2018-12-17 20:03
  • 签到天数: 2 天

    [LV.1]初来乍到

    发表于 2014-8-6 09:25:10 | 显示全部楼层
    本帖最后由 zjzengdongyang 于 2014-8-6 13:32 编辑
    ( \- _. \' V; ?2 w  D
    7 {7 V) c3 k+ H- ^& g2 Y5 S  n; y% R; e其实他的zim并非完美,在2013\2014年的中文zim中,有一些标签没有处理(中文特有如:{zh-cn:误区; zh-hant:誤解;}格式{zh-cn:...; zh-hant:...;}).
  • TA的每日心情
    郁闷
    2018-12-17 20:03
  • 签到天数: 2 天

    [LV.1]初来乍到

    发表于 2014-8-18 12:03:56 | 显示全部楼层
    解释一下
    3 ~8 S- v& {3 l9 d' }C:\Documents and Settings\Administrator>H:\msys2\zim\fastwiki-zim-1.0-beta5.exe
    8 M# L/ M6 R; C1 Q) p& D-l en -d 201407 -f H:\msys2\zim\libstdc++-api.zim$ {8 L- ~/ s1 f9 i/ v
    total[0] = 849# Q+ R, o- I. F7 M8 t& x
    all count=36962307, read_count=0, error=17695105
    : U  R5 M2 |! e' wPUB: fastwiki.math.en.201407 count=0, error=17695105
    3 m* c4 \# L; r, S# {done.
    4 P/ q; I! `4 C
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-4-29 22:42 , Processed in 0.047009 second(s), 8 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表