掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 6513|回复: 8

[使用交流] 准备发布 fastwik-zim, 用于转换 zim 格式的文件

[复制链接]

该用户从未签到

发表于 2014-3-7 20:29:20 | 显示全部楼层 |阅读模式
fastwiki-zim 已经开发完成, 目前进入了非常细的格式调整, 所以在此请大家进行测试反馈.
0 o) h7 T8 s. L* K9 k+ H9 k" D0 U% f' p: F
维基百科软件 kiwix 发布了许多语言的维基百科离线数据包, 详见:
1 `' s6 K& W+ v2 b. a- Shttp://download.kiwix.org/zim/wikipedia/?C=M;O=D
4 z$ [8 v, U* u8 d) N$ C1 ^http://www.kiwix.org* r0 S5 n. _6 c9 V5 M

- E0 K$ @. p/ Q! @3 R这些文件比较大, 无法用于版本比较低的手机, 并且 android 的 kiwix 只支持 android 3.0 及以上版本. % V* g: s7 c$ e: I9 Q
另外, 最关键的是, kiwix 制作的维基百科与网站几乎一模一样, 真是非常完美, 因此, 有必要提供转换工具 fastwiki-zim 专门用于转换 zim 文件.2 e; W: A& w- F* k: k" k- b5 p3 W
3 U2 ~( Y$ m" Z3 T3 @0 N2 `+ {$ Z% n
所以, 如有兴趣进行测试并反馈的, 可以先下载 zim 文件, 中文版的带图文件有 12G, simple english 有 1.7G, 也可以在百度网盘下载:: ~' {) Y5 ^5 {7 o$ C- f
http://pan.baidu.com/share/link? ... ir/path=%2Ffastwiki
8 \' p8 c6 ^! z进入 zim 目录就对了. 由于这些文件比较大, 所以大家可先下载, 等大家下载完了, 就能直接转换了.# `% w  ?0 R2 n$ r2 P4 @+ r) n
$ A5 S1 ?8 P. F9 N9 }+ L
目前 fastwiki-zim 转换 wikipedia_zh_all_12_2013.zim 耗时 14分钟, 转换 wikipedia_en_all_02_2014.zim 耗时 120分钟.
3 N$ o3 T& g1 P) S0 G" U1 z, B: |$ Y* R2 k' y

该用户从未签到

发表于 2014-3-9 10:25:35 | 显示全部楼层
其实kiwix也不完美,主要问题是丢词条入口,不知道是kiwix的问题,还是它的zim数据库问题。& q: |! a  ]! q5 ^2 X7 ?
已经提交了一个bug了,比如安卓平台的kiwix软件+最新的zim英文数据库,手机上输入“ITX”并不能正常列出以itx开头的词条。但是在kiwix网站上则可以列出itx开头的词条。类似的有问题的词条还非常非常多,可能英文wiki中超过10%的词条都不能被查询到,使用非常不方便。
% r8 _( C/ {( x8 q+ i. \
: P0 Q2 r" I" a: r: g; D) L& k类似的词还有”ZBAA“……
$ y8 R9 h& G: z1 L4 T" U- k3 [/ R3 M( u- E7 M* k
以上是kiwix的最大的问题。

该用户从未签到

 楼主| 发表于 2014-3-10 13:17:02 | 显示全部楼层
tedaz 发表于 2014-3-9 10:25
" Y$ U- R3 X$ `$ _3 z, A7 [1 p9 n! N( u其实kiwix也不完美,主要问题是丢词条入口,不知道是kiwix的问题,还是它的zim数据库问题。
3 c# U" |5 c  B; g7 I已经提交了一个 ...

' n5 a$ Y+ @: c0 x1 p5 {2 J: C3 S* P* `; O; i8 B3 U) c0 [( V
应该是 kiwix 的索引问题,  ! [2 n+ A9 D4 c$ m; Z9 t! ]
fastwiki-zim 转换了  wikipedia_en_all_02_2014.zim ,  使用 fastwiki-httpd 进行测试,
, H8 ]& e3 E/ c查找 "ITX" 和 "ZBAA" 都没问题, 你有没有兴趣下载这个 zim 帮忙测试一下?
& m8 y" |( [0 S+ P! M6 o* t3 k+ x" s7 _4 \: b, j# v
不过, 转换后比 zim 大 9G, 共 49G, 主要原因是 kiwix 的页面中有许多内容是重复的,
9 x- m- B: ^! |/ b5 w6 j% @而 kiwix 使用的压缩块比较大, 所以它能压缩得比较小. 而 fastwiki 使用的压缩块很小,' B$ K2 r5 R% f; A' c: y+ o
所以压缩后整体上变大了. 小的压缩块的优点是查找快.
' ~' q- z; {1 J1 h, H# a4 O% x1 @6 X; ^3 [7 @  O
  • TA的每日心情
    开心
    2024-11-25 15:48
  • 签到天数: 2137 天

    [LV.Master]伴坛终老

    发表于 2014-3-10 14:51:41 | 显示全部楼层
    了不起!!!谢谢LZ!!!

    该用户从未签到

    发表于 2014-3-10 20:04:46 | 显示全部楼层
    fastwiki 发表于 2014-3-10 13:17
    + p% ~4 |( Y9 n7 i应该是 kiwix 的索引问题,  
    0 }4 _2 ~8 Z( Kfastwiki-zim 转换了  wikipedia_en_all_02_2014.zim ,  使用 fastwiki-h ...
    ) @0 C, t% s! w# Z% m0 l
    我觉得有可能是“wikipedia_en_all_nopic_01_2014.zim”有问题,请问如何把zim转换成fastwiki的格式?没找到工具下载。

    该用户从未签到

     楼主| 发表于 2014-3-11 12:23:51 | 显示全部楼层
    tedaz 发表于 2014-3-10 20:04 ) k8 c' f  q% Z9 V: J
    我觉得有可能是“wikipedia_en_all_nopic_01_2014.zim”有问题,请问如何把zim转换成fastwiki的格式?没找 ...

      O9 c2 q0 x8 g  R& d! l* @5 a# N8 N. Z" a
    应该是 wikipedia_en_all_nopic_01_2014.zim 的索引问题, 它的数据是对的.- A9 F& y# J1 j/ Z; Y, i/ c% r" B
    不过 fastwiki-zim 没有用它的索引.   m( B5 i9 f( W9 k; [% R6 z
    fastwiki-zim 刚刚发布, 欢迎使用和测试., X( n5 g. x$ r1 [% c- F; Q

    6 W6 ^$ ~9 p% A7 ]1 t: I* [

    该用户从未签到

    发表于 2014-3-11 22:03:55 | 显示全部楼层
    fastwiki 发表于 2014-3-11 12:23 9 b/ P# }; m8 L/ l
    应该是 wikipedia_en_all_nopic_01_2014.zim 的索引问题, 它的数据是对的.
    & p1 S) Z& C2 K: u; [- j0 {! J/ L. ^不过 fastwiki-zim 没有用它 ...

    % B2 g$ H& T1 b* Qfastwiki-zim转换出错了。源文件大约11.7GB,转出了0,1,2,3四个文件,其中后缀为.3的文件大小仅100多MB时就出错了。能在程序中加个异常处理,比如遇到异常时就写个log文件出来吗?
  • TA的每日心情
    郁闷
    2018-12-17 20:03
  • 签到天数: 2 天

    [LV.1]初来乍到

    发表于 2014-8-6 09:25:10 | 显示全部楼层
    本帖最后由 zjzengdongyang 于 2014-8-6 13:32 编辑 # X; n) J9 i' n; {

    " m% d# D, Z" Y5 E5 |其实他的zim并非完美,在2013\2014年的中文zim中,有一些标签没有处理(中文特有如:{zh-cn:误区; zh-hant:誤解;}格式{zh-cn:...; zh-hant:...;}).
  • TA的每日心情
    郁闷
    2018-12-17 20:03
  • 签到天数: 2 天

    [LV.1]初来乍到

    发表于 2014-8-18 12:03:56 | 显示全部楼层
    解释一下
    0 _9 r0 H6 y' n* b# E5 n8 dC:\Documents and Settings\Administrator>H:\msys2\zim\fastwiki-zim-1.0-beta5.exe/ o/ d( m. H7 s8 z" m, B& b
    -l en -d 201407 -f H:\msys2\zim\libstdc++-api.zim2 d) S! d* f5 y$ H0 A
    total[0] = 8498 a/ e# m1 ^& ~
    all count=36962307, read_count=0, error=17695105: P. ?! j' O& E$ B
    PUB: fastwiki.math.en.201407 count=0, error=17695105* ^) P* }7 y' J; G- ?& g! M) E
    done.# O$ t' g' p% h4 g
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2025-5-7 20:55 , Processed in 0.020932 second(s), 21 queries .

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表