掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 1978|回复: 9

[讨论] OpenZIM 格式的解包(附小工具)

[复制链接]
  • TA的每日心情
    擦汗
    2024-2-14 00:32
  • 签到天数: 56 天

    [LV.5]常住居民I

    发表于 2020-3-1 13:02:33 | 显示全部楼层 |阅读模式
    本帖最后由 firetimer 于 2020-3-20 12:10 编辑   _( K/ V- G: O) N* L# x" A
    1 n; \5 U+ p( m2 }; s
    这个帖子的影响,我开始研究 OpenZIM 格式的解包方式。坛子上的工具和讨论都比较久远,且内容较多,不太适合跟帖讨论,故新开一帖,如有问题还请原谅。新人发帖不知如何分类,还请管理员明鉴。8 h0 N, }# \9 W9 _' p
    Inspired by this post.
    2 V4 o; o  b7 ~' y. X
    3 a( B" J$ _+ k2 j' X我们知道,Kiwix提供的喂鸡质量很高,几乎还原了网站的显示。如果想要快速获得高质量的喂鸡,从Kiwix 转换过来是个合适的方案。As we all known, wiki data provided by Kiwix is of high quality and very vivid. To gain high-quality wiki, converting from .zim may be a good idea.! N& U% _' Z5 M3 r7 |' ~$ L

    4 r/ @$ @) [$ c& Z' `) U在 Linux 下使用 Zim-tools 提供的 zimdump 工具可以快速将 zim 解开为 html 文件包,内含图片、脚本、样式等。(不过没有扩展名;html内的网页链接也是。)In Linux using zimdump provided by Zim-tools can easily unpack a .zim file into various source files. Javascript(.js), stylesheets(.css) and images included.# r% s2 P4 B2 e, E
    & x5 C. w" I9 ?: I) c9 s+ M
    仅需一句命令:(以闽东语喂鸡为例)" \5 {! k* f  H6 E8 L
    Only ONE line: (take Mindong wiki as an example)
    $ n. y9 a. w9 Q' Z
    1. ./zimdump -D wiki ../wikipedia_cdo_all_maxi_2020-02.zim
    复制代码

    9 `3 O( _" b2 l& `0 Q0 W9 I/ @8 Y1 c5 N+ `' v3 M. J. Y; b
    结果:Result:
      N3 l( @  H, U$ l( i- W5 a( W1 v- z+ [0 K5 b) V

    - Q& _1 m/ Y3 R4 `任意一页:6 u5 z8 }8 V6 _) `
    A random page (a page about "1")
    1 ~+ z0 U* L( X
    2 r* d- w/ ^1 k
    & P! B$ r  n& Q如能加以利用,不可不谓便利。然新的一周即将开始,本人或无力对这些 html 进行处理,望坛内高人可以协助。感谢。
    ; D, k: ~7 _2 a1 M0 uIf full advantage of it is taken, it's very convenient. But as new workdays are coming I'm not able to further investigate into these htmls recently so I'm here to provide an idea. Thank you for your reading.
    ; B) L5 o& g2 H* _( }" @' `/ o/ z0 a8 U1 F8 b
    已知的问题:音频似乎没有内嵌,但在国内可以正常访问。带有干扰文件系统工作的特殊符号的条目会丢失。$ ~0 Y- J  W$ |6 U4 U+ d5 ]2 G
    Known issue: Sound not included. Items with special characters/phrases interfering the file-system from working normally may be missing.
    & H1 L* a1 S0 t( T6 E& v参考:How to extract, OpenZim
    # x3 |6 s# H) N4 v7 {! d/ {, L3 ^5 a+ O& S' r- v9 }

    0 w2 p3 O9 k! s- ]0 Z  C

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    评分

    2

    查看全部评分

    本帖被以下淘专辑推荐:

  • TA的每日心情
    擦汗
    2024-2-14 00:32
  • 签到天数: 56 天

    [LV.5]常住居民I

     楼主| 发表于 2020-3-2 00:13:44 | 显示全部楼层
    本帖最后由 firetimer 于 2020-3-2 12:20 编辑 * V. P! J* E2 ]" d! Z
    1 E( g4 n+ [& P, ^& e) i; S
    找到了一个可能更好的开源解压器。效率比原有方案提升近一倍,并且支持Windows 10下运行(可能需要配置,不确定)。敬请期待。/ {2 `! t3 h' c1 h$ M6 B+ K/ z
    动手能力强的可以直接参考这里:https://github.com/dignifiedquire/zimNew solution, 2x faster, open source. Compatible with Windows. Just amazing. Still testing.
    * \3 {& R9 G2 K, Y; t0 G7 X
    " e1 d( ?, q7 x, C  U/ E计划:将扰乱文件系统工作的符号进行转义;试图将处理重定向时由“生成硬链接”替换为“网页跳转”(具体怎么做方便词典设计可能还需要讨论和优化). N9 m& Z( }% Q$ n; U- _+ u
    ' B1 m/ Z3 d# g, Z% M
    抢先测试(欢迎反馈):You can test it here in the attachment. Comments welcomed.
    9 k7 V# j- ^0 h- P6 }. V& k) b
    ' ^: h, I9 q+ E; J0 d3 {( S3 C  ~1 \: Z

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    擦汗
    2024-2-14 00:32
  • 签到天数: 56 天

    [LV.5]常住居民I

     楼主| 发表于 2020-3-1 14:02:00 | 显示全部楼层
    Jiangxi 发表于 2020-3-1 13:43
    1 l0 X, J* b2 r3 C: l解包出的数据用来干嘛呢?. P  R- E+ ~9 s) R- d6 X
    巨量的数据是要做出mdx词典吗?
    8 L- q$ e. A* P$ M2 F直接用kiwix离线浏览阅读,在PC端、在移动端,zi ...

    # T+ B, C# G7 t0 b7 c* ?, q; R嗯,做mdx词典。和其他Mdict词典联合查询还是比较便利的,像坛子上也有不少mdx的喂鸡资源。kiwix内阅读不太方便,比如没有时刻在左侧的目录/索引(在闽东语这种混合汉字和罗马字的喂鸡中尤为明显)不便查询同音词等。
  • TA的每日心情
    开心
    2019-10-10 05:35
  • 签到天数: 328 天

    [LV.8]以坛为家I

    发表于 2020-3-1 13:43:33 | 显示全部楼层
    解包出的数据用来干嘛呢?" [9 ?( }# I- c! B, N, ~& Z
    巨量的数据是要做出mdx词典吗?* X2 }+ o! P2 A  M0 ^3 d
    直接用kiwix离线浏览阅读,在PC端、在移动端,zim下载下来就能用,原汁原味,不挺好么?
      A- \# J4 U( U( e& z- }2 o
  • TA的每日心情
    开心
    2020-11-10 14:17
  • 签到天数: 580 天

    [LV.9]以坛为家II

    发表于 2020-3-1 14:54:10 | 显示全部楼层
    大力支持,zim的质量很好,解包后愿意尝试处理文本作为mdx
  • TA的每日心情
    擦汗
    2024-2-14 00:32
  • 签到天数: 56 天

    [LV.5]常住居民I

     楼主| 发表于 2020-3-1 14:57:28 | 显示全部楼层
    本帖最后由 firetimer 于 2020-3-1 15:00 编辑 ( \) e$ o( R, ~' {" C
    kriskr 发表于 2020-3-1 14:54$ Z1 a. A2 ?+ [+ _3 ~
    大力支持,zim的质量很好,解包后愿意尝试处理文本作为mdx
    ( h! V5 b6 G3 Q) G/ t3 M: I
    已经解压了一个闽东语喂鸡(95M,很小所以先试试),现在正在解压Simple English 的all_maxi版,条目太多文件数量过于庞大(预计超过300万个文件)。如果有人对闽东喂鸡的例子有兴趣也可以发出来(但估计应该太小众)已知问题:没有扩展名,链接也是。没有音乐(应该根本就没打包)。有些条目有特殊字符不可以做为文件名,所以缺失了。
    . n% q4 R: Q7 Q& v2 C  i3 `0 G" M' m
  • TA的每日心情
    擦汗
    2024-2-14 00:32
  • 签到天数: 56 天

    [LV.5]常住居民I

     楼主| 发表于 2020-3-1 15:32:00 | 显示全部楼层
    本帖最后由 firetimer 于 2020-3-1 15:33 编辑 ; U/ A& ^8 Q% ~

    & c" l, n6 t+ L) @3 m' N7 V3 v一个小小的闽东喂鸡的解压例子:0 G% T1 j  V" ~' \& l
    “分卷版”里是为了回避某度网页下载50MB的限制。选择一个下载即可。
    + Q1 B5 p( y( f8 e" ^. c$ [8 P. E% D1 H
    链接: https://pan.baidu.com/s/1SJyc8VtPcB5g7_T4wB-aNA 提取码: rnp5
    * u0 r- }, F5 C+ L- F压缩包密码是喂鸡的全拼。
    ) ~/ \% \6 J* k. ?/ T$ t
  • TA的每日心情
    慵懒
    8 小时前
  • 签到天数: 1714 天

    [LV.Master]伴坛终老

    发表于 2020-3-21 09:02:54 | 显示全部楼层
    firetimer 发表于 2020-3-1 15:32/ j" c$ T) e5 A9 ?3 I
    一个小小的闽东喂鸡的解压例子:
    & n7 K/ y& R/ @“分卷版”里是为了回避某度网页下载50MB的限制。选择一个下载即可。
    $ h* D# y! q" u: v( c/ e# h; G" [
             feed_chicken.zip压缩包用密码“喂鸡的全拼”解压,进行到28%报错(见图),请解惑!
    0 y; l" }: n. l! C) v2 b
    $ S* _- H$ e. U+ _! B$ c$ I1 V( r8 K0 ?
    3 f& S9 G: v  ]- q! c

    ( D, R& e* j( L6 V8 w! |

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    擦汗
    2024-2-14 00:32
  • 签到天数: 56 天

    [LV.5]常住居民I

     楼主| 发表于 2020-3-21 12:37:38 | 显示全部楼层
    yfz48516 发表于 2020-3-21 09:021 T4 d# e1 A6 P- M, @1 v
    feed_chicken.zip压缩包用密码“喂鸡的全拼”解压,进行到28%报错(见图),请解惑!

    ' l8 B" d  a  ?) S1, 此版本已经基本作废,欢迎移步【2020年02月版/MDX/MDict】喂鸡旅游 图文试读版查看最新进展。
    + a1 J" L1 [& R# `5 T/ U2,密码是
    weiji
    。如果报错也可能是因为词条中的特殊字符扰乱了某些压缩软件的工作。可以考虑更换压缩软件。
  • TA的每日心情
    开心
    昨天 05:37
  • 签到天数: 754 天

    [LV.10]以坛为家III

    发表于 2020-4-29 09:04:30 | 显示全部楼层
    firetimer 发表于 2020-3-1 15:130 }) ]) S) P" G. ^3 C
    找到了一个可能更好的开源解压器。效率比原有方案提升近一倍,并且支持Windows 10下运行(可能需要配置,不 ...

    : F8 x: s0 @  X有进展了吗?如果能解决这两个问题,这将开启一个新的里程碑.
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-4-19 16:36 , Processed in 0.067558 second(s), 11 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表