掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 19001|回复: 54

[工具] New Wikipedia rendering engine

[复制链接]

该用户从未签到

发表于 2010-7-12 22:04:40 | 显示全部楼层 |阅读模式
本帖最后由 superfan89 于 2011-2-25 11:41 编辑
0 ~2 J1 Z4 i( I- S' N, ]% S4 K( U9 C3 P' V
一直以来使用philostone等兄弟转换的wikipedia,在手机上读维基百科的感觉十分爽,唯一美中不足的是其中一些未处理链接和标签。前几天在网上google来MWlib和aard dictionary这两个好东东,其中Mwlib是专门用来转换wiki格式的一个程序库,aard是一个跨平台词典,包含了开源的词典转换软件,可以用来直接转换维基百科的xml dump。对原作者的代码略加修改后即可以直接输出Mdict可转换的文本格式。  D& n% s3 ^- S# P- M* l7 Y, B$ b
    这个版本转换了zhwiki dump大约1%的内容,花费了近30分钟。  k) V; f& h/ P+ x, X
已知的优点和缺点:, H3 {$ u+ j4 V, ]- ^/ Q2 M3 b
优点:
: k. O+ m* P2 q; o7 c1、残留的标签大大减少,格式更加完善1 A; P4 d* h- R9 M* {8 W! z
2、公式全部采用TeX渲染成图片,更加美观
* Z* L5 Q; N: b9 t) @3、包含词条重定向* D) o& v# o8 {1 N) H) }8 z( J3 n
缺点:
# A* [6 o, z! _3 `/ L6 J& C7 K1、渲染出的图片嵌在网页内部,只能用PC端Mdict显示
. Q$ ^9 l) L5 F" d2 H8 l, P2、部分格式不正确8 G$ ~7 F# }$ ^. ?& Q4 u" M
3、需要在Linux下搭建转换环境! F' f3 R0 \8 ~

  j- E$ l6 F8 g0 ^% |8 d' |, M相关参考:; F5 q/ g5 Z& O
http://aarddict.org/1 S# P2 D1 V; I# a) i+ W) n
http://code.pediapress.com/wiki/wiki/mwlib
5 U  F* `/ t- [5 |aard 09年12月的中文维基百科(完整版)http下载,与这个demo的格式类似:. g/ t! m% l  a( ?$ V8 G- @
http://aarddict.org/d/zhwiki-20091225-1.html.aar
5 S; o: d: v' b希望有兴趣的朋友们能共同研究探讨。
- m) f9 ?# {3 O1 s  b/ L1 S' k  l7 n$ @/ a
这里提供一个Mdx(1%词条)仅供测试,想日常使用的朋友就别下了。5 X! ?9 m9 s3 }1 m* F; Z- ]+ F
WikiDemo.mdx
3 `& @8 ^- X" d) S: r8 O0 ~http://u.115.com/file/t417cc4b83' R8 J3 C" h9 N5 c. i+ r
p.s.:可以套上这个wikipedia.css一起使
# Y) C. L) L$ ?; P' P! O6 g+ c2 n2 {' ?& c" Z0 K5 s
-------------------------------------7 b8 }. ^( \- N% w% W8 {6 ^
2010/07/13
5 l$ h+ q: X( R0 ^/ u& J& F改进:9 Y& w. }# r8 L' V2 ~4 `  n
1、TeX渲染图片输出单独输出至data目录
2 L' g" u+ @1 U+ d% S2、引用和引用链接可以互相跳转,看文章非常方便  Y7 S/ t/ Q0 y0 Q
初步具有了可用性,上传在此- W$ @; D8 W% n2 s
7 O. V5 n3 \( }/ A
使用时覆盖Aard Tools中的对应文件即可- [. {8 r* X) g2 r4 n2 I
Aard Tools链接:
8 X* w3 h6 }! |7 s1 dhttp://bitbucket.org/itkach/aardtools/get/0.8.0.zip% m& l3 G4 ]7 d% Q1 B" w+ {7 ]: Y
安装详细指南:$ r& |& S" S+ x. ?
http://aarddict.org/aardtools/doc/aardtools.html#module-aardtools6 Y1 g7 h1 ]3 v! `7 }0 `
" A- U! u+ i0 ]% h. ^0 D7 n
在Ubuntu或者Debian上安装最方便,因为依赖关系比较复杂,还不知道怎么在Windows上使用,望有兴趣朋友帮忙转出一个完整版本。
2 k8 Z) m) B- z+ I: m$ P
+ k7 I: F6 ?9 {! @( a  ^" T8 b再传个用新版的脚本转的Demo,含词条数要更少一些
+ P+ D/ o( m$ J$ CWikiDemo2.rar- \$ c) t0 x4 F+ T$ X2 _
http://u.115.com/file/t4b4dc158f! |# g) U: l* @. v3 ^& y7 q
-------------------------------------
& P: ^6 i! v; \* N' _& R2010/7/151 |) x/ P4 f+ c+ S4 U# z
增加了“断点续转”功能,转换时输入"q"后回车,转完当前千个文件时会保存当前进度并停止,下次转换时可以接着转。
1 J- b; z& o- y5 H9 {! ]-------------------------------------
, T( ]$ l0 T+ x+ |( ?; o2011/2/25* u% }: V2 {8 H: ?% I: j- ^
请用此覆盖aardtools0.8.3,依赖的Mwlib升级至0.12.13。
, P; R% ?6 C+ U: i- G0 A

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?免费注册

x

评分

1

查看全部评分

该用户从未签到

发表于 2016-11-2 18:23:41 | 显示全部楼层
发哥 发表于 2010-7-12 22:16: }% Z; L0 B# o' ^
接着改。嘿嘿。把tex搞成独立图片。。
9 ^5 D; g$ X; O
great

该用户从未签到

发表于 2016-4-15 13:13:23 | 显示全部楼层
👍👍👍

该用户从未签到

发表于 2016-5-31 11:58:56 | 显示全部楼层
非常感谢您的无私分享!辛苦了!
  • TA的每日心情
    开心
    2018-7-19 02:16
  • 签到天数: 20 天

    [LV.4]偶尔看看III

    发表于 2010-7-12 22:16:24 | 显示全部楼层
    接着改。嘿嘿。把tex搞成独立图片。。

    该用户从未签到

    发表于 2010-7-12 22:22:08 | 显示全部楼层
    都是牛人啊
  • TA的每日心情
    开心
    2 小时前
  • 签到天数: 2246 天

    [LV.Master]伴坛终老

    发表于 2010-7-12 22:35:54 | 显示全部楼层
    期待中,确实是牛人。

    该用户从未签到

     楼主| 发表于 2010-7-13 09:52:37 | 显示全部楼层
    接着改。嘿嘿。把tex搞成独立图片。。
    ) T4 C; P8 `! D1 K发哥 发表于 2010-7-12 22:16
    ! [$ H8 m( l  z  ?, G- R$ i2 G2 ]5 X# [
    嗯,又看下代码,应该是可以的,找时间再修改下
    wdianyu 该用户已被删除
    发表于 2010-7-13 10:56:46 | 显示全部楼层
    这个可以有
  • TA的每日心情
    开心
    2 小时前
  • 签到天数: 2246 天

    [LV.Master]伴坛终老

    发表于 2010-7-13 10:59:30 | 显示全部楼层
    在pc上使用,常常会显示错误,Mdict就没有反应了。4 d' q( i$ g% K5 {
    我对编程不懂,不知道是什么原因。

    该用户从未签到

     楼主| 发表于 2010-7-13 11:22:07 | 显示全部楼层
    是啊 pc上会显示脚本错误,不过好像对显示效果没什么影响。还不知道什么原因
  • TA的每日心情
    慵懒
    2020-12-11 08:19
  • 签到天数: 104 天

    [LV.6]常住居民II

    发表于 2010-7-13 11:29:33 | 显示全部楼层
    本帖最后由 yangxiups 于 2010-7-13 11:33 编辑 . _- S4 Y! @& M3 A6 K3 Z7 P: @
    0 f! u7 c6 m3 K8 l
    Bravo!

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

     楼主| 发表于 2010-7-13 11:48:04 | 显示全部楼层
    装上那个css后效果会更好些

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

     楼主| 发表于 2010-7-13 18:26:45 | 显示全部楼层
    本帖最后由 superfan89 于 2010-7-13 18:53 编辑 , Z9 _0 h, y- C7 m, q6 v: ~
    ; K( x  h! H/ @6 I
    TeX单独渲染为图片的效果
    4 E) [7 R9 ?& E  t7 m# x" M9 o

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

     楼主| 发表于 2010-7-13 18:27:00 | 显示全部楼层
    本帖最后由 superfan89 于 2010-7-13 18:58 编辑
    % I# X1 i4 h: R3 t4 c: ?; O7 ?( K8 u& J8 X8 ^% g
    竟然发重了,汗
  • TA的每日心情
    郁闷
    2018-3-3 19:50
  • 签到天数: 3 天

    [LV.2]偶尔看看I

    发表于 2010-7-13 19:58:57 | 显示全部楼层
    显示效果真不错啊:D
  • TA的每日心情
    开心
    2018-1-27 00:16
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2010-7-13 20:05:31 | 显示全部楼层
    太强大了!超级期待呀!

    该用户从未签到

     楼主| 发表于 2010-7-14 00:07:25 | 显示全部楼层
    程序已经上传了,暂时挂不了机,望有兴趣的朋友帮忙转出完整版,现在的这个脚本只能一次不间断的将所有文章转出。
  • TA的每日心情
    慵懒
    2020-12-11 08:19
  • 签到天数: 104 天

    [LV.6]常住居民II

    发表于 2010-7-14 19:08:14 | 显示全部楼层
    很期待!
  • TA的每日心情
    开心
    2018-7-19 02:16
  • 签到天数: 20 天

    [LV.4]偶尔看看III

    发表于 2010-7-14 22:13:14 | 显示全部楼层
    服务器是centos的,依赖关系搞不定。。。

    该用户从未签到

     楼主| 发表于 2010-7-14 22:31:30 | 显示全部楼层
    恩,那就找机会单机转好了。。。
  • TA的每日心情
    慵懒
    2020-12-11 08:19
  • 签到天数: 104 天

    [LV.6]常住居民II

    发表于 2010-7-15 19:46:27 | 显示全部楼层
    我想试一试,可对linux几乎已无所知,自己在电脑里装了一个Ubuntu desktop,安装详解里的每一个提到的工具都要安装吗?怎样安装这些工具呢?

    该用户从未签到

     楼主| 发表于 2010-7-15 20:37:42 | 显示全部楼层
    是的,那几个最好都装上,像Ubuntu和debian这样的系统用apt-get install xxx的命令可以直接下载相关包,如果是源代码的话就make之后再make install就好了,解压缩用tar -xvf xxx命令。大概就是这样了,一会再传个新更改的版本。9 }/ V) N% o7 @! f4 [
        可以去Ubuntu的wiki看下。
  • TA的每日心情
    慵懒
    2020-12-11 08:19
  • 签到天数: 104 天

    [LV.6]常住居民II

    发表于 2010-7-15 21:20:30 | 显示全部楼层
    谢谢了!试试看。
  • TA的每日心情
    慵懒
    2020-12-11 08:19
  • 签到天数: 104 天

    [LV.6]常住居民II

    发表于 2010-7-17 15:10:27 | 显示全部楼层
    是的,那几个最好都装上,像Ubuntu和debian这样的系统用apt-get install xxx的命令可以直接下载相关包,如果是源代码的话就make之后再make install就好了,解压缩用tar -xvf xxx命令。大概就是这样了,一会再传个新更 ...
    / n. `1 l% Q' Z9 t4 @superfan89 发表于 2010-7-15 20:37
    , h# l# c4 L0 w+ w, _: y
    工具都已经 装好 了 ,下載好 了 DUMP文件,使用 AARD TOOLS 应該怎樣操作 呢?
    # J8 W% k% V2 Z1 `INSTALLATION中 的
    Assuming source code code is in aardtools directory:
    6 A, l  \- y9 b* F* l# u; ^( z. Y7 A
    cd aardtools
    " {. }, i- o( @& ?" }sudo python setup.py install

    $ K8 j. y$ K. @! p9 W这一条 不知怎么 操作 .謝謝指導!

    该用户从未签到

     楼主| 发表于 2010-7-17 15:28:59 | 显示全部楼层
    在终端里 进入到解压后的aardtools目录,输入sudo python setup.py install就安装好了& |& `& l) C3 @: R, C0 S
    全部安装好后,要使用mwbuildcdb这条命令将xml dump转为cdb格式,再用aardc命令开始转换。
    yulan6248 该用户已被删除
    发表于 2010-7-18 02:09:34 | 显示全部楼层
    太牛了 支持支持!!!!!!!!!!!!希望早日出炉

    该用户从未签到

    发表于 2010-7-18 10:05:42 | 显示全部楼层
    很好,很强大!以后慢慢学着用……
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-4-27 08:04 , Processed in 0.137440 second(s), 19 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表