掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 20294|回复: 54

[工具] New Wikipedia rendering engine

[复制链接]

该用户从未签到

发表于 2010-7-12 22:04:40 | 显示全部楼层 |阅读模式
本帖最后由 superfan89 于 2011-2-25 11:41 编辑
" I" D$ n0 s& @' l, o! l( l. m/ q) M" x! T, G! n0 p2 G' Z
一直以来使用philostone等兄弟转换的wikipedia,在手机上读维基百科的感觉十分爽,唯一美中不足的是其中一些未处理链接和标签。前几天在网上google来MWlib和aard dictionary这两个好东东,其中Mwlib是专门用来转换wiki格式的一个程序库,aard是一个跨平台词典,包含了开源的词典转换软件,可以用来直接转换维基百科的xml dump。对原作者的代码略加修改后即可以直接输出Mdict可转换的文本格式。
# U6 x' w  D+ a- u- K: {    这个版本转换了zhwiki dump大约1%的内容,花费了近30分钟。
, ]4 R% \( c* ~7 `* S9 s已知的优点和缺点:
7 R0 q8 b+ s; a% J5 O3 g7 c4 j- @+ c优点:6 z' Y% r3 h  x$ k
1、残留的标签大大减少,格式更加完善
9 o, e, k5 W, u: }" E; t2、公式全部采用TeX渲染成图片,更加美观% u0 t/ j/ p7 l- {# {, P
3、包含词条重定向0 ^" ]+ U7 q& h, M; y
缺点:
6 m& V: e$ M4 V5 n, d  P  D( K1、渲染出的图片嵌在网页内部,只能用PC端Mdict显示
9 n% @- G, [( E2 e0 X3 p  N2、部分格式不正确  R6 |" p3 y( _1 N8 U
3、需要在Linux下搭建转换环境# P) W  Z) W5 W. i4 r6 T

1 Z; z3 r- V$ `! w, e0 E相关参考:+ B: M# s6 w  ]* m8 ]) ]" V
http://aarddict.org/
& H+ g% Q3 W" D' K  E0 A9 ?http://code.pediapress.com/wiki/wiki/mwlib3 h; W& [; T5 U
aard 09年12月的中文维基百科(完整版)http下载,与这个demo的格式类似:
. s+ x; z# a3 |- |7 K. h& w; Nhttp://aarddict.org/d/zhwiki-20091225-1.html.aar$ ~# G9 J8 G' F3 Z- d3 p' O
希望有兴趣的朋友们能共同研究探讨。  h4 o" \1 q/ V
* k& G7 Z+ _& ?
这里提供一个Mdx(1%词条)仅供测试,想日常使用的朋友就别下了。
6 s; b2 d7 E. S5 HWikiDemo.mdx! d. j9 w2 j# \8 M
http://u.115.com/file/t417cc4b831 k6 c$ Y* N% g4 @0 C# G' V: @
p.s.:可以套上这个wikipedia.css一起使$ a9 {) x$ _' m: u* l
  g. {9 U: R; f, n/ Q. {+ V
-------------------------------------& W8 }4 ~6 d8 i6 c6 q* L
2010/07/13
; `0 v0 r- f8 |$ S2 v4 i改进:& |9 X) w5 I$ u6 i
1、TeX渲染图片输出单独输出至data目录$ |' q  S  R  x1 ]: T, n  b6 T7 Z
2、引用和引用链接可以互相跳转,看文章非常方便
6 O- Y, P* u3 s2 D$ Y/ p初步具有了可用性,上传在此
8 M) F  R$ ~4 B/ }& B5 v5 l
: R' h) H9 T% t% r9 S. z使用时覆盖Aard Tools中的对应文件即可) r& m) D* O7 u& z8 K* _
Aard Tools链接:9 N  J: Z- h# G
http://bitbucket.org/itkach/aardtools/get/0.8.0.zip3 v0 C; O; N9 I/ e5 P, h5 E
安装详细指南:2 A$ ^' |% K5 @  i/ u4 T
http://aarddict.org/aardtools/doc/aardtools.html#module-aardtools9 ^& K1 H( V0 X1 J
4 ^* [8 x6 A* S
在Ubuntu或者Debian上安装最方便,因为依赖关系比较复杂,还不知道怎么在Windows上使用,望有兴趣朋友帮忙转出一个完整版本。' e) {6 t0 ?2 B9 ^
! x; n" t( i) x$ U/ }2 @
再传个用新版的脚本转的Demo,含词条数要更少一些& H+ J/ |" _- p+ a3 Q
WikiDemo2.rar
' x) F: B% G, ]http://u.115.com/file/t4b4dc158f! y  w' H+ b/ R$ {+ `, @" [
-------------------------------------9 j& K/ U8 Z) T) L# c
2010/7/15
7 K* U+ I4 A: k增加了“断点续转”功能,转换时输入"q"后回车,转完当前千个文件时会保存当前进度并停止,下次转换时可以接着转。. L8 T3 x4 i; Y# }5 ]- g# {. u
-------------------------------------$ P8 a. @8 R8 J- P$ _. C
2011/2/25
& [& X! W9 O8 e9 c请用此覆盖aardtools0.8.3,依赖的Mwlib升级至0.12.13。
* i7 j3 Z+ c  S

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?免费注册

x

评分

1

查看全部评分

该用户从未签到

发表于 2016-11-2 18:23:41 | 显示全部楼层
发哥 发表于 2010-7-12 22:16* O4 E* f8 Y' U; e
接着改。嘿嘿。把tex搞成独立图片。。

( W8 `' v" D( M" ]- o, Tgreat

该用户从未签到

发表于 2016-4-15 13:13:23 | 显示全部楼层
👍👍👍

该用户从未签到

发表于 2016-5-31 11:58:56 | 显示全部楼层
非常感谢您的无私分享!辛苦了!
  • TA的每日心情
    开心
    2018-7-19 02:16
  • 签到天数: 20 天

    [LV.4]偶尔看看III

    发表于 2010-7-12 22:16:24 | 显示全部楼层
    接着改。嘿嘿。把tex搞成独立图片。。

    该用户从未签到

    发表于 2010-7-12 22:22:08 | 显示全部楼层
    都是牛人啊
  • TA的每日心情
    开心
    昨天 12:23
  • 签到天数: 2580 天

    [LV.Master]伴坛终老

    发表于 2010-7-12 22:35:54 | 显示全部楼层
    期待中,确实是牛人。

    该用户从未签到

     楼主| 发表于 2010-7-13 09:52:37 | 显示全部楼层
    接着改。嘿嘿。把tex搞成独立图片。。
    9 \3 X( ~) c) T9 W3 a. \发哥 发表于 2010-7-12 22:16
    & V, I+ T2 I' v+ Y6 [
    嗯,又看下代码,应该是可以的,找时间再修改下
    wdianyu 该用户已被删除
    发表于 2010-7-13 10:56:46 | 显示全部楼层
    这个可以有
  • TA的每日心情
    开心
    昨天 12:23
  • 签到天数: 2580 天

    [LV.Master]伴坛终老

    发表于 2010-7-13 10:59:30 | 显示全部楼层
    在pc上使用,常常会显示错误,Mdict就没有反应了。
    & }6 @- k+ ~# i7 x, [我对编程不懂,不知道是什么原因。

    该用户从未签到

     楼主| 发表于 2010-7-13 11:22:07 | 显示全部楼层
    是啊 pc上会显示脚本错误,不过好像对显示效果没什么影响。还不知道什么原因
  • TA的每日心情
    慵懒
    2020-12-11 08:19
  • 签到天数: 104 天

    [LV.6]常住居民II

    发表于 2010-7-13 11:29:33 | 显示全部楼层
    本帖最后由 yangxiups 于 2010-7-13 11:33 编辑
    6 I( _! G$ y+ f5 E7 c8 T7 t! ?' q8 o3 s
    Bravo!

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

     楼主| 发表于 2010-7-13 11:48:04 | 显示全部楼层
    装上那个css后效果会更好些

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

     楼主| 发表于 2010-7-13 18:26:45 | 显示全部楼层
    本帖最后由 superfan89 于 2010-7-13 18:53 编辑
    # S" e  K4 q) Z6 l3 f+ h5 E
    ) ?$ l% S3 X! e$ {$ UTeX单独渲染为图片的效果
    0 j' ~6 r. e& Z1 E% c& X( p" y

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

     楼主| 发表于 2010-7-13 18:27:00 | 显示全部楼层
    本帖最后由 superfan89 于 2010-7-13 18:58 编辑 & [/ o& W2 O: |% B# J: V

    3 I5 s+ \( f4 p竟然发重了,汗
  • TA的每日心情
    郁闷
    2018-3-3 19:50
  • 签到天数: 3 天

    [LV.2]偶尔看看I

    发表于 2010-7-13 19:58:57 | 显示全部楼层
    显示效果真不错啊:D
  • TA的每日心情
    开心
    2018-1-27 00:16
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2010-7-13 20:05:31 | 显示全部楼层
    太强大了!超级期待呀!

    该用户从未签到

     楼主| 发表于 2010-7-14 00:07:25 | 显示全部楼层
    程序已经上传了,暂时挂不了机,望有兴趣的朋友帮忙转出完整版,现在的这个脚本只能一次不间断的将所有文章转出。
  • TA的每日心情
    慵懒
    2020-12-11 08:19
  • 签到天数: 104 天

    [LV.6]常住居民II

    发表于 2010-7-14 19:08:14 | 显示全部楼层
    很期待!
  • TA的每日心情
    开心
    2018-7-19 02:16
  • 签到天数: 20 天

    [LV.4]偶尔看看III

    发表于 2010-7-14 22:13:14 | 显示全部楼层
    服务器是centos的,依赖关系搞不定。。。

    该用户从未签到

     楼主| 发表于 2010-7-14 22:31:30 | 显示全部楼层
    恩,那就找机会单机转好了。。。
  • TA的每日心情
    慵懒
    2020-12-11 08:19
  • 签到天数: 104 天

    [LV.6]常住居民II

    发表于 2010-7-15 19:46:27 | 显示全部楼层
    我想试一试,可对linux几乎已无所知,自己在电脑里装了一个Ubuntu desktop,安装详解里的每一个提到的工具都要安装吗?怎样安装这些工具呢?

    该用户从未签到

     楼主| 发表于 2010-7-15 20:37:42 | 显示全部楼层
    是的,那几个最好都装上,像Ubuntu和debian这样的系统用apt-get install xxx的命令可以直接下载相关包,如果是源代码的话就make之后再make install就好了,解压缩用tar -xvf xxx命令。大概就是这样了,一会再传个新更改的版本。
    3 ?1 x% j. |. z- O6 t0 y    可以去Ubuntu的wiki看下。
  • TA的每日心情
    慵懒
    2020-12-11 08:19
  • 签到天数: 104 天

    [LV.6]常住居民II

    发表于 2010-7-15 21:20:30 | 显示全部楼层
    谢谢了!试试看。
  • TA的每日心情
    慵懒
    2020-12-11 08:19
  • 签到天数: 104 天

    [LV.6]常住居民II

    发表于 2010-7-17 15:10:27 | 显示全部楼层
    是的,那几个最好都装上,像Ubuntu和debian这样的系统用apt-get install xxx的命令可以直接下载相关包,如果是源代码的话就make之后再make install就好了,解压缩用tar -xvf xxx命令。大概就是这样了,一会再传个新更 ...; {# u9 d2 @8 H0 |1 b7 r' G# G7 O5 I
    superfan89 发表于 2010-7-15 20:37

    + F3 |2 q* u3 J& z. i- B工具都已经 装好 了 ,下載好 了 DUMP文件,使用 AARD TOOLS 应該怎樣操作 呢?
    ) |# h) s: G% F6 N" G7 LINSTALLATION中 的
    Assuming source code code is in aardtools directory:
    + r9 ~) U* @2 X0 @
    0 s! E1 ~4 x9 p' c5 u. q: r8 \cd aardtools
    2 |. Q* s& a# ~! Bsudo python setup.py install

    ) \6 f, y3 S- a6 f  A4 A: D* ]* q8 z这一条 不知怎么 操作 .謝謝指導!

    该用户从未签到

     楼主| 发表于 2010-7-17 15:28:59 | 显示全部楼层
    在终端里 进入到解压后的aardtools目录,输入sudo python setup.py install就安装好了, o7 T  |+ ^# E& ?, F) a
    全部安装好后,要使用mwbuildcdb这条命令将xml dump转为cdb格式,再用aardc命令开始转换。
    yulan6248 该用户已被删除
    发表于 2010-7-18 02:09:34 | 显示全部楼层
    太牛了 支持支持!!!!!!!!!!!!希望早日出炉

    该用户从未签到

    发表于 2010-7-18 10:05:42 | 显示全部楼层
    很好,很强大!以后慢慢学着用……
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2025-5-8 06:39 , Processed in 0.027787 second(s), 30 queries .

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表