掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 18999|回复: 54

[工具] New Wikipedia rendering engine

[复制链接]

该用户从未签到

发表于 2010-7-12 22:04:40 | 显示全部楼层 |阅读模式
本帖最后由 superfan89 于 2011-2-25 11:41 编辑
! I3 H8 X' u" W9 T. a/ @* S8 A3 M  _  @
一直以来使用philostone等兄弟转换的wikipedia,在手机上读维基百科的感觉十分爽,唯一美中不足的是其中一些未处理链接和标签。前几天在网上google来MWlib和aard dictionary这两个好东东,其中Mwlib是专门用来转换wiki格式的一个程序库,aard是一个跨平台词典,包含了开源的词典转换软件,可以用来直接转换维基百科的xml dump。对原作者的代码略加修改后即可以直接输出Mdict可转换的文本格式。  g# E+ E. }2 U* |
    这个版本转换了zhwiki dump大约1%的内容,花费了近30分钟。
  Z$ g0 M: I/ J6 g已知的优点和缺点:( x3 u" a" ~" [; f7 G; ~
优点:. E5 X7 l: N* T
1、残留的标签大大减少,格式更加完善
* D& q# L' l) G3 F8 ^. x2、公式全部采用TeX渲染成图片,更加美观
: u- ^8 ^/ d9 W- ^0 Q8 a! K3、包含词条重定向' h. [& q: R5 Q4 K" ]1 k7 S' m1 Y* z/ H
缺点:
7 ]3 B' o5 D: B1 t2 ?7 R0 x1、渲染出的图片嵌在网页内部,只能用PC端Mdict显示
4 W/ b2 Q8 `3 L; d2、部分格式不正确
/ b! Z: l2 I& h3、需要在Linux下搭建转换环境
& y" e, u5 v* \# k9 X3 _3 G4 n" l- U# l5 e, j9 E; }7 J
相关参考:
4 S/ O$ ?; B* o* O) h; B# g! _5 Zhttp://aarddict.org/
+ p2 v6 P6 f; V' l' Z+ }http://code.pediapress.com/wiki/wiki/mwlib5 }; R, L' k( |
aard 09年12月的中文维基百科(完整版)http下载,与这个demo的格式类似:6 H6 F* P  N; {6 f& @. x
http://aarddict.org/d/zhwiki-20091225-1.html.aar
. f3 k+ m9 S" ~# r5 N4 |希望有兴趣的朋友们能共同研究探讨。
) y6 R3 f5 C2 F1 B. d: r
& |) Y& r+ F, Z8 k这里提供一个Mdx(1%词条)仅供测试,想日常使用的朋友就别下了。# e  g  x( Y0 X0 y% y! p
WikiDemo.mdx
, j5 f$ t" e; L7 }! }http://u.115.com/file/t417cc4b83
: D* y7 W$ f: s) _) j3 Hp.s.:可以套上这个wikipedia.css一起使7 [: E! B+ {9 r" Z. Q) A- f4 K
0 h( k, N) ]' Z1 v
-------------------------------------5 W4 d; W. r* a- |
2010/07/13
$ G4 e* O3 q/ J; \* a改进:
. _) M! y5 P, e* p7 x  d. p* m1、TeX渲染图片输出单独输出至data目录
! {- Z) M, `# o7 ]2、引用和引用链接可以互相跳转,看文章非常方便+ o8 e$ F* O- a7 f2 z; x
初步具有了可用性,上传在此$ ~6 H% d# k$ \  Q$ C0 z

0 ^6 w- ~. k" X! L2 I使用时覆盖Aard Tools中的对应文件即可9 g+ q6 @! L, }& O& C7 a  j; `
Aard Tools链接:. t' G' @! {  s3 a0 R) @) E) {
http://bitbucket.org/itkach/aardtools/get/0.8.0.zip2 k7 x+ W2 W8 @4 A
安装详细指南:
# l; ?5 o; `# m! Whttp://aarddict.org/aardtools/doc/aardtools.html#module-aardtools+ ^0 A$ y& a' D9 l
9 Q/ s- M0 G8 B0 ?3 S
在Ubuntu或者Debian上安装最方便,因为依赖关系比较复杂,还不知道怎么在Windows上使用,望有兴趣朋友帮忙转出一个完整版本。
/ ^7 m! \# ~8 {$ N, S: ~# [' H8 s( D$ ^5 Y
再传个用新版的脚本转的Demo,含词条数要更少一些
2 v6 _2 p5 R# v. }4 eWikiDemo2.rar
: [; Z( P3 K5 L" t( vhttp://u.115.com/file/t4b4dc158f: N7 U% U5 \" o
-------------------------------------' R* ^- A" a  T
2010/7/15
1 Q8 Q& [% W7 u$ B" t增加了“断点续转”功能,转换时输入"q"后回车,转完当前千个文件时会保存当前进度并停止,下次转换时可以接着转。6 G8 m/ C  _2 N
-------------------------------------
- p- b6 r  D; Q2011/2/25- M9 N7 `! \" A7 e, S  w
请用此覆盖aardtools0.8.3,依赖的Mwlib升级至0.12.13。3 C7 B) X' A' w$ ^. R

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?免费注册

x

评分

1

查看全部评分

该用户从未签到

发表于 2016-11-2 18:23:41 | 显示全部楼层
发哥 发表于 2010-7-12 22:16
7 Y: S" _* y! X4 Q" L接着改。嘿嘿。把tex搞成独立图片。。

  N6 _. ]0 U; agreat

该用户从未签到

发表于 2016-4-15 13:13:23 | 显示全部楼层
👍👍👍

该用户从未签到

发表于 2016-5-31 11:58:56 | 显示全部楼层
非常感谢您的无私分享!辛苦了!
  • TA的每日心情
    开心
    2018-7-19 02:16
  • 签到天数: 20 天

    [LV.4]偶尔看看III

    发表于 2010-7-12 22:16:24 | 显示全部楼层
    接着改。嘿嘿。把tex搞成独立图片。。

    该用户从未签到

    发表于 2010-7-12 22:22:08 | 显示全部楼层
    都是牛人啊
  • TA的每日心情
    开心
    昨天 07:46
  • 签到天数: 2244 天

    [LV.Master]伴坛终老

    发表于 2010-7-12 22:35:54 | 显示全部楼层
    期待中,确实是牛人。

    该用户从未签到

     楼主| 发表于 2010-7-13 09:52:37 | 显示全部楼层
    接着改。嘿嘿。把tex搞成独立图片。。- B$ F% D* E/ w# I
    发哥 发表于 2010-7-12 22:16

    2 G$ F1 Z, G- V) s8 G- w嗯,又看下代码,应该是可以的,找时间再修改下
    wdianyu 该用户已被删除
    发表于 2010-7-13 10:56:46 | 显示全部楼层
    这个可以有
  • TA的每日心情
    开心
    昨天 07:46
  • 签到天数: 2244 天

    [LV.Master]伴坛终老

    发表于 2010-7-13 10:59:30 | 显示全部楼层
    在pc上使用,常常会显示错误,Mdict就没有反应了。6 ]8 M7 g* U! k2 W7 ^0 P3 {8 q
    我对编程不懂,不知道是什么原因。

    该用户从未签到

     楼主| 发表于 2010-7-13 11:22:07 | 显示全部楼层
    是啊 pc上会显示脚本错误,不过好像对显示效果没什么影响。还不知道什么原因
  • TA的每日心情
    慵懒
    2020-12-11 08:19
  • 签到天数: 104 天

    [LV.6]常住居民II

    发表于 2010-7-13 11:29:33 | 显示全部楼层
    本帖最后由 yangxiups 于 2010-7-13 11:33 编辑
    ( ~4 L4 j+ u" v7 M7 k
    / u: w5 K. Q1 o6 c. L$ FBravo!

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

     楼主| 发表于 2010-7-13 11:48:04 | 显示全部楼层
    装上那个css后效果会更好些

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

     楼主| 发表于 2010-7-13 18:26:45 | 显示全部楼层
    本帖最后由 superfan89 于 2010-7-13 18:53 编辑
    * {1 f& }5 A( c, h2 r, l; a# L+ T: j, R; B! ]* y
    TeX单独渲染为图片的效果' O) p) u( E1 a# s/ |" F% _

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

     楼主| 发表于 2010-7-13 18:27:00 | 显示全部楼层
    本帖最后由 superfan89 于 2010-7-13 18:58 编辑
    , E; e, F4 T) U5 \6 p. |  K& n; J
      t* n' Z% F: N; V  d! o, Q竟然发重了,汗
  • TA的每日心情
    郁闷
    2018-3-3 19:50
  • 签到天数: 3 天

    [LV.2]偶尔看看I

    发表于 2010-7-13 19:58:57 | 显示全部楼层
    显示效果真不错啊:D
  • TA的每日心情
    开心
    2018-1-27 00:16
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2010-7-13 20:05:31 | 显示全部楼层
    太强大了!超级期待呀!

    该用户从未签到

     楼主| 发表于 2010-7-14 00:07:25 | 显示全部楼层
    程序已经上传了,暂时挂不了机,望有兴趣的朋友帮忙转出完整版,现在的这个脚本只能一次不间断的将所有文章转出。
  • TA的每日心情
    慵懒
    2020-12-11 08:19
  • 签到天数: 104 天

    [LV.6]常住居民II

    发表于 2010-7-14 19:08:14 | 显示全部楼层
    很期待!
  • TA的每日心情
    开心
    2018-7-19 02:16
  • 签到天数: 20 天

    [LV.4]偶尔看看III

    发表于 2010-7-14 22:13:14 | 显示全部楼层
    服务器是centos的,依赖关系搞不定。。。

    该用户从未签到

     楼主| 发表于 2010-7-14 22:31:30 | 显示全部楼层
    恩,那就找机会单机转好了。。。
  • TA的每日心情
    慵懒
    2020-12-11 08:19
  • 签到天数: 104 天

    [LV.6]常住居民II

    发表于 2010-7-15 19:46:27 | 显示全部楼层
    我想试一试,可对linux几乎已无所知,自己在电脑里装了一个Ubuntu desktop,安装详解里的每一个提到的工具都要安装吗?怎样安装这些工具呢?

    该用户从未签到

     楼主| 发表于 2010-7-15 20:37:42 | 显示全部楼层
    是的,那几个最好都装上,像Ubuntu和debian这样的系统用apt-get install xxx的命令可以直接下载相关包,如果是源代码的话就make之后再make install就好了,解压缩用tar -xvf xxx命令。大概就是这样了,一会再传个新更改的版本。' P( j6 i) T3 A4 U( l" v  `' P
        可以去Ubuntu的wiki看下。
  • TA的每日心情
    慵懒
    2020-12-11 08:19
  • 签到天数: 104 天

    [LV.6]常住居民II

    发表于 2010-7-15 21:20:30 | 显示全部楼层
    谢谢了!试试看。
  • TA的每日心情
    慵懒
    2020-12-11 08:19
  • 签到天数: 104 天

    [LV.6]常住居民II

    发表于 2010-7-17 15:10:27 | 显示全部楼层
    是的,那几个最好都装上,像Ubuntu和debian这样的系统用apt-get install xxx的命令可以直接下载相关包,如果是源代码的话就make之后再make install就好了,解压缩用tar -xvf xxx命令。大概就是这样了,一会再传个新更 ...- \4 r+ v. E4 b% s9 R2 R
    superfan89 发表于 2010-7-15 20:37
    * b, P5 M8 p; m- D
    工具都已经 装好 了 ,下載好 了 DUMP文件,使用 AARD TOOLS 应該怎樣操作 呢?) G. {+ G; G7 H! ]! I$ u* H. C
    INSTALLATION中 的
    Assuming source code code is in aardtools directory:+ A) H4 Q7 s& }( m; ^2 T8 U! \& n, Q8 y
    . z+ |& N0 U. k( _+ X$ `* V. a9 [! q# A
    cd aardtools
    ; @# C9 \; ^5 q9 F7 U! L9 T6 Zsudo python setup.py install
    $ C/ L! t0 ?* C* L* B5 k( x4 m
    这一条 不知怎么 操作 .謝謝指導!

    该用户从未签到

     楼主| 发表于 2010-7-17 15:28:59 | 显示全部楼层
    在终端里 进入到解压后的aardtools目录,输入sudo python setup.py install就安装好了
    , Y. G" ^4 D( s) w) @全部安装好后,要使用mwbuildcdb这条命令将xml dump转为cdb格式,再用aardc命令开始转换。
    yulan6248 该用户已被删除
    发表于 2010-7-18 02:09:34 | 显示全部楼层
    太牛了 支持支持!!!!!!!!!!!!希望早日出炉

    该用户从未签到

    发表于 2010-7-18 10:05:42 | 显示全部楼层
    很好,很强大!以后慢慢学着用……
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-4-26 12:28 , Processed in 0.079801 second(s), 15 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表