掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 19009|回复: 54

[工具] New Wikipedia rendering engine

[复制链接]

该用户从未签到

发表于 2010-7-12 22:04:40 | 显示全部楼层 |阅读模式
本帖最后由 superfan89 于 2011-2-25 11:41 编辑   w. y* d8 t. o5 r  m1 t
; K) j1 N/ H. ~) n/ h- Q
一直以来使用philostone等兄弟转换的wikipedia,在手机上读维基百科的感觉十分爽,唯一美中不足的是其中一些未处理链接和标签。前几天在网上google来MWlib和aard dictionary这两个好东东,其中Mwlib是专门用来转换wiki格式的一个程序库,aard是一个跨平台词典,包含了开源的词典转换软件,可以用来直接转换维基百科的xml dump。对原作者的代码略加修改后即可以直接输出Mdict可转换的文本格式。, ~# O. B+ M! H
    这个版本转换了zhwiki dump大约1%的内容,花费了近30分钟。
/ M/ h0 I& @) G9 k已知的优点和缺点:
- e9 L  m" _" C优点:. c( P- h# `( Y5 b
1、残留的标签大大减少,格式更加完善
* `. A$ I7 l1 e4 Q( ^, N4 s2、公式全部采用TeX渲染成图片,更加美观
. |1 J8 n9 V% r& C5 b+ R3、包含词条重定向4 ~3 ~( [8 j% H, Z7 g
缺点:) R! \8 }0 D8 C  ~. f
1、渲染出的图片嵌在网页内部,只能用PC端Mdict显示
; @8 G' G7 g# ^" d/ j; X5 x# D2、部分格式不正确" P' a+ \9 V5 k9 C  d7 _
3、需要在Linux下搭建转换环境
0 ~# j- n; T6 ~; G; s& p
. y6 `, q3 C# x1 l6 I5 x4 g相关参考:
; J  a/ [8 Y' @/ Yhttp://aarddict.org/
3 w2 l( b4 n- Y; @) k  Phttp://code.pediapress.com/wiki/wiki/mwlib6 M( J+ ?1 B+ p/ h
aard 09年12月的中文维基百科(完整版)http下载,与这个demo的格式类似:) S9 K  U, x" Q0 Q
http://aarddict.org/d/zhwiki-20091225-1.html.aar& c! r7 l7 a2 O3 H. @2 S" X
希望有兴趣的朋友们能共同研究探讨。
6 I' W9 z$ ?. x8 \- K# j
! y" u% n6 c: U0 |  ^5 j这里提供一个Mdx(1%词条)仅供测试,想日常使用的朋友就别下了。
8 }& [$ m+ V$ M" Y& w3 P& c: kWikiDemo.mdx
% S. L; F5 _$ k/ K' Thttp://u.115.com/file/t417cc4b834 u2 ~* D2 o. {  T8 T
p.s.:可以套上这个wikipedia.css一起使
% z* j! I: ~( k& D6 X0 d+ D- j* j- {6 `  k, ~" P- n; T2 D
-------------------------------------
  i. l* f# A5 O3 c4 b2010/07/13
" k+ h% |) D' `, ^# e8 Y改进:
3 _' `. {% |3 |; ]4 V2 U  G1、TeX渲染图片输出单独输出至data目录, e+ u" F6 {6 X/ f9 B. W
2、引用和引用链接可以互相跳转,看文章非常方便" T$ x9 T8 v* m) d2 ~
初步具有了可用性,上传在此
/ Y6 o' i/ U8 k( g+ p
' R* h1 z+ I( z. n0 v, l1 A/ d使用时覆盖Aard Tools中的对应文件即可% P- I# B" P; l0 l
Aard Tools链接:
: ?# t# X9 y) U3 K% P: Z# dhttp://bitbucket.org/itkach/aardtools/get/0.8.0.zip
- U0 p8 \6 B! }* {$ d6 |安装详细指南:6 d" n. d' E* v  Y2 D
http://aarddict.org/aardtools/doc/aardtools.html#module-aardtools
  j# O  B0 x* g9 _9 V
9 V, f3 V# c$ W4 P在Ubuntu或者Debian上安装最方便,因为依赖关系比较复杂,还不知道怎么在Windows上使用,望有兴趣朋友帮忙转出一个完整版本。) @! `3 x4 E; Y- ]# U+ j

8 X" X/ N% J- [/ q4 m% q再传个用新版的脚本转的Demo,含词条数要更少一些2 P- Z1 f* S" x8 n& ~3 j  F
WikiDemo2.rar, N4 }" U/ |' S; a- }* X
http://u.115.com/file/t4b4dc158f; C7 i3 @, I: c+ c1 Y  @) F
-------------------------------------
' v% }+ x+ t  y0 b9 T( ]+ t4 {2010/7/15/ b# ?8 Y2 A  D+ i6 A; e) W7 `
增加了“断点续转”功能,转换时输入"q"后回车,转完当前千个文件时会保存当前进度并停止,下次转换时可以接着转。" u8 j0 V- E: v- f/ b9 U5 v
-------------------------------------. g- t1 o7 u8 S/ O. Y- @( S9 ^
2011/2/25
( d5 k8 ]( D2 P/ K% u请用此覆盖aardtools0.8.3,依赖的Mwlib升级至0.12.13。0 e% H# Z) {3 q2 c5 B; B9 e

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?免费注册

x

评分

1

查看全部评分

该用户从未签到

发表于 2016-11-2 18:23:41 | 显示全部楼层
发哥 发表于 2010-7-12 22:16
! ~& O2 Z; P" G3 V接着改。嘿嘿。把tex搞成独立图片。。
; G2 g0 [4 h( K: L4 k
great

该用户从未签到

发表于 2016-4-15 13:13:23 | 显示全部楼层
👍👍👍

该用户从未签到

发表于 2016-5-31 11:58:56 | 显示全部楼层
非常感谢您的无私分享!辛苦了!
  • TA的每日心情
    开心
    2018-7-19 02:16
  • 签到天数: 20 天

    [LV.4]偶尔看看III

    发表于 2010-7-12 22:16:24 | 显示全部楼层
    接着改。嘿嘿。把tex搞成独立图片。。

    该用户从未签到

    发表于 2010-7-12 22:22:08 | 显示全部楼层
    都是牛人啊
  • TA的每日心情
    开心
    18 小时前
  • 签到天数: 2247 天

    [LV.Master]伴坛终老

    发表于 2010-7-12 22:35:54 | 显示全部楼层
    期待中,确实是牛人。

    该用户从未签到

     楼主| 发表于 2010-7-13 09:52:37 | 显示全部楼层
    接着改。嘿嘿。把tex搞成独立图片。。
    - C6 a2 c- h7 A3 j% o, K发哥 发表于 2010-7-12 22:16

    , X0 s; R9 s. q; y  E/ J嗯,又看下代码,应该是可以的,找时间再修改下
    wdianyu 该用户已被删除
    发表于 2010-7-13 10:56:46 | 显示全部楼层
    这个可以有
  • TA的每日心情
    开心
    18 小时前
  • 签到天数: 2247 天

    [LV.Master]伴坛终老

    发表于 2010-7-13 10:59:30 | 显示全部楼层
    在pc上使用,常常会显示错误,Mdict就没有反应了。7 f$ G3 V4 v" N. M/ h( w( b- f
    我对编程不懂,不知道是什么原因。

    该用户从未签到

     楼主| 发表于 2010-7-13 11:22:07 | 显示全部楼层
    是啊 pc上会显示脚本错误,不过好像对显示效果没什么影响。还不知道什么原因
  • TA的每日心情
    慵懒
    2020-12-11 08:19
  • 签到天数: 104 天

    [LV.6]常住居民II

    发表于 2010-7-13 11:29:33 | 显示全部楼层
    本帖最后由 yangxiups 于 2010-7-13 11:33 编辑
    2 n- H# h- f* q# K; n7 o$ ?) m2 L4 C6 `4 D6 @
    Bravo!

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

     楼主| 发表于 2010-7-13 11:48:04 | 显示全部楼层
    装上那个css后效果会更好些

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

     楼主| 发表于 2010-7-13 18:26:45 | 显示全部楼层
    本帖最后由 superfan89 于 2010-7-13 18:53 编辑
    4 k% B5 x' K- s5 u% R+ U) e" r( [/ F4 O, @" d* o
    TeX单独渲染为图片的效果
    % y8 E. R! a) s$ Z, \8 R

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

     楼主| 发表于 2010-7-13 18:27:00 | 显示全部楼层
    本帖最后由 superfan89 于 2010-7-13 18:58 编辑
    - r8 L$ x" ^2 j* O9 F( y' u  U; d. p- V1 q" N) l
    竟然发重了,汗
  • TA的每日心情
    郁闷
    2018-3-3 19:50
  • 签到天数: 3 天

    [LV.2]偶尔看看I

    发表于 2010-7-13 19:58:57 | 显示全部楼层
    显示效果真不错啊:D
  • TA的每日心情
    开心
    2018-1-27 00:16
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2010-7-13 20:05:31 | 显示全部楼层
    太强大了!超级期待呀!

    该用户从未签到

     楼主| 发表于 2010-7-14 00:07:25 | 显示全部楼层
    程序已经上传了,暂时挂不了机,望有兴趣的朋友帮忙转出完整版,现在的这个脚本只能一次不间断的将所有文章转出。
  • TA的每日心情
    慵懒
    2020-12-11 08:19
  • 签到天数: 104 天

    [LV.6]常住居民II

    发表于 2010-7-14 19:08:14 | 显示全部楼层
    很期待!
  • TA的每日心情
    开心
    2018-7-19 02:16
  • 签到天数: 20 天

    [LV.4]偶尔看看III

    发表于 2010-7-14 22:13:14 | 显示全部楼层
    服务器是centos的,依赖关系搞不定。。。

    该用户从未签到

     楼主| 发表于 2010-7-14 22:31:30 | 显示全部楼层
    恩,那就找机会单机转好了。。。
  • TA的每日心情
    慵懒
    2020-12-11 08:19
  • 签到天数: 104 天

    [LV.6]常住居民II

    发表于 2010-7-15 19:46:27 | 显示全部楼层
    我想试一试,可对linux几乎已无所知,自己在电脑里装了一个Ubuntu desktop,安装详解里的每一个提到的工具都要安装吗?怎样安装这些工具呢?

    该用户从未签到

     楼主| 发表于 2010-7-15 20:37:42 | 显示全部楼层
    是的,那几个最好都装上,像Ubuntu和debian这样的系统用apt-get install xxx的命令可以直接下载相关包,如果是源代码的话就make之后再make install就好了,解压缩用tar -xvf xxx命令。大概就是这样了,一会再传个新更改的版本。
    8 d3 Y+ P1 D2 n/ c8 K  N5 f3 @- j    可以去Ubuntu的wiki看下。
  • TA的每日心情
    慵懒
    2020-12-11 08:19
  • 签到天数: 104 天

    [LV.6]常住居民II

    发表于 2010-7-15 21:20:30 | 显示全部楼层
    谢谢了!试试看。
  • TA的每日心情
    慵懒
    2020-12-11 08:19
  • 签到天数: 104 天

    [LV.6]常住居民II

    发表于 2010-7-17 15:10:27 | 显示全部楼层
    是的,那几个最好都装上,像Ubuntu和debian这样的系统用apt-get install xxx的命令可以直接下载相关包,如果是源代码的话就make之后再make install就好了,解压缩用tar -xvf xxx命令。大概就是这样了,一会再传个新更 ...
    2 M, w( p3 l& b8 G1 B: d9 F+ x, }$ Dsuperfan89 发表于 2010-7-15 20:37
    # n, G1 r0 }9 v7 G
    工具都已经 装好 了 ,下載好 了 DUMP文件,使用 AARD TOOLS 应該怎樣操作 呢?
    3 G; Y  X( Y; vINSTALLATION中 的
    Assuming source code code is in aardtools directory:, d) d3 H) H, v2 F5 I
    $ y& P. |8 b5 {) K: M
    cd aardtools
    7 ~! ]1 e# Y2 [& I3 o% Jsudo python setup.py install
    1 a4 v, w7 G9 \$ S5 [6 J
    这一条 不知怎么 操作 .謝謝指導!

    该用户从未签到

     楼主| 发表于 2010-7-17 15:28:59 | 显示全部楼层
    在终端里 进入到解压后的aardtools目录,输入sudo python setup.py install就安装好了
    : I4 S! I+ \1 c( u& k全部安装好后,要使用mwbuildcdb这条命令将xml dump转为cdb格式,再用aardc命令开始转换。
    yulan6248 该用户已被删除
    发表于 2010-7-18 02:09:34 | 显示全部楼层
    太牛了 支持支持!!!!!!!!!!!!希望早日出炉

    该用户从未签到

    发表于 2010-7-18 10:05:42 | 显示全部楼层
    很好,很强大!以后慢慢学着用……
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-4-28 23:23 , Processed in 0.078868 second(s), 14 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表