掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 57077|回复: 107

[工具] 分享:i-wiki的中文WJ新引擎及教程

[复制链接]

该用户从未签到

发表于 2012-7-15 11:37:27 | 显示全部楼层 |阅读模式
本帖最后由 i-wiki 于 2013-4-9 08:59 编辑 2 y' p, X0 `! N# w% F7 L' `: X
4 R) U( X) w# \) Z1 ?0 I
四月至今,发布了两个WJ百科词典,参见:2 F8 P" T+ T+ }% R/ C- j
https://pdawiki.com/forum/thread-8946-1-6.html& a0 K, [7 M/ _: r* }8 }
https://pdawiki.com/forum/thread-9378-1-1.html1 [3 c- K4 o$ {0 X! G$ ?
你还期待i-wiki继续发布新的吗?
3 v: U+ D, O& f  s' `  Q" J) [谢谢大家的支持!可是,也许要让大家失望了,我不会再继续更新,除非有新的突破。
/ [6 J+ Z$ W  i# N* B# ^$ q- K5 ^# K$ Q% {5 y所以,今后大家要自己制作词典了。古语有云:“授人鱼,不如授人以渔”。虽然i-wiki不再发布新的词典,但是他自制的中文维基引擎就要和大家分享了,你也一样可以制作出精美的维基词典!1 }2 F: {4 D0 Y

5 N7 p' }: \1 ^. w% J: `之前也有坛友问到试用引擎的事,可是程序还不完善,不好意思拿出来和大家见面。经过这一段时间的修改,自我感觉基本可用了,加上现在程序编写也遇到了瓶颈,索性就放出来让大家一起来试用,在使用中逐步改进。$ j4 D5 Y9 `8 y. ?* B7 v
如果你能容忍6-13版的缺点,那么请接着往下看。
: u9 U' X  G8 A' B* S% ^先上图,揭开新引擎的面纱。5 z6 s- k; r) u$ A) ~7 T$ f' O
/ `2 r% X) Y" L- z6 o$ f
( J* B; O  g+ K; X
% I# X* k+ b. K" @5 d

# t, m8 }" z0 o9 j5 o( _8 u9 c一、硬件要求:" f- P, O& y! \- W. ]3 U: Z% L
配置总之越高越好。我自己制作2012-6-13版时用的笔记本是几年前的ThinkPad X200,CPU是酷睿II双核P8200(2.2GHz),内存2GB。大家现在的配置应该比这更好。% o6 X- N: @6 z3 ?! F" o. D: V
3 x$ I6 P) S  a3 P* I  y+ H
二、软件环境:
1 y0 Q' i4 m! v" t在Windows XP中新引擎是绿色的,无需安装可直接运行。XP前的系统恐怕不行,之后的其他系统我没有测试,大家不妨试一试。
: m0 f) H0 [1 Q. C6 M* o( R4 J
) U* z7 M/ S3 Q- _5 X6 W三、操作步骤:5 V  J. j5 c2 g" b# T- i) e% S
1、先下载中文维基文档,解压为XML;" U% c7 [0 [% l8 h6 o
2、将此大文档分解为若干个100M左右的小文档;
- p: }4 O4 z( d) V# r3、复制本程序到xml文档所在目录,或生成与本程序同名的.ini文本文件:3 L$ l1 E0 U* K* G! t1 y, Q1 R
    src=待处理的XML文件目录1 E5 x9 R4 K6 I- L. x
    tar=输出目录% t- ^- ^4 N, F4 q9 D$ n$ E
    xml文件名列表
9 }. g7 @2 w" T; c! H0 A4、运行本程序,处理完毕后可执行生成的.bat批处理文件将输出文件合并
; P; C8 G- K: j# C4 s9 Y. d. A% ^. f5、将生成的cfg文件复制到MdxBuilder目录4 ?: E5 f* |- o/ S
6、运行MdxBuilder.exe,制作词典。
4 v4 W: L6 K2 b
+ ]1 }; }% I1 [2 s5 S- s四、简要说明:, `4 X$ z3 w( o
  A.本程序主要用于解析维基百科的Dump数据文件,生成符合MDict格式的Html文本文件。
( U5 z1 [% ~) O" b- ?6 F* m  B.Dump数据文件必须分割为小于128MB的部分以便处理,超过128MB的文件会被忽略。
- V: G7 L4 s# N9 ]) k$ ^7 l1 z  C.操作步骤是可选的,点击链接可执行相应的步骤,第6步包含了第5步的复制操作。
2 L3 J; K3 c0 I0 ]! n$ H+ R8 E  D.如直接点击处理按钮则相当于从第3步开始,即对程序所在目录下的XML文件转换。
  {/ d; y8 |/ g; e; }4 V2 T( n  E.本程序遵循Copyleft规范,详见维基百科中的相关条目。
7 P9 M! a% H, P3 V+ s3 v# W
' i: [( @' l$ Z6 J; i. }+ {新引擎在这里
$ q2 `" H! `! I0 B8 Z/ J) o: P5 F3 |* n  W$ O; ]8 K7 p3 v9 x$ W
3 j2 U) {5 y5 n5 ]) Q
! p: \( k9 j( [: N9 X" o2 U# E( B
五、文件说明:
0 g0 v6 Z0 D5 s; t+ P下载后只有1个主文件W2T.exe,Examples目录是给大家测试用的。运行后会在程序目录生成:3 r9 f7 p: F5 N. Q2 M, b5 {6 d
E2C.ini        英中对照表。想到好多坛友都是英语高手,所以放出来让大家帮忙修改,如果看到条目中信息框中翻译得不好的、没有翻译的,大家就在这个表中修改、添加。) G. U; u. Y2 J% O( f
W2T.ini        待处理XML文件列表。运行完毕会删除。" Z9 }0 {9 `4 \/ w
在源文件夹下,执行“分解”操作后会生成:(如Dumps解压文件为w.xml)
* I4 C2 Z: d3 Q, h- Iw01.xml        <128MB的分块& K- ]1 A& w4 @
w02.xml
6 O" Y! r# L- u, [( p8 R: R) H2 u: r! P. E0 I
w.idx        索引文件。没有它也可以的,就按article中的关键字生成超链接,但是有些链接(在线维基中的红色关键字)实际没有相应条目。
/ _% N, O, b/ N7 s$ {  X在目标文件夹下,运行后会生成:+ M; r5 R2 t6 L; v0 v! F/ J
w01.xml.txt# i# Z! K5 W* |* _0 Q( b- x# g7 n! D3 [7 |
w02.xml.txt* D$ R% K  e% a6 B7 K% Z

6 r5 k6 Z: s! Q, a- dwiki.bat        合并生成wiki.txt的批处理程序' X  j, Q& `- z  k5 ^# {! }7 K3 P
mdxconfig.cfg+ ^$ T% f! G, ?7 t1 F  c1 O0 g/ K
还有数据文件夹# S0 w  a. V1 C( }- }+ b: V8 {: ^
data\
: H" `7 {! b7 |8 U* C其中包含三个文件:' s) i7 g3 y) Q
wiki.css        层叠样式表,大家可以修改成你喜欢的格式。  q5 s8 f: U- L% @
link.gif
, _6 k) ]7 P: lwiki.png
2 n; `9 j8 p. q" I" N4 K和很多两字母命名的文件夹,里面是公式图片" ]& _) X1 A( l' W; g
+ r) e5 Z+ s* [4 _/ _/ r
因为论坛里附件不能下载的原因,所以想尝试的朋友可以到网盘- N2 m$ `2 g  n$ X1 b
http://pan.baidu.com/share/link?shareid=253240&uk=19473610

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?免费注册

x

评分

2

查看全部评分

本帖被以下淘专辑推荐:

该用户从未签到

发表于 2014-7-12 15:15:03 | 显示全部楼层
本帖最后由 abdallha 于 2014-7-14 15:24 编辑
9 G1 k6 U/ i  X& O+ U- c* v1 y
他乡游子 发表于 2013-6-17 12:55 5 A1 ]; q" T# L
有些词无法解析+ Q! ^3 ?8 [: ~9 q4 j) K6 H: [$ e  V
如:藍岩鬣蜥
2 g2 X4 v2 J5 g+ g' ]9 R    神韵艺术团
3 F) G' X' B! ?" y! P* D

# O8 g9 c, `* g( @4 B我正在转换20140705的dump,在第17个文件碰到了“藍岩鬣蜥”,和楼上同学反映的一样程序出错了。经过反复试验,发现是在这一句中出错的:
  1. “ 另外,傳統的農地變更成畜牧的草場也影響藍岩鬣蜥的次級棲息地。<ref name="iucn">{{IUCN2006|assessors=Burton, F.J.|year=2004|id=44275|title=Cyclura lewisi|downloaded=9 May 2006}}</ref>”
复制代码
仔细研究后发现是该句中的标签<ref name="iucn">漏了加斜杠符号。于是用Ultraedit编辑该xml文件,将该标签改成<ref name="iucn"/>,以UTF-8格式保存,重新运行i-wiki引擎,就顺利通过了。: d! Y/ F# H7 g3 c3 T3 [

9 x6 o% M0 }  h6 G然后在第26个文件碰到“神韵艺术团”,报同样错。发现是在:
  1. “還有扇子、筷子和水袖等。<ref name="=A dazzling show with a clear message"/><ref name="Women flow like water in spectacle"/>{{cite news|language= {{en}} | author = Sid Smith | coauthors = | url =http://articles.chicagotribune.com/2008-01-28/features/0801270151_1_dance-chinese-traditional |title = Women flow like water in spectacle |publisher =Chicago tribune | pages =| date = 2008-01-28|accessdate = 2012-12-29|In many respects, the Chinese New Year Spectacular resoundingly lives up to its name. The term "spectacular" may whiff of self-promotion, but the show, which played Arie Crown Theater over the weekend, is indisputably a spectacle. Dozens of dancers and musicians flood the stage in a parade of brightly colored, intricately detailed silken costumes, while the instrumentation ranges from traditional drums to bunches of chopsticks.}}</ref>”
复制代码
这句出错,仔细研究后发现是该句中的标签<ref name="Women flow like water in spectacle"/>多加了一个斜杠符号,删去该斜杠,保存,重新运行,OK了。
$ R3 O* F6 E% @+ S% w
  • TA的每日心情
    开心
    2025-4-9 14:45
  • 签到天数: 18 天

    [LV.4]偶尔看看III

    发表于 2021-11-11 22:56:03 | 显示全部楼层
    请问大家,把XML分割成128M一下大小文件,用的什么工具。我在网络上找了几款,比如WXR FILE SPLITTER等,把XML导入后程序都是卡住不动,
    % H: o  f/ {/ ~& r我现在用的版本是2021年11月1号的,大小2.12G,解压缩后的XML达到9.41G。7 [& {- I* D$ b
    谢谢啦
  • TA的每日心情
    开心
    2018-4-28 13:02
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2014-10-28 22:07:13 | 显示全部楼层
    glsgls123 发表于 2012-8-21 14:15' X2 O9 n7 @9 H" Z
    楼主~转换日文wiki,到part7 “捕手”出现这个怎么办?在google上查了一下,有一种可能是地区码设置引起 ...
    5 r) Z* {( e0 \# C* T9 l8 X% T3 v
    直接在源文件里把这个捕手条目删除就好了。有2个。

    该用户从未签到

    发表于 2012-7-15 12:33:50 | 显示全部楼层
    本帖最后由 2000ml 于 2012-7-18 10:00 编辑
    & D6 C9 W, P' W
    5 G$ ]; q  o+ F! U0 e当然期待!在大侠你有时间和精力的前提下,希望可以精益求精、与时并进。感谢!//可是,做一名优秀的渔夫也需要潜质和条件…//还是谢谢楼主用心良苦!
  • TA的每日心情
    慵懒
    2020-12-11 08:19
  • 签到天数: 104 天

    [LV.6]常住居民II

    发表于 2012-7-15 12:40:58 | 显示全部楼层
    期待中!

    该用户从未签到

    发表于 2012-7-15 15:43:57 | 显示全部楼层
    挺好的啊,我两个都下了,因为我对公式很关注,所以公式一般就是我评判好坏的唯一标准0 v* H& R5 F* `5 |
    6月13的版本可以说公式已经非常完美了,和superfan的相同,也是用图片来表示公式的,而且图片比superfan老大的小一些清晰一些,这个我感觉非常好,但是整体来说,总感觉排版没有superfan老大的清爽,可能和字体的选择和大小有关,楼主可以拿“导数”词条做个对比
    " p& q' `0 K6 M3 w5 o, d* F我用的是手机,640*480的屏,供楼主参考
    ( ~9 \, |5 w- D1 n6 X; P! F6 d, K+ C非常感谢,感觉以后应该会更好

    该用户从未签到

    发表于 2012-7-15 16:32:52 | 显示全部楼层
    我打算在9月份以后先HTTP请求简体中文页面,做一个图文版。到时公开数据包的文件路径,这样大家就可以制作图文版。. z! R% X4 ?6 ]4 n1 L
    6 ]0 S+ q8 L$ b( {& ?
    以下为废话……0 Y3 V$ L/ ]8 o7 y
    我的Wiki引擎还在构思中,目前的难题是解析模板和函数。至于数学公式,我想自学下Latex相关部分。
  • TA的每日心情

    2018-6-16 00:08
  • 签到天数: 197 天

    [LV.7]常住居民III

    发表于 2012-7-15 17:48:29 | 显示全部楼层
    当然当然,非常期待哈。
  • TA的每日心情
    郁闷
    2018-5-28 23:05
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2012-7-15 18:42:28 | 显示全部楼层
    期待图文版
  • TA的每日心情

    2018-1-21 02:01
  • 签到天数: 2 天

    [LV.1]初来乍到

    发表于 2012-7-15 19:33:03 | 显示全部楼层
    很期待,你做的比所有的XD做的都要精美一些,如果可能,希望XD 能一直更新哪!

    该用户从未签到

    发表于 2012-7-15 21:56:43 | 显示全部楼层
    非常期待! 跪求!
  • TA的每日心情
    奋斗
    2020-11-29 07:39
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2012-7-15 23:47:05 | 显示全部楼层
    太强大了% d% L) p* T( w0 D  K  t: t1 m& F
    . ?5 H* y& y# A4 C
    就有些名词词组,例如,HTC发布的很多机型的的词条重新定向,点击链接后,就单独个词条在那里,而没有具体内容……
  • TA的每日心情
    开心
    2018-7-14 15:08
  • 签到天数: 11 天

    [LV.3]偶尔看看II

    发表于 2012-7-16 06:31:35 | 显示全部楼层
    挺好的啊,我两个都下了,因为我对公式很关注,所以公式一般就是我评判好坏的唯一标准
    7 `1 F: O- z! B6月13的版本可以说公式已经非常完美了,和superfan的相同,也是用图片来表示公式的,而且图片比superfan老大的小一些清晰一些, ...
    % u; H! F& X, @. M! m9 |glacierrr 发表于 2012-7-15 15:43
    . T% k* {% r. W' ?1 g9 y0 ?5 w
    3 K- a  c; B# d( T) l4 Y# f
    期待着,Superfan制作的也非常精美,一直是我常常使用的,他也说过要写一个详细的教程,可是我等呀,等呀%……

    该用户从未签到

    发表于 2012-7-16 09:16:28 | 显示全部楼层
    非常期待,希望LZ能在下个版本中修复点击链接转跳,只有一个空的词条的bug。

    该用户从未签到

     楼主| 发表于 2012-7-16 09:23:12 | 显示全部楼层
    谢谢大家的支持!可是,可能要让大家失望,我不会再继续更新了。

    该用户从未签到

     楼主| 发表于 2012-7-16 09:32:49 | 显示全部楼层
    4# glacierrr 7 [2 J, a' a/ R. U/ l, [
    & R5 W* I: O/ _8 a3 b% B* I
    你的视角很独特,公式的确是维基百科中重要的组成部分,刚开始我没有注意到的,经坛友提醒才发现问题。还好,这个难题用图片解决了。与Superfan类似,用Tex工具生成图片来处理。

    该用户从未签到

     楼主| 发表于 2012-7-16 09:49:11 | 显示全部楼层
    本帖最后由 i-wiki 于 2012-7-16 10:32 编辑
    # X& N' Y( J/ l" S/ D
    / U' A4 s5 u2 N* D6 w 5# 惟吾无为
    . r; F" @( V, Q  h; I- j5 k! G
    ) e7 r8 p4 q* ?+ k无为老弟的百度百科不错,几十GB的东西是很难下载和处理的,可你做到了。用Http方式也许是获得最接近在线维基版式的一种方法,期待你的加入,不过要考虑G.F.W会有一点影响。

    该用户从未签到

    发表于 2012-7-16 10:09:39 | 显示全部楼层
    很期待 高作

    该用户从未签到

     楼主| 发表于 2012-7-16 10:31:11 | 显示全部楼层
    12# qiyue2001 10# xianjue114
    . V6 x% I! r. Y3 f6 {1 O/ l0 O" I. q) r9 Z% x5 a: e6 M! {" U+ _
    经查看,的确是一个BUG。因为每一个关键字都要验证在索引中是否存在,如不存在则不作链接处理。程序中对于英文字串的比较有BUG,已修改。

    该用户从未签到

    发表于 2012-7-16 13:15:05 | 显示全部楼层
    15# i-wiki . i6 G% Y& @% |/ m  C  ?6 [4 h8 f

    0 u( l4 a# W. k) E9 N+ g- k2 C% y: I5 O/ Y5 @) J" q5 q1 g4 o
    只是设想,而且为了保证不影响服务器,到时会每个页面等待几秒,图片亦同。所以整体速度会慢些。
    & b) X2 a. ^  j; K. Y到时先请求社区帮助,不然就只有逐个页面下载了。

    该用户从未签到

     楼主| 发表于 2012-7-16 17:48:25 | 显示全部楼层
    除非有新的突破,否则我不会再继续更新了。

    该用户从未签到

     楼主| 发表于 2012-7-17 08:49:46 | 显示全部楼层
    所以,今后大家要自己制作词典了。

    该用户从未签到

     楼主| 发表于 2012-7-17 17:18:32 | 显示全部楼层
    2012-07-16 05:26:45 zhwiki: Dump complete

    5 A* Y3 ?& k% X  a3 E2 P7 D6 g最新的数据你下载了没有?

    该用户从未签到

    发表于 2012-7-17 18:16:35 | 显示全部楼层
    收藏一个先,可以直接做意大利文的维基百科吗?

    该用户从未签到

    发表于 2012-7-17 19:27:23 | 显示全部楼层
    谢谢楼主分享制作工具和教程!!!{:soso_e113:}
  • TA的每日心情
    开心
    2018-1-27 00:16
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2012-7-20 15:11:05 | 显示全部楼层
    无限感谢大大!等过几天有时间了试试日语的版本如何还有维基词典,文库等。一直在用大大制作的维基词库,受益匪浅。

    该用户从未签到

    发表于 2012-8-21 09:44:19 | 显示全部楼层
    被杀毒软件-金山当作木马删掉囧只好关掉杀软
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2025-5-7 02:57 , Processed in 0.027530 second(s), 29 queries .

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表