维基咖啡
本帖最后由 i-wiki 于 2015-1-1 23:22 编辑来一杯维基咖啡(http://pan.baidu.com/s/1sjNn917)吧!
以后,不管是凛凛寒冬还是炎炎夏日,无论原料来自哪个国家或语言,你都可以简单地研磨,品尝一下它的风味。
WikiCafe是什么?这是一个快速的维基格式文件解析程序,工作在Windows平台,可以方便地将Wikipedia、WikiSource等数据文件转换为符合MDict要求的文本本件。
为什么叫这样一个名字?因为咖啡是优雅的,正如Wiki,咖啡是苦中作乐的,也如Wiki。咖啡不是生活的必需,只是生活的点缀。
优点:
1、快速。“Wiki”本身就是“快点”的意思。WikiCafe的速度很快,下载的Wiki数据文件无需解压,直接就可以处理,并且采用了多个线程并行工作,较充分地利用了CPU的效能。
2、美观。格式与之前的i-wiki引擎相似,外观接近于原Wiki页面。
3、可将数学公式处理为图片。
4、可生成图文并茂的页面。
缺点:
1、未处理模板。所有的模板都保留下来了,不够好看,但保持了原有的风味。
2、因为是直接处理bz2压缩文件,所以页面中有些链接可能是无效的,就是Wiki网页中红色的链接。
3、数学公式是不完美的,有些会出错。
...
可是不管怎样,以Simple English Wikipedia为例,WikiCafe处理接近100MB的Dump文件只需要几分钟。如果仅生成文字版中文Wiki的词典,那在1个多小时也能够全部完成,与以往的引擎相比,耗费的时间可谓是天壤之别了。
组成程序:
WikiCafe.exe 主程序
math.exe 根据Tex公式生成相应图片
Bin2Img.exe图片集合文件处理程序
Img2Bin.exe将图片生成集合文件
可用其他程序如Wiki2Touch处理下载图片后,由Img2Bin汇聚为集合文件。
使用方法:
1、首先要从dumps.wikimedia.com上下载相应的数据文件。中文以zh开头,可用ctrl+f搜索。
2、如果要生成图文版,先用wiki2touch处理,也可下载经过i-wiki处理过的图片集合文件;运行Bin2Img.exe,得到图片索引文件pic.ini。如仅需生成文字版,可直接转下一步。
3、运行WikiCafe.exe,主要有以下参数:
.bz2文件 你所下载的Wiki数据文件,无需解压。
图片索引文件 如果想要生成图文版词典,你应该提供一个索引文件;如不提供,则不处理图片。
图片目录 图片等数据存放目录,也就是MdxBuilder中的mdd数据所在位置。公式图片就在此目录下,其他图片必须存放在该目录的pic文件夹中。如不指定或创建失败,则不处理包括公式在内的图片,公式以原Tex形式呈现。
文本文件 生成的目标,即MdxBuilder中的Source文件。
WikiCafe运行后将在程序目录中生成:
WikiCafe.cfg内容如下例子
WikiBz2 = r:\simplewiki-20141222-pages-articles.xml.bz2
PicIni = d:\pic.ini
ImgDir = r:\data\
OutTxt = d:\s.txt
以后再运行WikiCafe,如发现程序目录中有该文件,会询问是否加载。加载可节省人机交互的时间。
math.txt 数学公式,供math.exe使用
images.txt图片,供Bin2Img.exe使用
在图片目录中生成:
wiki.css
wiki.png
link.png
4、运行math.exe生成数学公式图片,主要参数:
math.txt 公式文件,由WikiCafe处理后生成。
图片目录 可从WikiCafe.cfg中得到。
处理过程中会产生错误,无须理会屏幕中的错误信息,如出现异常中断运行,再次运行math.exe会从中断处继续进行处理。
5、图文版还需要运行Bin2Img得到词典中的图片,参数有:
图片集合文件 可下载经过i-wiki处理过的图片集合文件;
images.txt图片文件名,由WikiCafe处理后生成。
图片目录 可从WikiCafe.cfg中得到。
6、运行MdxBuilder生成词典
本帖最后由 孤影 于 2020-4-26 09:37 编辑
传个附件,以作备份
2020-4-26
win10下不能运行,win7下一切正常
都打不开了,有没有新制作wikipedia的工具? 加油,支持了 大侠,Wiki2Touch等等这些工具有分享吗? 个人感觉目前的wiki 制作工具做出来的效果都没有官方Android客户端 Wikipedia Betahttp://www.coolapk.com/apk/org.wikipedia.beta 呈现出的效果好,尤其是制作出的表格在手机端显示不够美观,页面也不像客户端自适应的效果好。
我有几点想法:
1.用Python或其他工具抓取wiki页面,可以得到有图的源文件;
2.词典制作时,页面排版可参考“Wikipedia Beta”的处理效果(这一点可以从手机客户端保存的离线页面数据入手)。
{:11_395:}希望做出一个图文版的 速度那是相当的块,不到400m的bz2只用了十几分钟就转完了,排版还算过的去,唯一的遗憾就是模板了。没有处理的模板会有很多冗余的符号{ } 。时隔两年,感谢楼主回归,终于还是用上了,希望能继续完善 你们还活跃着... 我已经沉寂1年了.
最近倒是打算把之前留的坑给填了.
可惜我不会c, 帮不了fastwiki了.
我现在只会bash, lua, python. fastwiki 发表于 2015-1-6 11:21
还在搞 wiki 引擎啊?
有兴趣可以来维护 fastwiki , 提供了一堆工具, 可以转换维基百科, 和自制词典,基本 ...
好久没搞了,引擎和以前的相似,只是去掉了模板的处理部分,不再局限于中文Wiki。这个只是想帮助大家提高Wiki词典的生产效率。
老兄的Fastwiki很好,源码中有没有详细的注释? sexboy2003 发表于 2015-1-11 13:26
360往往宁可错杀三千也不放过一个。因为维基咖啡是用PowerBASIC编写的,而很多木马、病毒也是使用这一编程语言来编写,所以很多特征相似。 好东西,谢谢分享。 这是一个颠覆式的好东西 但是有木马 还在搞 wiki 引擎啊?
有兴趣可以来维护 fastwiki , 提供了一堆工具, 可以转换维基百科, 和自制词典,基本由 C++ 写成.
支持全文索引, 图片, 语音, 等等.
网页: https://fastwiki.me
代码: https://github.com/qianshanhai/fastwiki
sexboy2003 发表于 2015-1-6 09:15
但是有木马
有压缩,但保证没有木马、病毒。 我一下载回来就报毒 不错,谢谢!
页:
[1]