挑战巨大词典 ①
本帖最后由 zzzz_sleep 于 2019-3-29 14:50 编辑所用词典基本信息:中文喂鸡百科(图文试用版)
Pic_bulid20180601 V1.4
喂鸡百科,自由的百科全书。
(1)制作信息:
·制作:邱海波
·日期:2018年10月7日
·数据:http://dumps.wikimedia.org/zhwiki
·工具:wikicafe & Mdxbulider
(2)更新日志:
·2018/10/7:v1.4
本次优化:解决607041个词条内链跳转问题,更直截有效。感谢jeanleem6提供正则表达式支持。
原文件: 6.9G Jun 142018 zhwiki-20180601_V1.3.mdd
1.7G Mar 27 20:33 zhwiki-20180601_V1.3.mdx
资源文件很大: 6.9G
词条文件一般:1.7G
电脑基本硬件:
Intel Core i5-5300U @ 4x 2.295GHz
8G Ram
SSD HD
解包: mdict -x zhwiki-20180601_V1.3.mdd -d temp/mdd
100%|██████████████████████████████████████| 518875/518875
mdict -x zhwiki-20180601_V1.3.mdx -d temp
100%|██████████████████████████████████| 1824911/1824911
解包后文件大小:
5.8G Mar 28 10:41 zhwiki-20180601_V1.3.mdx.txt
7.9G mdd/资源文件相差不大
词条文件翻了 3倍多
重新打包:
先来资源文件mdict -c zhwiki.mdd mdd/
Scan "mdd/": 518875
Pack to "zhwiki.mdd"
100%|██████████████████████████████████████| 518875/518875
资源文件都是一个个小文件,速度慢些
再打包词条文件mdict --titlezhwiki-20180601_V1.3.mdx.title.txt--description zhwiki-20180601_V1.3.mdx.description.html-c zhwiki.mdxzhwiki-20180601_V1.3.mdx.txt
Scan "zhwiki-20180601_V1.3.mdx.txt": 1824911
Pack to "zhwiki.mdx"
100%|███████████████████████████████████| 1824911/1824911
速度还可以
打包后文件大小
6.9G Mar 29 13:58 zhwiki.mdd
1.7G Mar 29 14:11 zhwiki.mdx
文件大小差不多,差点尾数,忽略不计
下次目标: 2.4G Mar 28 14:51 enwiki-20160601-part1.mdx
2.3G Mar 28 14:30 enwiki-20160601-part2.mdx
2.2G Mar 28 14:41 enwiki-20160601-part3.mdx
2.1G Mar 28 14:32 enwiki-20160601-part4.mdx
157M Mar 28 13:13 enwiki-20160601-part5.mdd
2.0G Mar 28 14:02 enwiki-20160601-part5.mdx
157M Mar 28 11:25 enwiki-20160601-part6.mdd
1.3G Mar 28 13:15 enwiki-20160601-part6.mdx
计划将所有 MDX 打包成一个文件,那样会有 13G 的 MDX,我先去清扫点硬盘空间
好可怕,这是要干嘛? mdict -x zhwiki-20180601_V1.3.mdd -d temp/mdd
这个mdict是啥?你自己写的程序吗? bbs 发表于 2019-3-29 17:18
mdict -x zhwiki-20180601_V1.3.mdd -d temp/mdd
这个mdict是啥?你自己写的程序吗?
对的,自己写的程序
感谢楼主辛勤劳作之分享!!! 高手在民间。 可怕可怕。楼主厉害厉害。貌似解包,打包,好像比常用的快得多。这么大的txt,能够编辑吗? thinkinginlast 发表于 2019-3-30 00:43
可怕可怕。楼主厉害厉害。貌似解包,打包,好像比常用的快得多。这么大的txt,能够编辑吗? ...
编辑肯定费事,不过可以分割若干小的 TXT 文件,转换时再一次性读取
mdict --title enwiki-20160601-part1.mdx.title.txt --description enwiki-20160601-part1.mdx.description.html-a enwiki-20160601-part1.mdx.txt -a enwiki-20160601-part2.mdx.txt -a enwiki-20160601-part3.mdx.txt -a enwiki-20160601-part4.mdx.txt -a enwiki-20160601-part5.mdx.txt -a enwiki-20160601-part6.mdx.txt enwiki.mdx
比如我这个,读取从 enwiki-20160601-part1.mdx.txt到 enwiki-20160601-part6.mdx.txt ,共6个TXT,转换成一个 MDX
Thank you very much indeed
页:
[1]