挑战巨大词典 ②
本帖最后由 zzzz_sleep 于 2019-3-30 16:14 编辑这次目标:
2.4G Mar 28 14:51 enwiki-20160601-part1.mdx
2.3G Mar 28 14:30 enwiki-20160601-part2.mdx
2.2G Mar 28 14:41 enwiki-20160601-part3.mdx
2.1G Mar 28 14:32 enwiki-20160601-part4.mdx
2.0G Mar 28 14:02 enwiki-20160601-part5.mdx
1.3G Mar 28 13:15 enwiki-20160601-part6.mdx
157M Mar 28 13:13 enwiki-20160601-part5.mdd
157M Mar 28 11:25 enwiki-20160601-part6.mdd6 个 MDX 文件,2个 MDD 文件
电脑基本硬件:
Intel Core i5-5300U @ 4x 2.295GHz
8G Ram
SSD HD先来简单的, MDD 文件
163979226 Mar 28 13:13 enwiki-20160601-part5.mdd
163979226 Mar 28 11:25 enwiki-20160601-part6.mdd解包到用一目录下
mdict -x enwiki-20160601-part5.mdd -d mdd/
100%|█████████████████████████████████████| 352768/352768
mdict -x enwiki-20160601-part6.mdd-dmdd/
100%|█████████████████████████████████████| 352768/352768
两个MDD文件大小一样,条目数一样,什么问题?
估计 part5.mdx 和 part6.mdx 都需要 mdd 文件,但两个 mdx 都太大了,无法合并在一起,只能分成两个,mdd 文件也只能同样的复制一份
重新打包资源文件
mdict -c temp/enwiki.mdd mdd/
Scan "mdd/": 352768
Pack to "temp/enwiki.mdd"
100%|█████████████████████████████████████| 352768/352768 ls -lh temp/enwiki.mdd
157M Mar 30 06:59 enwiki.mdd无压力,主要看 MDX 文件
2.4G Mar 28 14:51 enwiki-20160601-part1.mdx
2.3G Mar 28 14:30 enwiki-20160601-part2.mdx
2.2G Mar 28 14:41 enwiki-20160601-part3.mdx
2.1G Mar 28 14:32 enwiki-20160601-part4.mdx
2.0G Mar 28 14:02 enwiki-20160601-part5.mdx
1.3G Mar 28 13:15 enwiki-20160601-part6.mdx解包
mdict -x enwiki-20160601-part1.mdx -d temp/
100%|████████████████████████████████████| 805657/805657
mdict -x enwiki-20160601-part2.mdx -d temp/
100%|█████████████████████████████████| 1750061/1750061
mdict -x enwiki-20160601-part3.mdx -d temp/
100%|█████████████████████████████████| 2634700/2634700
mdict -x enwiki-20160601-part4.mdx -d temp/
100%|█████████████████████████████████| 2848024/2848024
mdict -x enwiki-20160601-part5.mdx -d temp/
100%|█████████████████████████████████| 2681025/2681025
mdict -x enwiki-20160601-part6.mdx -d temp/
100%|█████████████████████████████████| 1853213/1853213 请大家观赏解压后 MDX 文件大小
8.0G Mar 30 07:18 temp/enwiki-20160601-part1.mdx.txt
8.0G Mar 30 07:23 temp/enwiki-20160601-part2.mdx.txt
8.0G Mar 30 07:26 temp/enwiki-20160601-part3.mdx.txt
8.0G Mar 30 07:30 temp/enwiki-20160601-part4.mdx.txt
8.0G Mar 30 07:33 temp/enwiki-20160601-part5.mdx.txt
5.1G Mar 30 07:38 temp/enwiki-20160601-part6.mdx.txt总共 45G,够大了
词条数目总计 805657 + 1750061 + 2634700 + 2848024 + 2681025 + 1853213 = 12572680
重点来了:重新打包,将这些打包到一起,形成一个 MDX 文件
mdict --title enwiki-20160601-part1.mdx.title.txt --description enwiki-20160601-part1.mdx.description.html-a enwiki-20160601-part1.mdx.txt -a enwiki-20160601-part2.mdx.txt -a enwiki-20160601-part3.mdx.txt -a enwiki-20160601-part4.mdx.txt -a enwiki-20160601-part5.mdx.txt -a enwiki-20160601-part6.mdx.txt enwiki.mdx
Scan "enwiki-20160601-part1.mdx.txt": 805657
Scan "enwiki-20160601-part2.mdx.txt": 1750061
Scan "enwiki-20160601-part3.mdx.txt": 2634700
Scan "enwiki-20160601-part4.mdx.txt": 2848024
Scan "enwiki-20160601-part5.mdx.txt": 2681025
Scan "enwiki-20160601-part6.mdx.txt": 1853214
Pack to "enwiki.mdx"
100%|██████████████████████████████████| 12572681/12572681
打包过程:
1.准备开始
2. 扫描词条,内存开始上升
3. 内存很高了
4. 危机边缘
5. 扫描终于结束,差点崩溃,开始打包
6. 内存开始下降
7. 打包继续,内存脱离危险区
8. 全部结束
最终结果
157M Mar 30 06:59 enwiki.mdd
13G Mar 30 09:30 enwiki.mdx
发现 part6 MDX 词条数量多了一个,不知道为什么,可能 TXT 格式有错误,顺便吐槽发现的错误
<link rel='stylesheet' type='text/css' href='wiki.css' />> <a href="entry://Quotatio
n mark">Quotation mark</a> {{R from symbol}} 两个 >> ,估计还有其他错误
查询测试,"007: Casino Royale"
mdict -q "007: Casino Royale" enwiki.mdx
<link rel='stylesheet' type='text/css' href='wiki.css' />> <a href="entry://Casino Royale (2006 film)">Casino Royale (2006 film)</a>
做了一天,累,休息去了。
厉害。这得多大的意志力呀。MANY THANKS 你这是想证明什么? 编译这种文件还是至少16GB,最好32GB内存,分一部分做ramdisk来跑比较省心 thresh 发表于 2019-3-31 02:18
编译这种文件还是至少16GB,最好32GB内存,分一部分做ramdisk来跑比较省心
说的对,16G为佳,32G更好
但对大多数坛友来说,16G内存的机器已经很少,32G的难见。从16G开始,已经属于专业级 PC
一个问题,可以从软件或硬件两个方面解决。针对的时代不同,解决方案就不同,无法说那个好,那个坏,只能是适合。比如 mpeg 解码,386/486时代,是需要硬件解码器的。现在的视频播放,还是区分硬解码,软解码的
我这个测试挑的都是极端情况,极端过了,日常也就不会有问题。只是为普通人考虑,毕竟做一个词典费时费力,多人协作,增加效率。
大字典考耐力与电脑。庆祝论坛又多一个mdx制作者。 thanks a lot .... zzzz_sleep 发表于 2019-3-31 05:51
说的对,16G为佳,32G更好
但对大多数坛友来说,16G内存的机器已经很少,32G的难见。从16G开始,已经属于 ...
最近内存贵而已,前两年8G DDR3 一根200的白菜价还是有不少屯了货的。身边的电脑现在基本都是16G的,8G都是家用货了。工作不够用 静候佳音!
页:
[1]