只需一步,快速开始
签到天数: 353 天
[LV.8]以坛为家I
举报
nonwill 发表于 2019-8-4 18:04 # h' q( h# q8 k7 W8 ~# G, d内存不足应该不是问题:只是提取词条的部分信息出来,完全可以每次只读入一个词条的信息,针对词条提取到的 ...
签到天数: 93 天
[LV.6]常住居民II
jonah_w 发表于 2019-8-4 19:12 # B- z9 p, W; j, n' X" N4 F不同词典可能不一样,但用正则提取有时候容易误删数据,这种建议用专门的html解析器来做。 ...
签到天数: 390 天
[LV.9]以坛为家II
tangshun 发表于 2019-8-4 21:52 " E# y- p7 t/ o' z P. t对啊,我就是用正则匹配的时候,选择查找都一条条可以对上,但是选则全部替换就莫名其妙的把一些不相关的 ...
thresh 发表于 2019-8-4 23:24- Y( b" |% C) Q: F 正则直接全部替换的时候边界后置字符容易越界
签到天数: 636 天
tangshun 发表于 2019-8-4 23:28$ _7 U0 t3 S" ?" { 对,就是这么回事,这是为什么啊?有什么有效的解决办法吗。
shekel 发表于 2019-8-5 08:54 ' j; x" F4 b7 y s. E& Z因为这套词典自带例句发音,每句例句几乎都有真人朗读,所以音频占用的容量很大。 ...
thresh 发表于 2019-8-5 15:55& U' [1 T4 u! Y" w! S 这个是正则本身的匹配问题,也就是它的解释器本身的问题,除非自己改解释器。当然这个对大家不太现实 R* E- j0 i7 Y+ ?% z3 L! u - [+ S& K8 E9 D" I, Q2 `一 ...
签到天数: 2044 天
[LV.Master]伴坛终老
tangshun 发表于 2019-8-6 07:17# y( M" F+ I' A 并不是这么回事,我只解压了mdx文件,在解压之前mdx文件是195M,文本化后居然是600多M,并没有带语音,我 ...
签到天数: 249 天
yfz48516 发表于 2019-10-31 06:38 & V" i8 j4 s# _$ @6 [* E是被称之为HTML标签的排版指令占的空间太大,这个600多M的文件删去这些内容后,就只有82M的纯文本 ...
lgmcw 发表于 2019-10-31 20:477 ?) e0 [+ u7 [% H& B6 s 其实MDX是有base64的图片嵌入在里面的,html标签本身没这么大。删标签的时候顺便把base64图片也删了,才有 ...
本版积分规则 发表回复 回帖后跳转到最后一页
小黑屋|手机版|Archiver|PDAWIKI |网站地图
GMT+8, 2025-5-5 13:59 , Processed in 0.021750 second(s), 21 queries .
Powered by Discuz! X3.4
© 2001-2023 Discuz! Team.