只需一步,快速开始
签到天数: 353 天
[LV.8]以坛为家I
举报
nonwill 发表于 2019-8-4 18:047 v* ?+ |" D# ~4 W! h! K 内存不足应该不是问题:只是提取词条的部分信息出来,完全可以每次只读入一个词条的信息,针对词条提取到的 ...
签到天数: 93 天
[LV.6]常住居民II
jonah_w 发表于 2019-8-4 19:12 S' d+ z% |* k0 C8 s. `' X7 p 不同词典可能不一样,但用正则提取有时候容易误删数据,这种建议用专门的html解析器来做。 ...
签到天数: 390 天
[LV.9]以坛为家II
tangshun 发表于 2019-8-4 21:52 4 H+ ]* b2 ?" O( a对啊,我就是用正则匹配的时候,选择查找都一条条可以对上,但是选则全部替换就莫名其妙的把一些不相关的 ...
thresh 发表于 2019-8-4 23:24 5 @1 h! Z) E, I9 z" t正则直接全部替换的时候边界后置字符容易越界
签到天数: 636 天
tangshun 发表于 2019-8-4 23:28" @7 ^) r' V, u, A' x t1 C 对,就是这么回事,这是为什么啊?有什么有效的解决办法吗。
shekel 发表于 2019-8-5 08:54" j, M$ Y( L( Y 因为这套词典自带例句发音,每句例句几乎都有真人朗读,所以音频占用的容量很大。 ...
thresh 发表于 2019-8-5 15:559 s$ p0 O/ {0 ~ 这个是正则本身的匹配问题,也就是它的解释器本身的问题,除非自己改解释器。当然这个对大家不太现实 ' | v/ X! \" [0 R+ z! U2 K0 b8 @. d0 a/ C% I9 A( a0 { 一 ...
签到天数: 2043 天
[LV.Master]伴坛终老
tangshun 发表于 2019-8-6 07:17( d1 K- X, X& W( o& B- Z1 e 并不是这么回事,我只解压了mdx文件,在解压之前mdx文件是195M,文本化后居然是600多M,并没有带语音,我 ...
签到天数: 249 天
yfz48516 发表于 2019-10-31 06:38+ S3 V+ X+ a4 N$ ]8 x4 m2 ] 是被称之为HTML标签的排版指令占的空间太大,这个600多M的文件删去这些内容后,就只有82M的纯文本 ...
lgmcw 发表于 2019-10-31 20:47 - r7 G, U$ s8 K* ~其实MDX是有base64的图片嵌入在里面的,html标签本身没这么大。删标签的时候顺便把base64图片也删了,才有 ...
本版积分规则 发表回复 回帖后跳转到最后一页
小黑屋|手机版|Archiver|PDAWIKI |网站地图
GMT+8, 2025-5-5 06:39 , Processed in 0.020270 second(s), 20 queries .
Powered by Discuz! X3.4
© 2001-2023 Discuz! Team.