gjj 发表于 2023-2-21 13:53:18

一口气删除了30多万词条

词头超过50个字符,相信没有多少人会搜,即便是搜,也难保不会错一两个字幕。。

逃不过红尘 发表于 2023-2-21 14:44:23

呜呜呜期待成品!

wiray 发表于 2023-2-21 14:56:34

删掉有点可惜啊,如果不带占空间的语音、图片等就不用删除了吧,反正也占不了多少空间,也不大影响打开速度。

gjj 发表于 2023-2-21 19:14:22

wiray 发表于 2023-2-21 14:56
删掉有点可惜啊,如果不带占空间的语音、图片等就不用删除了吧,反正也占不了多少空间,也不大影响打开速度 ...

现在总共有六百多万词头。文件几个G能保留的我都尽量保留了

wiray 发表于 2023-2-21 21:39:13

gjj 发表于 2023-2-21 19:14
现在总共有六百多万词头。文件几个G能保留的我都尽量保留了

{:8_145:} 文件几个G这么大啊,那应该是带语音图片了吧

gjj 发表于 2023-2-21 21:58:18

wiray 发表于 2023-2-21 21:39
文件几个G这么大啊,那应该是带语音图片了吧


纯文本

wiray 发表于 2023-2-21 22:11:48

gjj 发表于 2023-2-21 21:58
纯文本

俺滴个天,纯文本都这么大啦,什么情况?网上那个上千万的例句文本才700M

gjj 发表于 2023-2-21 23:20:17

wiray 发表于 2023-2-21 22:11
俺滴个天,纯文本都这么大啦,什么情况?网上那个上千万的例句文本才700M ...


你看看行数,本来想给你看看列数。80G内存直接干死了,看来还得精简精简。

wiray 发表于 2023-2-22 10:03:56

gjj 发表于 2023-2-21 23:20
你看看行数,本来想给你看看列数。80G内存直接干死了,看来还得精简精简。 ...

汗……原来连单词的变形也当一个词啊(比如play、plays、played被当成三个词),那肯定是删了好!还有,看截图好像单词的意思(红色标记部分跟前面的)重复了,那确实不好!另外,要是楼主能把牛津、朗文、剑桥等词典去掉英文解释和所有例句而只保留中文词义而弄个这样的词典就好了

gjj 发表于 2023-2-22 10:25:31

wiray 发表于 2023-2-22 10:03
汗……原来连单词的变形也当一个词啊(比如play、plays、played被当成三个词),那肯定是删了好!还有, ...

前面是简要,后面是详细。牛津搞了,大同小异,而且数据量太大,校对起来相当耗时。

wanghua2017 发表于 2023-2-23 09:30:40

请问能否提供上述使用的批处理替换工具,谢谢!

winn 发表于 2023-9-4 15:14:52

海词很多例句是不能使用的,是网上搜索到的中式英语。
页: [1]
查看完整版本: 一口气删除了30多万词条