y8888 发表于 2019-4-6 07:59:45

有关字幕语料库更新问题

本帖最后由 y8888 于 2019-4-6 08:02 编辑

因本人发布字幕语料库 详见https://www.pdawiki.com/forum/fo ... =%E5%AD%97%E5%B9%95。总有人问我能不能更新?


这个工程很大,射手网关闭时的字幕压缩好就有10多个G。我的电脑配置不好。当初做字幕语料库时只是双核4G内存电脑。好像选的是论坛中https://www.pdawiki.com/forum/fo ... =%E5%AD%97%E5%B9%95 共享的300多MB的字幕处理的。
总有人提出希望我能更新一下。字幕语料库帖子中也有热心的坛友共享出很多字幕。

10多个G的文本。是很考验人与电脑。更新也不是不可能事,但我还是得请各位共同参于进来,一个人力量太小了。最起码前期工作你们得帮忙完成。

前期工作就是下载好字幕,把不是英中的字幕删除。同一部影片有可能会有多个版本的字幕,只留下一个你认为好的。
然后就是把繁体字幕统一转成简体。把时间线及不要的内容删除,处理成上行英下行中。可以把字幕合成500MB左右大小的多个文本文件。
然后把只要有乱码的行对应的翻译英与中都删除。

这样处理好后丢给我,你可以提出你们的想法要做成什么样的效果。我试试能不能实现。

如果大家只是打几个字让我更新一下,然后坐等。我是不会去做这事的。前期若没有人做则这事就到此为止了。若有人把前期弄好了,我会把这库交给作贡献大的那位去处理,让他去决定是否分享给大家。当然我还是不希望以金钱方式分享。其它的方式不去干涉。

工程很大,指望别人的同时首先得自己出点力了。当然复杂度可想而知。比如包含“我们”的句子估计不少于上万条吧。但全例出来那这本库可想要翻多少倍了。

操作中可能会遇到新的问题,还得大家出个点子看如何更实用。

黑色的天 发表于 2019-4-6 09:29:04

权利支持楼主的工作,楼主已有的2个字幕mdx在现实应用中十分有参考价值

jonah_w 发表于 2019-4-6 12:24:11

目前我是通过命令行方式去全文搜索字幕的,还挺方便的。看了下那个字幕,去掉不相关时间轴还好,去重就比较难了… 另外有不少字幕文件是UTF16编码的,可能很多脚本不支持。

louislaolu 发表于 2019-4-13 17:53:38

所谓语料库,越全越大越好,怎么取舍总是主观。如果能够直接使用语料库软件检索,查找自己感兴趣的词语岂不是更好。含“我们”的句子的确可能过万,但一般人也不需要查这个词吧,这应该只是个别情况。

庄胜文66 发表于 2019-6-26 03:15:35

支持楼主,射手网10多个G的字幕在哪呢?

zywyy 发表于 2019-9-30 17:51:30

http://www.shareditor.com/blogshow?blogId=112

三千万现成字幕有下载成功的吗?我想付费下载未成功

wei66 发表于 2021-4-23 14:39:46

这个字幕很多是同一部剧的不同版本
页: [1]
查看完整版本: 有关字幕语料库更新问题