TA的每日心情 | 郁闷 2018-5-17 09:15 |
---|
签到天数: 1 天 [LV.1]初来乍到
|
本帖最后由 y8888 于 2019-4-6 08:02 编辑 7 I3 n& c' Q- J( l2 ?) r6 y
; c E: |% a! s2 {7 }6 `, g
因本人发布字幕语料库 详见https://www.pdawiki.com/forum/fo ... =%E5%AD%97%E5%B9%95 。总有人问我能不能更新?* h4 u3 {. Z+ B! Y
# a9 }9 m( r( e% x5 D U% v- v- X
8 ^/ G, b. V; Z! @& z9 ~6 M
这个工程很大,射手网关闭时的字幕压缩好就有10多个G。我的电脑配置不好。当初做字幕语料库时只是双核4G内存电脑。好像选的是论坛中https://www.pdawiki.com/forum/fo ... =%E5%AD%97%E5%B9%95 共享的300多MB的字幕处理的。2 D3 g, |5 |+ F
总有人提出希望我能更新一下。字幕语料库帖子中也有热心的坛友共享出很多字幕。6 X/ ]+ @2 I: J6 H/ G
( ^1 ^/ w" c% M2 s0 ~3 r3 M e( v10多个G的文本。是很考验人与电脑。更新也不是不可能事,但我还是得请各位共同参于进来,一个人力量太小了。最起码前期工作你们得帮忙完成。4 T- J. ]/ C. o- _6 V
, L2 G0 N" a) F. @9 x% h前期工作就是下载好字幕,把不是英中的字幕删除。同一部影片有可能会有多个版本的字幕,只留下一个你认为好的。
) \) l9 k0 u- p& j4 q7 y然后就是把繁体字幕统一转成简体。把时间线及不要的内容删除,处理成上行英下行中。可以把字幕合成500MB左右大小的多个文本文件。
" O* ]7 l0 s9 T% y9 r9 t0 C然后把只要有乱码的行对应的翻译英与中都删除。
; u% N: S) y* S# ?* I
2 H H* F) r9 r% ?) ]- \这样处理好后丢给我,你可以提出你们的想法要做成什么样的效果。我试试能不能实现。7 X7 W) I9 ~- X* z* U4 N n1 G
) u! @( R; _. t如果大家只是打几个字让我更新一下,然后坐等。我是不会去做这事的。前期若没有人做则这事就到此为止了。若有人把前期弄好了,我会把这库交给作贡献大的那位去处理,让他去决定是否分享给大家。当然我还是不希望以金钱方式分享。其它的方式不去干涉。4 R7 u/ b* k3 [3 g6 E
$ G) Q6 d, w' Y3 T' V" M. ]0 x工程很大,指望别人的同时首先得自己出点力了。当然复杂度可想而知。比如包含“我们”的句子估计不少于上万条吧。但全例出来那这本库可想要翻多少倍了。
" q W" n" \8 P" k4 O# R9 N n' P* Q2 g
操作中可能会遇到新的问题,还得大家出个点子看如何更实用。, T1 Y$ d, j8 ~. ?
1 @6 m) F3 O; R9 d- t |
|