TA的每日心情 | 郁闷 2018-5-17 09:15 |
---|
签到天数: 1 天 [LV.1]初来乍到
|
本帖最后由 y8888 于 2019-4-6 08:02 编辑
; f5 X0 R" z- H+ e) b) Z+ n
$ x3 S2 P! @0 N; p5 b因本人发布字幕语料库 详见https://www.pdawiki.com/forum/fo ... =%E5%AD%97%E5%B9%95 。总有人问我能不能更新?( L& a2 Q, u7 z1 B3 F8 w1 J
9 \6 u# b7 k; V( o. O3 J- ~, M
/ {; ?8 J. [. ~3 d' Q, @这个工程很大,射手网关闭时的字幕压缩好就有10多个G。我的电脑配置不好。当初做字幕语料库时只是双核4G内存电脑。好像选的是论坛中https://www.pdawiki.com/forum/fo ... =%E5%AD%97%E5%B9%95 共享的300多MB的字幕处理的。: H' U% Y8 o) K) l, z' V# J g& U5 ]
总有人提出希望我能更新一下。字幕语料库帖子中也有热心的坛友共享出很多字幕。$ _" X. o9 ^3 g
" ^7 g3 z) D, w9 }10多个G的文本。是很考验人与电脑。更新也不是不可能事,但我还是得请各位共同参于进来,一个人力量太小了。最起码前期工作你们得帮忙完成。
) q: s1 w! ^' F( t X2 T o! _( D! s* `
前期工作就是下载好字幕,把不是英中的字幕删除。同一部影片有可能会有多个版本的字幕,只留下一个你认为好的。
, [/ ?: Q7 J' {' y) x% o1 o% q然后就是把繁体字幕统一转成简体。把时间线及不要的内容删除,处理成上行英下行中。可以把字幕合成500MB左右大小的多个文本文件。
: C- g7 u9 g5 P; u* Z% R7 B然后把只要有乱码的行对应的翻译英与中都删除。
' T/ n5 i/ G- A+ T. s, \% J: U9 J$ c9 y: I4 a( y+ {; G
这样处理好后丢给我,你可以提出你们的想法要做成什么样的效果。我试试能不能实现。5 D5 V; W, N+ F8 k* b" x4 u% F
3 j, }+ G* S$ b& n0 ?9 V如果大家只是打几个字让我更新一下,然后坐等。我是不会去做这事的。前期若没有人做则这事就到此为止了。若有人把前期弄好了,我会把这库交给作贡献大的那位去处理,让他去决定是否分享给大家。当然我还是不希望以金钱方式分享。其它的方式不去干涉。/ k9 |3 L( w8 d: Q
/ O: D( y# I' m; x, }5 F9 a
工程很大,指望别人的同时首先得自己出点力了。当然复杂度可想而知。比如包含“我们”的句子估计不少于上万条吧。但全例出来那这本库可想要翻多少倍了。% A5 O8 p/ f3 [% O5 h) P, x' R. X0 J
2 A% J. `- {! K" Y! d& K+ c- d操作中可能会遇到新的问题,还得大家出个点子看如何更实用。
7 v o0 d9 [6 c0 ^6 L' M% z4 V- ~0 O5 `8 {1 H7 S, [4 j
|
|