掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 3007|回复: 13

[求助] 求思路:如何利用提取的词典例句mp3或wav文件?衷心感谢

[复制链接]

该用户从未签到

发表于 2016-4-26 22:50:21 | 显示全部楼层 |阅读模式
本帖最后由 werwer 于 2016-4-26 23:39 编辑   ], {+ _0 b+ Z8 N  T, v9 \
( v. X9 P8 ^7 p3 M+ c6 V
目前有LDOCE6的所有例句wav文件(dls.files.zip解压出来的),其文件名是各种数字字母编号。
+ ~! l' M- w! u' R: X! e4 c# Y" I1 X4 j5 }! R2 t  i. X" H
想根据生词本提取各个生词的所有对应例句wav,放在一个文件夹下(或者合并成一个音频)。
$ j/ R: u1 I9 m4 [" l( k6 b; f5 h; t
比如,生词本中有endemic endorsement endow endurance energize engaging 等单词,现在想要把这些单词在LDOCE6中对应的所有例句wav文件找出来放在一个文件夹下(目的是集中生词例句磨耳朵),该如何做呢?/ [, U, C1 |2 `+ A

: A- v. O/ w& n( A5 b9 U在论坛上看了很久,目前想到的笨方法是:
, J0 M8 P3 O! v8 ~7 F4 \1 i, b8 X, x
分析LDOCE6的dsl文件,利用正则表达式,找到各词条包括的所有例句文件名,例如exa_p008-000910116.wav,exa_p008-001662168.wav。建立一张单词与所有例句文件名的对应表格,然而根据表格内容提取对应wav文件?7 ]( x7 w6 X5 {4 R8 B& J* Z

! c, Q  l) a0 q4 k" z* I这个方法太麻烦了,而且想了半天,需要的正则表达式也很复杂,写不出来,而且很难方便地提取所有的音频文件名。  J( a- x0 r: C0 t7 |5 d8 z

6 i3 e+ w" X0 n- V; J  H6 s如何能生成一个新的文件,包括:1 [' ^6 x) [2 g. k, i- R1 _5 i
/ ?1 z6 C0 `- b3 I1 _
单词1: {7 o. D! y; [9 W- s
例句wav文件名1,文本1,2 o5 p' E$ a0 K6 B$ {0 j
例句wav文件名2,文本2,) d- d4 g0 {% Q6 t) n* I) z
, o4 v) k9 N' M( K# s
单词2
( [7 i! m4 o& f% P9 H  B 例句wav文件名1,文本1,2 P% a" Y1 ?# ~7 j1 n
例句wav文件名2,文本2,$ j4 f' R1 Y) w( S/ N' D; y; e
... ...
4 Q# }6 A/ M; L) J
! b/ l% o( a& \3 E. ]+ |; U求指点思路,衷心感谢!

本帖被以下淘专辑推荐:

该用户从未签到

发表于 2016-4-28 03:45:25 | 显示全部楼层
本帖最后由 LYX1692 于 2016-4-28 06:20 编辑 9 I3 @& y. r" r% M" `& U/ M. J: o9 V
6 L& t4 X6 t7 k4 D( s6 j0 ?

2 j; `/ h6 n! X% ?+ ?2 B! m9 ]" d
, h% h- ~4 b6 U3 ~; G楼主这个问题,我以前也想过,我的解决方案就是,换工具。" c. m2 c. l7 o6 m) }
我一直想有这么一个工具,它可以很方便的找到带音频的句子,然后可以很方便的导入、导出,可以有针对性的训练自己对某个词的听力能力或者发音纠正。
$ Y1 F( X3 b4 j可能是在两年前,我跟Aboboo的开发者联系过一次,然后,在一年前,它们的最新版总算加入类似的功能。  O# m& }0 ?% V" n5 Y

# r7 K4 M, C0 p# y% M9 Y5 y9 q不管你有多少例句,你都可以批量导入句库。
$ C5 x- c" A( ~8 ]/ w0 W我曾经试验过一个12万的例句发音库,参见:4 S% Z2 R% j  _! `6 ^% q
https://www.pdawiki.com/forum/fo ... id=13606&extra=3 r6 i8 G; }/ s: R) P
' \9 @  |, r  f- N
优点是:
4 G7 }$ n5 \. ^5 f/ ]& n" ]1 导入方便快速。我那12万句好像不超过1个小时就建好了。当然,如果你是wav格式,可能要慢一点,因为它需要自动转换为mp3格式。
( b- S4 a, G& n2 批量导入,可以查看它的说明。我记得是这样的,用txt文档,每个音频,第1行是存放地址,然后是英文、中文、备注、甚至可以插图。只要预先设置好音频和对应的文本即可。! l/ C% g: t* T$ n& y
3 只要导入的时候,你依照它的格式加了了文本,日后你可以随时查找(支持正则)
2 r* G8 I$ |0 E) v" L2 l& U; F4 查找结果秒显。我那12万的例句,哪怕查找the这样的极高频词,也没多少延迟。
- \+ P4 v  `. I, X+ r  l5 查找之后,可以即时播放音频。
* h( }' B: L: b9 H. J7 j6 查找结果可以导出。也就是说,你可以将所有包括 have 的发音重新导出为1个mp3,而且支持导出LRC歌词。如果是PC上,你也不必导出,你想针对哪个单词,直接查找播放就可。想放手机,你就将结果导出下,自动生成带歌词的MP3。都有同步盘吧,分分钟就同步到手机上了。只要批量导入的时候设计好,导出的时候,你想带原文就带原文,想带中文翻译就带翻译。
; ~3 V4 i9 W, @) d6 U7 句库可以随时添加。比如说,我时不时将我听VOA、有声书、音乐、电影的音频加入进去。反正我就是这样,只要是跟英语视听相关的学习,都这样。看电影,某台词有听力障碍,一键添加句库,过段时间再来复习下。软件本身还有听写功能,以前设置好文本,复习的时候听写,及时发现问题。" g4 c) Z5 q  [+ a8 v" k8 r
8 导入的发音库,可以随时修改。比如说,我先前导入过一段材料,后来发现文本有误,可以随时修改。或者,我自己想要添加点关于这段听力的笔记(某词我怎么老听不出来啊),也可随时加入备注。/ M: ?$ ~  ]# }

8 f8 f" w7 u6 q; nPS. aboboo本身就是专门为了听说训练而设计的,添加句库实在方便,比如我看一部电影,它本身就支持视频格式,自动断句,也可以根据LRC歌词或者SRT等字幕文件来断句,你想保存哪句,点下就可以了。如果是电影,它可以自动保存该句音频,还能自动截图。看电影的时候,建议下载不带字幕的版本,另行寻找外挂字幕作为参考或者断句依据,可以选择隐藏字幕,某台词听不出来,反复听,听到吐都行,然后显示字幕查看下,印象极深。我就是这么折磨的。! a9 o+ u7 F! p. `7 Z
' d' x4 z1 }% Z1 m
请看,这是我以前看《冰雪奇缘》时弄的。
0 |4 a4 ~8 }0 ~2 X! I2 S. Z- A- G5 |9 u  o
过程并不复杂,只不过是要找到一个准确的好的字幕文件,然后想要保留哪段台词就保留哪段。, j2 \, i. t* I- d
(只不过有些字幕时间轴不太精确(比如说人物台词还没说完,字幕就已经消失,或者人物已经以说下段台词,字幕还保留在上段台词),或者台词分段不严谨,比如说,有时候一段很长的台词,字幕组出于显示效果,可能会分成两段。那么,自己做句库的时候,就最好将一个完整意思的句子保存为一段。这种情况下,需要自己手动调整些。)6 p2 N( x9 f. _, t5 f3 z

4 K  E9 ~8 f( }. w9 X. y
( V/ k- p2 U5 i+ X当然,Aboboo也并不完全接近我的设想。
: ^1 }8 t' {7 M+ l$ s" h比如说,我希望他们开放下词典格式,让我自己来编辑自己想要的词典。
& S& S# _2 p' b3 O6 l+ {5 L8 j比如说,现在虽然可以直接看视频,但是还不能保存视频片段,只能保存音轨。
6 g5 ~" g+ v2 b1 B比如说,我希望他们可以跨句库搜索,可以实现句库转移。你就算有几十万的例句库,想以此来磨耳朵也是不实现的。难道打算一句句听吗?mdx固然可以以单词为索引,可是,别忘了,更多时候我们也不是某个单词发音完全辨别不出来,而是换了种语调我们就没反应过来了。我就记得以前有一次,听某首歌,里面有个单词我死活听不出,后来一看,居然是beautiful。我就觉得,我需要强化下某些词在特殊场合下的发音辨别能力。又如某些特殊口音的发音,如《生活大爆炸》里拉杰什的印度口音英语。有些句子,换个标准英语的人来说我就知道,他一说我就得看字幕。纯单词索引对于磨耳朵并不靠谱,标准英语朗读你听得懂,未必其他语境你就听得清。如果可以将现在语音库重新筛选下就好。比如说,某个句子很好,或者说某个句子我听力有困难,如果可以跨句库转移的话,我就可以这些句库中的句子重新筛选下,添加到另一个句库保留起来,再专门训练。可是目前这个版本还做不到。我只能先将这些句子从一个句库中导出,再激活另一个句库,再导入。
8 l5 a5 o* _& r
# f4 [& r7 S# F& Z0 W0 `% B这些我也跟开发者谈过。但是,他们也是免费软件,据他们说是否开放格式,要看以后。" T* ~/ X1 X! y+ s6 J8 K& ^
至于我说的跨句库,他们也想过,但是碰到了某些困难,也没在最新的版本的实现。
1 s1 X! ~8 T& ?$ r6 M4 m- g, i
' ?; U" E% f0 T! c
& i# X6 X7 ]; X0 Z* `# U总的来说:
5 }6 {/ D: S; d* W) m0 u9 T& h我觉得,你想实现的,真的不适合用MDX格式来做。
& c4 o6 b) g9 k) R( Z9 u可以尝试,技术上也可以实现,用python可以。不会的话,用正则也行。只不过是将句子编号,然后将每个句子里的单词跟句子编号联系起来,最后重新整理下。
' F1 b! _, n) @3 H9 r. h. S就像你发现的那样,麻烦!& J& w  |, ^( ^
我曾经想将朗文、牛津、剑桥、柯林斯的所有例句文本以单词为索引弄一个MDX,也想以此为材料弄个汉英MDX,后来烂尾了。
8 a2 C: z' u# P' q7 V并非技术上我做不到,而是我发现,换个合适的工具,我压根不需要如此麻烦,而且效果更佳。(https://www.pdawiki.com/forum/fo ... id=11546&extra=0 l$ [9 G6 {# }7 ^/ I, L- U
GoldenDict虽然也有比Mdict更好的全文索引,但我也不采用。为什么?因为它用作全文索引的数据是死的,而我一开始就打算将我读过的任何有价值的中英材料不时添加进去。
; J( y$ l# Y& V5 \我实在不想每次改动一下就重新编译一次。
' M0 V# X$ V  S2 B0 J0 t! X" r: MMdx确实很好,但它不是适合外语学习的所有环节。
' D+ h6 Q2 _$ O4 u2 m* P8 \索引、音频都不是MDX的强项。4 T" Y2 u8 c. N3 j3 R# n
做出来之后,效果未必如你所愿。
9 ~, C4 t5 f+ e0 [0 K有些单词可能有成百上千个音频例句,你想磨耳朵,难道你一个个去点击播放吗?
9 m3 V6 F2 V: `$ y/ J' e就算不嫌麻烦,那么,磨耳朵的时候,是显示文本还是不显示。显示文本没效果,不显示文本不知道对错。也许加个Javascript可以实现选择显示/隐藏效果。但总是麻烦
% [. N' _! _) {1 P) J+ t而且,你这些例句不管数量多么丰富,总是一个类型的,语调单一,语速单一,要磨耳朵,就得有不同的类型,而MDX在添加词条方面是死的,你不可能随时更新。
4 c$ ?+ f& ^# l# \+ \如果使用Aboboo的话,可以省掉很多麻烦,你不需要针对每个单词去建立索引条,也不需要一个个点击播放。/ _* T! O/ v* g! R# B2 D
也可以将查找结果一键导出,生成一个带歌词的MP3,同步到手机。
* `" g! @% ]0 I9 o$ K; D+ M而且句库可以随时更新,电影段落、音乐段落、有声书、英语广播。况且磨耳朵的话,光听标准英语并没有多好,有时你能听懂一句印度英语甚至日本人的英语,对你的听力更有帮助。而Aboboo的好处就是,我可以很方便地将任何发声的英文都添加进去。# D" G5 I6 c+ Y9 G) n- G, [
" F2 ~% |- n# I  V: h6 l5 B- {
我之所有反复说Aboboo的优势,不是打广告,而是我跟你一样,也这么尝试过,但是发现过程麻烦,最终效果差强人意。: X& t+ R2 f7 x- V# O( ^5 m; @
听说读写,Mdict和FileLocator对我“读写”的帮助最大,Aboboo对我“听说”的帮助最大。/ w3 [, p& [7 m5 K0 G
换个工具,很多问题都解决了。
3 c3 Y  H8 o! ~( @/ V我一直对这三个工具很偏爱。% L8 R3 N8 b8 [, ^8 B/ ]( C1 q2 o

# \6 A. ]/ r. c1 _! c+ X以上就是我的经验,供参考。
2 k/ @+ r: Y3 b" R! m

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?免费注册

x

该用户从未签到

 楼主| 发表于 2016-4-26 23:14:40 | 显示全部楼层
本帖最后由 werwer 于 2016-4-26 23:18 编辑
; G, M7 c2 t* B( l/ A% ~1 ^. f! ]
% d) `  E4 b; C/ v( j9 r6 i, Z7 u" b, c例如bleed这个词条,可以看到通过正则表达式查询到的wav例句文件名,以后跟着的例句文本,但是如何能把这些信息单独方便地提出来呢2 A7 I' e4 _4 z) t& V3 K% G9 Y5 J

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?免费注册

x

该用户从未签到

发表于 2016-4-27 19:45:13 | 显示全部楼层

8 F8 h% H- D  A; e" n1. 置顶的Dict Source Editor
$ I! U* E, Z* i4 o8 o1 L5 H/ O& ]
; v5 ~4 J2 L# Q& Z  |- f- e
Export-Custom可以按照自己的需求导出指定的词条文本。例如只导出自己需要的某些词条,或者不导出某些词条。只需将你需要导出的词条保存到一个文本文件,每个词条一行,然后指定这个文件即可。

' G* X4 ~% G; J5 j6 v8 Z
  h! ~4 \3 ~( {0 C4 J. W) c/ B9 {0 [+ T0 K$ V
2. 利用正则表达式,找到各词条包括的所有例句文件名

该用户从未签到

发表于 2016-4-27 20:11:29 | 显示全部楼层

该用户从未签到

 楼主| 发表于 2016-4-28 09:36:29 | 显示全部楼层
sky66 发表于 2016-4-27 19:45# c) d8 j  y" F+ q% e. n
1. 置顶的Dict Source Editor

0 N) b, T) F: |1. 看到了置顶的Dict Source Editor,有些启发,很好的软件。但这个好像不适合整理例句音频,就是Export-Custom到出的是词条,不是词条例句的集合。我再仔细研究一下。
, X! I% b& @" }+ m# `2 w0 H
9 r+ K! Z- v: M2。正在学正则表达式。1 u6 B+ N( ~8 V+ t- a2 s9 o

# v- @  `+ S+ Y谢谢帮助!

该用户从未签到

 楼主| 发表于 2016-4-28 09:38:13 | 显示全部楼层
vbnet 发表于 2016-4-27 20:11; E: w) O0 H+ y" |8 q
像这个; m+ s8 S& ?6 Z9 u% ^8 _. X) h
[英-汉] 【背词典】朗文发音库整理 20140902 更新内容:单词例句已按照纸版顺序排好

2 B; U- Q9 r5 g( O- f8 d看到了这个帖子,很牛!
9 S0 e  Z- R5 g9 j8 ?  o. S: }
: J$ S3 c! h% [4 r只是这里没有讨论,如何把几十万mp3重新整理命名的,好想知道。
1 d1 _8 D' f& Z. ~# P. H5 b. n4 b( s& I$ o8 x& R
谢谢帮助!

该用户从未签到

 楼主| 发表于 2016-4-28 10:06:13 | 显示全部楼层
LYX1692 发表于 2016-4-28 03:457 O& W% M' k1 W0 ?
楼主这个问题,我以前也想过,我的解决方案就是,换工具。( v8 r  W, {/ y1 C9 ?
我一直想有这么一个工具,它可以很方便的找 ...

1 b; n: z8 @, F特别感谢LYX1692的建议,读了几遍,受益匪浅。) e6 R' j* {; m
- d0 j' D. z3 @) J! l1 f
之前集中查资料时,也看到了你做的12万语音库的帖子。当时就觉得,我所想到的,很可能已经都被你想到且实践过了。
- B5 R/ v( T4 a. R; T1 A7 o( y6 R1 S& k$ K. H7 q1 ]
事实证明,也的确如此。
) u% }  {7 `2 l. g% [4 u6 S+ ]; z% n9 R
敢想敢做,思路清晰,还乐于分享,赞!!/ C& G7 |+ ?  ~: ?- Q4 S

# R( Z6 w5 g5 d  M( u% l/ P昨天学习了简单的正则,试着从html、txt等原始文件中整理出词条、音频文件名和句子文本,建立对应关系。
, Q# f8 A. n, W7 p5 {* E" G; S9 U; M1 T+ z  @# s
的确,个人精力太有限,借助已有工具是最明智的方法。思考过后,完全接受LYX1692的建议。. g9 e5 R. H" B4 T1 k/ C
8 [1 y- G- r' s7 `, V) l# D
最后,再次衷心感谢你的谆谆教导,感谢分享精神。3 v1 |5 _+ D3 q7 p8 y$ q

该用户从未签到

发表于 2016-4-28 11:41:28 | 显示全部楼层
本帖最后由 LYX1692 于 2016-4-28 11:57 编辑
+ i' _% L5 c" X* a% Q
werwer 发表于 2016-4-28 10:06
1 G. S. w+ J$ }/ V9 n) q特别感谢LYX1692的建议,读了几遍,受益匪浅。
$ j6 L& f% G4 f: P5 J+ n! _* A  W/ y* b5 g* p# ^/ j. |4 @. A
之前集中查资料时,也看到了你做的12万语音库的帖子。 ...

- \% O5 n, D# W7 B4 @3 B( H
+ X2 f8 J/ A$ O4 J2 x5 T我重新看了下《批量导入句子功能说明》,你只要整理好了音频文件名和句子文本的对应关系,那就非常容易操作了。
8 v' i9 N/ e9 D7 Q/ m7 H0 r7 V- e3 d一个句子用6行来表示:
& h+ `) W( Z# i* q( m$ n$ h' L第1行:句子的音频文件地址(必须)- z# L" o; z% O
第2行:英文(可空,但是由于你要搜索,那还是必须的)
1 D7 Z9 p- `, |第3行:中文(可空)
6 `) B" b2 x. [% y5 t  Z第4行:中心词(可空)8 W) X% g; h* z+ P
第5行:备注(可空,可能你以后还会从其他来源添加例句,备注下出处还是有必要的)! T% X+ l) ?' J4 W1 Y  Q: s
第6行:描述句子的图片地址(可空)# T( z- l/ a7 m6 H* O) v7 C

% H+ [# s& I# v( ^6 H. Z你可建立多个句库,但是目前只能同时激活一个句库。
! f) \$ W. y- b# t8 w, C两种方式查找:8 r, f6 q1 h" d+ G: ^
1 “我的”-“句库”下方有搜索框,但不支持正则查找。这个查找结果可以导出为MP3.
. m2 J- L; T+ d& y4 t- k2 “字典”查找单词的时候,也会出现句库里的句子,支持正则,但这个地方的结果不能导出。
  G* x4 U1 l) X' M- ^
4 N# b. q2 o7 a6 N) N哦对了,我差点忘记了。& z2 {2 a4 ^3 t$ F8 m5 s: C% u% M
你现在做的一切准备工作都有可能白费功夫。做之前还是先对比下吧。) n! i( L, G( `
因为Aboboo“字典”本身官网就提供了一个15万真人语音例句,我以前对照过,发现它用的其实就是朗文例句,只是不太清楚它是哪个版本。" i; i6 t2 l- G' o3 l; M, ?  U1 w
" v' K2 Y. W5 E6 O( [
我草草对比了下,就发现有一样的例句:3 D# z* k0 r3 \+ h+ D# g

' H" A$ K3 [8 Y4 @. i6 a这是你帖子截图中的例句5 ^8 {+ f' B. J% J
: X  ]' ^9 d' H, g

+ d/ c! x$ A( ]这是官网自带例句库的例句
0 V$ y8 |2 }: l8 u

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?免费注册

x

该用户从未签到

 楼主| 发表于 2016-4-28 20:07:02 | 显示全部楼层
LYX1692 发表于 2016-4-28 11:41: o1 ~7 s, D' X! d$ Z- m
我重新看了下《批量导入句子功能说明》,你只要整理好了音频文件名和句子文本的对应关系,那就非常容易 ...

/ S% k, u+ A& M3 K是的,你看出来了。其实我想做        LDOCE6和LDAE5的音频库。
' ?# e6 c7 H, _2 o6 ]: v( w% Y% n7 p" e
Aboboo已经建立足够大的音频库了,我比较了例句后认为,Aboboo是基于LDOCE5和LDAE4的例句音频建立的。! I2 \  s2 n" x* w, m7 {( e

" Q; Q6 r, @2 Q, O1 `& u4 E与老版本相比,LDOCE6和LDAE5增加了一定比例的新音频例句。: J5 \& s& v& f

2 i( H3 C# h/ o% n8 ?1 QAboboo已经接近完美了,想想能建立自己的语音库,还是很开心的
3 b7 v& ^2 S# M. o$ @. _( i4 G* L

该用户从未签到

发表于 2016-5-15 16:29:47 | 显示全部楼层
感觉很有用,做个标记看以后能否用上

该用户从未签到

发表于 2016-5-16 00:04:43 | 显示全部楼层
werwer 发表于 2016-4-28 20:07
$ p$ ?4 r, j+ b' P0 N: q* s是的,你看出来了。其实我想做        LDOCE6和LDAE5的音频库。6 }# \! e" F2 R5 c

& b* \7 W7 _) a# h8 i4 x6 OAboboo已经建立足够大的音频库了,我比较了例 ...
+ h; a" f7 P2 Z1 t& H1 h
Aboboo 的朗文句庫在操作上近乎完美,
* G6 W5 H1 F7 i* o$ k- B但实际上还是有大小问题各一:9 \0 S* G8 ?7 O. |; c/ G

, |. N; y3 b- w4 N小问题: 欠若干词(为数约三兩百,与十多万句相比,算是个較小问题。)
9 k; y" q( E! r8 j+ z: E& b大问题:音质比原有的差很多!
  • TA的每日心情
    开心
    2019-9-4 10:12
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2019-8-5 15:51:50 | 显示全部楼层
    lz搞定了没有?我用anki fast word query,可以导出每次自己学习的单词表的单词的所有例句音频,但是名字是乱的,无法管理。
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2025-5-15 19:50 , Processed in 0.025001 second(s), 25 queries .

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表