whynoter 发表于 2019-5-27 21:50:45

请教从Mdx文件提取英汉对照语料的方法

打扰一下各位,我基本算是计算机小白,但是很想把一些MDX格式的词典文件中的英汉对照句子提取出来,方便学习使用,不知道有没有哪位大咖能教一下?我从网上下载了GetDict,能把MDX转换成txt格式,但是里面各种编码符号,我不知道该怎么清除。麻烦了!

whynoter 发表于 2019-5-27 22:05:17

我的意思是,想把双解词典里的例句提取出来,成为一个双语对照的简单语料库

klwo2 发表于 2019-5-27 22:17:56

网上有做好的、现成的

每个mdx 内部的细节都不一样,所以没有通用的办法

deeke 发表于 2019-5-27 23:05:00

1. 用论坛里的 MdxExport 把 mdx 转为 txt 。
2. 观察“英汉例句”的标签。
3. 写段代码处理 txt 文件,提取例句后写入 数据库 或 其它格式文件。
4. 很多人用 python 写代码。

你去哪里 发表于 2019-5-28 06:21:53

本帖最后由 你去哪里 于 2019-5-28 06:36 编辑

论坛里面与此相关的帖子有五个:
① https://www.pdawiki.com/forum/thread-11546-1-2.html
② https://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=11741
③ https://www.pdawiki.com/forum/fo ... 358&highlight=Frank
④ https://www.pdawiki.com/forum/fo ... 067&highlight=Frank
⑤ https://www.pdawiki.com/forum/fo ... 250&highlight=Frank


其实不必如此麻烦,深蓝词典就可以直接全文搜索mdx,速度很快。





leescott 发表于 2019-5-28 07:38:25

把转换出来的txt在emeditor中打开,另存为html,浏览器就可以打开。网页可以复制粘贴。
html也可以做成epub。

whynoter 发表于 2019-5-28 21:38:25

klwo2 发表于 2019-5-27 22:17
网上有做好的、现成的

每个mdx 内部的细节都不一样,所以没有通用的办法 ...

谢谢您的回复!我在网上搜过,一直没找到,不知道您能不能提供一点线索?多谢了

whynoter 发表于 2019-5-28 21:40:36

deeke 发表于 2019-5-27 23:05
1. 用论坛里的 MdxExport 把 mdx 转为 txt 。
2. 观察“英汉例句”的标签。
3. 写段代码处理 txt 文件,提 ...

谢谢您的回复!我不懂编程,所以目前只能做蛀虫,吃白食,希望以后能学会一点相关知识。

whynoter 发表于 2019-5-28 22:31:33

你去哪里 发表于 2019-5-28 06:21
论坛里面与此相关的帖子有五个:
① https://www.pdawiki.com/forum/thread-11546-1-2.html
② https://www ...

非常感谢!我主要是想在电脑上使用

cocowind 发表于 2019-5-28 22:53:39

这个是本论坛的原帖,链接已经失效。
柯林斯、朗文、牛津、剑桥双解TXT版-【自备语料库】
https://www.pdawiki.com/forum/thread-11546-1-1.html?x=180507
我补一个吧 https://pan.baidu.com/s/1cbKi0l

理解新手,但自己动手才能丰衣足食

whynoter 发表于 2019-5-29 16:59:34

cocowind 发表于 2019-5-28 22:53
这个是本论坛的原帖,链接已经失效。
柯林斯、朗文、牛津、剑桥双解TXT版-【自备语料库】
https://www.pdaw ...

太谢谢您了!万分感激!我一定好好学习,争取也能为大家做点贡献。
页: [1]
查看完整版本: 请教从Mdx文件提取英汉对照语料的方法