掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 1612|回复: 10

[求助] 请教从Mdx文件提取英汉对照语料的方法

[复制链接]

该用户从未签到

发表于 2019-5-27 21:50:45 | 显示全部楼层 |阅读模式
打扰一下各位,我基本算是计算机小白,但是很想把一些MDX格式的词典文件中的英汉对照句子提取出来,方便学习使用,不知道有没有哪位大咖能教一下?我从网上下载了GetDict,能把MDX转换成txt格式,但是里面各种编码符号,我不知道该怎么清除。麻烦了!

该用户从未签到

 楼主| 发表于 2019-5-27 22:05:17 | 显示全部楼层
我的意思是,想把双解词典里的例句提取出来,成为一个双语对照的简单语料库

该用户从未签到

发表于 2019-5-27 22:17:56 | 显示全部楼层
网上有做好的、现成的' i9 r$ w5 B# w2 U* g1 [0 `
8 |  H# W  W# R, o  Y3 y* O
每个mdx 内部的细节都不一样,所以没有通用的办法
  • TA的每日心情
    慵懒
    2023-10-14 18:34
  • 签到天数: 210 天

    [LV.7]常住居民III

    发表于 2019-5-27 23:05:00 | 显示全部楼层
    1. 用论坛里的 MdxExport 把 mdx 转为 txt 。7 ^3 Q* i" _+ C% [1 ^2 h: c- G
    2. 观察“英汉例句”的标签。! _2 }; d- W* k: R0 |4 j' C
    3. 写段代码处理 txt 文件,提取例句后写入 数据库 或 其它格式文件。
    / @7 k9 s. Y- m; K+ M  b" |% q4. 很多人用 python 写代码。
  • TA的每日心情
    开心
    2023-2-17 08:38
  • 签到天数: 321 天

    [LV.8]以坛为家I

    发表于 2019-5-28 06:21:53 | 显示全部楼层
    本帖最后由 你去哪里 于 2019-5-28 06:36 编辑 , m1 s) x# v- r5 D! t

      O7 J! {5 U/ M6 ?1 n3 g论坛里面与此相关的帖子有五个:
      W, J7 p; D2 \! H9 }2 ^* h3 Ehttps://www.pdawiki.com/forum/thread-11546-1-2.html1 H. q7 z& }& i) [0 q) c% }; C
    https://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=11741
    9 T# D1 y) P& F( g% ~7 Rhttps://www.pdawiki.com/forum/fo ... 358&highlight=Frank+ v- y' L1 R9 n! H! Q% W3 [+ `
    https://www.pdawiki.com/forum/fo ... 067&highlight=Frank- D2 u, b$ e2 C" P
    https://www.pdawiki.com/forum/fo ... 250&highlight=Frank6 f0 U; \+ Y; @' E

    ; Q. Q; l5 @! ~* W: T( C8 C: R% k( ~, v9 W8 @* v
    其实不必如此麻烦,深蓝词典就可以直接全文搜索mdx,速度很快。
    , b: d0 e2 X% g( t- D$ D2 s
    # v4 j( X( n. K! B/ l) g$ A: m0 |; V' W

    ! z9 N4 l% @; ~: G5 E# Q9 \4 o4 n  \7 [5 C

    - S  Q# F  W. a1 [
  • TA的每日心情
    开心
    2019-5-28 07:39
  • 签到天数: 339 天

    [LV.8]以坛为家I

    发表于 2019-5-28 07:38:25 | 显示全部楼层
    把转换出来的txt在emeditor中打开,另存为html,浏览器就可以打开。网页可以复制粘贴。
    1 h4 j) @4 Y0 o9 b3 `' Ahtml也可以做成epub。

    该用户从未签到

     楼主| 发表于 2019-5-28 21:38:25 | 显示全部楼层
    klwo2 发表于 2019-5-27 22:17
    $ _, p& h$ M+ r5 T. ]2 ?网上有做好的、现成的: C8 S6 o$ N0 m5 P& z- C

    : Z  |$ I+ n2 k3 c- m8 |* \9 n每个mdx 内部的细节都不一样,所以没有通用的办法 ...
    ' _5 ~8 D. W5 M# W2 y
    谢谢您的回复!我在网上搜过,一直没找到,不知道您能不能提供一点线索?多谢了

    该用户从未签到

     楼主| 发表于 2019-5-28 21:40:36 | 显示全部楼层
    deeke 发表于 2019-5-27 23:05- E7 v$ a" g. T4 ]/ }! H/ [
    1. 用论坛里的 MdxExport 把 mdx 转为 txt 。
    ' a( L4 x% I8 `- t; H  q2. 观察“英汉例句”的标签。
    ; _& o, A6 {9 l* R3. 写段代码处理 txt 文件,提 ...
    ! q6 ]$ Y8 t8 s/ d6 {8 D  k
    谢谢您的回复!我不懂编程,所以目前只能做蛀虫,吃白食,希望以后能学会一点相关知识。

    该用户从未签到

     楼主| 发表于 2019-5-28 22:31:33 | 显示全部楼层
    你去哪里 发表于 2019-5-28 06:21
      b1 E% L, s; F) {1 y' `  K论坛里面与此相关的帖子有五个:
    # K; S# v! a- z( c# M① https://www.pdawiki.com/forum/thread-11546-1-2.html. y0 r0 Z7 U3 B% O0 u6 B: O) @. O- W2 q
    ② https://www ...
    + P9 K( F3 W* E6 {5 y2 `3 s
    非常感谢!我主要是想在电脑上使用
  • TA的每日心情
    开心
    2022-1-21 00:52
  • 签到天数: 699 天

    [LV.9]以坛为家II

    发表于 2019-5-28 22:53:39 | 显示全部楼层
    这个是本论坛的原帖,链接已经失效。
    ( z# @+ Y. i1 `  Q' M7 d柯林斯、朗文、牛津、剑桥双解TXT版-【自备语料库】3 [9 B1 N  n, S* ~
    https://www.pdawiki.com/forum/thread-11546-1-1.html?x=1805072 R: b1 z9 p8 U* B; g0 @8 W& ~( b9 L
    我补一个吧 https://pan.baidu.com/s/1cbKi0l. b2 m  q. Q" D2 u- N# q
    + I% J  z3 x) h9 ~6 S# t
    理解新手,但自己动手才能丰衣足食
    / Q0 p. Z5 q2 w+ U4 E

    该用户从未签到

     楼主| 发表于 2019-5-29 16:59:34 | 显示全部楼层
    cocowind 发表于 2019-5-28 22:534 a7 v9 V/ g' W1 d7 W* e3 V5 ]
    这个是本论坛的原帖,链接已经失效。
    6 d7 \& ^, h6 i$ G% e柯林斯、朗文、牛津、剑桥双解TXT版-【自备语料库】9 X- P# ~9 o0 f; l' J4 P& u
    https://www.pdaw ...

    ( W8 F: N4 _& l# I1 H. e; i# \: S太谢谢您了!万分感激!我一定好好学习,争取也能为大家做点贡献。
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-4-25 19:31 , Processed in 0.112434 second(s), 8 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表