掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 692|回复: 15

[工具] customiseMdxFromList【指定单词列表提取词库】

[复制链接]
  • TA的每日心情
    奋斗
    2019-10-11 13:52
  • 签到天数: 142 天

    [LV.7]常住居民III

    发表于 2018-4-6 22:39:26 | 显示全部楼层 |阅读模式
    本帖最后由 Snowdax 于 2018-4-6 23:00 编辑 4 n' q: U+ m0 m

    $ c3 C* u( v* Z7 b* c8 ^已在 Github 上发布) [( `5 A$ b6 P5 f3 j1 X: J# q
    https://github.com/Snowdax/customiseMdxFromList" O" `: f, {6 d6 @0 w4 H( Y

    8 N" D3 f- h3 l2 preadme 链接复制到论坛已失效,烦请移步 Github 阅读。. \# H0 o" ?2 Q+ O

    ! ?: U9 ]3 a+ H2 v8 i欢迎打赏! https://snowdax.github.io/buyMeACupOfSoyMilk/# d3 b  p9 e: W$ }7 D+ m8 c& s
    7 C# L2 ?7 x4 E; F
    customiseMdxFromList; R( V, x4 l0 H
    COCA5000.txt
    , W; @9 N! u7 B6 |COCA5000.txt 储存了 https://www.wordfrequency.info/free.asp?s=y 页面上的 COCA5000 词汇表,每个单词一行
    3 O# _7 c( w8 F4 @
    8 \0 ?8 ~9 k' k3 D& P# {! qCOCA5000_list.py
    4 r" _6 B6 M3 f7 [; cCOCA5000_list.py 将上面的 txt 文件转换为 Python 中的列表数据格式,并将其赋值给 wordList 变量,该 .py 文件可作为模块导入其他 Python 程序。这个文件是由 line2list.py 生成的。. u4 a. L, O% ?4 n) f

    / W% c$ `2 A0 p- [( _line2list.py! P$ d/ r: ]1 p& z
    输入:文件名.txt
    0 L' }$ a6 O7 n0 E2 Q  C" f输出:文件名_list.txt8 u* _% L/ a4 H- J/ Q6 ?
    功能:将每行的内容转换为 Python 中的列表数据格式,并将其赋值给 wordList 变量。
    5 v* u% M; h$ r4 H9 n# I
    4 ^! R6 `0 M& R( F8 l0 OcustomiseMdxFromList.py
    % ?4 B! u* r7 L( o- c1 F首先将所需词库的 .mdx 文件在 GetDict.exe 中转换为 MDX 源文件,如下图所示:
    % {, g8 l* v% N- y' ]9 `# z4 k; I6 _, n, ~/ X  q) k
      C. v8 H. D* ]
    生成的 .txt 类型的MDX 源文件,应该是一行词头,一行释义,一行 </>,如下图所示:
    9 ]" X$ p3 t9 f  p3 [+ O3 e9 O% F
    $ f; S$ A! G6 G4 A. \: Z
    . E; \6 j) G' [接下来,就可以使用 customiseMdxFromList.py 了!* F4 T: T% z# d' y- S
    输入:刚刚生成的 .txt 文件(文件名.txt); a) B- [0 ^, i
    输出:文件名_customised.txt( M6 @- {$ P5 c2 m$ e  W
    功能,仅保留 COCA5000_list.py 中 wordList 中的单词。如需修改单词列表,请使用 line2list.pt 生成列表并改变 customiseMdxFromList.py 中导入的 COCA5000_list 模块
    / @4 v9 b, z* I4 u7 Y* d; W4 M性能:约 2.5 秒/词,5000 词合共约 3.5 小时
    + d9 w; _' H+ [" |: P4 W( Z
    ) h2 E4 l0 R/ \& f! a( B) U" r6 Q最后,使用 MdxBuilder.exe 将 文件名_customised.txt 打包为 .mdx 文件,用于 MDict 等词典软件
    / G: s; [8 Y% ^5 `0 k) U# r: I  o' _- d
    customiseMdxFromList.exe0 p, W% y/ z: O4 v* f
    由 customiseMdxFromList.py 封装。不用搭建 Python 环境,且程序里面集成了 COCA5000 的单词表,直接在 Windows 上就能使用。

    评分

    1

    查看全部评分

    本帖被以下淘专辑推荐:

  • TA的每日心情
    奋斗
    2019-10-11 13:52
  • 签到天数: 142 天

    [LV.7]常住居民III

     楼主| 发表于 2018-4-6 22:40:48 | 显示全部楼层
    @nidetou   {$ Q' n4 V2 _
    求助,如何把词典中不要的单词删除?$ t/ v4 O7 a2 F, \
    https://www.pdawiki.com/forum/fo ... &fromuid=176529) p2 [; y1 I$ _
    (出处: 掌上百科)  a7 B7 E5 s, _# x, \
    水平有限,程序性能低下,欢迎高手指点!
  • TA的每日心情
    开心
    2018-5-27 05:26
  • 签到天数: 55 天

    [LV.5]常住居民I

    发表于 2018-4-7 03:03:48 | 显示全部楼层
    还不明白如何使用,先打赏再说。谢谢!
  • TA的每日心情
    开心
    2018-5-27 05:26
  • 签到天数: 55 天

    [LV.5]常住居民I

    发表于 2018-4-8 15:00:05 | 显示全部楼层
    接下来,就可以使用 customiseMdxFromList.py 了!# [2 G/ K+ n9 i* V1 r3 C
    输入:刚刚生成的 .txt 文件(文件名.txt):
    8 }; T( @9 ?: P; @) r7 x0 \5 ]输出:文件名_customised.txt: B& ]( K2 W( r& s4 `# V# T
    2 g9 ]2 s: v# P& \9 Z7 m# R
    我是小白,LAAD3我用getdic转换了源文件为LAAD3.txt,接下来点customiseMdxFromList.py出现一个黑框一闪而过。

    点评

    直接双击 .py 文件是会一闪而过的,可以在安装 Python 后自带的 IDLE 中运行(本程序是基于 Python 3 的,需要安装 Python 3 打头的版本)  发表于 2018-4-8 17:30
  • TA的每日心情
    开心
    2018-5-27 05:26
  • 签到天数: 55 天

    [LV.5]常住居民I

    发表于 2018-4-8 15:02:20 | 显示全部楼层
    本帖最后由 nidetou 于 2018-4-8 15:06 编辑   F( T. |1 f9 l# M' w8 t

    ; `# U6 E  t: I9 F9 ^" d点customiseMdxFromList.exe,说window版本不兼容。我是win7, python2.7也安装了。
  • TA的每日心情
    开心
    2019-1-21 17:00
  • 签到天数: 376 天

    [LV.9]以坛为家II

    发表于 2018-4-8 16:38:57 | 显示全部楼层
    本帖最后由 须佐之男 于 2018-4-8 16:48 编辑 ' U  g/ V: s+ K9 L  S8 Y
    nidetou 发表于 2018-4-8 15:02
    + b  U6 B  ^$ U! h点customiseMdxFromList.exe,说window版本不兼容。我是win7, python2.7也安装了。 ...
      P! m# i2 R, x' T

    1 G/ k0 y0 y, R/ U- X  G/ V+ a6 L' T虽然我不懂py,但是看楼主的说明,不需要安装py,是已经封装好的。# f* N0 [2 z* L6 R
    而且这个exe应该是从词典源文件取出特定的COCA5000 的单词表,你需要取其他词才用py程序的

    点评

    我只在 Windwos 10 上测试通过了,其他 Windows 版本还没有测试。  发表于 2018-4-8 17:26
  • TA的每日心情
    奋斗
    2019-10-11 13:52
  • 签到天数: 142 天

    [LV.7]常住居民III

     楼主| 发表于 2018-4-8 17:28:11 | 显示全部楼层
    nidetou 发表于 2018-4-8 15:02+ l7 j6 F: y. T1 d4 P  ?
    点customiseMdxFromList.exe,说window版本不兼容。我是win7, python2.7也安装了。 ...
      Q2 ?6 G* o5 J6 r0 U) M' O* \
    我在 Windows 7 上没有测试。
    ) \$ i4 |" d, S) \" g6 q& Z如果你安装了 Python 3 的话,可以右键 customiseMdxFromList.py 选择在 Python 3 IDLE 中打开 这个 .py 文件,然后弹出的 IDLE 窗口中选择 上方标签的 Run -> Run Module 运行。

    点评

    我的win7 64位的,能打开那个exe文件,应该是能正常工作的  发表于 2018-4-8 17:29
  • TA的每日心情
    慵懒
    前天 13:29
  • 签到天数: 314 天

    [LV.8]以坛为家I

    发表于 2018-4-9 08:04:23 来自手机 | 显示全部楼层
    应该和source editor 提取词表单词一样的思路

    评分

    1

    查看全部评分

  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-17 12:08:00 | 显示全部楼层
    神器啊,对于不会编程又想自己制作词典得人太有帮助了!
  • TA的每日心情
    奋斗
    2019-10-11 13:52
  • 签到天数: 142 天

    [LV.7]常住居民III

     楼主| 发表于 2018-6-17 15:23:39 | 显示全部楼层
    Bouroz 发表于 2018-6-17 12:08) n3 j2 \# x1 j$ G9 n
    神器啊,对于不会编程又想自己制作词典得人太有帮助了!
    ; Y, B  h6 R, S
    这个版本效率过低了,我有空把下一个版本发一下,速度会非常非常快。
    " G5 e: K$ a0 K' u7 h. N' v可以用 8 楼说的那个程序,那个很快很快。
  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-17 15:46:38 | 显示全部楼层
    Snowdax 发表于 2018-6-17 15:23) R+ d* D& |0 F; N6 w5 A: c! w
    这个版本效率过低了,我有空把下一个版本发一下,速度会非常非常快。. C4 }' h7 U  U: N0 v2 F$ e/ \
    可以用 8 楼说的那个程序,那个很快 ...

    ( t) s, h# ^7 k8 S9 n多谢大神!借地求教一下,置顶帖那个Mdict Editor Tool v2.0.35看起来很好,可好多人包括我在内都无法执行操作,您知道是怎么回事吗?
  • TA的每日心情
    奋斗
    2019-10-11 13:52
  • 签到天数: 142 天

    [LV.7]常住居民III

     楼主| 发表于 2018-6-17 16:45:56 | 显示全部楼层
    Bouroz 发表于 2018-6-17 15:46
    3 M1 G) P# K% @7 E8 D( e: I! R7 c多谢大神!借地求教一下,置顶帖那个Mdict Editor Tool v2.0.35看起来很好,可好多人包括我在内都无法执 ...

    9 H& F, B( s1 C, \. {% H- w& u# b9 d这个应用没用过,刚刚下载下来用不了。要替换的话自己研究一下怎么写正则表达式比较好,然后多备份,多试验吧,大神谈不上。
  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-17 21:24:52 | 显示全部楼层
    Snowdax 发表于 2018-6-17 16:45
    , c2 M8 n! a' e9 g1 }1 k这个应用没用过,刚刚下载下来用不了。要替换的话自己研究一下怎么写正则表达式比较好,然后多备份,多试 ...

    ! k* Q( b  p- h3 L7 S! P) S我现在在组合一个手机上用的词频词典,全靠emeditor的替换和dict source editor合并了,全是体力活,以后有时间得好好学习正则和Python了
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    顶部qrcode底部
    关注掌上百科官方微信公众号送积分
    关注掌上百科官方微信公众号
    关注微信公众号 pdawiki,获取邀请码,看文抢积分,抽奖得浮云! Follow our Wechat official account "pdawiki", get invitation codes, and play the lottery to earn points (积分)!

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2020-12-6 09:00 , Processed in 0.049362 second(s), 19 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2020, Tencent Cloud.

    快速回复 返回顶部 返回列表