掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 2650|回复: 15

[工具] customiseMdxFromList【指定单词列表提取词库】

[复制链接]
  • TA的每日心情
    奋斗
    2019-10-11 13:52
  • 签到天数: 142 天

    [LV.7]常住居民III

    发表于 2018-4-6 22:39:26 | 显示全部楼层 |阅读模式
    本帖最后由 Snowdax 于 2018-4-6 23:00 编辑 3 N4 W8 ^) T% W7 N( m" p( m
    $ S- {/ Z% z4 k$ y' d: O
    已在 Github 上发布/ N. ^7 J4 r0 c8 W
    https://github.com/Snowdax/customiseMdxFromList
    9 A( ^5 r& n1 E7 m  B: r9 H% z1 U4 U7 N; X# m
    readme 链接复制到论坛已失效,烦请移步 Github 阅读。
    . U0 W4 N; i; e7 S
    6 U9 Y; `$ U7 m$ n. ?欢迎打赏! https://snowdax.github.io/buyMeACupOfSoyMilk/
    3 [9 u; ?# c# H( w
    % {. B$ N9 J$ [/ {) x; `% [customiseMdxFromList& u. [0 I8 A$ L& s$ {* V
    COCA5000.txt6 X; K) j- T. X# z9 D& `
    COCA5000.txt 储存了 https://www.wordfrequency.info/free.asp?s=y 页面上的 COCA5000 词汇表,每个单词一行
    & I1 I/ T, v% e: u' s  C/ f+ N# y* y+ v  m: a
    COCA5000_list.py0 X# ?  C4 h4 J+ P1 W1 p
    COCA5000_list.py 将上面的 txt 文件转换为 Python 中的列表数据格式,并将其赋值给 wordList 变量,该 .py 文件可作为模块导入其他 Python 程序。这个文件是由 line2list.py 生成的。
    $ }1 X# e+ c1 o" J' D" Z8 {0 b& e! I
    line2list.py
    8 w( N# T+ @6 U+ @# g输入:文件名.txt7 e# |: W5 B7 O6 k2 K
    输出:文件名_list.txt
    ! t9 H! N% B9 ~9 U4 e功能:将每行的内容转换为 Python 中的列表数据格式,并将其赋值给 wordList 变量。* P0 N. ?) b' x, P: B) ~, B0 \

      ]7 o! Q5 \( Z' {& PcustomiseMdxFromList.py
    1 }9 U5 V/ J( Q2 F首先将所需词库的 .mdx 文件在 GetDict.exe 中转换为 MDX 源文件,如下图所示:4 Y5 b3 ]. O( y; L) T" N) S0 n

    : M% W( w5 M$ [( ^! ?! K2 B( y; U0 t- \& j" H% x0 f
    生成的 .txt 类型的MDX 源文件,应该是一行词头,一行释义,一行 </>,如下图所示:" h+ _+ ^6 K0 j+ {
    8 U& X6 ]6 Y( B+ h

    6 n3 u% ~1 \- S% B& \2 U接下来,就可以使用 customiseMdxFromList.py 了!
    9 Q1 g, W# I8 R- T/ t) j, t, p输入:刚刚生成的 .txt 文件(文件名.txt)
    0 A/ T/ s3 q) I/ y输出:文件名_customised.txt
    6 h, z$ T/ j1 b# d功能,仅保留 COCA5000_list.py 中 wordList 中的单词。如需修改单词列表,请使用 line2list.pt 生成列表并改变 customiseMdxFromList.py 中导入的 COCA5000_list 模块4 U7 Y3 A8 m) e3 }2 @8 B3 i
    性能:约 2.5 秒/词,5000 词合共约 3.5 小时
    . }2 y8 T. x1 {/ M: B, A3 C9 Z, c6 t5 ^3 V1 N1 G9 T
    最后,使用 MdxBuilder.exe 将 文件名_customised.txt 打包为 .mdx 文件,用于 MDict 等词典软件
    + f  x+ q4 m( e4 \4 s' g; C" n
    8 Y5 Q7 O! |, p; t0 wcustomiseMdxFromList.exe$ d' q/ a/ r3 K
    由 customiseMdxFromList.py 封装。不用搭建 Python 环境,且程序里面集成了 COCA5000 的单词表,直接在 Windows 上就能使用。

    评分

    1

    查看全部评分

    本帖被以下淘专辑推荐:

  • TA的每日心情
    奋斗
    2019-10-11 13:52
  • 签到天数: 142 天

    [LV.7]常住居民III

     楼主| 发表于 2018-4-6 22:40:48 | 显示全部楼层
    @nidetou
    0 t; @8 A, W7 G9 H" H0 W求助,如何把词典中不要的单词删除?
    3 n- ~. h7 ~& E* N- phttps://www.pdawiki.com/forum/fo ... &fromuid=176529$ q9 b/ W% c' `+ {4 C  K
    (出处: 掌上百科)
    1 `/ f# _5 }; v2 v+ I$ @水平有限,程序性能低下,欢迎高手指点!
  • TA的每日心情
    开心
    2018-5-27 05:26
  • 签到天数: 55 天

    [LV.5]常住居民I

    发表于 2018-4-7 03:03:48 | 显示全部楼层
    还不明白如何使用,先打赏再说。谢谢!
  • TA的每日心情
    开心
    2018-5-27 05:26
  • 签到天数: 55 天

    [LV.5]常住居民I

    发表于 2018-4-8 15:00:05 | 显示全部楼层
    接下来,就可以使用 customiseMdxFromList.py 了!8 ^' W+ z. O; n. s+ M
    输入:刚刚生成的 .txt 文件(文件名.txt):
    3 g% i) x, h- ?% [输出:文件名_customised.txt2 V% J. R9 ]' B
    # h8 ~. W# b6 @0 z% \
    我是小白,LAAD3我用getdic转换了源文件为LAAD3.txt,接下来点customiseMdxFromList.py出现一个黑框一闪而过。

    点评

    直接双击 .py 文件是会一闪而过的,可以在安装 Python 后自带的 IDLE 中运行(本程序是基于 Python 3 的,需要安装 Python 3 打头的版本)  发表于 2018-4-8 17:30
  • TA的每日心情
    开心
    2018-5-27 05:26
  • 签到天数: 55 天

    [LV.5]常住居民I

    发表于 2018-4-8 15:02:20 | 显示全部楼层
    本帖最后由 nidetou 于 2018-4-8 15:06 编辑 : g' g7 n) f2 f) ~/ Y* j
    # c$ k  c* _; ?" R" Y. [  i( ?
    点customiseMdxFromList.exe,说window版本不兼容。我是win7, python2.7也安装了。
  • TA的每日心情
    奋斗
    2022-6-1 19:02
  • 签到天数: 377 天

    [LV.9]以坛为家II

    发表于 2018-4-8 16:38:57 | 显示全部楼层
    本帖最后由 须佐之男 于 2018-4-8 16:48 编辑
    + m# o3 B& w' H  M% S2 }8 O7 v
    nidetou 发表于 2018-4-8 15:02% A  l7 R! s+ w0 y
    点customiseMdxFromList.exe,说window版本不兼容。我是win7, python2.7也安装了。 ...

    0 y6 t4 l# W  K
    5 C0 R, T; n7 a7 b, }+ b5 x虽然我不懂py,但是看楼主的说明,不需要安装py,是已经封装好的。
    ! N( ~/ K# U$ }6 j: D7 [而且这个exe应该是从词典源文件取出特定的COCA5000 的单词表,你需要取其他词才用py程序的

    点评

    我只在 Windwos 10 上测试通过了,其他 Windows 版本还没有测试。  发表于 2018-4-8 17:26
  • TA的每日心情
    奋斗
    2019-10-11 13:52
  • 签到天数: 142 天

    [LV.7]常住居民III

     楼主| 发表于 2018-4-8 17:28:11 | 显示全部楼层
    nidetou 发表于 2018-4-8 15:029 q' S1 q  }- _  g; O
    点customiseMdxFromList.exe,说window版本不兼容。我是win7, python2.7也安装了。 ...

    / M" R9 P. Q6 p3 M% h' D我在 Windows 7 上没有测试。
    $ G" x6 D6 J: W# S如果你安装了 Python 3 的话,可以右键 customiseMdxFromList.py 选择在 Python 3 IDLE 中打开 这个 .py 文件,然后弹出的 IDLE 窗口中选择 上方标签的 Run -> Run Module 运行。

    点评

    我的win7 64位的,能打开那个exe文件,应该是能正常工作的  发表于 2018-4-8 17:29
  • TA的每日心情
    奋斗
    2021-4-4 16:28
  • 签到天数: 353 天

    [LV.8]以坛为家I

    发表于 2018-4-9 08:04:23 来自手机 | 显示全部楼层
    应该和source editor 提取词表单词一样的思路

    评分

    1

    查看全部评分

  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-17 12:08:00 | 显示全部楼层
    神器啊,对于不会编程又想自己制作词典得人太有帮助了!
  • TA的每日心情
    奋斗
    2019-10-11 13:52
  • 签到天数: 142 天

    [LV.7]常住居民III

     楼主| 发表于 2018-6-17 15:23:39 | 显示全部楼层
    Bouroz 发表于 2018-6-17 12:087 }* D; M& G, o; Q& M3 H* {
    神器啊,对于不会编程又想自己制作词典得人太有帮助了!

    + @+ q- V* f+ j6 Q6 f8 J这个版本效率过低了,我有空把下一个版本发一下,速度会非常非常快。
    3 l% V$ |( Y; v3 m& K可以用 8 楼说的那个程序,那个很快很快。
  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-17 15:46:38 | 显示全部楼层
    Snowdax 发表于 2018-6-17 15:23) {; D- v( x( g- |) G
    这个版本效率过低了,我有空把下一个版本发一下,速度会非常非常快。
    6 F" K" _+ H! ]  B/ r/ q' E  C# n可以用 8 楼说的那个程序,那个很快 ...

    : b( I9 q: b" {& Y1 U多谢大神!借地求教一下,置顶帖那个Mdict Editor Tool v2.0.35看起来很好,可好多人包括我在内都无法执行操作,您知道是怎么回事吗?
  • TA的每日心情
    奋斗
    2019-10-11 13:52
  • 签到天数: 142 天

    [LV.7]常住居民III

     楼主| 发表于 2018-6-17 16:45:56 | 显示全部楼层
    Bouroz 发表于 2018-6-17 15:468 y3 a5 @# g: t# q( B
    多谢大神!借地求教一下,置顶帖那个Mdict Editor Tool v2.0.35看起来很好,可好多人包括我在内都无法执 ...

    6 m# G& v5 U- r+ P% A6 u# W' p这个应用没用过,刚刚下载下来用不了。要替换的话自己研究一下怎么写正则表达式比较好,然后多备份,多试验吧,大神谈不上。
  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-17 21:24:52 | 显示全部楼层
    Snowdax 发表于 2018-6-17 16:45
      A) g4 {( m) d! A1 K  h这个应用没用过,刚刚下载下来用不了。要替换的话自己研究一下怎么写正则表达式比较好,然后多备份,多试 ...

    6 p& i: N& e' B! x9 d) R& K- j# \( l我现在在组合一个手机上用的词频词典,全靠emeditor的替换和dict source editor合并了,全是体力活,以后有时间得好好学习正则和Python了
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2025-6-28 00:39 , Processed in 0.022946 second(s), 24 queries .

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表