掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 2652|回复: 15

[工具] customiseMdxFromList【指定单词列表提取词库】

[复制链接]
  • TA的每日心情
    奋斗
    2019-10-11 13:52
  • 签到天数: 142 天

    [LV.7]常住居民III

    发表于 2018-4-6 22:39:26 | 显示全部楼层 |阅读模式
    本帖最后由 Snowdax 于 2018-4-6 23:00 编辑 * O# z( ?6 D) z* P3 J, f

    3 Q- A; r& Z; |$ P6 _已在 Github 上发布
    2 x) U# b7 J- l( {' g0 Shttps://github.com/Snowdax/customiseMdxFromList
    - J3 ?6 [, ^! h4 s8 p( Q" o0 o, N( f* R; ]+ d2 \5 ^
    readme 链接复制到论坛已失效,烦请移步 Github 阅读。
    5 ^$ A' J3 L+ [# o0 W
    # ~3 ^0 [8 l/ y9 e欢迎打赏! https://snowdax.github.io/buyMeACupOfSoyMilk/
    ) H5 P3 O0 e% @) ^2 |2 w. V% o# O; i2 i) `
    customiseMdxFromList' z& S) Y0 m1 Z1 a+ v& d
    COCA5000.txt4 Y5 z4 d- L3 r( }& Q, m  I: ^6 Q
    COCA5000.txt 储存了 https://www.wordfrequency.info/free.asp?s=y 页面上的 COCA5000 词汇表,每个单词一行
    4 w5 }2 I5 L$ o* W. ~) {7 R
    6 M; n8 K. m  j2 }7 U6 X) n9 t5 hCOCA5000_list.py
    2 l) d7 I  C5 ~6 i* s* CCOCA5000_list.py 将上面的 txt 文件转换为 Python 中的列表数据格式,并将其赋值给 wordList 变量,该 .py 文件可作为模块导入其他 Python 程序。这个文件是由 line2list.py 生成的。- {1 A7 w) t& u' }# S

    ( s& t+ a( t4 `# Q3 F9 K: Dline2list.py
    5 m* l, w0 J! E输入:文件名.txt2 Y4 P9 T- |. L/ t9 X) b9 J
    输出:文件名_list.txt
    4 v  Q/ C1 o! Q: o功能:将每行的内容转换为 Python 中的列表数据格式,并将其赋值给 wordList 变量。! m# D8 v2 e! ?) v( W2 T

    * z2 D9 X* [. OcustomiseMdxFromList.py- l- R# q% m, Y8 J7 d; b/ y: K7 J
    首先将所需词库的 .mdx 文件在 GetDict.exe 中转换为 MDX 源文件,如下图所示:$ B/ O; H4 V6 n# w

    0 g0 I. E; g: I$ W, Y- x# g
    0 [# r+ f4 U# _+ |) t3 s$ f生成的 .txt 类型的MDX 源文件,应该是一行词头,一行释义,一行 </>,如下图所示:& K8 _8 M( A; W: k9 L4 D8 \6 @( Q3 n; {# o
    4 B1 f! {  L( A+ I" p: _! m
    . ^: d/ k# ^* N0 T. a
    接下来,就可以使用 customiseMdxFromList.py 了!
    / q2 z; s/ d+ n% \* C输入:刚刚生成的 .txt 文件(文件名.txt)
    ; l, y( S8 N' m! \8 s8 `. j输出:文件名_customised.txt0 Q. w3 L/ d8 O( _( X2 e, U6 c
    功能,仅保留 COCA5000_list.py 中 wordList 中的单词。如需修改单词列表,请使用 line2list.pt 生成列表并改变 customiseMdxFromList.py 中导入的 COCA5000_list 模块6 w$ y0 X. C1 n2 D" ?) u. r' x! g0 J
    性能:约 2.5 秒/词,5000 词合共约 3.5 小时
    # |/ w" K, `" \2 }/ M) S# r" Z& x  H. j! u+ k
    最后,使用 MdxBuilder.exe 将 文件名_customised.txt 打包为 .mdx 文件,用于 MDict 等词典软件0 w( o6 v* N2 J0 b
    * J8 i: }" u  h9 X& _. c7 e
    customiseMdxFromList.exe
    ; V* L+ m1 C$ M: S由 customiseMdxFromList.py 封装。不用搭建 Python 环境,且程序里面集成了 COCA5000 的单词表,直接在 Windows 上就能使用。

    评分

    1

    查看全部评分

    本帖被以下淘专辑推荐:

  • TA的每日心情
    奋斗
    2019-10-11 13:52
  • 签到天数: 142 天

    [LV.7]常住居民III

     楼主| 发表于 2018-4-6 22:40:48 | 显示全部楼层
    @nidetou + |4 k# i8 Q  v! L% l# g4 h
    求助,如何把词典中不要的单词删除?$ z$ `5 C* ^- _2 r+ ^. Y" \
    https://www.pdawiki.com/forum/fo ... &fromuid=1765292 Y9 E7 s% D; Z3 y. i& x
    (出处: 掌上百科)
    ( U6 h8 Y. [& K8 X. h+ V  ~- D水平有限,程序性能低下,欢迎高手指点!
  • TA的每日心情
    开心
    2018-5-27 05:26
  • 签到天数: 55 天

    [LV.5]常住居民I

    发表于 2018-4-7 03:03:48 | 显示全部楼层
    还不明白如何使用,先打赏再说。谢谢!
  • TA的每日心情
    开心
    2018-5-27 05:26
  • 签到天数: 55 天

    [LV.5]常住居民I

    发表于 2018-4-8 15:00:05 | 显示全部楼层
    接下来,就可以使用 customiseMdxFromList.py 了!
    3 K2 J$ W/ ^: F! q/ w# w输入:刚刚生成的 .txt 文件(文件名.txt):& K0 b) p  H6 J* E" \
    输出:文件名_customised.txt7 K0 ~; e2 Y, d- M) Q

    / y, ^; l* e2 v/ |我是小白,LAAD3我用getdic转换了源文件为LAAD3.txt,接下来点customiseMdxFromList.py出现一个黑框一闪而过。

    点评

    直接双击 .py 文件是会一闪而过的,可以在安装 Python 后自带的 IDLE 中运行(本程序是基于 Python 3 的,需要安装 Python 3 打头的版本)  发表于 2018-4-8 17:30
  • TA的每日心情
    开心
    2018-5-27 05:26
  • 签到天数: 55 天

    [LV.5]常住居民I

    发表于 2018-4-8 15:02:20 | 显示全部楼层
    本帖最后由 nidetou 于 2018-4-8 15:06 编辑 3 D6 c! Y( @, Y4 k$ s: |* |  k

    . p9 C8 K  r" r点customiseMdxFromList.exe,说window版本不兼容。我是win7, python2.7也安装了。
  • TA的每日心情
    奋斗
    2022-6-1 19:02
  • 签到天数: 377 天

    [LV.9]以坛为家II

    发表于 2018-4-8 16:38:57 | 显示全部楼层
    本帖最后由 须佐之男 于 2018-4-8 16:48 编辑
    & Q7 b8 V. R0 R) H
    nidetou 发表于 2018-4-8 15:02. T- P# X5 f# o4 B" l3 ?2 Y
    点customiseMdxFromList.exe,说window版本不兼容。我是win7, python2.7也安装了。 ...

    9 w4 E! G; `+ K1 \' I) z0 i5 w2 c2 y/ O9 q$ e
    虽然我不懂py,但是看楼主的说明,不需要安装py,是已经封装好的。
    ! g  C& v* K$ k8 H( }  G而且这个exe应该是从词典源文件取出特定的COCA5000 的单词表,你需要取其他词才用py程序的

    点评

    我只在 Windwos 10 上测试通过了,其他 Windows 版本还没有测试。  发表于 2018-4-8 17:26
  • TA的每日心情
    奋斗
    2019-10-11 13:52
  • 签到天数: 142 天

    [LV.7]常住居民III

     楼主| 发表于 2018-4-8 17:28:11 | 显示全部楼层
    nidetou 发表于 2018-4-8 15:02
    ) Q6 ?6 P' ^* s! W7 z2 P  J( p点customiseMdxFromList.exe,说window版本不兼容。我是win7, python2.7也安装了。 ...

    ( X" ~9 l1 r- a( d3 ]我在 Windows 7 上没有测试。
    6 b( ~. V, Q4 z$ s# H! H' |6 |: C如果你安装了 Python 3 的话,可以右键 customiseMdxFromList.py 选择在 Python 3 IDLE 中打开 这个 .py 文件,然后弹出的 IDLE 窗口中选择 上方标签的 Run -> Run Module 运行。

    点评

    我的win7 64位的,能打开那个exe文件,应该是能正常工作的  发表于 2018-4-8 17:29
  • TA的每日心情
    奋斗
    2021-4-4 16:28
  • 签到天数: 353 天

    [LV.8]以坛为家I

    发表于 2018-4-9 08:04:23 来自手机 | 显示全部楼层
    应该和source editor 提取词表单词一样的思路

    评分

    1

    查看全部评分

  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-17 12:08:00 | 显示全部楼层
    神器啊,对于不会编程又想自己制作词典得人太有帮助了!
  • TA的每日心情
    奋斗
    2019-10-11 13:52
  • 签到天数: 142 天

    [LV.7]常住居民III

     楼主| 发表于 2018-6-17 15:23:39 | 显示全部楼层
    Bouroz 发表于 2018-6-17 12:081 ], ~  l7 ^3 a9 A  {2 T3 J1 g
    神器啊,对于不会编程又想自己制作词典得人太有帮助了!

    0 Z* U6 E1 Z0 i* `7 ^这个版本效率过低了,我有空把下一个版本发一下,速度会非常非常快。8 v, I2 L) z8 f# w1 _5 ~, Y" U
    可以用 8 楼说的那个程序,那个很快很快。
  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-17 15:46:38 | 显示全部楼层
    Snowdax 发表于 2018-6-17 15:23
    , m% s6 Y. k* G6 j8 ~# n3 m这个版本效率过低了,我有空把下一个版本发一下,速度会非常非常快。
      x2 i+ s# h% ]; n% x4 Y3 ?, k1 T" H可以用 8 楼说的那个程序,那个很快 ...
    . L( o8 }, s: A; J1 i( _) T
    多谢大神!借地求教一下,置顶帖那个Mdict Editor Tool v2.0.35看起来很好,可好多人包括我在内都无法执行操作,您知道是怎么回事吗?
  • TA的每日心情
    奋斗
    2019-10-11 13:52
  • 签到天数: 142 天

    [LV.7]常住居民III

     楼主| 发表于 2018-6-17 16:45:56 | 显示全部楼层
    Bouroz 发表于 2018-6-17 15:46: q$ G8 a( N' h. j3 G+ p! R' w( u* [
    多谢大神!借地求教一下,置顶帖那个Mdict Editor Tool v2.0.35看起来很好,可好多人包括我在内都无法执 ...

    ( B2 E% u0 R2 M! m, r5 m8 R+ T% p这个应用没用过,刚刚下载下来用不了。要替换的话自己研究一下怎么写正则表达式比较好,然后多备份,多试验吧,大神谈不上。
  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-17 21:24:52 | 显示全部楼层
    Snowdax 发表于 2018-6-17 16:45
    $ I9 D2 J  W" Z5 H这个应用没用过,刚刚下载下来用不了。要替换的话自己研究一下怎么写正则表达式比较好,然后多备份,多试 ...
    5 |# Y1 V# s% a( h
    我现在在组合一个手机上用的词频词典,全靠emeditor的替换和dict source editor合并了,全是体力活,以后有时间得好好学习正则和Python了
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2025-6-28 06:06 , Processed in 0.022859 second(s), 24 queries .

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表