掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 956|回复: 15

[工具] customiseMdxFromList【指定单词列表提取词库】

[复制链接]
  • TA的每日心情
    奋斗
    2019-10-11 13:52
  • 签到天数: 142 天

    [LV.7]常住居民III

    发表于 2018-4-6 22:39:26 | 显示全部楼层 |阅读模式
    本帖最后由 Snowdax 于 2018-4-6 23:00 编辑
    9 |, X/ `$ a( Z8 n, T
    : ?1 v- i: c  t7 H& _已在 Github 上发布! |1 G# Q' S6 Q9 N) l
    https://github.com/Snowdax/customiseMdxFromList. u# A/ n9 R" w$ T  F

    9 n& X8 I4 T. x4 C% {readme 链接复制到论坛已失效,烦请移步 Github 阅读。
    7 [$ c) V. H# A  y
    3 V5 J9 b  d* t1 l9 x1 H; m欢迎打赏! https://snowdax.github.io/buyMeACupOfSoyMilk/
    2 l2 x; R: t. s9 ~* U
    4 A3 a# }& }$ n, i: i1 u3 mcustomiseMdxFromList
    * b& y8 _/ V1 wCOCA5000.txt8 I" q; A$ l+ q& z
    COCA5000.txt 储存了 https://www.wordfrequency.info/free.asp?s=y 页面上的 COCA5000 词汇表,每个单词一行
    : _$ f) F8 J/ Q; L1 j# ^+ w
    ) Q) h: D9 d0 {* H- LCOCA5000_list.py
    / v3 R9 \7 _7 Z- D- wCOCA5000_list.py 将上面的 txt 文件转换为 Python 中的列表数据格式,并将其赋值给 wordList 变量,该 .py 文件可作为模块导入其他 Python 程序。这个文件是由 line2list.py 生成的。
    8 g: e# |( k, I* N3 O
    , V: C$ _' Z, n; D$ w8 [2 tline2list.py" d9 Z( p" ~: Y; Z
    输入:文件名.txt' f0 Y4 ?" L; R$ K; t2 V0 [
    输出:文件名_list.txt
      I3 w/ M3 \0 ?" V, }* ^: W/ h功能:将每行的内容转换为 Python 中的列表数据格式,并将其赋值给 wordList 变量。
    * j4 [5 |! h" t/ w# }2 ~8 V; r
    + K3 i4 ]1 T- |% u- k! @customiseMdxFromList.py3 P" w# |4 }( i
    首先将所需词库的 .mdx 文件在 GetDict.exe 中转换为 MDX 源文件,如下图所示:* d! X- R3 ]$ {1 p1 I) h6 x
    4 t) ~; l9 \2 Q

    - ]7 M  v' ]6 `9 _2 S生成的 .txt 类型的MDX 源文件,应该是一行词头,一行释义,一行 </>,如下图所示:, q* j' J1 t' H& ^
    # ^5 ?: u, t0 y$ |; @

    2 C2 |* y8 O& V接下来,就可以使用 customiseMdxFromList.py 了!# `4 L' j! X- h$ p& d: \
    输入:刚刚生成的 .txt 文件(文件名.txt)
    7 V. F! m/ t5 k. @% D- [输出:文件名_customised.txt
    6 r* {5 {- z4 `9 @6 @1 M功能,仅保留 COCA5000_list.py 中 wordList 中的单词。如需修改单词列表,请使用 line2list.pt 生成列表并改变 customiseMdxFromList.py 中导入的 COCA5000_list 模块
    " R/ I( X" i( k; t8 L) q( X. Z性能:约 2.5 秒/词,5000 词合共约 3.5 小时' @) h- M4 w- v( w, {! ~: c2 k
    8 I$ {% B: p1 `: [2 [6 f2 o
    最后,使用 MdxBuilder.exe 将 文件名_customised.txt 打包为 .mdx 文件,用于 MDict 等词典软件* k4 \) h& d5 s9 C9 E
    - ]3 o% K9 p0 n  Y! ]9 Y
    customiseMdxFromList.exe
    3 S; j7 b/ y3 t- L6 O由 customiseMdxFromList.py 封装。不用搭建 Python 环境,且程序里面集成了 COCA5000 的单词表,直接在 Windows 上就能使用。

    评分

    1

    查看全部评分

    本帖被以下淘专辑推荐:

  • TA的每日心情
    奋斗
    2019-10-11 13:52
  • 签到天数: 142 天

    [LV.7]常住居民III

     楼主| 发表于 2018-4-6 22:40:48 | 显示全部楼层
    @nidetou
    ' J2 H0 A! g; Y  Z6 [* J求助,如何把词典中不要的单词删除?5 L" `; G* `( S; o: B  {
    https://www.pdawiki.com/forum/fo ... &fromuid=176529
    - @3 Z% w/ i5 s' ?3 g$ V(出处: 掌上百科)
    ! k7 S1 _. X. [9 d水平有限,程序性能低下,欢迎高手指点!
  • TA的每日心情
    开心
    2018-5-27 05:26
  • 签到天数: 55 天

    [LV.5]常住居民I

    发表于 2018-4-7 03:03:48 | 显示全部楼层
    还不明白如何使用,先打赏再说。谢谢!
  • TA的每日心情
    开心
    2018-5-27 05:26
  • 签到天数: 55 天

    [LV.5]常住居民I

    发表于 2018-4-8 15:00:05 | 显示全部楼层
    接下来,就可以使用 customiseMdxFromList.py 了!
    $ x( Q& j& k( }3 P输入:刚刚生成的 .txt 文件(文件名.txt):
    5 c: S" [, e' X0 r; i4 Y2 b输出:文件名_customised.txt- s8 u& c% s0 o

    . P% c. A9 J: i我是小白,LAAD3我用getdic转换了源文件为LAAD3.txt,接下来点customiseMdxFromList.py出现一个黑框一闪而过。

    点评

    直接双击 .py 文件是会一闪而过的,可以在安装 Python 后自带的 IDLE 中运行(本程序是基于 Python 3 的,需要安装 Python 3 打头的版本)  发表于 2018-4-8 17:30
  • TA的每日心情
    开心
    2018-5-27 05:26
  • 签到天数: 55 天

    [LV.5]常住居民I

    发表于 2018-4-8 15:02:20 | 显示全部楼层
    本帖最后由 nidetou 于 2018-4-8 15:06 编辑
    ( z$ C, i- g* s! J' t9 n9 v! h2 e3 q( v& j& C; `6 p
    点customiseMdxFromList.exe,说window版本不兼容。我是win7, python2.7也安装了。
  • TA的每日心情
    开心
    2019-1-21 17:00
  • 签到天数: 376 天

    [LV.9]以坛为家II

    发表于 2018-4-8 16:38:57 | 显示全部楼层
    本帖最后由 须佐之男 于 2018-4-8 16:48 编辑
    ! |+ v- E8 C, Y1 ?4 F; @" B( k7 O) A( A
    nidetou 发表于 2018-4-8 15:02$ Z) t1 G0 G0 D
    点customiseMdxFromList.exe,说window版本不兼容。我是win7, python2.7也安装了。 ...
    & e9 A  X9 K2 P8 Y" d# ^

    ; M( Z! }8 d/ S虽然我不懂py,但是看楼主的说明,不需要安装py,是已经封装好的。- {- V0 ?# @* [. G& c0 \) d" y6 ^: ~
    而且这个exe应该是从词典源文件取出特定的COCA5000 的单词表,你需要取其他词才用py程序的

    点评

    我只在 Windwos 10 上测试通过了,其他 Windows 版本还没有测试。  发表于 2018-4-8 17:26
  • TA的每日心情
    奋斗
    2019-10-11 13:52
  • 签到天数: 142 天

    [LV.7]常住居民III

     楼主| 发表于 2018-4-8 17:28:11 | 显示全部楼层
    nidetou 发表于 2018-4-8 15:023 m5 m' e0 z2 o! g/ K' w  E& c9 u
    点customiseMdxFromList.exe,说window版本不兼容。我是win7, python2.7也安装了。 ...

    0 b) W: \7 L) ?8 q; d. q我在 Windows 7 上没有测试。$ P$ c, t$ O( x5 z
    如果你安装了 Python 3 的话,可以右键 customiseMdxFromList.py 选择在 Python 3 IDLE 中打开 这个 .py 文件,然后弹出的 IDLE 窗口中选择 上方标签的 Run -> Run Module 运行。

    点评

    我的win7 64位的,能打开那个exe文件,应该是能正常工作的  发表于 2018-4-8 17:29
  • TA的每日心情
    奋斗
    2021-4-4 16:28
  • 签到天数: 353 天

    [LV.8]以坛为家I

    发表于 2018-4-9 08:04:23 来自手机 | 显示全部楼层
    应该和source editor 提取词表单词一样的思路

    评分

    1

    查看全部评分

  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-17 12:08:00 | 显示全部楼层
    神器啊,对于不会编程又想自己制作词典得人太有帮助了!
  • TA的每日心情
    奋斗
    2019-10-11 13:52
  • 签到天数: 142 天

    [LV.7]常住居民III

     楼主| 发表于 2018-6-17 15:23:39 | 显示全部楼层
    Bouroz 发表于 2018-6-17 12:08) x0 e5 z6 `7 B+ |! y& P* R% Z
    神器啊,对于不会编程又想自己制作词典得人太有帮助了!

    3 L2 N& ]- _1 G3 v1 c0 c  G, x这个版本效率过低了,我有空把下一个版本发一下,速度会非常非常快。4 F" H2 {4 d! P3 ]9 n; n) c
    可以用 8 楼说的那个程序,那个很快很快。
  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-17 15:46:38 | 显示全部楼层
    Snowdax 发表于 2018-6-17 15:23
    , ^/ I4 M9 ?& _% l这个版本效率过低了,我有空把下一个版本发一下,速度会非常非常快。. A1 t( @9 Y+ e! u
    可以用 8 楼说的那个程序,那个很快 ...

    + _  C; b# j( q  B多谢大神!借地求教一下,置顶帖那个Mdict Editor Tool v2.0.35看起来很好,可好多人包括我在内都无法执行操作,您知道是怎么回事吗?
  • TA的每日心情
    奋斗
    2019-10-11 13:52
  • 签到天数: 142 天

    [LV.7]常住居民III

     楼主| 发表于 2018-6-17 16:45:56 | 显示全部楼层
    Bouroz 发表于 2018-6-17 15:462 I. m, a# L3 u' E; S( b" p6 z: F
    多谢大神!借地求教一下,置顶帖那个Mdict Editor Tool v2.0.35看起来很好,可好多人包括我在内都无法执 ...
    6 n3 q7 Q* n+ Y8 U4 o; T% _( H& @
    这个应用没用过,刚刚下载下来用不了。要替换的话自己研究一下怎么写正则表达式比较好,然后多备份,多试验吧,大神谈不上。
  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-17 21:24:52 | 显示全部楼层
    Snowdax 发表于 2018-6-17 16:45
    ' }8 z: g0 d) g3 v9 z这个应用没用过,刚刚下载下来用不了。要替换的话自己研究一下怎么写正则表达式比较好,然后多备份,多试 ...
    $ K$ G$ i. Z: f) z# N3 B* D
    我现在在组合一个手机上用的词频词典,全靠emeditor的替换和dict source editor合并了,全是体力活,以后有时间得好好学习正则和Python了
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    顶部qrcode底部
    关注掌上百科官方微信公众号送积分
    关注掌上百科官方微信公众号
    关注微信公众号 pdawiki,获取邀请码,看文抢积分,抽奖得浮云! Follow our Wechat official account "pdawiki", get invitation codes, and play the lottery to earn points (积分)!

    小黑屋|手机版|Archiver|PDAWIKI ( 美ICP 0000000字 )|网站地图

    GMT+8, 2022-1-26 16:06 , Processed in 0.053650 second(s), 11 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2020, Tencent Cloud.

    快速回复 返回顶部 返回列表