掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 1798|回复: 15

[工具] customiseMdxFromList【指定单词列表提取词库】

[复制链接]
  • TA的每日心情
    奋斗
    2019-10-11 13:52
  • 签到天数: 142 天

    [LV.7]常住居民III

    发表于 2018-4-6 22:39:26 | 显示全部楼层 |阅读模式
    本帖最后由 Snowdax 于 2018-4-6 23:00 编辑   b  A- [2 @3 A
    " _0 [/ B4 g- x# `& X: L
    已在 Github 上发布
    + [2 @1 a& _5 n5 c) `https://github.com/Snowdax/customiseMdxFromList
    & E# D; W# i3 |2 q, ^9 J. b: x9 _) L& ^* l/ X
    readme 链接复制到论坛已失效,烦请移步 Github 阅读。
    ; [) C: ~6 h7 }6 T7 B2 e; q1 `
    ! H# C* g  C' K- _8 c4 Q. E# e" X1 d9 r欢迎打赏! https://snowdax.github.io/buyMeACupOfSoyMilk/% d3 ~- m: A) s# y. `
    / B* E" [" j( K4 C! q5 h
    customiseMdxFromList# h/ w# @2 T% y+ g' z+ k
    COCA5000.txt
    8 [, B6 G9 X6 n; VCOCA5000.txt 储存了 https://www.wordfrequency.info/free.asp?s=y 页面上的 COCA5000 词汇表,每个单词一行
    1 N5 H9 F/ {' L. u8 [: W/ @# j; v& r) c' i- W, d& @
    COCA5000_list.py! c! }# n& P# P* o. X0 k0 l
    COCA5000_list.py 将上面的 txt 文件转换为 Python 中的列表数据格式,并将其赋值给 wordList 变量,该 .py 文件可作为模块导入其他 Python 程序。这个文件是由 line2list.py 生成的。/ D/ L/ Z1 Z6 f1 W9 j
    1 U' B; @5 N0 f# A$ O+ Y* M8 m* @
    line2list.py
    3 O7 i0 X2 A8 t& W8 \% j输入:文件名.txt
    3 ?$ H% `% |# a, m; E% S+ ?输出:文件名_list.txt0 h! `4 P' S! F3 O) {1 D. d3 m
    功能:将每行的内容转换为 Python 中的列表数据格式,并将其赋值给 wordList 变量。
    7 M+ n4 [9 V3 k6 x' L$ {) m; P
    ! ^& ?: v4 Z) k0 K( n5 q+ qcustomiseMdxFromList.py6 }5 `7 ]0 G: m( \
    首先将所需词库的 .mdx 文件在 GetDict.exe 中转换为 MDX 源文件,如下图所示:
    1 S7 W' t: ^* X4 n7 \+ I
      y8 A; c2 z1 T2 M. c3 r" m1 p2 u7 x' N5 u0 h+ N
    生成的 .txt 类型的MDX 源文件,应该是一行词头,一行释义,一行 </>,如下图所示:
    $ N, W) o6 I6 t- b4 N+ V& Y, z$ z1 Z0 [& i7 B, @5 {4 X& h: W

    8 a4 D3 Y% c3 f# q# F: q: l接下来,就可以使用 customiseMdxFromList.py 了!
    2 N  f: ?8 g$ c/ T" P输入:刚刚生成的 .txt 文件(文件名.txt)
    # m4 x" h2 x3 X3 w# X9 [% \输出:文件名_customised.txt; p; ^6 ?1 ]+ _+ v$ G
    功能,仅保留 COCA5000_list.py 中 wordList 中的单词。如需修改单词列表,请使用 line2list.pt 生成列表并改变 customiseMdxFromList.py 中导入的 COCA5000_list 模块
    4 @; o7 D8 s( C4 q性能:约 2.5 秒/词,5000 词合共约 3.5 小时
    " t! o& ~8 T( P
    ' A9 d1 W$ j$ B5 v8 R  m最后,使用 MdxBuilder.exe 将 文件名_customised.txt 打包为 .mdx 文件,用于 MDict 等词典软件9 D  {( h% ^+ v) |/ _+ U' Q. V' X7 X

    : q  S+ q  i3 E/ T/ gcustomiseMdxFromList.exe
    7 I% u$ A( x* Q; c' p* @由 customiseMdxFromList.py 封装。不用搭建 Python 环境,且程序里面集成了 COCA5000 的单词表,直接在 Windows 上就能使用。

    评分

    1

    查看全部评分

    本帖被以下淘专辑推荐:

  • TA的每日心情
    奋斗
    2019-10-11 13:52
  • 签到天数: 142 天

    [LV.7]常住居民III

     楼主| 发表于 2018-4-6 22:40:48 | 显示全部楼层
    @nidetou
    ; a4 x' I% w1 N. B求助,如何把词典中不要的单词删除?
    . D) d- M: j2 J: z. q( ahttps://www.pdawiki.com/forum/fo ... &fromuid=176529* f: L& A7 i7 O, a: O7 u
    (出处: 掌上百科)
    4 z- G+ G) P3 ]: W; f水平有限,程序性能低下,欢迎高手指点!
  • TA的每日心情
    开心
    2018-5-27 05:26
  • 签到天数: 55 天

    [LV.5]常住居民I

    发表于 2018-4-7 03:03:48 | 显示全部楼层
    还不明白如何使用,先打赏再说。谢谢!
  • TA的每日心情
    开心
    2018-5-27 05:26
  • 签到天数: 55 天

    [LV.5]常住居民I

    发表于 2018-4-8 15:00:05 | 显示全部楼层
    接下来,就可以使用 customiseMdxFromList.py 了!( I" n; Y& |$ X2 h  l0 K
    输入:刚刚生成的 .txt 文件(文件名.txt):
    * f# C" U5 ~& M4 H' ]3 V1 @输出:文件名_customised.txt
    ( b; m. e! P! M1 R  B, T1 u+ q8 \) o: D9 u2 n
    我是小白,LAAD3我用getdic转换了源文件为LAAD3.txt,接下来点customiseMdxFromList.py出现一个黑框一闪而过。

    点评

    直接双击 .py 文件是会一闪而过的,可以在安装 Python 后自带的 IDLE 中运行(本程序是基于 Python 3 的,需要安装 Python 3 打头的版本)  发表于 2018-4-8 17:30
  • TA的每日心情
    开心
    2018-5-27 05:26
  • 签到天数: 55 天

    [LV.5]常住居民I

    发表于 2018-4-8 15:02:20 | 显示全部楼层
    本帖最后由 nidetou 于 2018-4-8 15:06 编辑
    ! u! R$ w; ^% B& w0 `# {6 P7 C  e3 `& R
    点customiseMdxFromList.exe,说window版本不兼容。我是win7, python2.7也安装了。
  • TA的每日心情
    奋斗
    2022-6-1 19:02
  • 签到天数: 377 天

    [LV.9]以坛为家II

    发表于 2018-4-8 16:38:57 | 显示全部楼层
    本帖最后由 须佐之男 于 2018-4-8 16:48 编辑
    $ M0 Z( E7 ~* H; c( ?. [. _
    nidetou 发表于 2018-4-8 15:02
    7 v# r7 t0 Q# |5 ~点customiseMdxFromList.exe,说window版本不兼容。我是win7, python2.7也安装了。 ...
    . Y5 {  H8 R/ P1 V

    + h# \5 C+ ?) j  f; e2 ?2 m  |# I, r虽然我不懂py,但是看楼主的说明,不需要安装py,是已经封装好的。- Q3 c  q0 m, \1 L
    而且这个exe应该是从词典源文件取出特定的COCA5000 的单词表,你需要取其他词才用py程序的

    点评

    我只在 Windwos 10 上测试通过了,其他 Windows 版本还没有测试。  发表于 2018-4-8 17:26
  • TA的每日心情
    奋斗
    2019-10-11 13:52
  • 签到天数: 142 天

    [LV.7]常住居民III

     楼主| 发表于 2018-4-8 17:28:11 | 显示全部楼层
    nidetou 发表于 2018-4-8 15:022 D4 F( C3 X1 k. r2 B* E
    点customiseMdxFromList.exe,说window版本不兼容。我是win7, python2.7也安装了。 ...

    / u' D; c1 |) a+ H我在 Windows 7 上没有测试。
    , O  L8 d- {$ \6 F% g如果你安装了 Python 3 的话,可以右键 customiseMdxFromList.py 选择在 Python 3 IDLE 中打开 这个 .py 文件,然后弹出的 IDLE 窗口中选择 上方标签的 Run -> Run Module 运行。

    点评

    我的win7 64位的,能打开那个exe文件,应该是能正常工作的  发表于 2018-4-8 17:29
  • TA的每日心情
    奋斗
    2021-4-4 16:28
  • 签到天数: 353 天

    [LV.8]以坛为家I

    发表于 2018-4-9 08:04:23 来自手机 | 显示全部楼层
    应该和source editor 提取词表单词一样的思路

    评分

    1

    查看全部评分

  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-17 12:08:00 | 显示全部楼层
    神器啊,对于不会编程又想自己制作词典得人太有帮助了!
  • TA的每日心情
    奋斗
    2019-10-11 13:52
  • 签到天数: 142 天

    [LV.7]常住居民III

     楼主| 发表于 2018-6-17 15:23:39 | 显示全部楼层
    Bouroz 发表于 2018-6-17 12:08
    % x5 Z; ?3 I4 ]: H; ~神器啊,对于不会编程又想自己制作词典得人太有帮助了!
    ( q% @+ P2 l+ Q$ g! a* B% ~
    这个版本效率过低了,我有空把下一个版本发一下,速度会非常非常快。! h# ]8 A; y7 @/ M1 H
    可以用 8 楼说的那个程序,那个很快很快。
  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-17 15:46:38 | 显示全部楼层
    Snowdax 发表于 2018-6-17 15:23
    ( b' U* a1 \. l# u! Y& Z- `这个版本效率过低了,我有空把下一个版本发一下,速度会非常非常快。2 X# Y& [! P4 _8 f0 O" ~8 _& [
    可以用 8 楼说的那个程序,那个很快 ...
    2 ~) v! c! `2 b: r8 A# C4 |$ g
    多谢大神!借地求教一下,置顶帖那个Mdict Editor Tool v2.0.35看起来很好,可好多人包括我在内都无法执行操作,您知道是怎么回事吗?
  • TA的每日心情
    奋斗
    2019-10-11 13:52
  • 签到天数: 142 天

    [LV.7]常住居民III

     楼主| 发表于 2018-6-17 16:45:56 | 显示全部楼层
    Bouroz 发表于 2018-6-17 15:46
    4 Z8 `/ ~4 T' r, W! m% ?, s多谢大神!借地求教一下,置顶帖那个Mdict Editor Tool v2.0.35看起来很好,可好多人包括我在内都无法执 ...

    * N) D, V4 C$ g& M4 u0 ]7 G这个应用没用过,刚刚下载下来用不了。要替换的话自己研究一下怎么写正则表达式比较好,然后多备份,多试验吧,大神谈不上。
  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-17 21:24:52 | 显示全部楼层
    Snowdax 发表于 2018-6-17 16:454 r/ n) i- \# D" i7 W
    这个应用没用过,刚刚下载下来用不了。要替换的话自己研究一下怎么写正则表达式比较好,然后多备份,多试 ...

    & \: T" w; c% c我现在在组合一个手机上用的词频词典,全靠emeditor的替换和dict source editor合并了,全是体力活,以后有时间得好好学习正则和Python了
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-4-24 21:03 , Processed in 0.061526 second(s), 10 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表