掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 793|回复: 19

[工具] 从mdx提取指定的词条,并打包成mdx

[复制链接]
  • TA的每日心情
    开心
    2019-1-21 17:00
  • 签到天数: 376 天

    [LV.9]以坛为家II

    发表于 2019-8-11 19:40:53 | 显示全部楼层 |阅读模式
    本帖最后由 simonfire 于 2019-8-14 11:25 编辑 ; R) q: U+ V# v
    8 }' O6 s8 \  h
    用python写的一个小工具,解析和打包都是用的zzzz_sleep的 mdict-utils。! b7 R, R# b8 u$ Z
    用法:把需要提取的单词制成一行一个的格式,命名为input.txt(文件编码有要求,必须是UTF-8(无BOM,也叫无签名),要提取的mdx文件命名为input.mdx,和解压的exe文件放在同一目录,双击运行exe文件就行了。正常运行的话,会生成名为output的txt和mdx文件。5 v5 R" \$ z/ S; l0 ?; t0 f- F
    目前只进行了简单的测试,有使用问题后续再修复吧
    - t# U6 z7 a- l加了程序运行时打印正在提取的单词,你可以知道个大概的进度0 C: l* w$ ~: U9 Z8 {3 y( ~
    然后现在程序是单线程运行,所以速度很慢(目测1秒才2-3个单词),最好不要弄太多词条去提取,后续可能会增加多线程,看情况吧
    . z$ i& o' F, i5 O下载地址,度盘:
    . `, u* `( e6 J8 m, p  I% ^链接:https://pan.baidu.com/s/11nIBxwL5-CYZhFfiK9njyw 提取码:0jfa 复制这段内容后打开百度网盘手机App,操作更方便哦6 Y; _# B7 W' n9 c3 C* `

    ; u# q" \" b/ D9 p  b  L( ups:要源码的朋友,我这代码总共10多行,没有一点学习价值,想学习的去看看 mdict-utils的源码吧。
    ! e1 S! w, s2 u( D- Y3 ^ps2:试着加多线程提升速度,但是发现并没有用,速度反而不如原来,不知道是我姿势不对还是怎么回事,所以这个速度问题应该会无限期搁置吧,哈哈。

    评分

    5

    查看全部评分

    本帖被以下淘专辑推荐:

  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2019-8-11 20:18:51 | 显示全部楼层
    simonfire 兄:
    , v8 g; w6 U$ k0 B+ a能想出如此的懒人包
    ' \8 u: U9 i% m1 ^0 A4 |對於幼幼班的真是一大福利3 X. ]* ^- b9 W1 |2 Q$ Q
    Thanks a lot
    3 b3 T; X! m  N# [
  • TA的每日心情
    开心
    2020-1-5 08:04
  • 签到天数: 50 天

    [LV.5]常住居民I

    发表于 2019-8-11 20:48:37 | 显示全部楼层
    按要求试了一下,没反应啊
  • TA的每日心情

    2019-2-16 21:57
  • 签到天数: 9 天

    [LV.3]偶尔看看II

    发表于 2019-8-11 21:11:52 | 显示全部楼层
    可以分享一下源代码吗?
  • TA的每日心情
    开心
    2019-1-21 17:00
  • 签到天数: 376 天

    [LV.9]以坛为家II

     楼主| 发表于 2019-8-11 23:31:26 | 显示全部楼层
    999阿彌陀佛 发表于 2019-8-11 20:48
    ! _, ^- F9 M( y/ }' k按要求试了一下,没反应啊

    ( s- J( q  M5 N# I你不要弄太多单词进去,然后保存为txt时编码选utf-8无BOM(也叫utf-8无签名),再试试
  • TA的每日心情
    奋斗
    昨天 00:03
  • 签到天数: 256 天

    [LV.8]以坛为家I

    发表于 2019-8-12 08:16:56 | 显示全部楼层
    方法很特别!
  • TA的每日心情
    奋斗
    2019-10-13 07:34
  • 签到天数: 209 天

    [LV.7]常住居民III

    发表于 2019-8-12 09:06:31 | 显示全部楼层
    请问:之前Mdict Editor Tool等工具提取后的排序是按照字母顺序,并非input的顺序,不知道我们这个output.txt的顺序是?
  • TA的每日心情
    开心
    2019-1-21 17:00
  • 签到天数: 376 天

    [LV.9]以坛为家II

     楼主| 发表于 2019-8-12 09:36:24 来自手机 | 显示全部楼层
    VimVim 发表于 2019-8-12 09:06) q3 S3 F6 V8 n! p: c( l& Z: J
    请问:之前Mdict Editor Tool等工具提取后的排序是按照字母顺序,并非input的顺序,不知道我们这个output.t ...

    1 V3 n4 A+ `- f( y/ s2 K! k- {输出的txt,是按照你的input.txt的先后,至于打包mdx后有没有再排序,因为用的是别人的写好的工具,我也没有研究

    点评

    太好了,正是需要这种排序!txt已能满足需求。  发表于 2019-8-12 14:56
  • TA的每日心情
    慵懒
    昨天 11:29
  • 签到天数: 208 天

    [LV.7]常住居民III

    发表于 2019-8-12 11:08:20 | 显示全部楼层
    老哥,源码能发出来学习一下吗?
  • TA的每日心情
    慵懒
    昨天 21:29
  • 签到天数: 143 天

    [LV.7]常住居民III

    发表于 2019-8-12 15:49:51 | 显示全部楼层
    simonfire 发表于 2019-8-12 09:36* K! {5 p7 W" D: U
    输出的txt,是按照你的input.txt的先后,至于打包mdx后有没有再排序,因为用的是别人的写好的工具,我也 ...

      w  ]' C4 I5 l. T( d( ]. a打包成 mdx 后,都是重新排序的,与原有 txt 顺序无关。
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

    发表于 2019-8-12 21:14:14 | 显示全部楼层
    本帖最后由 jonah_w 于 2019-8-12 21:15 编辑
    : i2 \* T) y* p/ ?2 W- i' d3 k$ W9 @2 ~4 G( K0 P  ?; ^
    如果要保证按input.txt里的词头先后的话,速度肯定会慢,不考虑前后或者按字母顺序的话(用哈希),速度应该会非常快(几万个词头,也就是几秒,根据以前经验猜的)。可以考虑下。
  • TA的每日心情
    奋斗
    2019-10-11 13:52
  • 签到天数: 142 天

    [LV.7]常住居民III

    发表于 2019-8-12 22:39:30 | 显示全部楼层
    开源一下,这样我可以看看为什么速度这么慢
  • TA的每日心情
    开心
    2020-1-5 08:04
  • 签到天数: 50 天

    [LV.5]常住居民I

    发表于 2019-8-13 07:50:36 | 显示全部楼层
    謝謝,單詞表保存為 編碼ANSI 就可以了。之前是utf-8,沒反應。
  • TA的每日心情
    开心
    2019-1-21 17:00
  • 签到天数: 376 天

    [LV.9]以坛为家II

     楼主| 发表于 2019-8-13 10:39:34 来自手机 | 显示全部楼层
    999阿彌陀佛 发表于 2019-8-13 07:50
    1 v9 c/ v- F3 ?( r7 o  v: [$ E7 F謝謝,單詞表保存為 編碼ANSI 就可以了。之前是utf-8,沒反應。
      A6 P/ P7 j3 V" ~8 P9 b0 c/ [
    你肯定用的是记事本了,弄这个你最好使用像notepad++或者emeditor这种编辑器。) |( h2 l/ M& n2 r$ q
    不然你保存为ansi,英文没问题,中文就GG了,不过你要是不太懂,就凑合用吧
  • TA的每日心情
    开心
    2020-1-5 08:04
  • 签到天数: 50 天

    [LV.5]常住居民I

    发表于 2019-8-13 18:30:30 | 显示全部楼层
    謝謝。4 l3 j, m; M1 O6 ?* d* Z
    只是速度現在很慢,能不能改進一下?現在的詞典詞條都很多的。
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2019-8-14 03:07:32 | 显示全部楼层
    本帖最后由 喬治兄 于 2019-8-14 03:12 编辑 3 B6 A9 ^% g, Z) O; M& X7 {  E5 u
    simonfire 发表于 2019-8-12 09:36
    & H& Y$ l$ P, A7 W% ^输出的txt,是按照你的input.txt的先后,至于打包mdx后有没有再排序,因为用的是别人的写好的工具,我也 ...
    - U2 j) e6 s0 X8 o( D- V

    ( ^* i8 \$ N  d4 V+ V7 r% m哈哈, 還是@VimVim 兄問到了重點# x# j" s# ?8 x4 J( \
    小弟也正需输出的txt 按 input.txt 的先后8 Z! h; q2 B! P  ~
    讚一個: q& @1 |1 `; ]
    本想學此招 7 R* W) N! D5 w( {3 ^
    [教程] 用Emeditor提取子字典
      Z. V- C- l2 z& i/ Thttps://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=34351#lastpost) L) @$ v2 s5 I- B2 r) D9 F* g
  • TA的每日心情
    奋斗
    2019-11-15 20:13
  • 签到天数: 49 天

    [LV.5]常住居民I

    发表于 2019-9-25 03:19:24 | 显示全部楼层
    可以补档一下吗,谢谢楼主。。
  • TA的每日心情
    开心
    2019-1-21 17:00
  • 签到天数: 376 天

    [LV.9]以坛为家II

     楼主| 发表于 2019-9-25 11:32:31 来自手机 | 显示全部楼层
    亘佑 发表于 2019-9-25 03:196 H: ^1 X4 ^9 |% T2 u2 o8 C7 d
    可以补档一下吗,谢谢楼主。。

    9 {: u( I8 c6 K用另外一个吧,这个速度没那个快
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    顶部qrcode底部
    关注公众号送论坛充值码
    关注微信公众平台
    关注微信公众号 pdawiki,获取邀请码,看文抢积分,抽奖得浮云! Follow our Wechat official account "pdawiki", get invitation codes, and play the lottery to earn points (积分)!

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2020-1-30 05:19 , Processed in 0.146318 second(s), 10 queries , MemCache On.

    Powered by Discuz! X3.4

    © 2001-2017 Comsenz Inc.

    快速回复 返回顶部 返回列表