掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 20360|回复: 269

[工具] 【2016.08.11 优化】Mdict词典DIY工具系列之一:词条内容提取利器,极速提取

  [复制链接]

该用户从未签到

发表于 2016-7-10 16:12:09 | 显示全部楼层 |阅读模式
本帖最后由 qiuhao1112 于 2016-8-11 20:15 编辑
: f. Q& ]1 T; G9 ?, p  Y1 a9 P+ F# y
6 j- c. y) C7 l4 [Mdict词典DIY工具系列之一:词条内容提取利器,极速提取
$ ~0 R, A) W: |! Y4 V; R* r) c0 m1 ^! U# ~
==============: m6 k2 F9 Y. C4 d! k- [( Y
2016.08.11 优化:
; t! \9 H: O; K" i5 }  A) _
修改了程序,若原文本有多个相同的词条,则不再覆盖,保留对应文本。
* d/ {  T+ |2 e. D4 j
0 ?, T& g1 [5 d) G- L改为百度云分享,便于更新。
% Y8 C7 z  N9 Y7 S) F, Q
) k) ~( v( z* \, W==============  N  N) _# C/ k& N  Q$ K
8 ~) k2 E8 s* w) u2 L( [6 f/ x1 u
$ q& M8 Q' r5 I, v1 i: a9 R8 {5 T2 l

, [8 e* z/ e% `* u2 d8 ~Mdict词典DIY工具系列:: H! H% p5 _% [7 J0 q

% k* v# K; o" K* `5 ?" hMdict词典DIY工具系列之一:词条内容提取利器 3 L1 X  e( |0 Z6 n! A9 l
Mdict词典DIY工具系列之二:词条合并工具,二合一
$ l7 ]% `) R, [8 V  DMdict词典DIY工具系列之三:MDX文本内容提取解析工具
' e0 V) T, B/ r3 pMdict词典DIY工具系列之四:词条合并工具,N合一% n4 R) Q% c% h- v! v$ l
Mdict词典DIY工具系列之五:MDX文本内容 & 词条 去重工具 : y! S" L5 \) @# F+ v9 O- W

/ v8 V: g& I4 ?& M3 G

4 I# h' t+ q2 {8 r* n2 c+ o# V4 s2 Y% I! y0 ~. w$ H2 ]
之前的程序报有病毒,已重新打包上传。
7 L) Q: r8 s1 ?) ?5 X
8 C2 {& }; \/ h! G/ g( ]6 Q" }
" {1 T( S% W% y" L4 ]% v9 U; {  q0 Z2 E0 H

2 Q1 D) j/ P2 u8 \. |! \: v! m, O6 n3 |Extractor from MDX by Wordlist v 2.0:1 s+ p( S7 o* F, F
; o/ N( |* R8 N# ~

0 T' R: B4 ^8 C0 d; D
& }7 s" X' w' B. y0 p6 L        使用方法:
  |6 |& E! p2 V8 x1 A3 ~" ]  [; m$ Y- \, w  }+ Z" K
        ' M4 M# E0 K* |/ q8 w8 E, c: C# M
        提取词典内容的源码文件应为Mdict词典格式的文本(.txt)文件。
$ C. O" V4 h, m4 @7 ~6 b) R* i! J) H0 m% o, ?
        该程序无图形化界面,为方便使用,请把文本文件名改为阿拉伯数字或字母,方便文件名输入。
9 B/ t8 K: P+ i* S4 E/ b3 s
+ L5 R; k( P! R        Input wordlist file name:  输入单词列表名,无需添加 .txt后缀;
3 R7 V& U7 {" Q* s# S+ ]        Input source file name: 输入MDX格式的源码文件名,无需添加 .txt后缀;# m7 d8 @! ?& u* P3 Q: v4 S
        1 FOR include, 0 FOR exclude:  选择1 include 模式,选择0 exclude 模式。
6 I1 j* i0 V/ V% G
# [7 H* _/ Z0 E6 u' O                                模式1: 提取包括该单词列表的内容
* n% v7 a0 c! a0 ^' \; @. Q                                模式2: 提取非包括该单词列表的内容/ {: {9 A4 N% F7 Z4 l+ h
  B( U/ ]9 \0 p% P+ n# Z
===============================* M; d: F2 O) U5 p$ s
% b8 C/ U1 ~) O, j0 E

, B* r& F; E: g4 y: {4 g链接:http://pan.baidu.com/s/1bpbYkwB 密码:55po% w0 [; t$ z( A+ U- g" g! ]  h

评分

1

查看全部评分

本帖被以下淘专辑推荐:

  • · 工具|主题: 8, 订阅: 5
  • TA的每日心情
    奋斗
    2022-11-19 13:01
  • 签到天数: 21 天

    [LV.4]偶尔看看III

    发表于 2016-11-28 12:14:05 | 显示全部楼层
    谢谢楼主分享,下载看下

    该用户从未签到

     楼主| 发表于 2016-7-12 11:02:38 来自手机 | 显示全部楼层
    Snowdax 发表于 2016-7-12 08:58
    " Y1 p/ i" P" X& ^9 ], L其实是可以的,用custom 添加reference list即可,但该软件好像没有开源,不知道是怎么实现的

    + c  o' T, N2 ]0 T8 y2 q' T应该是我以前没发现这个功能吧   而且sunsmile大的那个速度很快  应该是用Java或者C写的  这两个我都我不会    我的脚本思路也有问题
  • TA的每日心情
    奋斗
    2019-10-11 13:52
  • 签到天数: 142 天

    [LV.7]常住居民III

    发表于 2016-7-12 12:45:20 | 显示全部楼层
    qiuhao1112 发表于 2016-7-12 11:02
    ( @, r. F2 u9 z- ~% |应该是我以前没发现这个功能吧   而且sunsmile大的那个速度很快  应该是用Java或者C写的  这两个我都我不 ...

    + h: _0 X5 N0 _; A. r. V因为我之前做词典用过这个功能,所有隐约有一些印象0 X+ i& A2 f# K/ V; ]' _( _  U% w# c
    python代码比较简洁,但运行速度确实不快6 ]) [1 P% h, p2 ~. ?6 T0 g
    (其实我也是门外汉的

    该用户从未签到

     楼主| 发表于 2016-7-10 16:26:03 | 显示全部楼层
    本帖最后由 qiuhao1112 于 2016-8-7 15:09 编辑 % e3 i8 h$ W  k. N
    9 }& a. F; H/ g; Z$ H0 {, E
    打开大文件无压力。。

    该用户从未签到

    发表于 2016-7-10 16:33:17 | 显示全部楼层
    巨巨请教一下,读取mdx用的什么python库啊?
    6 T) r% M4 M( u. [8 F还有写mdx只有MDX Builder,有没有支持命令行的工具啊?

    该用户从未签到

    发表于 2016-7-10 16:51:40 | 显示全部楼层
    路过帮顶辛苦了

    该用户从未签到

    发表于 2016-7-10 18:51:50 | 显示全部楼层
    这不是很多人需要的工具吗?!

    该用户从未签到

    发表于 2016-7-10 21:47:30 来自手机 | 显示全部楼层
    真是雪中送炭呀
  • TA的每日心情
    奋斗
    2019-10-11 13:52
  • 签到天数: 142 天

    [LV.7]常住居民III

    发表于 2016-7-10 22:53:15 | 显示全部楼层
    咦 我记得Source Editor有类似功能
  • TA的每日心情
    开心
    2018-1-27 00:16
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2016-7-11 08:01:41 来自手机 | 显示全部楼层
    太好了!可以自己折腾词库啦!
  • TA的每日心情

    2019-2-16 21:57
  • 签到天数: 9 天

    [LV.3]偶尔看看II

    发表于 2016-7-11 08:43:48 来自手机 | 显示全部楼层
    楼主,我是linux用户。求原始Python脚本

    该用户从未签到

     楼主| 发表于 2016-7-11 08:49:00 | 显示全部楼层
    本帖最后由 qiuhao1112 于 2016-7-11 16:44 编辑 7 B3 `: @5 i5 b% ~) z+ I/ s
    lmjiao 发表于 2016-7-11 08:43/ S- t1 F  t. H+ h( ~+ E; L
    楼主,我是linux用户。求原始Python脚本
    0 _1 l# [1 ?5 S0 M0 _6 h8 a0 S

    $ P8 @, g: ?0 O; z5 e脚本还需要修复

    点评

    感觉可以用的dict先存一下数据,然后再提取。还有Python的thread在gil的条件下是针对IO阻塞的情况用的,这里好像没有必要。。。  发表于 2016-7-11 14:45
  • TA的每日心情
    无聊
    2020-11-6 22:08
  • 签到天数: 26 天

    [LV.4]偶尔看看III

    发表于 2016-7-11 10:08:34 | 显示全部楼层
    perfect exe~

    该用户从未签到

    发表于 2016-7-11 12:49:56 | 显示全部楼层
    fnaviwwo1 发表于 2016-7-10 16:333 _0 \# G8 C) b: h" m
    巨巨请教一下,读取mdx用的什么python库啊?
    ' `* J' _& o+ {& F$ L8 |还有写mdx只有MDX Builder,有没有支持命令行的工具啊?
    , w* J) T  k6 `1 g8 d3 P4 X7 f
    如何用 readmdict.py 提取 mdx/mdd 中的数据( c/ y$ R2 |6 p* [, f
    http://jingyan.baidu.com/article/95c9d20d47583bec4e756132.html

    点评

    I really appreciate it!  发表于 2016-7-11 14:22
  • TA的每日心情
    开心
    2018-4-7 21:39
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2016-7-11 16:22:53 | 显示全部楼层
    谢谢楼主无私分享
    # X9 l& }5 P* }( g: Q: P开心!

    该用户从未签到

     楼主| 发表于 2016-7-11 17:05:01 | 显示全部楼层
    Snowdax 发表于 2016-7-10 22:53
    8 p- X& B, V1 z' ~; ^, b咦 我记得Source Editor有类似功能

    $ E8 R/ D/ L$ k. x" D% gSource Editor  确实没有这个功能
  • TA的每日心情

    2019-2-16 21:57
  • 签到天数: 9 天

    [LV.3]偶尔看看II

    发表于 2016-7-11 18:07:34 来自手机 | 显示全部楼层
    qiuhao1112 发表于 2016-7-11 08:49" p9 ]* N+ t% J5 d& f
    脚本还需要修复
    - |# C4 I) `" l8 ?6 u9 g
    非常感谢!热切期待!
  • TA的每日心情

    2019-2-16 21:57
  • 签到天数: 9 天

    [LV.3]偶尔看看II

    发表于 2016-7-11 18:09:29 来自手机 | 显示全部楼层
    vbnet 发表于 2016-7-11 12:49) x$ D) n# o  Q5 N( i. a+ z
    如何用 readmdict.py 提取 mdx/mdd 中的数据) P! X+ k) b% ]8 p
    http://jingyan.baidu.com/article/95c9d20d47583bec4e7561 ...

    9 f5 p2 s% J( u6 `楼主的可以根据单词表提取所需内容。你给的链接中只能提取全部内容。+ V2 C/ B8 u/ A5 g( e, P

    - ~) g: r+ ]# Y3 F. C' R对于部分人来说,楼主的按需提取功能还是很方便的。

    点评

    vb大所提供的链接只是在回应fnaviwwo1在3楼所提问的问题,并非要跟LZ的功能做比较  发表于 2016-7-12 10:07
  • TA的每日心情
    开心
    2019-6-27 08:03
  • 签到天数: 8 天

    [LV.3]偶尔看看II

    发表于 2016-7-11 18:50:36 | 显示全部楼层
    windows 10 不能用
  • TA的每日心情
    奋斗
    2019-10-11 13:52
  • 签到天数: 142 天

    [LV.7]常住居民III

    发表于 2016-7-12 08:58:15 | 显示全部楼层
    qiuhao1112 发表于 2016-7-11 17:05
    ( a% ^, m. r& f* a' sSource Editor  确实没有这个功能
    6 B. J( T% O8 ]4 ]' k
    其实是可以的,用custom 添加reference list即可,但该软件好像没有开源,不知道是怎么实现的" J6 C/ h* I$ T0 {9 V2 h) Z: i! N

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    开心
    2018-4-7 21:39
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2016-7-12 10:21:44 | 显示全部楼层
    请问楼主没操作指南之类的,对我这样的傻鸟的挑战可不是一般小啊' x! }. Z: [& ], z3 f
    谢谢
  • TA的每日心情
    开心
    2018-4-7 21:39
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2016-7-12 10:24:43 | 显示全部楼层
    按Readme去操作了,但好像没得到什么东东。
  • TA的每日心情
    开心
    2018-4-7 21:39
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2016-7-12 11:29:20 | 显示全部楼层
    menglongma 发表于 2016-7-11 18:50
    8 W* c( a9 |. Z5 q, j' ~$ b5 K; Wwindows 10 不能用

    0 c2 O- @* J2 W) \# K" F; L& r这就难怪了
    ( d4 }$ l% i7 c2 C4 W% a0 G. G谢谢分享
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2025-6-27 23:04 , Processed in 0.025817 second(s), 28 queries .

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表