掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 27223|回复: 269

[工具] 【2016.08.11 优化】Mdict词典DIY工具系列之一:词条内容提取利器,极速提取

  [复制链接]

该用户从未签到

发表于 2016-7-10 16:12:09 | 显示全部楼层 |阅读模式
本帖最后由 qiuhao1112 于 2016-8-11 20:15 编辑
3 P0 Q/ \$ T9 z+ Q( `. F' s  f" l8 m0 r% q: n
Mdict词典DIY工具系列之一:词条内容提取利器,极速提取! z. Z6 D0 H6 A7 V
7 G8 X  ^* a/ N; r  {6 t7 g
==============
% U7 M/ ~. T: U9 [3 |$ O2016.08.11 优化:
4 p& V4 [6 R+ M1 v
修改了程序,若原文本有多个相同的词条,则不再覆盖,保留对应文本。0 [/ J6 Q4 s; Q+ _, ^& _; n

; I1 o, O- D6 f5 A; K3 D2 f0 w改为百度云分享,便于更新。
4 h* v/ B* M5 ?! j7 y8 u! ?, [+ T" q3 z' i6 t& z
==============& ?" q8 k4 ~! ]3 Y! L) Y) ^( I

5 T8 B" N! Q& b; k  ?
/ s+ X) m0 f/ c7 T+ e4 k9 H8 X
2 ?& c  ]* _  V+ ?3 XMdict词典DIY工具系列:
. E& F# |* |4 a9 C" B) \- m/ j. ~" E
Mdict词典DIY工具系列之一:词条内容提取利器 % N, M$ t: i% e0 ~6 ^+ X! a
Mdict词典DIY工具系列之二:词条合并工具,二合一
7 o$ M3 R. k' |" _  vMdict词典DIY工具系列之三:MDX文本内容提取解析工具
- d3 F& @8 Q& L5 {3 n, tMdict词典DIY工具系列之四:词条合并工具,N合一
; e6 J1 D4 o3 e) e& m5 p8 H, iMdict词典DIY工具系列之五:MDX文本内容 & 词条 去重工具
2 U0 G3 q6 a! S$ ]- J( j  b* n8 k1 C" R; c- i- S6 p6 ^( U

+ G  ^4 J/ t' B0 [) f/ t8 I, V. k
. e  ]" G! _! o/ [& I之前的程序报有病毒,已重新打包上传。
5 I! ?/ N+ F  V% k' Q: k  {2 G) B
# u) w4 x) G  u. W* D) J
+ x. x, d/ w4 _
$ @* a* d6 A) K2 B  s% i. i
Extractor from MDX by Wordlist v 2.0:& N1 z5 L# [8 k/ D3 l

/ G1 r; N/ z- {' l& s' c' o8 P% d3 V8 E0 _

+ S8 G9 ^+ U+ ~9 H        使用方法:8 n3 T" y- Z. o+ k+ f0 R; y1 Z3 ^

' ]9 V& c$ |0 m/ r% x+ N3 r       
2 Y  \# v$ ^' P/ c* |- w1 c        提取词典内容的源码文件应为Mdict词典格式的文本(.txt)文件。
7 Z2 O/ x) S- T% x* R1 k! _4 X- ^. G+ U. ^6 y9 Q2 h6 v; Y6 g- P
        该程序无图形化界面,为方便使用,请把文本文件名改为阿拉伯数字或字母,方便文件名输入。
! E1 w( M  t0 J& N. q; I0 `5 }
        Input wordlist file name:  输入单词列表名,无需添加 .txt后缀;. c2 b3 B  g4 G) j7 x$ j
        Input source file name: 输入MDX格式的源码文件名,无需添加 .txt后缀;0 i- n1 q  F4 @  ^, Z
        1 FOR include, 0 FOR exclude:  选择1 include 模式,选择0 exclude 模式。. d* A4 j9 y' e& c7 J
8 J0 A' B) D* {& t( x( c
                                模式1: 提取包括该单词列表的内容
0 j& Q; K4 |- k7 y9 z                                模式2: 提取非包括该单词列表的内容- ~3 M/ i5 H8 h( O6 H

5 V% B% M. Q) ~7 ^/ y===============================
% |! Q0 q( c: T+ a' [  o. `* g0 x5 K% n2 ?9 F% W% c6 D
# H* G$ a3 d. w. B
链接:http://pan.baidu.com/s/1bpbYkwB 密码:55po
: K. U2 `) I! [1 l

评分

1

查看全部评分

本帖被以下淘专辑推荐:

  • · 工具|主题: 8, 订阅: 5
  • TA的每日心情
    奋斗
    2022-11-19 13:01
  • 签到天数: 21 天

    [LV.4]偶尔看看III

    发表于 2016-11-28 12:14:05 | 显示全部楼层
    谢谢楼主分享,下载看下

    该用户从未签到

     楼主| 发表于 2016-7-12 11:02:38 来自手机 | 显示全部楼层
    Snowdax 发表于 2016-7-12 08:58. o- U  y. Y6 O# u
    其实是可以的,用custom 添加reference list即可,但该软件好像没有开源,不知道是怎么实现的
    & @4 Y+ ^5 \$ E5 v7 `8 W$ L
    应该是我以前没发现这个功能吧   而且sunsmile大的那个速度很快  应该是用Java或者C写的  这两个我都我不会    我的脚本思路也有问题
  • TA的每日心情
    奋斗
    2019-10-11 13:52
  • 签到天数: 142 天

    [LV.7]常住居民III

    发表于 2016-7-12 12:45:20 | 显示全部楼层
    qiuhao1112 发表于 2016-7-12 11:02
    & G9 m! y) `- ^2 ?- J% F4 [应该是我以前没发现这个功能吧   而且sunsmile大的那个速度很快  应该是用Java或者C写的  这两个我都我不 ...
    - _+ d8 c9 m) C6 I  `: w
    因为我之前做词典用过这个功能,所有隐约有一些印象3 W; d: z+ k& o  ?5 i* D
    python代码比较简洁,但运行速度确实不快
    : j- |" i9 |0 E(其实我也是门外汉的

    该用户从未签到

     楼主| 发表于 2016-7-10 16:26:03 | 显示全部楼层
    本帖最后由 qiuhao1112 于 2016-8-7 15:09 编辑
    7 q) S. o+ }6 V# b8 Z" W' @$ \  T! q) _5 n3 G" }  v5 v8 Q
    打开大文件无压力。。

    该用户从未签到

    发表于 2016-7-10 16:33:17 | 显示全部楼层
    巨巨请教一下,读取mdx用的什么python库啊?( ?6 [8 ^+ C' R- i
    还有写mdx只有MDX Builder,有没有支持命令行的工具啊?

    该用户从未签到

    发表于 2016-7-10 16:51:40 | 显示全部楼层
    路过帮顶辛苦了

    该用户从未签到

    发表于 2016-7-10 18:51:50 | 显示全部楼层
    这不是很多人需要的工具吗?!

    该用户从未签到

    发表于 2016-7-10 21:47:30 来自手机 | 显示全部楼层
    真是雪中送炭呀
  • TA的每日心情
    奋斗
    2019-10-11 13:52
  • 签到天数: 142 天

    [LV.7]常住居民III

    发表于 2016-7-10 22:53:15 | 显示全部楼层
    咦 我记得Source Editor有类似功能
  • TA的每日心情
    开心
    2018-1-27 00:16
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2016-7-11 08:01:41 来自手机 | 显示全部楼层
    太好了!可以自己折腾词库啦!
  • TA的每日心情

    2019-2-16 21:57
  • 签到天数: 9 天

    [LV.3]偶尔看看II

    发表于 2016-7-11 08:43:48 来自手机 | 显示全部楼层
    楼主,我是linux用户。求原始Python脚本

    该用户从未签到

     楼主| 发表于 2016-7-11 08:49:00 | 显示全部楼层
    本帖最后由 qiuhao1112 于 2016-7-11 16:44 编辑
    3 A& z" c$ H% N
    lmjiao 发表于 2016-7-11 08:43; k- ]/ [8 T* Y% h- y
    楼主,我是linux用户。求原始Python脚本

    6 r' K/ O  t: x7 @, i! S& K  p) S" \' p  ~) B1 |0 t
    脚本还需要修复

    点评

    感觉可以用的dict先存一下数据,然后再提取。还有Python的thread在gil的条件下是针对IO阻塞的情况用的,这里好像没有必要。。。  发表于 2016-7-11 14:45
  • TA的每日心情
    无聊
    2020-11-6 22:08
  • 签到天数: 26 天

    [LV.4]偶尔看看III

    发表于 2016-7-11 10:08:34 | 显示全部楼层
    perfect exe~

    该用户从未签到

    发表于 2016-7-11 12:49:56 | 显示全部楼层
    fnaviwwo1 发表于 2016-7-10 16:33, g! f0 o4 w( b5 i0 [9 h  i% g
    巨巨请教一下,读取mdx用的什么python库啊?5 {* |" C8 J" k# @& O% Y6 s3 w3 q
    还有写mdx只有MDX Builder,有没有支持命令行的工具啊?
    / q2 B) q9 j  j( O" N: k/ }
    如何用 readmdict.py 提取 mdx/mdd 中的数据
    ; c' ~+ L( _9 _5 `9 O( ]5 hhttp://jingyan.baidu.com/article/95c9d20d47583bec4e756132.html

    点评

    I really appreciate it!  发表于 2016-7-11 14:22
  • TA的每日心情
    开心
    2018-4-7 21:39
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2016-7-11 16:22:53 | 显示全部楼层
    谢谢楼主无私分享
    ( s6 G* e  Y# `2 J3 J: I开心!

    该用户从未签到

     楼主| 发表于 2016-7-11 17:05:01 | 显示全部楼层
    Snowdax 发表于 2016-7-10 22:53
    , k: f  S9 d9 Q3 o" O0 N1 k" a咦 我记得Source Editor有类似功能
    . k. T! a$ W6 p$ s
    Source Editor  确实没有这个功能
  • TA的每日心情

    2019-2-16 21:57
  • 签到天数: 9 天

    [LV.3]偶尔看看II

    发表于 2016-7-11 18:07:34 来自手机 | 显示全部楼层
    qiuhao1112 发表于 2016-7-11 08:49
    ; m6 Y$ O0 T1 C  L. d脚本还需要修复
      M- ?# w, c. f) S
    非常感谢!热切期待!
  • TA的每日心情

    2019-2-16 21:57
  • 签到天数: 9 天

    [LV.3]偶尔看看II

    发表于 2016-7-11 18:09:29 来自手机 | 显示全部楼层
    vbnet 发表于 2016-7-11 12:49: p, D; j: a$ E
    如何用 readmdict.py 提取 mdx/mdd 中的数据- ^6 {1 z8 u9 i" v8 M: S% z0 {! u
    http://jingyan.baidu.com/article/95c9d20d47583bec4e7561 ...
    , I) N" r# M. ?& H1 q7 p9 M
    楼主的可以根据单词表提取所需内容。你给的链接中只能提取全部内容。
    4 \  F8 Y+ h1 G5 t" E0 ?) z
    9 ~) J& f/ v, _; `; p6 q8 v对于部分人来说,楼主的按需提取功能还是很方便的。

    点评

    vb大所提供的链接只是在回应fnaviwwo1在3楼所提问的问题,并非要跟LZ的功能做比较  发表于 2016-7-12 10:07
  • TA的每日心情
    开心
    2019-6-27 08:03
  • 签到天数: 8 天

    [LV.3]偶尔看看II

    发表于 2016-7-11 18:50:36 | 显示全部楼层
    windows 10 不能用
  • TA的每日心情
    奋斗
    2019-10-11 13:52
  • 签到天数: 142 天

    [LV.7]常住居民III

    发表于 2016-7-12 08:58:15 | 显示全部楼层
    qiuhao1112 发表于 2016-7-11 17:05' ^4 k& q' n1 X* c  u
    Source Editor  确实没有这个功能
    3 O4 N* r. ]: w3 W
    其实是可以的,用custom 添加reference list即可,但该软件好像没有开源,不知道是怎么实现的
    + z& m, e* H7 h" j$ X) O. a

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    开心
    2018-4-7 21:39
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2016-7-12 10:21:44 | 显示全部楼层
    请问楼主没操作指南之类的,对我这样的傻鸟的挑战可不是一般小啊
    ) t1 o, U0 G; u+ ^2 Q1 Q谢谢
  • TA的每日心情
    开心
    2018-4-7 21:39
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2016-7-12 10:24:43 | 显示全部楼层
    按Readme去操作了,但好像没得到什么东东。
  • TA的每日心情
    开心
    2018-4-7 21:39
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2016-7-12 11:29:20 | 显示全部楼层
    menglongma 发表于 2016-7-11 18:508 ?. o+ z( J; G
    windows 10 不能用
    * n6 Z# i. a& x) f& {6 b
    这就难怪了* p, X; `9 i4 F. R: G4 ]3 f
    谢谢分享
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2026-6-20 11:22 , Processed in 0.029833 second(s), 28 queries .

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表