掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 3906|回复: 16

[工具] Mdict词典DIY工具系列之三:MDX文本内容提取解析工具

[复制链接]

该用户从未签到

发表于 2016-8-8 22:30:18 | 显示全部楼层 |阅读模式
本帖最后由 qiuhao1112 于 2016-8-9 21:35 编辑
+ N/ q( o- d  J/ V2 G9 t# P/ X& Q9 t$ ~- j/ k/ E
Mdict词典DIY工具系列之三:MDX文本内容提取解析工具% p8 t9 u  R: a
& T; L$ |, Z( y' [/ n
0 t) ]" s5 V! f) ?7 V
/ \. M& H/ R  g% x9 D8 t
基于html网页解析,专用于MDX文本解析并自动生成MDX格式文本,生成的文件可直接压缩打包成词典;& y7 G0 \0 Q' m# Z
此工具可用来提取词典内容中的特定内容并,比如短语提取,音标提取等一切你想提取的内容。
( n) S) i6 E/ K" N& O% g4 ?8 T# Q4 b! r! I1 t. ^
3 g2 N- z8 R9 p5 l, p; B. v
用法:! u* ^# B7 E$ O6 L( c, r

: q+ O% W: z! w5 U9 k3 h比如下面这个网页标签:
* z- ?5 v! m* s3 u, y2 v# W- P  y3 Q7 ^' C$ M$ _- `' O1 B3 [( h- C! w
<div class="explanation_item" id="d1234">% H0 C( S# u" Y5 j
; b: O6 I5 @9 R" ~: g9 q
- h8 f2 Y  B2 r$ y+ T8 i5 @+ S
标签名为  div7 _. D9 V1 J- |: ?
属性 有 class 和 id (还可能有别的属性)
8 k" l' z( L; B6 g, |6 W& I其属性对应的值:class的是explanation_item ,  id 的是d1234;
1 |3 a' d4 \3 X$ `5 c
& t* k* ^. X5 b* z3 u. L9 G
2 b1 m: L, y3 ]4 j3 A1 ^+ y若想提取这个标签的内容:
0 I# Z, f, j+ g8 B4 q! ?' B" S5 A& d) }1 K
需要输入三个值:div,class,explanation_item4 u/ N- p* j3 _4 }6 a
          或者:div,id,d1234 . N/ A, o; }6 R

, }' G" U6 T  \% I/ o% }还有可能只有标签名,比如<body>这个标签,那么在(tag_name)输入框输入:body,其余不两项不用输入,直接回车即可& P7 R- \; i5 f# p( d
/ f/ X' q" V+ w

& G3 H$ q6 V$ t+ f  y* ]. D. B6 j9 ~- T; m/ v" w
输入方法:- z% U2 e2 B5 b( ^$ N+ W8 n

" f3 H0 _0 w* D# d# T' ?0 X        Input source file name:(你的MDX文本文件名)5 _9 u$ m' N5 Q
        Input tag-name:div
0 Y3 d4 }+ A0 ^- A        Input tag-attribute:class
* _5 s- D4 }( e! F& w1 }6 N1 q        Input attribute-value:explanation_item8 A" t! _  J* D. j1 x
1 Y5 ~; A; M# ?0 L/ X9 t. S
+ t8 Q$ b8 }9 F+ \% o2 k
        Input source file name:(你的MDX文本文件名)0 d  b6 I) `" X' \# e% A
        Input tag-name:div2 i* e4 u3 J1 d) ^: M, z. `6 ]
        Input tag-attribute:id
, \6 w9 P6 q9 g1 R  L2 d        Input attribute-value:d1234
2 E' `, Z, h- M& \
, }) @  m+ g% P' N如果没有属性,比如body
$ N6 H% {& J: W0 _
- t' Y6 L) \# B: K' M3 ~3 H8 }        Input source file name:(你的MDX文本文件名)4 ]/ L( K7 E+ Q
        Input tag-name:body* q+ v# n$ n( u/ z9 A
        Input tag-attribute:(不输入,回车跳过)) G& v9 I; t0 i% w% F
        Input attribute-value:(不输入,回车跳过)
  N& n1 F! d, m  V; {7 X% ?1 x' A3 C" G: F# _  r2 `
        OK。。。。
8 Z! H1 w5 @' P* ^2 i- ^: w$ f& V( C. N% E6 @: j& ?6 D2 u
* E4 E' Q- s* L8 x
0 ^. Y' r; L& k# O# a! T' m

7 @2 |4 p  j" H5 a由于是逐个解析html, 所以速度不是那么快,但使用足够简便,很方便。& R& e+ t& C+ Q7 S& \& m2 P

& i" F+ t# b8 {3 ~" a

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?免费注册

x

本帖被以下淘专辑推荐:

该用户从未签到

发表于 2016-8-9 22:21:44 | 显示全部楼层
这是偶需要的工具,qiuhao1112老大 I love you

该用户从未签到

发表于 2016-8-15 22:17:38 | 显示全部楼层
下载回帖,回头慢慢学习怎么用,谢谢楼主无私分享

该用户从未签到

发表于 2016-8-20 23:33:19 | 显示全部楼层
谢谢楼主的分享!这个绝对要顶!!!
  • TA的每日心情
    开心
    昨天 08:45
  • 签到天数: 1445 天

    [LV.10]以坛为家III

    发表于 2016-8-21 16:17:34 | 显示全部楼层
    回头慢慢学习怎么用,谢谢楼主无私分享!

    该用户从未签到

    发表于 2016-8-31 14:26:12 | 显示全部楼层
    dddddddddddddddd
  • TA的每日心情
    奋斗
    昨天 22:19
  • 签到天数: 1738 天

    [LV.Master]伴坛终老

    发表于 2016-9-1 22:31:28 | 显示全部楼层
    谢谢楼主无私分享!

    该用户从未签到

    发表于 2016-9-26 08:39:29 | 显示全部楼层
    谢谢,这是MDICT的五个工具!

    该用户从未签到

    发表于 2016-10-12 21:59:22 | 显示全部楼层
    神器啊 多多益善

    该用户从未签到

    发表于 2017-1-6 14:44:31 | 显示全部楼层
    下载解压显示 文件错误  
  • TA的每日心情
    开心
    2024-4-18 10:17
  • 签到天数: 929 天

    [LV.10]以坛为家III

    发表于 2018-2-13 23:44:06 | 显示全部楼层
    求教:如果是要提取词典里面的例句的话,该如何用这个软件提取呢?谢谢
  • TA的每日心情
    开心
    2018-2-20 00:08
  • 签到天数: 11 天

    [LV.3]偶尔看看II

    发表于 2018-2-17 11:49:43 | 显示全部楼层
    自己学习试试下,非常好
  • TA的每日心情

    2021-10-23 19:58
  • 签到天数: 212 天

    [LV.7]常住居民III

    发表于 2020-2-9 06:46:52 | 显示全部楼层
    本帖最后由 lemonlab 于 2020-2-9 10:32 编辑 * f; f7 |3 {6 b! }; j" B; l$ @' d
    ' [: [; g) {& B  _7 V6 `) n
    支持参数式命令行吗带空格类名怎么办
    $ {. w& l* n9 L! t# G4 I$ G- u
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-4-27 05:32 , Processed in 0.071019 second(s), 10 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表