|
本帖最后由 qiuhao1112 于 2016-8-9 21:35 编辑
+ N/ q( o- d J/ V2 G9 t# P/ X& Q9 t$ ~- j/ k/ E
Mdict词典DIY工具系列之三:MDX文本内容提取解析工具% p8 t9 u R: a
& T; L$ |, Z( y' [/ n
0 t) ]" s5 V! f) ?7 V
/ \. M& H/ R g% x9 D8 t
基于html网页解析,专用于MDX文本解析并自动生成MDX格式文本,生成的文件可直接压缩打包成词典;& y7 G0 \0 Q' m# Z
此工具可用来提取词典内容中的特定内容并,比如短语提取,音标提取等一切你想提取的内容。
( n) S) i6 E/ K" N& O% g4 ?8 T# Q4 b! r! I1 t. ^
3 g2 N- z8 R9 p5 l, p; B. v
用法:! u* ^# B7 E$ O6 L( c, r
: q+ O% W: z! w5 U9 k3 h比如下面这个网页标签:
* z- ?5 v! m* s3 u, y2 v# W- P y3 Q7 ^' C$ M$ _- `' O1 B3 [( h- C! w
<div class="explanation_item" id="d1234">% H0 C( S# u" Y5 j
; b: O6 I5 @9 R" ~: g9 q
- h8 f2 Y B2 r$ y+ T8 i5 @+ S
标签名为 div7 _. D9 V1 J- |: ?
属性 有 class 和 id (还可能有别的属性)
8 k" l' z( L; B6 g, |6 W& I其属性对应的值:class的是explanation_item , id 的是d1234;
1 |3 a' d4 \3 X$ `5 c
& t* k* ^. X5 b* z3 u. L9 G
2 b1 m: L, y3 ]4 j3 A1 ^+ y若想提取这个标签的内容:
0 I# Z, f, j+ g8 B4 q! ?' B" S5 A& d) }1 K
需要输入三个值:div,class,explanation_item4 u/ N- p* j3 _4 }6 a
或者:div,id,d1234 . N/ A, o; }6 R
, }' G" U6 T \% I/ o% }还有可能只有标签名,比如<body>这个标签,那么在(tag_name)输入框输入:body,其余不两项不用输入,直接回车即可& P7 R- \; i5 f# p( d
/ f/ X' q" V+ w
& G3 H$ q6 V$ t+ f y* ]. D. B6 j9 ~- T; m/ v" w
输入方法:- z% U2 e2 B5 b( ^$ N+ W8 n
" f3 H0 _0 w* D# d# T' ?0 X Input source file name:(你的MDX文本文件名)5 _9 u$ m' N5 Q
Input tag-name:div
0 Y3 d4 }+ A0 ^- A Input tag-attribute:class
* _5 s- D4 }( e! F& w1 }6 N1 q Input attribute-value:explanation_item8 A" t! _ J* D. j1 x
1 Y5 ~; A; M# ?0 L/ X9 t. S
或+ t8 Q$ b8 }9 F+ \% o2 k
Input source file name:(你的MDX文本文件名)0 d b6 I) `" X' \# e% A
Input tag-name:div2 i* e4 u3 J1 d) ^: M, z. `6 ]
Input tag-attribute:id
, \6 w9 P6 q9 g1 R L2 d Input attribute-value:d1234
2 E' `, Z, h- M& \
, }) @ m+ g% P' N如果没有属性,比如body
$ N6 H% {& J: W0 _
- t' Y6 L) \# B: K' M3 ~3 H8 } Input source file name:(你的MDX文本文件名)4 ]/ L( K7 E+ Q
Input tag-name:body* q+ v# n$ n( u/ z9 A
Input tag-attribute:(不输入,回车跳过)) G& v9 I; t0 i% w% F
Input attribute-value:(不输入,回车跳过)
N& n1 F! d, m V; {7 X% ?1 x' A3 C" G: F# _ r2 `
OK。。。。
8 Z! H1 w5 @' P* ^2 i- ^: w$ f& V( C. N% E6 @: j& ?6 D2 u
* E4 E' Q- s* L8 x
0 ^. Y' r; L& k# O# a! T' m
7 @2 |4 p j" H5 a由于是逐个解析html, 所以速度不是那么快,但使用足够简便,很方便。& R& e+ t& C+ Q7 S& \& m2 P
& i" F+ t# b8 {3 ~" a |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?免费注册
x
本帖被以下淘专辑推荐:
- · 工具|主题: 8, 订阅: 5
- · 其他资料|主题: 24, 订阅: 1
|