|
本帖最后由 qiuhao1112 于 2016-8-9 21:35 编辑 ( C2 k. t0 C& f! t& \
, Y+ y) S2 G2 IMdict词典DIY工具系列之三:MDX文本内容提取解析工具
( H0 N& |: r$ c' h m! r/ x2 s5 g# B5 k$ i5 t0 S" T. P: f: d
C( L4 |1 U# N, Y" h" J+ c5 z: w8 w; }
基于html网页解析,专用于MDX文本解析并自动生成MDX格式文本,生成的文件可直接压缩打包成词典;
# X' C! b# J9 L1 P& ]2 e! H1 X此工具可用来提取词典内容中的特定内容并,比如短语提取,音标提取等一切你想提取的内容。1 S' N* S# o7 W Y6 y2 L% c
4 Q/ A0 [7 P# o% W" g3 N4 j0 [ ^4 o2 w6 z: z7 ~$ e
用法:$ z1 T4 C4 r; a7 {
$ I* i/ ]8 ^+ `3 k( f1 J比如下面这个网页标签:, ~# K! W8 c/ X' A( i
& \) Q' u5 y' |
<div class="explanation_item" id="d1234">4 k# W1 O- {) S) c* t4 Q' W
# }# Z* z( S: n: z/ `1 q$ b9 y6 n+ M7 B( }/ U
标签名为 div
# x; S4 I5 S$ V2 X4 y属性 有 class 和 id (还可能有别的属性)5 b9 D3 |; h I8 H- [/ t( k3 X
其属性对应的值:class的是explanation_item , id 的是d1234;
1 j2 ~- l y$ d. v+ H2 D9 n
; O8 S8 F+ {+ r7 [/ E3 a7 @3 g
5 p" Z7 Z& i5 ?6 `若想提取这个标签的内容:
/ h' p( ]7 V9 Y) S3 Q
0 V3 ^& `) J h3 V# t7 O8 _' D需要输入三个值:div,class,explanation_item6 ^) {; | a5 l% W# I9 A
或者:div,id,d1234 : u7 A6 X' _% A9 B
- E: }, N, }; `% ]9 A3 E3 Q
还有可能只有标签名,比如<body>这个标签,那么在(tag_name)输入框输入:body,其余不两项不用输入,直接回车即可
5 @6 w9 G) w; }9 R, M
1 G3 [* F+ W) _ c! X) K7 A# e1 b* A
$ @- Z G( s. H9 A5 b( a. V ^4 o6 M& D. E+ Q2 s* @* v
输入方法:3 y1 Q5 g/ j/ X8 c% t3 c
+ x0 `' F4 X7 X0 |) S9 F: G' N
Input source file name:(你的MDX文本文件名)
9 X$ a6 }. V! W, Z+ S& u Input tag-name:div' A5 R5 g) _/ `; L- V
Input tag-attribute:class
% \/ f* M, \: {0 y% o9 b) q Input attribute-value:explanation_item
0 E! f0 N) C5 t+ T4 V: e# N& G0 x: I/ s; W/ r6 L/ {5 b
或
c! Z- } c: X# E# o$ U Input source file name:(你的MDX文本文件名)
# x+ Q4 ~5 ~: ]4 K6 P Input tag-name:div1 l. v0 M; q# V9 J0 a p
Input tag-attribute:id7 d/ n [- L* F: E2 U7 e
Input attribute-value:d12341 N5 I4 \% k, v F
1 V' `, R$ I' d* c! u* w
如果没有属性,比如body
; \; |8 j! v- a- I3 c& x( S: c& x( _
# K) ^% K. ]6 O- v3 T. Z9 K$ k, j# i Input source file name:(你的MDX文本文件名)6 i, {/ X, f/ x4 u# F/ _
Input tag-name:body
, g q _9 W7 p1 Y Input tag-attribute:(不输入,回车跳过)6 ^% l* U7 [% h- S( j: N2 }, r
Input attribute-value:(不输入,回车跳过)
- v0 R( R+ M8 k+ G* R
) M) K3 K7 m( R; k; k3 X, ` OK。。。。" A+ o, z' G5 m7 I6 O$ K5 @* D
# {9 m) B; S9 J3 L
" F# a" \* k( f* @# y% \! k$ Y5 }7 m5 G% }, K1 M$ ^
+ _1 L( X) z5 h, I0 K
由于是逐个解析html, 所以速度不是那么快,但使用足够简便,很方便。
3 S6 F0 y' l. u% L3 h
; ?9 Q, J2 w; b |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?免费注册
x
本帖被以下淘专辑推荐:
- · 工具|主题: 8, 订阅: 5
- · 其他资料|主题: 24, 订阅: 1
|