|
本帖最后由 qiuhao1112 于 2016-8-9 21:35 编辑
; x; E3 ^$ l: e% Q
# I t0 A0 @+ \Mdict词典DIY工具系列之三:MDX文本内容提取解析工具7 N# d8 i/ E* v0 }! x4 v( u
4 }- g9 q5 N3 D$ x3 i8 i% U& R- Y" n! L5 J1 s4 G. S* l/ F
+ A: Y+ F4 h! O! ], D* n5 Y基于html网页解析,专用于MDX文本解析并自动生成MDX格式文本,生成的文件可直接压缩打包成词典;# g! N5 z6 x8 |" ^
此工具可用来提取词典内容中的特定内容并,比如短语提取,音标提取等一切你想提取的内容。
+ h4 _" }- W4 l3 \6 z$ D
: R( j" m$ U& G6 e" y3 ?0 p; I8 t! @( E+ L: ^, c
用法:
8 o$ u3 b9 \+ r+ f( s4 N0 W2 Y
9 L/ O8 Q, O0 I6 g( R比如下面这个网页标签:
1 {# M! x4 D i# [0 i4 X+ u
1 y! @, [$ @4 e6 d& q" n<div class="explanation_item" id="d1234">
, }7 ?' K" Z- `7 n) S3 g" I4 h9 j" h! Z3 T" V) W, n
; ]2 m6 b! B& N( ?
标签名为 div! t l9 R3 c4 Q) Q: @- s
属性 有 class 和 id (还可能有别的属性)) V/ m/ R& Z: W) u; m
其属性对应的值:class的是explanation_item , id 的是d1234;# @$ D1 s0 }4 e: ~
1 m8 [: @2 M2 x1 M/ I6 T8 l( M/ n0 }6 _ e8 ?$ |; A- e6 u6 \ k
若想提取这个标签的内容:0 Z& ?' g% [, k6 t, ~0 Q' v
: X7 n2 t5 Z9 \ m6 i需要输入三个值:div,class,explanation_item4 v( @! t: s% M( w# E% X
或者:div,id,d1234 * @2 N4 ^2 a9 ^7 O: C
- C" g5 {3 G* ` F: Q
还有可能只有标签名,比如<body>这个标签,那么在(tag_name)输入框输入:body,其余不两项不用输入,直接回车即可
, m) \$ y1 j6 G9 ~
5 \9 v3 Z3 X' t( |' d
! d7 \8 v8 |1 M' a! |+ d% |: y7 E; p1 ~- ?3 i( W. m% C
输入方法:
/ i$ A, s K" i% z4 i3 f3 q! k
; B$ U$ G! T$ [: o' U: L, |7 b; q6 }0 Q& b Input source file name:(你的MDX文本文件名)$ |6 w9 P) g* _2 J* |# t" X% d
Input tag-name:div. \4 Y1 o! D' |. I5 w* p, _
Input tag-attribute:class
, J/ I. t2 g6 D+ ^ Input attribute-value:explanation_item
% p# D9 D3 E4 J0 h
7 }% b& o8 L! N( I# W7 E或, v5 X6 b/ X( C% Z3 r# ]2 @
Input source file name:(你的MDX文本文件名)
y$ p9 c7 c/ ?- N3 Y Input tag-name:div
$ y) n( F( c% y5 _- c$ d7 a; z Input tag-attribute:id# n; T+ t/ v2 P4 m% X
Input attribute-value:d12344 {+ x; }' @0 K) W$ _
7 z6 p5 x9 c1 d4 j, t如果没有属性,比如body
2 i: e5 q$ c) B+ k5 u3 d+ Y5 c
) \' @2 \* g I: w# m Input source file name:(你的MDX文本文件名)+ N% V( @' Y7 k( y6 v
Input tag-name:body: \* d& r6 B4 {% A# T7 U% T. G& r
Input tag-attribute:(不输入,回车跳过)2 s! s4 X) o0 |4 D4 i: _% |9 K) a
Input attribute-value:(不输入,回车跳过)& T/ f5 S7 O8 ~3 m% W
0 _3 p: n8 S3 i+ ?
OK。。。。
+ W" l1 P- s- w* ]* p( w" F* n4 v, D3 _ {
& h+ R9 m- n- B/ e. w
0 s& C* b P% z- F2 @% ^% E) ?3 {5 ?. d* B! X1 g& z
由于是逐个解析html, 所以速度不是那么快,但使用足够简便,很方便。
g0 q2 K( ^/ U" h) n" l" O: c" \. Q' T3 g- s
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?免费注册
x
本帖被以下淘专辑推荐:
- · 工具|主题: 8, 订阅: 5
- · 其他资料|主题: 24, 订阅: 1
|