|
|
本帖最后由 qiuhao1112 于 2016-8-9 21:35 编辑 & ^$ I2 Z: W( B9 T) W
. c1 O* t% V8 v9 b1 ^$ E X& wMdict词典DIY工具系列之三:MDX文本内容提取解析工具, a5 I( y( o s% x5 k" R* c1 {
1 a F. t0 n; O" t0 l0 N- S9 `) m+ E0 t
4 g i8 i* k7 [. t% j基于html网页解析,专用于MDX文本解析并自动生成MDX格式文本,生成的文件可直接压缩打包成词典;- i. y; `1 ]8 [
此工具可用来提取词典内容中的特定内容并,比如短语提取,音标提取等一切你想提取的内容。6 w2 ^: _4 V' }2 l" `) C
5 s4 }; _8 i8 V8 X3 {- P: ]" z
3 [( a2 x& n+ e- B, D+ f用法:
. b: m3 i6 A2 b P6 a4 B
' `: f( q6 w) ?比如下面这个网页标签:, j* Z: f4 b3 ~2 H6 A! m
; r7 ]" i" x& o8 {) N' ^. E4 m<div class="explanation_item" id="d1234">
! h+ i- ]& E; G r+ `# P* F) F4 u0 J1 ?% e1 y
! t; X* Y N* `0 t& c$ m+ r/ `7 `
标签名为 div
' z8 Q; p+ k8 z! Z' T# I: c' O属性 有 class 和 id (还可能有别的属性)8 {. \8 M5 Z, [% K# F
其属性对应的值:class的是explanation_item , id 的是d1234;( ?6 i7 G7 i' n9 B
( @3 F6 g2 }+ L1 i; J/ m
' _ w j, U$ ]- T' F1 p! ?# _% t# H
若想提取这个标签的内容:2 p) k# U1 w7 N& V6 }
4 q! ?( u3 L) P! ]. C7 v9 J' F
需要输入三个值:div,class,explanation_item
' X% @, R8 K% h9 }9 [ 或者:div,id,d1234
- Z2 N, @: m8 A' k( \( t. Y
& a! {1 M- e6 F& x/ ?3 p还有可能只有标签名,比如<body>这个标签,那么在(tag_name)输入框输入:body,其余不两项不用输入,直接回车即可- D" W' i% r1 m) n1 E
/ ?( l% S0 v7 k. `3 I8 _
3 n" _4 r% _2 C( y: w0 B z
+ x8 S+ ~! |) d8 v" B& w; r2 Z
输入方法:
3 L* p/ k( O/ A8 g" c" Y
3 ?" g4 e" V1 Y) ?. I Input source file name:(你的MDX文本文件名)
0 D) l7 q/ y1 K7 i: ]' _ Input tag-name:div/ A$ F7 M' A, [9 ] ^
Input tag-attribute:class
) o4 k! x- n3 s$ I' n8 r3 o Input attribute-value:explanation_item
# t8 k9 i" K: |: T
' s, u: ^; N) {3 h或
8 f, N/ f) A4 X! D. H# b Input source file name:(你的MDX文本文件名)
/ \9 L" C. a# U% R Input tag-name:div: b& g- u8 U. A' m' e# E
Input tag-attribute:id3 y! Q C# ]( r; a
Input attribute-value:d12342 g9 W4 j! g: x
+ C9 c3 P* w" D3 H9 {7 D如果没有属性,比如body
! g. T8 q6 e/ W% U% R5 L$ v! S7 b# Y5 O A. p8 P d6 Y
Input source file name:(你的MDX文本文件名)$ e/ S) n) D& g7 z7 @- s4 x" e
Input tag-name:body
) \8 t- a, V# }( I0 m Input tag-attribute:(不输入,回车跳过)1 H$ X n# y. F4 P% y
Input attribute-value:(不输入,回车跳过)
/ N& \3 P0 Q+ B* l) h6 Y& R1 _8 Q* A6 E
OK。。。。
( X4 x7 o1 K" k# f6 Q0 C# b6 O# z- [7 s* n
U% C; |$ z4 I
2 w. ~& g- R! Z; j8 N+ c
5 m" \( s: E9 b+ d由于是逐个解析html, 所以速度不是那么快,但使用足够简便,很方便。
% B+ J q- }( v% t3 h5 Y1 ] B/ I! S" z2 k
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?免费注册
x
本帖被以下淘专辑推荐:
- · 工具|主题: 8, 订阅: 5
- · 其他资料|主题: 24, 订阅: 1
|