|
|
本帖最后由 qiuhao1112 于 2016-8-9 21:35 编辑 # S1 a# G0 s' ~, u$ g& x8 y* [! P
# E0 j. D e0 \, `! J) i; }
Mdict词典DIY工具系列之三:MDX文本内容提取解析工具: T2 ]# ~* E( k4 m: Y! r b7 o
2 r* T1 C) a/ X& J8 k5 ]! u, ?7 _) ~1 P( Q6 l ~" |( t! o- _* t
5 Y2 y$ `; Q8 u8 |基于html网页解析,专用于MDX文本解析并自动生成MDX格式文本,生成的文件可直接压缩打包成词典;
) B. L7 e3 ?# a此工具可用来提取词典内容中的特定内容并,比如短语提取,音标提取等一切你想提取的内容。
, f, u( b9 r. b0 w+ v# Y2 Y5 d' m# d3 e7 @9 x D3 G
2 z: R5 Z+ n: O/ c3 E5 [用法:. p8 ]% E. W- X( V. J
# \1 L3 g5 [; b: _- C- o) s. b比如下面这个网页标签:
4 Q# c5 ^$ u% ^, J$ s
. o4 Y8 C, @6 z3 E5 v. g6 [<div class="explanation_item" id="d1234">
( x/ v, v+ k; A+ o3 ^' w* \+ E3 g9 z6 j: O3 t8 T
8 J8 Q( b+ v' y: {& s: i$ n
标签名为 div
( _6 W; O) ^% I% c( {" d# ~9 t! G2 s! ^属性 有 class 和 id (还可能有别的属性)
5 {. v; y' i2 @: h其属性对应的值:class的是explanation_item , id 的是d1234;
+ O+ d/ p( S+ U3 V
% q, p% F, u7 c9 g; @0 P" Q) f' z$ P$ }/ o* k0 O
若想提取这个标签的内容:, ~- ^2 t: T2 }4 U' h
* {6 |7 B" T2 r. s1 B- T需要输入三个值:div,class,explanation_item
0 y+ U1 g- g9 h- c( N* F( Y 或者:div,id,d1234 0 F) q7 |% S4 \4 ]
5 E3 p6 ~. }/ X' `# F& e还有可能只有标签名,比如<body>这个标签,那么在(tag_name)输入框输入:body,其余不两项不用输入,直接回车即可
+ U, R+ X. z6 a- w! p0 C1 ^6 S6 m$ y6 |7 y) q$ H
. ~0 K1 J3 Y! {
Z8 W6 c9 H7 A. v
输入方法:7 c. w3 m, a3 n' k1 e
/ U) j8 b/ D5 W6 F- a2 J- S" {
Input source file name:(你的MDX文本文件名)
) k. W3 L* }( [# l Input tag-name:div
) @# |0 l$ x0 U7 f- o$ M Input tag-attribute:class
' K; N/ x% `& ~& ~ Input attribute-value:explanation_item& Y+ G% O6 Y7 P$ [
, |, S2 \7 Y" G0 w
或. `- r) R& p9 a2 y" X
Input source file name:(你的MDX文本文件名)
3 P5 S! d/ Z8 {6 _+ L1 Q2 B7 |5 [! F3 Y Input tag-name:div
5 O! h; ^% k+ g Input tag-attribute:id3 R* Y' i: {) t9 N
Input attribute-value:d1234
" M1 I- @3 d1 S4 y: ]; D: P4 I9 T' ]: \* Z7 V4 j' v
如果没有属性,比如body, l; a' L4 @; X$ O. K) @- w( [# A
4 d2 J$ |4 F: X; c
Input source file name:(你的MDX文本文件名)
4 d( a' z( B& @# t+ |' @2 y6 m Input tag-name:body! N2 q) L. v% | y9 |# R
Input tag-attribute:(不输入,回车跳过)
2 v% k1 M. o1 H Input attribute-value:(不输入,回车跳过)* j& P# P! P, m) O5 d
! T0 r2 \2 S5 f OK。。。。5 d3 ~& @# Q0 e' q
# E9 s/ \; U, L0 M! H: J
. [0 {7 B/ ]' _7 d' } z2 u
" T3 m; P' s4 [! I* i% {
% v; _/ n3 Z9 j由于是逐个解析html, 所以速度不是那么快,但使用足够简便,很方便。 A3 s) R" m W( ?
, B* `$ k: K/ _( _
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?免费注册
x
本帖被以下淘专辑推荐:
- · 工具|主题: 8, 订阅: 5
- · 其他资料|主题: 24, 订阅: 1
|