|
本帖最后由 qiuhao1112 于 2016-8-9 21:35 编辑 " N) ?7 C: w9 J% k" D0 D
0 \+ [0 B+ E% ^: S, g$ s% aMdict词典DIY工具系列之三:MDX文本内容提取解析工具6 F1 L& J$ j# w" ?! g* {
# f( m: O8 I2 ?4 y! ]$ o% ~
/ r* u3 p; V9 B X
# l7 F3 l. o7 z
基于html网页解析,专用于MDX文本解析并自动生成MDX格式文本,生成的文件可直接压缩打包成词典;
. f3 Y$ t* G' v- x; f此工具可用来提取词典内容中的特定内容并,比如短语提取,音标提取等一切你想提取的内容。
- H. q9 x) u: M
7 V o# {5 J6 {" N/ `
, `* m+ q0 |! {0 r* x0 ~' Q用法:
4 U+ F7 q' O8 Q) V) Q; K2 \# Q7 g/ p' S& D
比如下面这个网页标签:
+ j5 ~& w& c8 S5 \+ @+ l8 v5 Y- C( f
6 k8 y8 e5 U6 S<div class="explanation_item" id="d1234">$ `3 D2 g3 ]9 D+ J$ H. X
4 \" _( B( ~) j, G6 D' m
5 `" l5 ~8 t v. L标签名为 div% N& A. ^9 L+ l, Y* m
属性 有 class 和 id (还可能有别的属性)
1 c# Y- u* W; b( ^3 `& |' M其属性对应的值:class的是explanation_item , id 的是d1234;$ [2 y3 Y7 Q, e/ j: Y/ |3 v4 H
) I; C! \# A n
8 P: |4 c; r( p# V; p9 M
若想提取这个标签的内容:3 B5 Z% S1 L9 ?) m! k0 b3 q' M
/ z9 C+ B3 w, L; O" \, n2 e# m需要输入三个值:div,class,explanation_item
; B" `% P0 H N4 i. n: [ 或者:div,id,d1234 ( X1 h$ W' W8 Q- _+ {: Q2 E) S
3 F9 w+ k7 q& u: i还有可能只有标签名,比如<body>这个标签,那么在(tag_name)输入框输入:body,其余不两项不用输入,直接回车即可6 E- e0 B& N. Y8 e" X+ G. X
4 x) _/ e5 j. K3 p
/ ?' ]" s8 s, O- F
- E% n+ E) o4 y) B- D3 k输入方法:. @" _: ?! ]2 V/ } c
: `9 k l& l- ~" E" x- Y: S3 _
Input source file name:(你的MDX文本文件名)2 ^, a1 q8 D9 c7 {: M$ @
Input tag-name:div
f J# K: l$ T- z9 V! ` Input tag-attribute:class
& J2 w6 H* f7 G8 U Input attribute-value:explanation_item( ~0 ]$ e7 Q `6 e1 J9 `( _
4 [7 X* J1 l V) H# R% t
或
+ s9 ?6 d) }8 i Input source file name:(你的MDX文本文件名)$ b# |% h+ {0 }1 c( C
Input tag-name:div
% H! P E3 ~ O ^) l7 t Input tag-attribute:id) ?4 [6 h N1 r
Input attribute-value:d1234
1 ?+ t0 E' f$ {) Q+ o( B! L/ J* y% ~/ s
如果没有属性,比如body
9 u$ _4 B2 T7 \; S- x8 v2 D: [6 r+ i
3 ?) F* N) L, F/ f1 i Input source file name:(你的MDX文本文件名)
% L1 B, J0 ?5 B5 U: L# F" \ Input tag-name:body6 J9 O1 F; ^! Y( o4 f8 |' O
Input tag-attribute:(不输入,回车跳过)
+ ]6 V7 {; n, l7 { Input attribute-value:(不输入,回车跳过)
" J6 t; t2 u! ^/ ]7 R. n0 j; Y1 J* x. i/ W, `! m% ^5 t
OK。。。。
% |; u& z; R6 H, u- ?
4 E3 g0 n& S5 c0 R* Q1 l) A2 r
6 ]% J' g' H1 g% W3 u* d) J" x+ H$ B3 y( x
6 ^$ O" U& I* K/ p5 T5 D$ w由于是逐个解析html, 所以速度不是那么快,但使用足够简便,很方便。
* _; F/ o2 z5 H/ ^( a/ t3 p' v' X# K% h% N- W5 B
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?免费注册
x
本帖被以下淘专辑推荐:
- · 工具|主题: 8, 订阅: 5
- · 其他资料|主题: 24, 订阅: 1
|