|
本帖最后由 qiuhao1112 于 2016-8-9 21:35 编辑 $ f1 {& o% I6 @6 ?& W* q
0 U; V9 {1 p$ J, t1 L9 _Mdict词典DIY工具系列之三:MDX文本内容提取解析工具
+ _( d" G/ r: f- n' b
* v! x' {- M/ O! s0 v7 x6 W! V( Z
" j# M% h5 L, V% y% y8 x9 Q, W
2 Y8 n/ x8 U* Y8 Y基于html网页解析,专用于MDX文本解析并自动生成MDX格式文本,生成的文件可直接压缩打包成词典;2 r. v. j- K. e5 L( {- [) \
此工具可用来提取词典内容中的特定内容并,比如短语提取,音标提取等一切你想提取的内容。
! \, a3 Z: P2 Z+ \" u) @8 C) _9 t- ^: ]4 G+ r
; E- t9 G' k+ x用法:
: A, T: u' T& a% ]- P
% f. ?: ?8 a& q2 N比如下面这个网页标签:
8 I1 _' X: {, h
, X& X$ [, _1 }% W" i<div class="explanation_item" id="d1234">
R) l6 J' V" g, ?0 I& g6 \
+ K/ X- b8 Z& N" b' K8 ]3 ?8 a% ~
/ e% \+ [2 w" U% h* m/ h( C% L标签名为 div" e- Z0 q) {! m7 F
属性 有 class 和 id (还可能有别的属性)
. ?2 r i# l l3 o( ?, D其属性对应的值:class的是explanation_item , id 的是d1234;, h8 A6 C1 V4 D. y2 ^
+ n d% f8 P a! @: ]+ f
" b. V6 ]5 D% Y9 w5 S1 r) ]4 m
若想提取这个标签的内容:. x6 O9 F/ Z+ a& a
9 Z ?5 u r! z需要输入三个值:div,class,explanation_item$ ~5 t t8 X/ M( `. e3 f* y
或者:div,id,d1234 T) T. ?3 J! f7 s9 r
7 W F0 W& k9 [' e" o O5 g
还有可能只有标签名,比如<body>这个标签,那么在(tag_name)输入框输入:body,其余不两项不用输入,直接回车即可
* F/ u/ m+ S( v2 o6 b! F- v+ L% y+ N! m* R
) s7 {$ e0 k: `; ~
/ s5 y e, ?0 }4 M9 m$ q% j4 q输入方法:
8 n% ~; \+ z( C
" ?- u. y1 I( D% X- h6 d) y Input source file name:(你的MDX文本文件名)5 g4 N! [) h* }" c# n- k
Input tag-name:div
8 k g# e( g# H% l# ` Input tag-attribute:class
, d) @- C" L7 g" s( H$ a Input attribute-value:explanation_item
7 ^/ _6 O1 I, j. C* Q# e# @ v
7 P, Z) |$ R7 E9 H8 I: [或. i# F, \, f. a& l, T3 E5 \) U
Input source file name:(你的MDX文本文件名)) N% o3 G% R z/ l
Input tag-name:div
% k; C4 y* c0 q" }/ G4 ` Input tag-attribute:id4 x8 v- I, V6 H5 j' W8 k4 Y* S; f0 V
Input attribute-value:d12346 M. { S$ Y6 @+ K
1 M+ f& j$ O+ a8 h! _% [/ o如果没有属性,比如body$ l( C7 l4 d! f
# O! v: M+ o( o' N Input source file name:(你的MDX文本文件名)+ Q. q7 W' t6 {0 y/ j& O
Input tag-name:body# j9 }2 W: |! n, M
Input tag-attribute:(不输入,回车跳过)
$ M" u% v0 _% a2 P/ d/ r/ _7 w Input attribute-value:(不输入,回车跳过)) ]0 A# d6 K8 _, q' M
( v, q' z2 m3 z0 ~ OK。。。。
0 ~ F3 S Z! @% `6 I+ h. H
" ]# V! Y/ t& b- v' E& l; N; w f1 O4 P' ~
/ R; D% y% V& U. m. Q" s
3 B; B% D6 v6 \" I" B由于是逐个解析html, 所以速度不是那么快,但使用足够简便,很方便。
$ M* i$ v8 N+ ~
/ q. U1 Y' h! O7 _! r, ?$ B |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?免费注册
x
本帖被以下淘专辑推荐:
- · 工具|主题: 8, 订阅: 5
- · 其他资料|主题: 24, 订阅: 1
|