|
本帖最后由 qiuhao1112 于 2016-8-9 21:35 编辑 # u' ]1 O6 q1 {% g' U
" m- J! [* V, i6 |% xMdict词典DIY工具系列之三:MDX文本内容提取解析工具# p. _4 }* q3 S; g6 `1 s1 q8 {; l: H
# Z# W) a( O5 b5 U G% I; {% K. [! B
* E7 }! Q3 v4 r6 Z3 F
基于html网页解析,专用于MDX文本解析并自动生成MDX格式文本,生成的文件可直接压缩打包成词典;! E5 h1 G& j1 B; I- }/ V
此工具可用来提取词典内容中的特定内容并,比如短语提取,音标提取等一切你想提取的内容。6 G3 H4 J! L8 c" J# u+ k
% _/ B/ ]- y% `0 |
P- \7 ~( Z. V, U用法:! {# x9 n# N M. i
. a) Y6 G7 s- D) Y1 q' p+ U
比如下面这个网页标签:, L: a( A9 v( M( X E k6 M& B0 A
& t6 I; M$ O1 E3 G<div class="explanation_item" id="d1234">* i w+ H) g6 I5 F$ e/ X
6 }/ _& A3 h8 Z4 I8 U+ [* u1 u) E6 K0 _6 y. M/ {
标签名为 div
2 g, F( q4 ^' y1 p8 C1 ^$ [* Y; J& ]属性 有 class 和 id (还可能有别的属性)
4 t/ N( F4 ~& n) P/ t! {其属性对应的值:class的是explanation_item , id 的是d1234;) X$ z& G }2 a- O
5 k% x( s- c" K/ f" r, ?4 L: g
9 _9 P% ^! q8 H# {+ e% g. a. i
若想提取这个标签的内容:
6 K" m! B X) c9 H# [2 L; k4 v7 J$ ]6 c- U$ f6 f# K( N5 J
需要输入三个值:div,class,explanation_item7 c, @: `# t' U7 r
或者:div,id,d1234
, r! Z5 Y1 B+ T3 W4 Y; v, ?9 u, S0 E6 ~) x! a0 T9 \
还有可能只有标签名,比如<body>这个标签,那么在(tag_name)输入框输入:body,其余不两项不用输入,直接回车即可% N @1 B4 ]! Q6 W7 x, O
# E% C' `3 N. E4 g
& g4 A3 U* |. ^' S* g
" e" C( p+ X6 T输入方法:6 e; F6 L1 O* I# \9 Y2 Z& w
* r4 G& |4 y( ~$ L* Q Input source file name:(你的MDX文本文件名)
2 V! O% T9 H% x f% w% s Input tag-name:div
' M3 M7 {* P, l% i6 O Input tag-attribute:class' m& j2 j, `# |9 C4 I$ Q& X
Input attribute-value:explanation_item8 r" Q3 g! ^2 k) \
0 B8 \: r8 f3 b. T
或+ r, \9 `5 Y# N4 a. _$ _. |; m
Input source file name:(你的MDX文本文件名)2 v6 h2 z) L0 C2 M9 X8 J) l# z
Input tag-name:div! K8 q/ I/ h; ~4 X8 H# g. }6 q1 T
Input tag-attribute:id
4 i! q* J5 L$ e Input attribute-value:d1234) a( g6 k4 A2 d2 f
( {' J: C+ l! S2 B如果没有属性,比如body+ G% r) J6 J+ g) J( {
+ ?' s2 Q9 D; J- x4 q Input source file name:(你的MDX文本文件名)" x: I( _; S& _! X2 T& Q! @% g* e
Input tag-name:body
7 Y: R4 I* f. O9 C* `0 | Input tag-attribute:(不输入,回车跳过)* i6 S) Z: G! C# {
Input attribute-value:(不输入,回车跳过)0 {# q- g! g1 p, W2 I
- z" P) V) u) |' v0 \; v% E OK。。。。
( ]/ t+ W. p' i/ g# G
? j# O3 n W4 u1 }' y
" u6 p6 v5 {! x2 p1 {/ b: z" B" ]7 M' @' W
+ f2 L- I8 h6 C0 h/ `% P由于是逐个解析html, 所以速度不是那么快,但使用足够简便,很方便。
, ^/ g y! q, J( c; r0 {
% n) L1 X+ }4 U- p. a0 c |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?免费注册
x
本帖被以下淘专辑推荐:
- · 工具|主题: 8, 订阅: 5
- · 其他资料|主题: 24, 订阅: 1
|