掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 7943|回复: 16

[工具] Mdict词典DIY工具系列之三:MDX文本内容提取解析工具

[复制链接]

该用户从未签到

发表于 2016-8-8 22:30:18 | 显示全部楼层 |阅读模式
本帖最后由 qiuhao1112 于 2016-8-9 21:35 编辑 # S1 a# G0 s' ~, u$ g& x8 y* [! P
# E0 j. D  e0 \, `! J) i; }
Mdict词典DIY工具系列之三:MDX文本内容提取解析工具: T2 ]# ~* E( k4 m: Y! r  b7 o

2 r* T1 C) a/ X& J8 k5 ]! u, ?7 _) ~1 P( Q6 l  ~" |( t! o- _* t

5 Y2 y$ `; Q8 u8 |基于html网页解析,专用于MDX文本解析并自动生成MDX格式文本,生成的文件可直接压缩打包成词典;
) B. L7 e3 ?# a此工具可用来提取词典内容中的特定内容并,比如短语提取,音标提取等一切你想提取的内容。
, f, u( b9 r. b0 w+ v# Y2 Y5 d' m# d3 e7 @9 x  D3 G

2 z: R5 Z+ n: O/ c3 E5 [用法:. p8 ]% E. W- X( V. J

# \1 L3 g5 [; b: _- C- o) s. b比如下面这个网页标签:
4 Q# c5 ^$ u% ^, J$ s
. o4 Y8 C, @6 z3 E5 v. g6 [<div class="explanation_item" id="d1234">
( x/ v, v+ k; A+ o3 ^' w* \+ E3 g9 z6 j: O3 t8 T
8 J8 Q( b+ v' y: {& s: i$ n
标签名为  div
( _6 W; O) ^% I% c( {" d# ~9 t! G2 s! ^属性 有 class 和 id (还可能有别的属性)
5 {. v; y' i2 @: h其属性对应的值:class的是explanation_item ,  id 的是d1234;
+ O+ d/ p( S+ U3 V
% q, p% F, u7 c9 g; @0 P" Q) f' z$ P$ }/ o* k0 O
若想提取这个标签的内容:, ~- ^2 t: T2 }4 U' h

* {6 |7 B" T2 r. s1 B- T需要输入三个值:div,class,explanation_item
0 y+ U1 g- g9 h- c( N* F( Y          或者:div,id,d1234 0 F) q7 |% S4 \4 ]

5 E3 p6 ~. }/ X' `# F& e还有可能只有标签名,比如<body>这个标签,那么在(tag_name)输入框输入:body,其余不两项不用输入,直接回车即可
+ U, R+ X. z6 a- w! p0 C1 ^6 S6 m$ y6 |7 y) q$ H
. ~0 K1 J3 Y! {
  Z8 W6 c9 H7 A. v
输入方法:7 c. w3 m, a3 n' k1 e
/ U) j8 b/ D5 W6 F- a2 J- S" {
        Input source file name:(你的MDX文本文件名)
) k. W3 L* }( [# l        Input tag-name:div
) @# |0 l$ x0 U7 f- o$ M        Input tag-attribute:class
' K; N/ x% `& ~& ~        Input attribute-value:explanation_item& Y+ G% O6 Y7 P$ [
, |, S2 \7 Y" G0 w
. `- r) R& p9 a2 y" X
        Input source file name:(你的MDX文本文件名)
3 P5 S! d/ Z8 {6 _+ L1 Q2 B7 |5 [! F3 Y        Input tag-name:div
5 O! h; ^% k+ g        Input tag-attribute:id3 R* Y' i: {) t9 N
        Input attribute-value:d1234
" M1 I- @3 d1 S4 y: ]; D: P4 I9 T' ]: \* Z7 V4 j' v
如果没有属性,比如body, l; a' L4 @; X$ O. K) @- w( [# A
4 d2 J$ |4 F: X; c
        Input source file name:(你的MDX文本文件名)
4 d( a' z( B& @# t+ |' @2 y6 m        Input tag-name:body! N2 q) L. v% |  y9 |# R
        Input tag-attribute:(不输入,回车跳过)
2 v% k1 M. o1 H        Input attribute-value:(不输入,回车跳过)* j& P# P! P, m) O5 d

! T0 r2 \2 S5 f        OK。。。。5 d3 ~& @# Q0 e' q
# E9 s/ \; U, L0 M! H: J
. [0 {7 B/ ]' _7 d' }  z2 u

" T3 m; P' s4 [! I* i% {
% v; _/ n3 Z9 j由于是逐个解析html, 所以速度不是那么快,但使用足够简便,很方便。  A3 s) R" m  W( ?
, B* `$ k: K/ _( _

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?免费注册

x

本帖被以下淘专辑推荐:

该用户从未签到

发表于 2016-8-9 22:21:44 | 显示全部楼层
这是偶需要的工具,qiuhao1112老大 I love you

该用户从未签到

发表于 2016-8-15 22:17:38 | 显示全部楼层
下载回帖,回头慢慢学习怎么用,谢谢楼主无私分享

该用户从未签到

发表于 2016-8-20 23:33:19 | 显示全部楼层
谢谢楼主的分享!这个绝对要顶!!!
  • TA的每日心情
    开心
    2024-7-8 11:31
  • 签到天数: 1502 天

    [LV.Master]伴坛终老

    发表于 2016-8-21 16:17:34 | 显示全部楼层
    回头慢慢学习怎么用,谢谢楼主无私分享!

    该用户从未签到

    发表于 2016-8-31 14:26:12 | 显示全部楼层
    dddddddddddddddd
  • TA的每日心情
    奋斗
    2025-11-16 23:23
  • 签到天数: 2044 天

    [LV.Master]伴坛终老

    发表于 2016-9-1 22:31:28 | 显示全部楼层
    谢谢楼主无私分享!

    该用户从未签到

    发表于 2016-9-26 08:39:29 | 显示全部楼层
    谢谢,这是MDICT的五个工具!

    该用户从未签到

    发表于 2016-10-12 21:59:22 | 显示全部楼层
    神器啊 多多益善

    该用户从未签到

    发表于 2017-1-6 14:44:31 | 显示全部楼层
    下载解压显示 文件错误  
  • TA的每日心情
    开心
    2026-5-3 09:50
  • 签到天数: 983 天

    [LV.10]以坛为家III

    发表于 2018-2-13 23:44:06 | 显示全部楼层
    求教:如果是要提取词典里面的例句的话,该如何用这个软件提取呢?谢谢
  • TA的每日心情
    开心
    2018-2-20 00:08
  • 签到天数: 11 天

    [LV.3]偶尔看看II

    发表于 2018-2-17 11:49:43 | 显示全部楼层
    自己学习试试下,非常好
  • TA的每日心情

    2021-10-23 19:58
  • 签到天数: 212 天

    [LV.7]常住居民III

    发表于 2020-2-9 06:46:52 | 显示全部楼层
    本帖最后由 lemonlab 于 2020-2-9 10:32 编辑 : v, h8 }; l3 L8 \" {9 ~

    7 T2 Y6 \! G/ a) J支持参数式命令行吗带空格类名怎么办
    0 E% P! o- K" V; y# O# e8 c" {
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2026-6-20 12:24 , Processed in 0.021957 second(s), 24 queries .

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表