掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 5327|回复: 16

[工具] Mdict词典DIY工具系列之三:MDX文本内容提取解析工具

[复制链接]

该用户从未签到

发表于 2016-8-8 22:30:18 | 显示全部楼层 |阅读模式
本帖最后由 qiuhao1112 于 2016-8-9 21:35 编辑 ( C2 k. t0 C& f! t& \

, Y+ y) S2 G2 IMdict词典DIY工具系列之三:MDX文本内容提取解析工具
( H0 N& |: r$ c' h  m! r/ x2 s5 g# B5 k$ i5 t0 S" T. P: f: d

  C( L4 |1 U# N, Y" h" J+ c5 z: w8 w; }
基于html网页解析,专用于MDX文本解析并自动生成MDX格式文本,生成的文件可直接压缩打包成词典;
# X' C! b# J9 L1 P& ]2 e! H1 X此工具可用来提取词典内容中的特定内容并,比如短语提取,音标提取等一切你想提取的内容。1 S' N* S# o7 W  Y6 y2 L% c

4 Q/ A0 [7 P# o% W" g3 N4 j0 [  ^4 o2 w6 z: z7 ~$ e
用法:$ z1 T4 C4 r; a7 {

$ I* i/ ]8 ^+ `3 k( f1 J比如下面这个网页标签:, ~# K! W8 c/ X' A( i
& \) Q' u5 y' |
<div class="explanation_item" id="d1234">4 k# W1 O- {) S) c* t4 Q' W

# }# Z* z( S: n: z/ `1 q$ b9 y6 n+ M7 B( }/ U
标签名为  div
# x; S4 I5 S$ V2 X4 y属性 有 class 和 id (还可能有别的属性)5 b9 D3 |; h  I8 H- [/ t( k3 X
其属性对应的值:class的是explanation_item ,  id 的是d1234;
1 j2 ~- l  y$ d. v+ H2 D9 n
; O8 S8 F+ {+ r7 [/ E3 a7 @3 g
5 p" Z7 Z& i5 ?6 `若想提取这个标签的内容:
/ h' p( ]7 V9 Y) S3 Q
0 V3 ^& `) J  h3 V# t7 O8 _' D需要输入三个值:div,class,explanation_item6 ^) {; |  a5 l% W# I9 A
          或者:div,id,d1234 : u7 A6 X' _% A9 B
- E: }, N, }; `% ]9 A3 E3 Q
还有可能只有标签名,比如<body>这个标签,那么在(tag_name)输入框输入:body,其余不两项不用输入,直接回车即可
5 @6 w9 G) w; }9 R, M
1 G3 [* F+ W) _  c! X) K7 A# e1 b* A
$ @- Z  G( s. H9 A5 b( a. V  ^4 o6 M& D. E+ Q2 s* @* v
输入方法:3 y1 Q5 g/ j/ X8 c% t3 c
+ x0 `' F4 X7 X0 |) S9 F: G' N
        Input source file name:(你的MDX文本文件名)
9 X$ a6 }. V! W, Z+ S& u        Input tag-name:div' A5 R5 g) _/ `; L- V
        Input tag-attribute:class
% \/ f* M, \: {0 y% o9 b) q        Input attribute-value:explanation_item
0 E! f0 N) C5 t+ T4 V: e# N& G0 x: I/ s; W/ r6 L/ {5 b

  c! Z- }  c: X# E# o$ U        Input source file name:(你的MDX文本文件名)
# x+ Q4 ~5 ~: ]4 K6 P        Input tag-name:div1 l. v0 M; q# V9 J0 a  p
        Input tag-attribute:id7 d/ n  [- L* F: E2 U7 e
        Input attribute-value:d12341 N5 I4 \% k, v  F
1 V' `, R$ I' d* c! u* w
如果没有属性,比如body
; \; |8 j! v- a- I3 c& x( S: c& x( _
# K) ^% K. ]6 O- v3 T. Z9 K$ k, j# i        Input source file name:(你的MDX文本文件名)6 i, {/ X, f/ x4 u# F/ _
        Input tag-name:body
, g  q  _9 W7 p1 Y        Input tag-attribute:(不输入,回车跳过)6 ^% l* U7 [% h- S( j: N2 }, r
        Input attribute-value:(不输入,回车跳过)
- v0 R( R+ M8 k+ G* R
) M) K3 K7 m( R; k; k3 X, `        OK。。。。" A+ o, z' G5 m7 I6 O$ K5 @* D
# {9 m) B; S9 J3 L

" F# a" \* k( f* @# y% \! k$ Y5 }7 m5 G% }, K1 M$ ^
+ _1 L( X) z5 h, I0 K
由于是逐个解析html, 所以速度不是那么快,但使用足够简便,很方便。
3 S6 F0 y' l. u% L3 h
; ?9 Q, J2 w; b

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?免费注册

x

本帖被以下淘专辑推荐:

该用户从未签到

发表于 2016-8-9 22:21:44 | 显示全部楼层
这是偶需要的工具,qiuhao1112老大 I love you

该用户从未签到

发表于 2016-8-15 22:17:38 | 显示全部楼层
下载回帖,回头慢慢学习怎么用,谢谢楼主无私分享

该用户从未签到

发表于 2016-8-20 23:33:19 | 显示全部楼层
谢谢楼主的分享!这个绝对要顶!!!
  • TA的每日心情
    开心
    2024-7-8 11:31
  • 签到天数: 1502 天

    [LV.Master]伴坛终老

    发表于 2016-8-21 16:17:34 | 显示全部楼层
    回头慢慢学习怎么用,谢谢楼主无私分享!

    该用户从未签到

    发表于 2016-8-31 14:26:12 | 显示全部楼层
    dddddddddddddddd
  • TA的每日心情
    奋斗
    昨天 23:29
  • 签到天数: 2005 天

    [LV.Master]伴坛终老

    发表于 2016-9-1 22:31:28 | 显示全部楼层
    谢谢楼主无私分享!

    该用户从未签到

    发表于 2016-9-26 08:39:29 | 显示全部楼层
    谢谢,这是MDICT的五个工具!

    该用户从未签到

    发表于 2016-10-12 21:59:22 | 显示全部楼层
    神器啊 多多益善

    该用户从未签到

    发表于 2017-1-6 14:44:31 | 显示全部楼层
    下载解压显示 文件错误  
  • TA的每日心情
    开心
    2025-5-5 09:28
  • 签到天数: 973 天

    [LV.10]以坛为家III

    发表于 2018-2-13 23:44:06 | 显示全部楼层
    求教:如果是要提取词典里面的例句的话,该如何用这个软件提取呢?谢谢
  • TA的每日心情
    开心
    2018-2-20 00:08
  • 签到天数: 11 天

    [LV.3]偶尔看看II

    发表于 2018-2-17 11:49:43 | 显示全部楼层
    自己学习试试下,非常好
  • TA的每日心情

    2021-10-23 19:58
  • 签到天数: 212 天

    [LV.7]常住居民III

    发表于 2020-2-9 06:46:52 | 显示全部楼层
    本帖最后由 lemonlab 于 2020-2-9 10:32 编辑 6 A3 M* ]/ O- T6 O
    1 _% w. D# r% R. T! a; O' L% D
    支持参数式命令行吗带空格类名怎么办: W. `9 P7 T- ]" C6 o4 O5 E- J& S
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2025-5-13 06:09 , Processed in 0.023340 second(s), 24 queries .

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表