掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 5493|回复: 16

[工具] Mdict词典DIY工具系列之三:MDX文本内容提取解析工具

[复制链接]

该用户从未签到

发表于 2016-8-8 22:30:18 | 显示全部楼层 |阅读模式
本帖最后由 qiuhao1112 于 2016-8-9 21:35 编辑 # u' ]1 O6 q1 {% g' U

" m- J! [* V, i6 |% xMdict词典DIY工具系列之三:MDX文本内容提取解析工具# p. _4 }* q3 S; g6 `1 s1 q8 {; l: H

# Z# W) a( O5 b5 U  G% I; {% K. [! B
* E7 }! Q3 v4 r6 Z3 F
基于html网页解析,专用于MDX文本解析并自动生成MDX格式文本,生成的文件可直接压缩打包成词典;! E5 h1 G& j1 B; I- }/ V
此工具可用来提取词典内容中的特定内容并,比如短语提取,音标提取等一切你想提取的内容。6 G3 H4 J! L8 c" J# u+ k
% _/ B/ ]- y% `0 |

  P- \7 ~( Z. V, U用法:! {# x9 n# N  M. i
. a) Y6 G7 s- D) Y1 q' p+ U
比如下面这个网页标签:, L: a( A9 v( M( X  E  k6 M& B0 A

& t6 I; M$ O1 E3 G<div class="explanation_item" id="d1234">* i  w+ H) g6 I5 F$ e/ X

6 }/ _& A3 h8 Z4 I8 U+ [* u1 u) E6 K0 _6 y. M/ {
标签名为  div
2 g, F( q4 ^' y1 p8 C1 ^$ [* Y; J& ]属性 有 class 和 id (还可能有别的属性)
4 t/ N( F4 ~& n) P/ t! {其属性对应的值:class的是explanation_item ,  id 的是d1234;) X$ z& G  }2 a- O
5 k% x( s- c" K/ f" r, ?4 L: g
9 _9 P% ^! q8 H# {+ e% g. a. i
若想提取这个标签的内容:
6 K" m! B  X) c9 H# [2 L; k4 v7 J$ ]6 c- U$ f6 f# K( N5 J
需要输入三个值:div,class,explanation_item7 c, @: `# t' U7 r
          或者:div,id,d1234
, r! Z5 Y1 B+ T3 W4 Y; v, ?9 u, S0 E6 ~) x! a0 T9 \
还有可能只有标签名,比如<body>这个标签,那么在(tag_name)输入框输入:body,其余不两项不用输入,直接回车即可% N  @1 B4 ]! Q6 W7 x, O
# E% C' `3 N. E4 g

& g4 A3 U* |. ^' S* g
" e" C( p+ X6 T输入方法:6 e; F6 L1 O* I# \9 Y2 Z& w

* r4 G& |4 y( ~$ L* Q        Input source file name:(你的MDX文本文件名)
2 V! O% T9 H% x  f% w% s        Input tag-name:div
' M3 M7 {* P, l% i6 O        Input tag-attribute:class' m& j2 j, `# |9 C4 I$ Q& X
        Input attribute-value:explanation_item8 r" Q3 g! ^2 k) \
0 B8 \: r8 f3 b. T
+ r, \9 `5 Y# N4 a. _$ _. |; m
        Input source file name:(你的MDX文本文件名)2 v6 h2 z) L0 C2 M9 X8 J) l# z
        Input tag-name:div! K8 q/ I/ h; ~4 X8 H# g. }6 q1 T
        Input tag-attribute:id
4 i! q* J5 L$ e        Input attribute-value:d1234) a( g6 k4 A2 d2 f

( {' J: C+ l! S2 B如果没有属性,比如body+ G% r) J6 J+ g) J( {

+ ?' s2 Q9 D; J- x4 q        Input source file name:(你的MDX文本文件名)" x: I( _; S& _! X2 T& Q! @% g* e
        Input tag-name:body
7 Y: R4 I* f. O9 C* `0 |        Input tag-attribute:(不输入,回车跳过)* i6 S) Z: G! C# {
        Input attribute-value:(不输入,回车跳过)0 {# q- g! g1 p, W2 I

- z" P) V) u) |' v0 \; v% E        OK。。。。
( ]/ t+ W. p' i/ g# G
  ?  j# O3 n  W4 u1 }' y
" u6 p6 v5 {! x2 p1 {/ b: z" B" ]7 M' @' W

+ f2 L- I8 h6 C0 h/ `% P由于是逐个解析html, 所以速度不是那么快,但使用足够简便,很方便。
, ^/ g  y! q, J( c; r0 {
% n) L1 X+ }4 U- p. a0 c

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?免费注册

x

本帖被以下淘专辑推荐:

该用户从未签到

发表于 2016-8-9 22:21:44 | 显示全部楼层
这是偶需要的工具,qiuhao1112老大 I love you

该用户从未签到

发表于 2016-8-15 22:17:38 | 显示全部楼层
下载回帖,回头慢慢学习怎么用,谢谢楼主无私分享

该用户从未签到

发表于 2016-8-20 23:33:19 | 显示全部楼层
谢谢楼主的分享!这个绝对要顶!!!
  • TA的每日心情
    开心
    2024-7-8 11:31
  • 签到天数: 1502 天

    [LV.Master]伴坛终老

    发表于 2016-8-21 16:17:34 | 显示全部楼层
    回头慢慢学习怎么用,谢谢楼主无私分享!

    该用户从未签到

    发表于 2016-8-31 14:26:12 | 显示全部楼层
    dddddddddddddddd
  • TA的每日心情
    奋斗
    昨天 21:27
  • 签到天数: 2039 天

    [LV.Master]伴坛终老

    发表于 2016-9-1 22:31:28 | 显示全部楼层
    谢谢楼主无私分享!

    该用户从未签到

    发表于 2016-9-26 08:39:29 | 显示全部楼层
    谢谢,这是MDICT的五个工具!

    该用户从未签到

    发表于 2016-10-12 21:59:22 | 显示全部楼层
    神器啊 多多益善

    该用户从未签到

    发表于 2017-1-6 14:44:31 | 显示全部楼层
    下载解压显示 文件错误  
  • TA的每日心情
    开心
    2025-6-18 20:22
  • 签到天数: 981 天

    [LV.10]以坛为家III

    发表于 2018-2-13 23:44:06 | 显示全部楼层
    求教:如果是要提取词典里面的例句的话,该如何用这个软件提取呢?谢谢
  • TA的每日心情
    开心
    2018-2-20 00:08
  • 签到天数: 11 天

    [LV.3]偶尔看看II

    发表于 2018-2-17 11:49:43 | 显示全部楼层
    自己学习试试下,非常好
  • TA的每日心情

    2021-10-23 19:58
  • 签到天数: 212 天

    [LV.7]常住居民III

    发表于 2020-2-9 06:46:52 | 显示全部楼层
    本帖最后由 lemonlab 于 2020-2-9 10:32 编辑 / W  w  ^. Y# n+ d! ?0 W# b

    0 ^$ h: ^) W- p. a7 u* p支持参数式命令行吗带空格类名怎么办
    ) @" A; O$ @( J& z* K
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2025-6-28 04:36 , Processed in 0.023471 second(s), 24 queries .

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表