掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 5333|回复: 16

[工具] Mdict词典DIY工具系列之三:MDX文本内容提取解析工具

[复制链接]

该用户从未签到

发表于 2016-8-8 22:30:18 | 显示全部楼层 |阅读模式
本帖最后由 qiuhao1112 于 2016-8-9 21:35 编辑 : D) O" m2 h. Q& ^0 T/ l- @! w+ m1 ~

0 N3 s8 e- E6 S# j& qMdict词典DIY工具系列之三:MDX文本内容提取解析工具# j/ b5 b% s- Y# b9 s6 l- B
; |+ S2 j3 z* N9 ~) [0 S( T7 p4 M/ L
1 o! ~* @* }2 O; m; D6 o

: G, z4 v. R$ C5 H# ]. w基于html网页解析,专用于MDX文本解析并自动生成MDX格式文本,生成的文件可直接压缩打包成词典;
& f2 y4 _4 C& N( F: s/ q0 G此工具可用来提取词典内容中的特定内容并,比如短语提取,音标提取等一切你想提取的内容。) Y2 `9 L) ^7 D# i

9 E: C% Z2 b* P; S
8 X0 [, G, |, p& I$ f# |4 z用法:1 l7 f& W, n; E$ t
/ r7 {' q5 e: V: S* x; A, w
比如下面这个网页标签:! M9 Y5 W& n, m5 i* C) X) t9 e1 k
( O# L  @( }; w7 d* j, G
<div class="explanation_item" id="d1234">8 \0 z! D: R/ v/ h
5 H2 {7 K' m& w: ?# c
! T  w, o6 q/ I! |
标签名为  div. R, c/ u! [3 I
属性 有 class 和 id (还可能有别的属性)# L6 Y3 `; C- M- h' z
其属性对应的值:class的是explanation_item ,  id 的是d1234;
$ Y' r- D0 D  H, p, b) J- t7 ^2 X+ M% T% H) Z5 ]/ G$ k# s7 r0 g

/ Y, G: I2 l  {3 {7 P9 s1 g若想提取这个标签的内容:
% b- b7 ?5 n2 u) J# O
! j. m4 W! W& H7 |! |需要输入三个值:div,class,explanation_item
7 [' d2 q: @, W6 S' T          或者:div,id,d1234 5 I0 W  y0 U/ \& R+ B+ r/ S% O$ L6 H, h

% p, N$ L+ M$ d4 v0 ?' h还有可能只有标签名,比如<body>这个标签,那么在(tag_name)输入框输入:body,其余不两项不用输入,直接回车即可
/ K1 m! k  {7 `! n0 e" {. Q5 S( J4 I! N

  _# a) K. |3 e& P* `$ e0 p
6 Z8 h- x: k8 {9 {" N- W6 v输入方法:/ S; e4 m4 @' N4 M1 J6 W3 [% ~
) e% t8 w- d' U
        Input source file name:(你的MDX文本文件名)
6 ^  N0 q# }" ]# }) w# n/ c+ g        Input tag-name:div
( W0 u+ W& a# @9 K9 R9 {- B" d% r        Input tag-attribute:class5 F: c$ M. ]: t2 }
        Input attribute-value:explanation_item
1 V4 O- F7 k5 b1 ]- ]. h- M, w+ z! x  j$ [: R& v0 F; O- [/ r+ p
; |3 F. J) m& W& t! z+ t+ r, C
        Input source file name:(你的MDX文本文件名)1 }4 k; X$ Y8 h6 \! ?
        Input tag-name:div
% }) R. f* Q$ M8 c& C: j) J        Input tag-attribute:id* N4 S3 {  g& w( [
        Input attribute-value:d1234/ C& e+ Q! X; S& {& \  b! D" ?+ U9 L
% u* H9 D  ]) a" x, N# L1 O! y
如果没有属性,比如body
3 L# O. o0 b; j0 N: ?0 Z
- f: e3 X8 [6 _' p4 _! L0 c4 b        Input source file name:(你的MDX文本文件名)
0 k; y3 P& s" Y  n+ |9 L+ E" A9 Z        Input tag-name:body
7 j0 Z: @( C6 a4 b$ u        Input tag-attribute:(不输入,回车跳过), L, D! i2 \* N% N
        Input attribute-value:(不输入,回车跳过)
) Q1 V( _2 {( G) {" b* @% z" w+ F
" L0 s- X0 e! s+ E& o4 q1 B+ o        OK。。。。$ r% I& ]& r+ l2 j! O

0 I; C  D9 o6 ^, r* F" X' J* }" @. [) ]

3 P- ]3 h  X! x: Q( r; f1 T4 |) c8 G' T
由于是逐个解析html, 所以速度不是那么快,但使用足够简便,很方便。5 J) P( x' U3 i1 s
# C; y! V2 h$ Q! L

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?免费注册

x

本帖被以下淘专辑推荐:

该用户从未签到

发表于 2016-8-9 22:21:44 | 显示全部楼层
这是偶需要的工具,qiuhao1112老大 I love you

该用户从未签到

发表于 2016-8-15 22:17:38 | 显示全部楼层
下载回帖,回头慢慢学习怎么用,谢谢楼主无私分享

该用户从未签到

发表于 2016-8-20 23:33:19 | 显示全部楼层
谢谢楼主的分享!这个绝对要顶!!!
  • TA的每日心情
    开心
    2024-7-8 11:31
  • 签到天数: 1502 天

    [LV.Master]伴坛终老

    发表于 2016-8-21 16:17:34 | 显示全部楼层
    回头慢慢学习怎么用,谢谢楼主无私分享!

    该用户从未签到

    发表于 2016-8-31 14:26:12 | 显示全部楼层
    dddddddddddddddd
  • TA的每日心情
    奋斗
    昨天 23:29
  • 签到天数: 2005 天

    [LV.Master]伴坛终老

    发表于 2016-9-1 22:31:28 | 显示全部楼层
    谢谢楼主无私分享!

    该用户从未签到

    发表于 2016-9-26 08:39:29 | 显示全部楼层
    谢谢,这是MDICT的五个工具!

    该用户从未签到

    发表于 2016-10-12 21:59:22 | 显示全部楼层
    神器啊 多多益善

    该用户从未签到

    发表于 2017-1-6 14:44:31 | 显示全部楼层
    下载解压显示 文件错误  
  • TA的每日心情
    开心
    2025-5-5 09:28
  • 签到天数: 973 天

    [LV.10]以坛为家III

    发表于 2018-2-13 23:44:06 | 显示全部楼层
    求教:如果是要提取词典里面的例句的话,该如何用这个软件提取呢?谢谢
  • TA的每日心情
    开心
    2018-2-20 00:08
  • 签到天数: 11 天

    [LV.3]偶尔看看II

    发表于 2018-2-17 11:49:43 | 显示全部楼层
    自己学习试试下,非常好
  • TA的每日心情

    2021-10-23 19:58
  • 签到天数: 212 天

    [LV.7]常住居民III

    发表于 2020-2-9 06:46:52 | 显示全部楼层
    本帖最后由 lemonlab 于 2020-2-9 10:32 编辑
    $ t* N" x; j! y- ]2 G4 T6 {. i4 Q9 S
    支持参数式命令行吗带空格类名怎么办) D; c' N& @! ~/ Z/ c$ a
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2025-5-13 19:31 , Processed in 0.024113 second(s), 24 queries .

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表