掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 5491|回复: 16

[工具] Mdict词典DIY工具系列之三:MDX文本内容提取解析工具

[复制链接]

该用户从未签到

发表于 2016-8-8 22:30:18 | 显示全部楼层 |阅读模式
本帖最后由 qiuhao1112 于 2016-8-9 21:35 编辑
; x; E3 ^$ l: e% Q
# I  t0 A0 @+ \Mdict词典DIY工具系列之三:MDX文本内容提取解析工具7 N# d8 i/ E* v0 }! x4 v( u

4 }- g9 q5 N3 D$ x3 i8 i% U& R- Y" n! L5 J1 s4 G. S* l/ F

+ A: Y+ F4 h! O! ], D* n5 Y基于html网页解析,专用于MDX文本解析并自动生成MDX格式文本,生成的文件可直接压缩打包成词典;# g! N5 z6 x8 |" ^
此工具可用来提取词典内容中的特定内容并,比如短语提取,音标提取等一切你想提取的内容。
+ h4 _" }- W4 l3 \6 z$ D
: R( j" m$ U& G6 e" y3 ?0 p; I8 t! @( E+ L: ^, c
用法:
8 o$ u3 b9 \+ r+ f( s4 N0 W2 Y
9 L/ O8 Q, O0 I6 g( R比如下面这个网页标签:
1 {# M! x4 D  i# [0 i4 X+ u
1 y! @, [$ @4 e6 d& q" n<div class="explanation_item" id="d1234">
, }7 ?' K" Z- `7 n) S3 g" I4 h9 j" h! Z3 T" V) W, n
; ]2 m6 b! B& N( ?
标签名为  div! t  l9 R3 c4 Q) Q: @- s
属性 有 class 和 id (还可能有别的属性)) V/ m/ R& Z: W) u; m
其属性对应的值:class的是explanation_item ,  id 的是d1234;# @$ D1 s0 }4 e: ~

1 m8 [: @2 M2 x1 M/ I6 T8 l( M/ n0 }6 _  e8 ?$ |; A- e6 u6 \  k
若想提取这个标签的内容:0 Z& ?' g% [, k6 t, ~0 Q' v

: X7 n2 t5 Z9 \  m6 i需要输入三个值:div,class,explanation_item4 v( @! t: s% M( w# E% X
          或者:div,id,d1234 * @2 N4 ^2 a9 ^7 O: C
- C" g5 {3 G* `  F: Q
还有可能只有标签名,比如<body>这个标签,那么在(tag_name)输入框输入:body,其余不两项不用输入,直接回车即可
, m) \$ y1 j6 G9 ~
5 \9 v3 Z3 X' t( |' d
! d7 \8 v8 |1 M' a! |+ d% |: y7 E; p1 ~- ?3 i( W. m% C
输入方法:
/ i$ A, s  K" i% z4 i3 f3 q! k
; B$ U$ G! T$ [: o' U: L, |7 b; q6 }0 Q& b        Input source file name:(你的MDX文本文件名)$ |6 w9 P) g* _2 J* |# t" X% d
        Input tag-name:div. \4 Y1 o! D' |. I5 w* p, _
        Input tag-attribute:class
, J/ I. t2 g6 D+ ^        Input attribute-value:explanation_item
% p# D9 D3 E4 J0 h
7 }% b& o8 L! N( I# W7 E, v5 X6 b/ X( C% Z3 r# ]2 @
        Input source file name:(你的MDX文本文件名)
  y$ p9 c7 c/ ?- N3 Y        Input tag-name:div
$ y) n( F( c% y5 _- c$ d7 a; z        Input tag-attribute:id# n; T+ t/ v2 P4 m% X
        Input attribute-value:d12344 {+ x; }' @0 K) W$ _

7 z6 p5 x9 c1 d4 j, t如果没有属性,比如body
2 i: e5 q$ c) B+ k5 u3 d+ Y5 c
) \' @2 \* g  I: w# m        Input source file name:(你的MDX文本文件名)+ N% V( @' Y7 k( y6 v
        Input tag-name:body: \* d& r6 B4 {% A# T7 U% T. G& r
        Input tag-attribute:(不输入,回车跳过)2 s! s4 X) o0 |4 D4 i: _% |9 K) a
        Input attribute-value:(不输入,回车跳过)& T/ f5 S7 O8 ~3 m% W
0 _3 p: n8 S3 i+ ?
        OK。。。。
+ W" l1 P- s- w* ]* p( w" F* n4 v, D3 _  {
& h+ R9 m- n- B/ e. w

0 s& C* b  P% z- F2 @% ^% E) ?3 {5 ?. d* B! X1 g& z
由于是逐个解析html, 所以速度不是那么快,但使用足够简便,很方便。
  g0 q2 K( ^/ U" h) n" l" O: c" \. Q' T3 g- s

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?免费注册

x

本帖被以下淘专辑推荐:

该用户从未签到

发表于 2016-8-9 22:21:44 | 显示全部楼层
这是偶需要的工具,qiuhao1112老大 I love you

该用户从未签到

发表于 2016-8-15 22:17:38 | 显示全部楼层
下载回帖,回头慢慢学习怎么用,谢谢楼主无私分享

该用户从未签到

发表于 2016-8-20 23:33:19 | 显示全部楼层
谢谢楼主的分享!这个绝对要顶!!!
  • TA的每日心情
    开心
    2024-7-8 11:31
  • 签到天数: 1502 天

    [LV.Master]伴坛终老

    发表于 2016-8-21 16:17:34 | 显示全部楼层
    回头慢慢学习怎么用,谢谢楼主无私分享!

    该用户从未签到

    发表于 2016-8-31 14:26:12 | 显示全部楼层
    dddddddddddddddd
  • TA的每日心情
    奋斗
    1 小时前
  • 签到天数: 2039 天

    [LV.Master]伴坛终老

    发表于 2016-9-1 22:31:28 | 显示全部楼层
    谢谢楼主无私分享!

    该用户从未签到

    发表于 2016-9-26 08:39:29 | 显示全部楼层
    谢谢,这是MDICT的五个工具!

    该用户从未签到

    发表于 2016-10-12 21:59:22 | 显示全部楼层
    神器啊 多多益善

    该用户从未签到

    发表于 2017-1-6 14:44:31 | 显示全部楼层
    下载解压显示 文件错误  
  • TA的每日心情
    开心
    2025-6-18 20:22
  • 签到天数: 981 天

    [LV.10]以坛为家III

    发表于 2018-2-13 23:44:06 | 显示全部楼层
    求教:如果是要提取词典里面的例句的话,该如何用这个软件提取呢?谢谢
  • TA的每日心情
    开心
    2018-2-20 00:08
  • 签到天数: 11 天

    [LV.3]偶尔看看II

    发表于 2018-2-17 11:49:43 | 显示全部楼层
    自己学习试试下,非常好
  • TA的每日心情

    2021-10-23 19:58
  • 签到天数: 212 天

    [LV.7]常住居民III

    发表于 2020-2-9 06:46:52 | 显示全部楼层
    本帖最后由 lemonlab 于 2020-2-9 10:32 编辑
    % N1 n& c4 W2 W: n
    9 P) F+ T1 Z( a! @0 S, B5 Z支持参数式命令行吗带空格类名怎么办
    % i2 e) J  X, |0 H
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2025-6-27 23:20 , Processed in 0.021144 second(s), 24 queries .

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表