掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 3860|回复: 16

[工具] Mdict词典DIY工具系列之三:MDX文本内容提取解析工具

[复制链接]

该用户从未签到

发表于 2016-8-8 22:30:18 | 显示全部楼层 |阅读模式
本帖最后由 qiuhao1112 于 2016-8-9 21:35 编辑 " N) ?7 C: w9 J% k" D0 D

0 \+ [0 B+ E% ^: S, g$ s% aMdict词典DIY工具系列之三:MDX文本内容提取解析工具6 F1 L& J$ j# w" ?! g* {
# f( m: O8 I2 ?4 y! ]$ o% ~
/ r* u3 p; V9 B  X
# l7 F3 l. o7 z
基于html网页解析,专用于MDX文本解析并自动生成MDX格式文本,生成的文件可直接压缩打包成词典;
. f3 Y$ t* G' v- x; f此工具可用来提取词典内容中的特定内容并,比如短语提取,音标提取等一切你想提取的内容。
- H. q9 x) u: M
7 V  o# {5 J6 {" N/ `
, `* m+ q0 |! {0 r* x0 ~' Q用法:
4 U+ F7 q' O8 Q) V) Q; K2 \# Q7 g/ p' S& D
比如下面这个网页标签:
+ j5 ~& w& c8 S5 \+ @+ l8 v5 Y- C( f
6 k8 y8 e5 U6 S<div class="explanation_item" id="d1234">$ `3 D2 g3 ]9 D+ J$ H. X
4 \" _( B( ~) j, G6 D' m

5 `" l5 ~8 t  v. L标签名为  div% N& A. ^9 L+ l, Y* m
属性 有 class 和 id (还可能有别的属性)
1 c# Y- u* W; b( ^3 `& |' M其属性对应的值:class的是explanation_item ,  id 的是d1234;$ [2 y3 Y7 Q, e/ j: Y/ |3 v4 H
) I; C! \# A  n
8 P: |4 c; r( p# V; p9 M
若想提取这个标签的内容:3 B5 Z% S1 L9 ?) m! k0 b3 q' M

/ z9 C+ B3 w, L; O" \, n2 e# m需要输入三个值:div,class,explanation_item
; B" `% P0 H  N4 i. n: [          或者:div,id,d1234 ( X1 h$ W' W8 Q- _+ {: Q2 E) S

3 F9 w+ k7 q& u: i还有可能只有标签名,比如<body>这个标签,那么在(tag_name)输入框输入:body,其余不两项不用输入,直接回车即可6 E- e0 B& N. Y8 e" X+ G. X

4 x) _/ e5 j. K3 p
/ ?' ]" s8 s, O- F
- E% n+ E) o4 y) B- D3 k输入方法:. @" _: ?! ]2 V/ }  c
: `9 k  l& l- ~" E" x- Y: S3 _
        Input source file name:(你的MDX文本文件名)2 ^, a1 q8 D9 c7 {: M$ @
        Input tag-name:div
  f  J# K: l$ T- z9 V! `        Input tag-attribute:class
& J2 w6 H* f7 G8 U        Input attribute-value:explanation_item( ~0 ]$ e7 Q  `6 e1 J9 `( _
4 [7 X* J1 l  V) H# R% t

+ s9 ?6 d) }8 i        Input source file name:(你的MDX文本文件名)$ b# |% h+ {0 }1 c( C
        Input tag-name:div
% H! P  E3 ~  O  ^) l7 t        Input tag-attribute:id) ?4 [6 h  N1 r
        Input attribute-value:d1234
1 ?+ t0 E' f$ {) Q+ o( B! L/ J* y% ~/ s
如果没有属性,比如body
9 u$ _4 B2 T7 \; S- x8 v2 D: [6 r+ i
3 ?) F* N) L, F/ f1 i        Input source file name:(你的MDX文本文件名)
% L1 B, J0 ?5 B5 U: L# F" \        Input tag-name:body6 J9 O1 F; ^! Y( o4 f8 |' O
        Input tag-attribute:(不输入,回车跳过)
+ ]6 V7 {; n, l7 {        Input attribute-value:(不输入,回车跳过)
" J6 t; t2 u! ^/ ]7 R. n0 j; Y1 J* x. i/ W, `! m% ^5 t
        OK。。。。
% |; u& z; R6 H, u- ?
4 E3 g0 n& S5 c0 R* Q1 l) A2 r
6 ]% J' g' H1 g% W3 u* d) J" x+ H$ B3 y( x

6 ^$ O" U& I* K/ p5 T5 D$ w由于是逐个解析html, 所以速度不是那么快,但使用足够简便,很方便。
* _; F/ o2 z5 H/ ^( a/ t3 p' v' X# K% h% N- W5 B

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?免费注册

x

本帖被以下淘专辑推荐:

该用户从未签到

发表于 2016-8-9 22:21:44 | 显示全部楼层
这是偶需要的工具,qiuhao1112老大 I love you

该用户从未签到

发表于 2016-8-15 22:17:38 | 显示全部楼层
下载回帖,回头慢慢学习怎么用,谢谢楼主无私分享

该用户从未签到

发表于 2016-8-20 23:33:19 | 显示全部楼层
谢谢楼主的分享!这个绝对要顶!!!
  • TA的每日心情
    开心
    1 小时前
  • 签到天数: 1439 天

    [LV.10]以坛为家III

    发表于 2016-8-21 16:17:34 | 显示全部楼层
    回头慢慢学习怎么用,谢谢楼主无私分享!

    该用户从未签到

    发表于 2016-8-31 14:26:12 | 显示全部楼层
    dddddddddddddddd
  • TA的每日心情
    奋斗
    昨天 21:46
  • 签到天数: 1732 天

    [LV.Master]伴坛终老

    发表于 2016-9-1 22:31:28 | 显示全部楼层
    谢谢楼主无私分享!

    该用户从未签到

    发表于 2016-9-26 08:39:29 | 显示全部楼层
    谢谢,这是MDICT的五个工具!

    该用户从未签到

    发表于 2016-10-12 21:59:22 | 显示全部楼层
    神器啊 多多益善

    该用户从未签到

    发表于 2017-1-6 14:44:31 | 显示全部楼层
    下载解压显示 文件错误  
  • TA的每日心情
    开心
    昨天 10:17
  • 签到天数: 929 天

    [LV.10]以坛为家III

    发表于 2018-2-13 23:44:06 | 显示全部楼层
    求教:如果是要提取词典里面的例句的话,该如何用这个软件提取呢?谢谢
  • TA的每日心情
    开心
    2018-2-20 00:08
  • 签到天数: 11 天

    [LV.3]偶尔看看II

    发表于 2018-2-17 11:49:43 | 显示全部楼层
    自己学习试试下,非常好
  • TA的每日心情

    2021-10-23 19:58
  • 签到天数: 212 天

    [LV.7]常住居民III

    发表于 2020-2-9 06:46:52 | 显示全部楼层
    本帖最后由 lemonlab 于 2020-2-9 10:32 编辑 ) j- D. `) s: T) x
    - t9 G1 K7 Z) M9 v
    支持参数式命令行吗带空格类名怎么办: q  o# f  r. i: w3 Z% a
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-4-19 09:29 , Processed in 0.056697 second(s), 9 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表