掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 7941|回复: 16

[工具] Mdict词典DIY工具系列之三:MDX文本内容提取解析工具

[复制链接]

该用户从未签到

发表于 2016-8-8 22:30:18 | 显示全部楼层 |阅读模式
本帖最后由 qiuhao1112 于 2016-8-9 21:35 编辑 & ^$ I2 Z: W( B9 T) W

. c1 O* t% V8 v9 b1 ^$ E  X& wMdict词典DIY工具系列之三:MDX文本内容提取解析工具, a5 I( y( o  s% x5 k" R* c1 {

1 a  F. t0 n; O" t0 l0 N- S9 `) m+ E0 t

4 g  i8 i* k7 [. t% j基于html网页解析,专用于MDX文本解析并自动生成MDX格式文本,生成的文件可直接压缩打包成词典;- i. y; `1 ]8 [
此工具可用来提取词典内容中的特定内容并,比如短语提取,音标提取等一切你想提取的内容。6 w2 ^: _4 V' }2 l" `) C

5 s4 }; _8 i8 V8 X3 {- P: ]" z
3 [( a2 x& n+ e- B, D+ f用法:
. b: m3 i6 A2 b  P6 a4 B
' `: f( q6 w) ?比如下面这个网页标签:, j* Z: f4 b3 ~2 H6 A! m

; r7 ]" i" x& o8 {) N' ^. E4 m<div class="explanation_item" id="d1234">
! h+ i- ]& E; G  r+ `# P* F) F4 u0 J1 ?% e1 y
! t; X* Y  N* `0 t& c$ m+ r/ `7 `
标签名为  div
' z8 Q; p+ k8 z! Z' T# I: c' O属性 有 class 和 id (还可能有别的属性)8 {. \8 M5 Z, [% K# F
其属性对应的值:class的是explanation_item ,  id 的是d1234;( ?6 i7 G7 i' n9 B
( @3 F6 g2 }+ L1 i; J/ m
' _  w  j, U$ ]- T' F1 p! ?# _% t# H
若想提取这个标签的内容:2 p) k# U1 w7 N& V6 }
4 q! ?( u3 L) P! ]. C7 v9 J' F
需要输入三个值:div,class,explanation_item
' X% @, R8 K% h9 }9 [          或者:div,id,d1234
- Z2 N, @: m8 A' k( \( t. Y
& a! {1 M- e6 F& x/ ?3 p还有可能只有标签名,比如<body>这个标签,那么在(tag_name)输入框输入:body,其余不两项不用输入,直接回车即可- D" W' i% r1 m) n1 E
/ ?( l% S0 v7 k. `3 I8 _
3 n" _4 r% _2 C( y: w0 B  z
+ x8 S+ ~! |) d8 v" B& w; r2 Z
输入方法:
3 L* p/ k( O/ A8 g" c" Y
3 ?" g4 e" V1 Y) ?. I        Input source file name:(你的MDX文本文件名)
0 D) l7 q/ y1 K7 i: ]' _        Input tag-name:div/ A$ F7 M' A, [9 ]  ^
        Input tag-attribute:class
) o4 k! x- n3 s$ I' n8 r3 o        Input attribute-value:explanation_item
# t8 k9 i" K: |: T
' s, u: ^; N) {3 h
8 f, N/ f) A4 X! D. H# b        Input source file name:(你的MDX文本文件名)
/ \9 L" C. a# U% R        Input tag-name:div: b& g- u8 U. A' m' e# E
        Input tag-attribute:id3 y! Q  C# ]( r; a
        Input attribute-value:d12342 g9 W4 j! g: x

+ C9 c3 P* w" D3 H9 {7 D如果没有属性,比如body
! g. T8 q6 e/ W% U% R5 L$ v! S7 b# Y5 O  A. p8 P  d6 Y
        Input source file name:(你的MDX文本文件名)$ e/ S) n) D& g7 z7 @- s4 x" e
        Input tag-name:body
) \8 t- a, V# }( I0 m        Input tag-attribute:(不输入,回车跳过)1 H$ X  n# y. F4 P% y
        Input attribute-value:(不输入,回车跳过)
/ N& \3 P0 Q+ B* l) h6 Y& R1 _8 Q* A6 E
        OK。。。。
( X4 x7 o1 K" k# f6 Q0 C# b6 O# z- [7 s* n

  U% C; |$ z4 I
2 w. ~& g- R! Z; j8 N+ c
5 m" \( s: E9 b+ d由于是逐个解析html, 所以速度不是那么快,但使用足够简便,很方便。
% B+ J  q- }( v% t3 h5 Y1 ]  B/ I! S" z2 k

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?免费注册

x

本帖被以下淘专辑推荐:

该用户从未签到

发表于 2016-8-9 22:21:44 | 显示全部楼层
这是偶需要的工具,qiuhao1112老大 I love you

该用户从未签到

发表于 2016-8-15 22:17:38 | 显示全部楼层
下载回帖,回头慢慢学习怎么用,谢谢楼主无私分享

该用户从未签到

发表于 2016-8-20 23:33:19 | 显示全部楼层
谢谢楼主的分享!这个绝对要顶!!!
  • TA的每日心情
    开心
    2024-7-8 11:31
  • 签到天数: 1502 天

    [LV.Master]伴坛终老

    发表于 2016-8-21 16:17:34 | 显示全部楼层
    回头慢慢学习怎么用,谢谢楼主无私分享!

    该用户从未签到

    发表于 2016-8-31 14:26:12 | 显示全部楼层
    dddddddddddddddd
  • TA的每日心情
    奋斗
    2025-11-16 23:23
  • 签到天数: 2044 天

    [LV.Master]伴坛终老

    发表于 2016-9-1 22:31:28 | 显示全部楼层
    谢谢楼主无私分享!

    该用户从未签到

    发表于 2016-9-26 08:39:29 | 显示全部楼层
    谢谢,这是MDICT的五个工具!

    该用户从未签到

    发表于 2016-10-12 21:59:22 | 显示全部楼层
    神器啊 多多益善

    该用户从未签到

    发表于 2017-1-6 14:44:31 | 显示全部楼层
    下载解压显示 文件错误  
  • TA的每日心情
    开心
    2026-5-3 09:50
  • 签到天数: 983 天

    [LV.10]以坛为家III

    发表于 2018-2-13 23:44:06 | 显示全部楼层
    求教:如果是要提取词典里面的例句的话,该如何用这个软件提取呢?谢谢
  • TA的每日心情
    开心
    2018-2-20 00:08
  • 签到天数: 11 天

    [LV.3]偶尔看看II

    发表于 2018-2-17 11:49:43 | 显示全部楼层
    自己学习试试下,非常好
  • TA的每日心情

    2021-10-23 19:58
  • 签到天数: 212 天

    [LV.7]常住居民III

    发表于 2020-2-9 06:46:52 | 显示全部楼层
    本帖最后由 lemonlab 于 2020-2-9 10:32 编辑
    ( F, `4 ]" s. [; H- v
    # J4 p' U, |  X$ n% \( W支持参数式命令行吗带空格类名怎么办
    4 ~$ M* d8 @/ r' ~+ u
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2026-6-20 11:21 , Processed in 0.020708 second(s), 24 queries .

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表