qiuhao1112 发表于 2016-8-8 22:30:18

Mdict词典DIY工具系列之三:MDX文本内容提取解析工具

本帖最后由 qiuhao1112 于 2016-8-9 21:35 编辑

Mdict词典DIY工具系列之三:MDX文本内容提取解析工具



基于html网页解析,专用于MDX文本解析并自动生成MDX格式文本,生成的文件可直接压缩打包成词典;
此工具可用来提取词典内容中的特定内容并,比如短语提取,音标提取等一切你想提取的内容。


用法:

比如下面这个网页标签:

<div class="explanation_item" id="d1234">


标签名为div
属性 有 class 和 id (还可能有别的属性)
其属性对应的值:class的是explanation_item ,id 的是d1234;


若想提取这个标签的内容:

需要输入三个值:div,class,explanation_item
          或者:div,id,d1234

还有可能只有标签名,比如<body>这个标签,那么在(tag_name)输入框输入:body,其余不两项不用输入,直接回车即可



输入方法:

        Input source file name:(你的MDX文本文件名)
        Input tag-name:div
        Input tag-attribute:class
        Input attribute-value:explanation_item


        Input source file name:(你的MDX文本文件名)
        Input tag-name:div
        Input tag-attribute:id
        Input attribute-value:d1234

如果没有属性,比如body

        Input source file name:(你的MDX文本文件名)
        Input tag-name:body
        Input tag-attribute:(不输入,回车跳过)
        Input attribute-value:(不输入,回车跳过)

        OK。。。。




由于是逐个解析html, 所以速度不是那么快,但使用足够简便,很方便。

xzsbk 发表于 2016-8-8 22:35:37

谢谢分享

wa1314159 发表于 2016-8-9 22:21:44

这是偶需要的工具,qiuhao1112老大 I love you

cindy_2016 发表于 2016-8-15 22:17:38

下载回帖,回头慢慢学习怎么用,谢谢楼主无私分享

dingweifengye 发表于 2016-8-20 23:33:19

谢谢楼主的分享!这个绝对要顶!!!

xzqxq 发表于 2016-8-21 16:17:34

回头慢慢学习怎么用,谢谢楼主无私分享!

wb9730828 发表于 2016-8-31 14:26:12

dddddddddddddddd

snake1 发表于 2016-9-1 22:31:28

谢谢楼主无私分享!

eatingfishes 发表于 2016-9-5 22:15:21

谢谢楼主

lydmom 发表于 2016-9-26 08:39:29

谢谢,这是MDICT的五个工具!

东方翻译 发表于 2016-10-12 18:27:43

辛苦了!

tooooogle 发表于 2016-10-12 21:59:22

神器啊 多多益善

vik 发表于 2017-1-6 14:44:31

下载解压显示 文件错误

charlestsang 发表于 2018-2-13 23:44:06

求教:如果是要提取词典里面的例句的话,该如何用这个软件提取呢?谢谢

lzhmhznr1 发表于 2018-2-17 11:49:43

自己学习试试下,非常好

lemonlab 发表于 2020-2-9 06:46:52

本帖最后由 lemonlab 于 2020-2-9 10:32 编辑

支持参数式命令行吗带空格类名怎么办

zbs123 发表于 2021-5-18 07:40:38

好的东西
页: [1]
查看完整版本: Mdict词典DIY工具系列之三:MDX文本内容提取解析工具