19730712 发表于 2013-11-28 09:26:19

这个可以把词库任意组合啦!无敌呀!

louislaolu 发表于 2013-11-28 12:36:48

谢谢楼主分享,让我也试试吧。

sxingbai 发表于 2013-11-28 21:27:54

几天没上,大神已更新了这么多次,辛苦了
想要您的最新版,可以吗?

guokhan 发表于 2013-11-29 12:49:07

软件真好,对我帮助很大!希望老大分享,体验新版使用的快感!

Oeasy 发表于 2013-11-30 09:50:33

本帖最后由 Oeasy 于 2013-11-30 10:02 编辑


首先感谢楼主{:4_104:} ,提供了这么好的工具,谁用谁知道。节省了大量的时间,以前我都是用Excel来合并词条,很费劲,还有内容丢失的情况(因为Excel一个单元格里的内容有长度限制)。不过人心不足蛇吞象,我们想要的总是更多、更好。{:5_227:} 不知道可不可以添加下面的功能。

说明,下面我用到了三个有“名”的txt。
src_1.txt,mdx源文件1;
src_2.txt,mdx源文件2;
src_result.txt,最终(想)得到的txt,keywords为src_2.txt,条目内容为src_1.txt+src_2.txt对应条目下的内容。
========================================================================
有src_1.txt、src_2.txt这样两个mdx源文件,其中
src_1.txt

A
A_CONTENT_src_1
</>
B
B_CONTENT_src_1
</>
C
C_CONTENT_src_1
</>
D
D_CONTENT_src_1
</>


src_2.txt

B
B_CONTENT_src_2
</>
D
D_CONTENT_src_2
</>


我想得到这样一个mdx源文件
src_result.txt

B
B_CONTENT_src_1
B_CONTENT_src_2
</>
D
D_CONTENT_src_1
D_CONTENT_src_2
</>


目前我的处理方法是,src_1.txt与src_2.txt合并(就是复制粘贴到一个文件里啦),然后利用Dotext的合并词条功能,得到

A
A_CONTENT_src_1
</>
B
B_CONTENT_src_1
B_CONTENT_src_2
</>
C
C_CONTENT_src_1
</>
D
D_CONTENT_src_1
D_CONTENT_src_2
</>

然后利用src_2.txt里原有的一些标记性文字,删除不含src_2.txt内容的词条。最后也算可以得到src_result.txt。
这其实就是mdx源文件的合并、取差、筛选等等。
========================================================================
说说这个idea有什么用。
一、
src_2.txt可以是一个list性质的mdx,比如

生词1
随便什么内容1
</>
生词2
随便什么内容2
</>

src_1.txt可以是某本双解词典。

利用上面的操作,就从src_1.txt提取出了生词1、生词2的词条(内容),做成一个mdx,时常阅读、复习,可算是升级版本的“生词本”(单词本)。
二、
src_2.txt可以是一本小型的词典,比如
外研社现代法汉汉法词典
src_1.txt则是chigre的【2013.05.27】法语发音库(121,310检索项, 实际90,626词条)
https://pdawiki.com/forum/thread-10685-1-1.html

利用上面的操作,src_result.txt就是有真人语音的《现代法汉汉法词典》了。

三、
一、二的组合情况。
========================================================================
说了这么多废话,跟Dotext什么关系呢?
我上面那一堆,核心就是想得到src_1.txt里keyword为B、D的条目,

src_1.txt

A
A_CONTENT_src_1
</>
B
B_CONTENT_src_1
</>
C
C_CONTENT_src_1
</>
D
D_CONTENT_src_1
</>

提取条件是

B
D

提取结果是
src_1_extract.txt

B
B_CONTENT_src_1
</>
D
D_CONTENT_src_1
</>

Bingo!
不知道能不能给RegEx Dotext加上这个功能,或者说已经可以实现,但是我没摸索到?{:4_112:}
再次感谢楼主。{:10_244:}

ok927 发表于 2013-11-30 11:07:34

谢谢老大。我想要新版。我的邮箱:[email protected]

sunsmile23 发表于 2013-11-30 13:37:17

本帖最后由 sunsmile23 于 2013-11-30 13:43 编辑

mdx fan 们,O常委是本坛目前所见的知识储备多、勤奋好学又热心肠的人,我等若能有他一半,何愁解决不了自己的问题。

**所见略同。这种按需提取,正是dotext考虑的下一次升级。前面各版主要在于排错,以后可能主要在于添功能。
正如你所言,懂英语、懂词典的,不懂技术;懂技术的不太懂这词典到底该怎么搞,怎么弄好用。恰好我几样都懂点(尽管只懂点皮毛),所以,知道想要什么{:4_104:}

ok927 发表于 2013-11-30 20:18:03

谢谢老大的工具。真的非常感谢!

pdawiki 发表于 2013-12-1 01:54:43

正式我在找的软件,合并词条,去掉重复词条。

majikun 发表于 2013-12-2 18:19:54

本帖最后由 majikun 于 2013-12-2 18:22 编辑

支持老大正在制作词典,里面的重复太多了,特别需要老大的新版软件,可以发我的邮箱吗?[email protected]谢谢了

dingweifengye 发表于 2013-12-2 18:37:02

本帖最后由 dingweifengye 于 2013-12-2 18:40 编辑

非常感谢楼主的分享!支持...E-mail:[email protected]

arshcaria 发表于 2013-12-3 11:04:24

正在修改21世纪大英汉词典,这个词典释义比较广泛,例句丰富,但是需要词条合并一下。
不知楼主能否共享下解压密码?谢过了~~
[email protected]

在劫难逃 发表于 2013-12-3 15:39:34

感谢楼主无私的奉献,请惠赐密码

arshcaria 发表于 2013-12-3 16:48:34

sunsmile23大神你好,
有个问题请教一下:Revere
n. 里维尔(美国马萨诸塞州东部城市)

revere
vt.尊敬,尊重;崇敬

revere
n.单词revers的变体这三个单词,我想合并后两者,前面的Revere作为独立的词条。
但是我用RegEx Dotext 1.0β3转换后,这三个词条合并在了一起。

猜测可能是因为没有区分词条的大小写。
请问应该如何操作呢?

谢谢!

sunsmile23 发表于 2013-12-3 20:25:58

确实不区分大小写。
以后版中,是否区分,可交给用户去决定

ok927 发表于 2013-12-3 21:13:42

能否增加一个功能:全部删除释义相同的词条?
应用背景:在合并时,有些完全相同的词条在N本词典中都有,并合后就会重复出现,因此 只想保留其中的一条即可。
如有可能,请提供,谢谢您 。

Hugh 发表于 2013-12-7 23:00:11

我是最大的受益者!再来致谢!(我甚至把我自己的语音库/词频/第一主力词典都用dotext合并了o(∩_∩)o)
其实还想把牛津和朗文以及新牛津的短语和衍生词都提取了,可惜精力不够了!https://www.pdawiki.com/forum/data/attachment/album/201312/07/225933oxqbh1bb9xzbx9nx.png

deeke 发表于 2013-12-9 20:40:02

Hugh 发表于 2013-12-7 23:00 static/image/common/back.gif
我是最大的受益者!再来致谢!(我甚至把我自己的语音库/词频/第一主力词典都用dotext合并了o(∩_∩)o)
其 ...

赏心悦目的排版。

81196081 发表于 2013-12-11 22:49:30

{:4_104:}

hyln9 发表于 2013-12-11 23:35:54

前来致谢!合并词条效果很好!只是很奇怪,里面的正则表达式怎么用不了?总是报错。同样的表达式在c#里面没错啊?

l126t 发表于 2013-12-12 08:55:19

抽取短语有没有人做过

guokhan 发表于 2013-12-12 09:13:27

老大的作品太好了,给个新版吧,谢谢!![email protected]

sunsmile23 发表于 2013-12-12 20:21:37

hyln9 发表于 2013-12-11 23:35
前来致谢!合并词条效果很好!只是很奇怪,里面的正则表达式怎么用不了?总是报错。同样的表达式在c#里面没 ...

贴出来看看。
这个与perl兼容。

sunsmile23 发表于 2013-12-12 20:24:53

l126t 发表于 2013-12-12 08:55
抽取短语有没有人做过

帮助里有使用示范文件的例子。
最关键的是找出短语特征。

hyln9 发表于 2013-12-13 01:46:44

sunsmile23 发表于 2013-12-12 20:21 static/image/common/back.gif
贴出来看看。
这个与perl兼容。

实在抱歉,我后来吧表达式缩短了一些就没再报错,之前的没有记录下来。不过还有一个疑问,就是转出来的文件会有这样的:<a> 我都手工改成了 </a>
页: 1 [2] 3 4 5
查看完整版本: mdx制作必备:RegEx Dotext,可合并词条,提取信息等