mdx制作必备：RegEx Dotext,可合并词条，提取信息等

19730712 · 发表于 2013-11-28 09:26:19

这个可以把词库任意组合啦！无敌呀！

louislaolu · 发表于 2013-11-28 12:36:48

谢谢楼主分享，让我也试试吧。

sxingbai · 发表于 2013-11-28 21:27:54

几天没上，大神已更新了这么多次，辛苦了
想要您的最新版，可以吗？

guokhan · 发表于 2013-11-29 12:49:07

软件真好，对我帮助很大！希望老大分享，体验新版使用的快感！

Oeasy · 发表于 2013-11-30 09:50:33

本帖最后由 Oeasy 于 2013-11-30 10:02 编辑

首先感谢楼主

，提供了这么好的工具，谁用谁知道。节省了大量的时间，以前我都是用Excel来合并词条，很费劲，还有内容丢失的情况（因为Excel一个单元格里的内容有长度限制）。不过人心不足蛇吞象，我们想要的总是更多、更好。{:5_227:} 不知道可不可以添加下面的功能。

说明，下面我用到了三个有“名”的txt。
src_1.txt，mdx源文件1；
src_2.txt，mdx源文件2；
src_result.txt，最终（想）得到的txt，keywords为src_2.txt，条目内容为src_1.txt+src_2.txt对应条目下的内容。
========================================================================
有src_1.txt、src_2.txt这样两个mdx源文件，其中
src_1.txt

A9 J3 r1 i0 G9 H# G5 A
A_CONTENT_src_1
  x& ^) Y9 R0 R3 c7 Z4 J0 ~</>
1 _0 C/ B, I) R- }! S" ~B
0 z: T+ {1 Z# Z/ A! @$ N* K4 @B_CONTENT_src_1
) p% K4 p( L4 b+ h  @4 W9 Y$ I1 a</>5 z9 h$ i; K* x4 {7 `: s
C
3 R; K  b& @: g9 h# M8 qC_CONTENT_src_1, f0 Q, @( M* L. z9 Q* ]' O3 y: O
</>
9 Z! N( M) O" ED
3 l. D9 C. r2 M2 V3 ]) Z. `4 HD_CONTENT_src_1
' ?: A" `) j* a$ O</>

src_2.txt

B8 K; v2 W0 @0 F; [9 d( Q! S" \
B_CONTENT_src_2
% S6 v- A7 {# H1 i</># z( U0 y, I# H/ Y! S
D O* j' V7 A2 T5 F. V! }
D_CONTENT_src_2
/ y+ i3 p* {3 y# O \: }% t' _: \</>

我想得到这样一个mdx源文件
src_result.txt

B# S% P2 e! Z4 \- Z, u3 J0 M
B_CONTENT_src_1: o+ f, {9 U5 m  W# u3 }& |' O1 l
B_CONTENT_src_2' C% R7 B, D! I: ?* n  \
</>  a8 m, z: p4 \/ S& D. A/ W
D" a& y) O4 M1 r" [3 {" k
D_CONTENT_src_18 D% E# n, t' [
D_CONTENT_src_2" R- i9 d* Y4 b& v- l4 ?
</>

目前我的处理方法是，src_1.txt与src_2.txt合并（就是复制粘贴到一个文件里啦），然后利用Dotext的合并词条功能，得到

A' `9 j9 Q! J! n, V: D* i; S
A_CONTENT_src_1& P3 }, @( j- |. J; @0 f
</>
. H* P& L# I" k# ^0 L1 }: YB
. ~2 _, h5 `& PB_CONTENT_src_18 [# T. Q; M% }
B_CONTENT_src_2
# Z2 h+ O7 H( H% q</>: E- f/ r7 ]- h0 ?4 Z
C, \; [5 i- }  }
C_CONTENT_src_1
. A2 z1 @# i) S" ?" X' r</>
7 x5 P. p$ s, G" ~4 u8 E1 K! z  eD
- p/ j& K: L0 a  p2 U, V7 ED_CONTENT_src_1
" n( @( h8 ~& L" }) {D_CONTENT_src_2
$ u# {7 f1 L6 z  C</>

然后利用src_2.txt里原有的一些标记性文字，删除不含src_2.txt内容的词条。最后也算可以得到src_result.txt。
这其实就是mdx源文件的合并、取差、筛选等等。
========================================================================
说说这个idea有什么用。
一、
src_2.txt可以是一个list性质的mdx，比如

生词1
, f% x/ o! U: q! ]随便什么内容1
* ?6 M. r/ u. ^</>
' y. Q A/ F5 t o生词2) B5 A1 { D- R
随便什么内容2
4 m! y/ ~8 G9 B) J</>

src_1.txt可以是某本双解词典。

利用上面的操作，就从src_1.txt提取出了生词1、生词2的词条（内容），做成一个mdx，时常阅读、复习，可算是升级版本的“生词本”（单词本）。
二、
src_2.txt可以是一本小型的词典，比如
外研社现代法汉汉法词典
src_1.txt则是chigre的【2013.05.27】法语发音库（121,310检索项, 实际90,626词条）
https://pdawiki.com/forum/thread-10685-1-1.html

利用上面的操作，src_result.txt就是有真人语音的《现代法汉汉法词典》了。

三、
一、二的组合情况。
========================================================================
说了这么多废话，跟Dotext什么关系呢？
我上面那一堆，核心就是想得到src_1.txt里keyword为B、D的条目，$ J/ T0 v% ^! p e4 q. t

src_1.txt

A8 {7 U8 [) u8 ]. Q7 m( g
A_CONTENT_src_1' t o* b) A W# Z3 D( _: J
</>
& l4 d- s3 f; O+ {+ q: MB }) ]+ e6 X9 u. X0 P
B_CONTENT_src_1
4 |) \' X* R6 s% w</>6 {) q% ^7 W: O" e
C3 F1 z# Y* E# T; ^/ o% O/ t2 \7 |
C_CONTENT_src_1; r8 A9 Z& D5 G$ d1 A
</>8 G0 {% Z. W8 v/ l( S
D
0 x7 y' w2 S( PD_CONTENT_src_1
* f9 ^7 \# U& `. ~6 C! h8 J</>

提取条件是

B- f- E- O# q) h4 e4 C, V
D

提取结果是
src_1_extract.txt

B7 x5 l; S. B! r( E, Z6 P5 i( m
B_CONTENT_src_1
3 s( Y% ]: A1 M& s* h</>
- B6 v3 N# U/ z! gD
3 s1 I @; Y' GD_CONTENT_src_1
: j! g) Z2 n& K2 ~3 P5 {& Z</>

Bingo!
不知道能不能给RegEx Dotext加上这个功能，或者说已经可以实现，但是我没摸索到？

再次感谢楼主。{:10_244:}

ok927 · 发表于 2013-11-30 11:07:34

谢谢老大。我想要新版。我的邮箱:[email protected]

sunsmile23 · 发表于 2013-11-30 13:37:17

本帖最后由 sunsmile23 于 2013-11-30 13:43 编辑

mdx fan 们，O常委是本坛目前所见的知识储备多、勤奋好学又热心肠的人，我等若能有他一半，何愁解决不了自己的问题。

**所见略同。这种按需提取，正是dotext考虑的下一次升级。前面各版主要在于排错，以后可能主要在于添功能。
正如你所言，懂英语、懂词典的，不懂技术；懂技术的不太懂这词典到底该怎么搞，怎么弄好用。恰好我几样都懂点（尽管只懂点皮毛），所以，知道想要什么

ok927 · 发表于 2013-11-30 20:18:03

谢谢老大的工具。真的非常感谢！

pdawiki · 发表于 2013-12-1 01:54:43

正式我在找的软件，合并词条，去掉重复词条。

majikun · 发表于 2013-12-2 18:19:54

本帖最后由 majikun 于 2013-12-2 18:22 编辑

支持老大正在制作词典，里面的重复太多了，特别需要老大的新版软件，可以发我的邮箱吗？[email protected]谢谢了

dingweifengye · 发表于 2013-12-2 18:37:02

本帖最后由 dingweifengye 于 2013-12-2 18:40 编辑

非常感谢楼主的分享!支持...E-mail:[email protected]

arshcaria · 发表于 2013-12-3 11:04:24

正在修改21世纪大英汉词典，这个词典释义比较广泛，例句丰富，但是需要词条合并一下。
不知楼主能否共享下解压密码？谢过了~~
[email protected]

在劫难逃 · 发表于 2013-12-3 15:39:34

感谢楼主无私的奉献，请惠赐密码

arshcaria · 发表于 2013-12-3 16:48:34

sunsmile23大神你好，
有个问题请教一下：

Revere3 n- R2 s8 O5 |7 e
n. 里维尔(美国马萨诸塞州东部城市)
/ E5 D: J4 E' T8 T9 w
* l, y3 Y/ n& u) n( k
revere
( g. j, @7 V7 P
vt.尊敬，尊重；崇敬
* Z7 ]3 b4 I$ d# K
- C; m. y# D' h0 q* p6 B
revere) ]; Y! r. |5 } @+ x% d) G
n.单词revers的变体

复制代码

这三个单词，我想合并后两者，前面的Revere作为独立的词条。
但是我用RegEx Dotext 1.0β3转换后，这三个词条合并在了一起。

猜测可能是因为没有区分词条的大小写。
请问应该如何操作呢？

谢谢！

sunsmile23 · 发表于 2013-12-3 20:25:58

确实不区分大小写。
以后版中，是否区分，可交给用户去决定

ok927 · 发表于 2013-12-3 21:13:42

能否增加一个功能:全部删除释义相同的词条？
应用背景：在合并时，有些完全相同的词条在N本词典中都有，并合后就会重复出现，因此只想保留其中的一条即可。
如有可能，请提供，谢谢您。

Hugh · 发表于 2013-12-7 23:00:11

我是最大的受益者！再来致谢！（我甚至把我自己的语音库/词频/第一主力词典都用dotext合并了o(∩_∩)o）
其实还想把牛津和朗文以及新牛津的短语和衍生词都提取了，可惜精力不够了！

deeke · 发表于 2013-12-9 20:40:02

Hugh 发表于 2013-12-7 23:00
2 k/ {/ D/ E; o& _7 i# z7 }( L: r我是最大的受益者！再来致谢！（我甚至把我自己的语音库/词频/第一主力词典都用dotext合并了o(∩_∩)o）
* R" j2 g8 O5 g3 V7 i. K其 ...

赏心悦目的排版。

81196081 · 发表于 2013-12-11 22:49:30

hyln9 · 发表于 2013-12-11 23:35:54

前来致谢！合并词条效果很好！只是很奇怪，里面的正则表达式怎么用不了？总是报错。同样的表达式在c#里面没错啊？

l126t · 发表于 2013-12-12 08:55:19

抽取短语有没有人做过

guokhan · 发表于 2013-12-12 09:13:27

老大的作品太好了，给个新版吧，谢谢！！[email protected]

sunsmile23 · 发表于 2013-12-12 20:21:37

hyln9 发表于 2013-12-11 23:35
5 D2 D3 [1 }/ F前来致谢！合并词条效果很好！只是很奇怪，里面的正则表达式怎么用不了？总是报错。同样的表达式在c#里面没 ...

贴出来看看。
这个与perl兼容。

sunsmile23 · 发表于 2013-12-12 20:24:53

l126t 发表于 2013-12-12 08:558 l R {7 ?# t
抽取短语有没有人做过

帮助里有使用示范文件的例子。
最关键的是找出短语特征。

hyln9 · 发表于 2013-12-13 01:46:44

sunsmile23 发表于 2013-12-12 20:21
) J- m5 h2 r: {: Y1 t6 m6 B贴出来看看。+ F5 X1 ]) O2 h! T6 w; }
这个与perl兼容。

实在抱歉，我后来吧表达式缩短了一些就没再报错，之前的没有记录下来。不过还有一个疑问，就是转出来的文件会有这样的：<a> 我都手工改成了 </a>

		自动登录	找回密码
密码			免费注册

[工具] mdx制作必备：RegEx Dotext,可合并词条，提取信息等