掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

楼主: sunsmile23

[工具] mdx制作必备:RegEx Dotext,可合并词条,提取信息等

  [复制链接]

该用户从未签到

发表于 2013-11-28 09:26:19 | 显示全部楼层
这个可以把词库任意组合啦!无敌呀!
  • TA的每日心情
    开心
    2020-3-8 09:14
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2013-11-28 12:36:48 | 显示全部楼层
    谢谢楼主分享,让我也试试吧。

    该用户从未签到

    发表于 2013-11-28 21:27:54 | 显示全部楼层
    几天没上,大神已更新了这么多次,辛苦了8 R1 ~8 E1 W3 {- q
    想要您的最新版,可以吗?

    该用户从未签到

    发表于 2013-11-29 12:49:07 | 显示全部楼层
    软件真好,对我帮助很大!希望老大分享,体验新版使用的快感!

    该用户从未签到

    发表于 2013-11-30 09:50:33 | 显示全部楼层
    本帖最后由 Oeasy 于 2013-11-30 10:02 编辑
    , B( K; r( n% t9 ~+ \0 r* l
    & L# H. Q8 }' e) U+ d8 A- s; L6 D2 _( u0 s) L, j% |. u
    首先感谢楼主 ,提供了这么好的工具,谁用谁知道。节省了大量的时间,以前我都是用Excel来合并词条,很费劲,还有内容丢失的情况(因为Excel一个单元格里的内容有长度限制)。不过人心不足蛇吞象,我们想要的总是更多、更好。{:5_227:} 不知道可不可以添加下面的功能。9 ^, t! }/ J% d; k$ R  b/ L6 Z( G
    1 g/ @  B5 s) H% q! H' t9 d0 k9 ]
    说明,下面我用到了三个有“名”的txt。0 Q+ r1 Z% k% a7 F& g  q, u! ~2 C
    src_1.txt,mdx源文件1;8 o; [% M; \5 P$ m
    src_2.txt,mdx源文件2;' X8 Z; n$ y3 O( D. E- [' }5 |
    src_result.txt,最终(想)得到的txt,keywords为src_2.txt,条目内容为src_1.txt+src_2.txt对应条目下的内容。2 j7 Z' j0 e" y! w1 i# D6 O
    ========================================================================
    7 t- M, w6 u) \/ t) b: x有src_1.txt、src_2.txt这样两个mdx源文件,其中" M# T; V5 e; y7 S4 D5 C
    src_1.txt
    - c& R! H, @+ D; i* v& G2 L
    A. E/ M  k: O7 `& d) t: }$ \2 j1 v
    A_CONTENT_src_1/ d/ r" p: ]7 e2 K1 j
    </>$ A( m6 P0 y: h0 z4 N; c
    B
    # e* t# _* d2 y$ v. ?; v7 n8 FB_CONTENT_src_1
    3 ]7 K+ P, P& `' [% c; K- z( c</>1 V* k' J# m5 y8 A. u# ^
    C
    / P% [) B. d9 f' o: P  O0 L- _* DC_CONTENT_src_1
    6 o  B5 l  e! x3 t</>. K* c" z0 Z% x+ U) P# Z
    D
    ) J$ w: j, }6 m9 y- H9 `7 ID_CONTENT_src_1
    # Y& c9 L" y' i3 {( H</>
    ) p) k; e, K* r- T: T# F  e% R9 P

    4 C" z- f+ u) U: P. [src_2.txt
    4 i9 q7 j& y6 f" B  P: Z
    B
      e# V% a6 w. @2 }9 }, X& D: H" {1 cB_CONTENT_src_2+ G4 T6 ?2 C$ I/ e1 I$ @
    </>
    8 ]. j; e" m: GD
    " N) b+ O4 D  D- b' ^D_CONTENT_src_21 o) D( g2 X/ k8 d0 E
    </>

      Y8 {9 w" E6 x0 w* E) D! y0 q: r! J+ A* x" z
    我想得到这样一个mdx源文件4 z4 @* t' \( N3 p6 c5 |; U
    src_result.txt
    # ^" R+ j& k8 j0 A  M" Z+ J
    B
    3 \! R: w+ @, {! IB_CONTENT_src_1
    ( q# H. N: ]! Q, V( o; nB_CONTENT_src_2, w, L6 C6 }  t% _! ~0 Q
    </>
    ; y$ T- x) t/ K2 O: @' y# s7 gD; n) c: `* E# y! Z
    D_CONTENT_src_1; a$ h/ Y+ Z0 b/ M4 a: q% W1 X
    D_CONTENT_src_2
    , P' _4 j+ k" m- N</>

    1 u- U# {1 O0 W1 p- S# e
    ' O8 N3 ?) @1 @2 |& E* V  Z目前我的处理方法是,src_1.txt与src_2.txt合并(就是复制粘贴到一个文件里啦),然后利用Dotext的合并词条功能,得到, A  f, t1 j7 F. G; d9 z
    A0 x/ ~/ a7 A9 ~1 Z6 u( w
    A_CONTENT_src_14 W8 ]8 A" S' S8 D2 i; u
    </>' E5 G2 \! _& |8 h9 Z
    B
    " J! E' X9 }1 R2 m. P! nB_CONTENT_src_14 `7 k9 y2 ~  l, s5 A$ B/ a- L' v
    B_CONTENT_src_2
    8 L0 ?* R$ c- w7 G" B</>8 j0 ~6 T% y$ J7 D! x
    C5 q. Q$ a: g2 t4 w. b
    C_CONTENT_src_1
    2 e( q' A# H* o" n; z0 s( ]/ ~</>
    & f3 n) w6 ~1 Q5 j& ND
    8 p1 H1 H. g/ [! Z+ ~# ~D_CONTENT_src_1. U* q% q! @% \% M$ \
    D_CONTENT_src_2
    9 H1 b; N& q( W0 K</>
    # C2 N6 |+ o9 H" `) A
    然后利用src_2.txt里原有的一些标记性文字,删除不含src_2.txt内容的词条。最后也算可以得到src_result.txt。
    % b# D+ |8 c0 F这其实就是mdx源文件的合并、取差、筛选等等。* `6 E& ~! H9 w1 c/ n7 i
    ========================================================================
    . M9 [/ p: a/ Z/ N说说这个idea有什么用。
    + r, F5 ~# {, q% r9 [5 S0 m一、
    8 p5 u0 q7 E- s, R: F1 Ksrc_2.txt可以是一个list性质的mdx,比如
    ; O' v# }; x1 Z' Z
    生词1
    - Q& @1 I$ n: r& p随便什么内容1
    1 T5 K0 r  k# z8 q</>
    * N+ Z7 P% z1 g) u生词2" \+ f! Q+ {( |& v% E8 x
    随便什么内容2
    ! o6 j( K" s- g</>

    ' \/ q3 _# K, E7 i8 [8 }src_1.txt可以是某本双解词典。- m+ Z+ y& ~  ]7 ]( {  P' `% Y

    6 |3 A# p( _- H  }利用上面的操作,就从src_1.txt提取出了生词1、生词2的词条(内容),做成一个mdx,时常阅读、复习,可算是升级版本的“生词本”(单词本)。
    : h; Y2 D! |' w二、
    " G$ Y3 {8 N) r* Qsrc_2.txt可以是一本小型的词典,比如
    * ?, Y# A8 w7 {! D7 @外研社现代法汉汉法词典
    ) d: D8 E- j" B$ [src_1.txt则是chigre的【2013.05.27】法语发音库(121,310检索项, 实际90,626词条), \* p5 V) z) E: h. H: {7 f
    https://pdawiki.com/forum/thread-10685-1-1.html! O% y$ [' d- f' o% }

    3 `( C- ^" m# S2 ~, F. E! \) X利用上面的操作,src_result.txt就是有真人语音的《现代法汉汉法词典》了。
    7 n" A, e* R, e1 o" L# P/ @+ L0 w2 u. V# [1 ^+ _/ v% F6 n' F( j
    三、; l  ]$ L) L5 q/ ?5 E% J9 e
    一、二的组合情况。) i- T! B: I- L' B
    ========================================================================
      g$ C( X0 A* H说了这么多废话,跟Dotext什么关系呢?5 q* d* R7 b3 {' n9 E, {8 W' E
    我上面那一堆,核心就是想得到src_1.txt里keyword为B、D的条目,
    ) U: ~  ]5 ~* g1 Z
    : d. |8 \" Z- A
    src_1.txt
    . Y/ m( k' o* S  a, y
    A
    1 Y  C1 a9 a' h; k! BA_CONTENT_src_1
    8 d3 o4 y# G% `) N$ M( {</>0 _5 _3 _2 y9 X  j, _
    B% l+ Y. i! Z9 }. X3 q0 \+ u- ]/ r8 C
    B_CONTENT_src_1
    $ j' D1 v  g- q/ b; K, ^</>
    6 D5 {/ V' m% f7 `1 K, D4 E4 I: C# uC
    * e' d: B% \; @4 t# VC_CONTENT_src_1
    + L4 `4 q4 J5 k2 n+ g5 j' b</>& k) j& Z* u9 a7 Q- F; g! ?
    D  D; |0 ]0 r9 Q$ j3 p$ O
    D_CONTENT_src_1) t3 }, I& m. x* i2 ^
    </>

    2 D7 }# W1 N0 H, s; H% X$ V# V提取条件是
    2 X# O  N3 f7 b5 T! J
    B, ]6 c8 L2 L2 r9 G3 q1 Z
    D
    0 {# O0 E5 n3 {- g6 L; T% `+ n
    提取结果
    3 \% i' b; J  o" S$ Qsrc_1_extract.txt; h' K/ z, ^. K; t" o; D" F
    B6 x+ `+ t1 r) ]* z" \7 A/ j
    B_CONTENT_src_1
    8 s( x+ J5 Q! [" E1 h8 @- A</>
    " M4 j1 |: U9 J  s4 S& K+ E  W/ d8 W/ HD
    ! i9 B) y/ V. o4 gD_CONTENT_src_1' l, ?. D$ C2 p* |
    </>

    : |( W6 x, t8 E' {Bingo!; K2 E& j# f/ b, S
    不知道能不能给RegEx Dotext加上这个功能,或者说已经可以实现,但是我没摸索到?
    ' ]; H$ o  F  N9 p  t5 J/ d9 F再次感谢楼主。{:10_244:} 2 r0 W8 D( E* E. n& ~% }+ H

    - H0 Y6 |0 W5 L5 V& N0 R

    该用户从未签到

    发表于 2013-11-30 11:07:34 | 显示全部楼层
    谢谢老大。我想要新版。我的邮箱:[email protected]

    该用户从未签到

     楼主| 发表于 2013-11-30 13:37:17 | 显示全部楼层
    本帖最后由 sunsmile23 于 2013-11-30 13:43 编辑 1 G! C% b  z1 j- q. ~0 b& {8 {  I
    0 g& b) Q( P4 q
    mdx fan 们,O常委是本坛目前所见的知识储备多、勤奋好学又热心肠的人,我等若能有他一半,何愁解决不了自己的问题。
    ! I6 s9 w; E9 R9 r; \% p+ j! |( `+ Y( N# Z# d
    **所见略同。这种按需提取,正是dotext考虑的下一次升级。前面各版主要在于排错,以后可能主要在于添功能。/ P) n- L1 t. w2 K% S/ G
    正如你所言,懂英语、懂词典的,不懂技术;懂技术的不太懂这词典到底该怎么搞,怎么弄好用。恰好我几样都懂点(尽管只懂点皮毛),所以,知道想要什么

    该用户从未签到

    发表于 2013-11-30 20:18:03 | 显示全部楼层
    谢谢老大的工具。真的非常感谢!

    该用户从未签到

    发表于 2013-12-1 01:54:43 | 显示全部楼层
    正式我在找的软件,合并词条,去掉重复词条。
  • TA的每日心情
    擦汗
    2025-3-22 09:30
  • 签到天数: 21 天

    [LV.4]偶尔看看III

    发表于 2013-12-2 18:19:54 来自手机 | 显示全部楼层
    本帖最后由 majikun 于 2013-12-2 18:22 编辑
    * ^( \( Y- O% }; U- ~
    2 D4 D4 x, c" P7 G& C- U支持老大正在制作词典,里面的重复太多了,特别需要老大的新版软件,可以发我的邮箱吗?[email protected]谢谢了

    该用户从未签到

    发表于 2013-12-2 18:37:02 | 显示全部楼层
    本帖最后由 dingweifengye 于 2013-12-2 18:40 编辑
    ( {8 |2 i# l7 T# @3 ~# i9 U# [& }% o+ N; ]
    非常感谢楼主的分享!支持...E-mail:[email protected]

    该用户从未签到

    发表于 2013-12-3 11:04:24 | 显示全部楼层
    正在修改21世纪大英汉词典,这个词典释义比较广泛,例句丰富,但是需要词条合并一下。+ C! r, o& ]; r
    不知楼主能否共享下解压密码?谢过了~~4 e; x  a# T: {5 j8 K, t2 \- n
    [email protected]
  • TA的每日心情
    开心
    2025-1-24 20:48
  • 签到天数: 635 天

    [LV.9]以坛为家II

    发表于 2013-12-3 15:39:34 | 显示全部楼层
    感谢楼主无私的奉献,请惠赐密码

    该用户从未签到

    发表于 2013-12-3 16:48:34 | 显示全部楼层
    sunsmile23大神你好,: n2 P1 K) [" [6 H. U9 M( H
    有个问题请教一下:
    1. Revere
      - \; [* k( T$ K5 t) m% Z
    2. n. 里维尔(美国马萨诸塞州东部城市) ( j+ `" K+ w- {# D9 [. j$ _

    3. 8 C  H3 ?" t0 Q
    4. revere
      / a/ r+ {5 q# z% ^
    5. vt.尊敬,尊重;崇敬6 Y& Y' y# g) D/ r0 ^+ o

    6. + f! s) i: i8 v9 }: r* k. i2 R$ g
    7. revere
      . z, Z! L, D3 |# Z7 [
    8. n.单词revers的变体
    复制代码
    这三个单词,我想合并后两者,前面的Revere作为独立的词条。
    2 b8 A7 U; |; q9 A但是我用RegEx Dotext 1.0β3转换后,这三个词条合并在了一起。8 w+ j. x  e9 u9 P2 }" |8 n6 W! ^
    # b/ y8 t3 Y( l& Y
    猜测可能是因为没有区分词条的大小写。, m, W* o8 B6 `
    请问应该如何操作呢?
    9 N3 b+ }# Y9 T$ j. y, U* D* y
    谢谢!

    该用户从未签到

     楼主| 发表于 2013-12-3 20:25:58 来自手机 | 显示全部楼层
    确实不区分大小写。
    3 N7 W3 g$ w$ I% R4 D& l以后版中,是否区分,可交给用户去决定

    该用户从未签到

    发表于 2013-12-3 21:13:42 | 显示全部楼层
    能否增加一个功能:全部删除释义相同的词条?; U) C) N. x3 S+ G6 }$ z9 X
    应用背景:在合并时,有些完全相同的词条在N本词典中都有,并合后就会重复出现,因此 只想保留其中的一条即可。( b) Q/ V: l4 P3 @
    如有可能,请提供,谢谢您 。

    该用户从未签到

    发表于 2013-12-7 23:00:11 | 显示全部楼层
    我是最大的受益者!再来致谢!(我甚至把我自己的语音库/词频/第一主力词典都用dotext合并了o(∩_∩)o)+ j, y; E' F( ^6 B
    其实还想把牛津和朗文以及新牛津的短语和衍生词都提取了,可惜精力不够了!
  • TA的每日心情
    慵懒
    2025-1-28 16:22
  • 签到天数: 216 天

    [LV.7]常住居民III

    发表于 2013-12-9 20:40:02 | 显示全部楼层
    Hugh 发表于 2013-12-7 23:00 % G# E1 E. J% k5 p$ A. ^9 m
    我是最大的受益者!再来致谢!(我甚至把我自己的语音库/词频/第一主力词典都用dotext合并了o(∩_∩)o)" n1 ]# j- K. u3 u. p+ x  y) Y. X
    其 ...
    . E3 L: s1 r7 q! g! J' w) U9 z
    赏心悦目的排版。

    该用户从未签到

    发表于 2013-12-11 22:49:30 | 显示全部楼层

    该用户从未签到

    发表于 2013-12-11 23:35:54 | 显示全部楼层
    前来致谢!合并词条效果很好!只是很奇怪,里面的正则表达式怎么用不了?总是报错。同样的表达式在c#里面没错啊?

    该用户从未签到

    发表于 2013-12-12 08:55:19 | 显示全部楼层
    抽取短语有没有人做过

    该用户从未签到

    发表于 2013-12-12 09:13:27 | 显示全部楼层
    老大的作品太好了,给个新版吧,谢谢!![email protected]

    该用户从未签到

     楼主| 发表于 2013-12-12 20:21:37 来自手机 | 显示全部楼层
    hyln9 发表于 2013-12-11 23:35# h* F1 ~; w- |6 x5 y5 U7 I% Q
    前来致谢!合并词条效果很好!只是很奇怪,里面的正则表达式怎么用不了?总是报错。同样的表达式在c#里面没 ...

    2 f# w! l  Q- F9 G7 x' u贴出来看看。
    3 [: W; X! J+ b5 d" M/ U& I这个与perl兼容。

    该用户从未签到

     楼主| 发表于 2013-12-12 20:24:53 来自手机 | 显示全部楼层
    l126t 发表于 2013-12-12 08:554 d- d7 C0 O; V0 p
    抽取短语有没有人做过
    8 J, L7 Z1 n* R' ~1 [
    帮助里有使用示范文件的例子。
    4 n& e& S' X3 E最关键的是找出短语特征。

    该用户从未签到

    发表于 2013-12-13 01:46:44 | 显示全部楼层
    sunsmile23 发表于 2013-12-12 20:21 8 @: Y8 @  M$ R( n$ L9 L
    贴出来看看。
    5 ]3 d4 q) E# |6 T! \% G这个与perl兼容。
    ( l3 F3 R# B& e6 ]/ d
    实在抱歉,我后来吧表达式缩短了一些就没再报错,之前的没有记录下来。不过还有一个疑问,就是转出来的文件会有这样的:<a> 我都手工改成了 </a>
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2025-7-10 18:19 , Processed in 0.022134 second(s), 15 queries .

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表