掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

楼主: sunsmile23

[工具] mdx制作必备:RegEx Dotext,可合并词条,提取信息等

  [复制链接]

该用户从未签到

发表于 2013-11-28 09:26:19 | 显示全部楼层
这个可以把词库任意组合啦!无敌呀!
  • TA的每日心情
    开心
    2020-3-8 09:14
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2013-11-28 12:36:48 | 显示全部楼层
    谢谢楼主分享,让我也试试吧。

    该用户从未签到

    发表于 2013-11-28 21:27:54 | 显示全部楼层
    几天没上,大神已更新了这么多次,辛苦了) A1 q7 R0 X  i) |4 B( p
    想要您的最新版,可以吗?

    该用户从未签到

    发表于 2013-11-29 12:49:07 | 显示全部楼层
    软件真好,对我帮助很大!希望老大分享,体验新版使用的快感!

    该用户从未签到

    发表于 2013-11-30 09:50:33 | 显示全部楼层
    本帖最后由 Oeasy 于 2013-11-30 10:02 编辑 & A( i( `3 ~( |# I+ O- X

    8 s) \- e  E* C5 s9 i2 |0 \: k# H# k; ?
    首先感谢楼主 ,提供了这么好的工具,谁用谁知道。节省了大量的时间,以前我都是用Excel来合并词条,很费劲,还有内容丢失的情况(因为Excel一个单元格里的内容有长度限制)。不过人心不足蛇吞象,我们想要的总是更多、更好。{:5_227:} 不知道可不可以添加下面的功能。' m3 h) V/ g; q2 G
    $ ?) M$ V* [+ f# f+ h' x: r8 N  h+ I
    说明,下面我用到了三个有“名”的txt。
    , k& B* ~- l  U  A8 u! ysrc_1.txt,mdx源文件1;
    + g: j: i, v3 B5 c3 Gsrc_2.txt,mdx源文件2;5 M0 |; r/ j5 V  i9 h
    src_result.txt,最终(想)得到的txt,keywords为src_2.txt,条目内容为src_1.txt+src_2.txt对应条目下的内容。% E& K- N1 B; N0 e6 p; i* f0 C
    ========================================================================
    / P6 ]2 @8 o& k. v+ k( K有src_1.txt、src_2.txt这样两个mdx源文件,其中
    / y7 _* R- U. v* Y$ U" rsrc_1.txt
    & i- j1 o8 w" z( L' ^, T% I
    A# t  H+ z$ G. z. U
    A_CONTENT_src_18 C( A* j. d4 e% v0 `
    </>+ q- N- m5 I) l! U; O
    B
      |- {7 z/ t; I0 {B_CONTENT_src_1  o3 |" J" D9 I! H8 v
    </>
    , {' n. Y1 l" P6 SC0 c' ?+ \6 b8 J0 V- n! j" c+ ^
    C_CONTENT_src_1
    2 j: S( O! A0 F</>. X5 {/ o& z( A: e  p
    D" B6 B+ P0 B3 M' h: e% R
    D_CONTENT_src_1
    , [) f8 X7 {  ~7 v9 {</>

    8 }) u" K5 E7 n- F, b2 i$ D" k! V; r6 _1 o; p
    src_2.txt
    4 @/ X+ h! M5 d) X1 K  Z/ w
    B5 ^( y& A( g( I- |3 u& h" x7 L  s
    B_CONTENT_src_25 d4 _  ]/ z0 U9 T0 v- N  B0 g
    </>. n/ o" v8 [! l  S/ J' P, ]
    D$ W8 r0 o, ]$ j: v; W
    D_CONTENT_src_2; ~: I+ \# V& Y& `( b4 k3 M2 T. m
    </>
    ' G6 ?5 E9 t! Q# b

    8 \: ~1 r; \( l, p3 A0 D我想得到这样一个mdx源文件
    3 f: O: l5 W8 o0 fsrc_result.txt
    : N8 D# X/ Q( d$ n
    B
    6 h6 g- L; o6 p8 _% Y) SB_CONTENT_src_12 \' U! s* S, H$ r& K
    B_CONTENT_src_2
    ' Q: q9 C& r0 y3 J9 y9 B* f1 U* v  f</>
      j4 T4 y9 m9 Y+ e; i+ aD" A, i3 G) h- n: q6 ^
    D_CONTENT_src_1
    ! C' \4 b% O& I2 g" ]" wD_CONTENT_src_2
    ( ~! P5 U! @4 k8 F2 D) b3 ^" V! z</>

    4 p  E( @* Y; k0 _8 M* G+ d  y+ R9 \# n( ?7 |# }9 l# F
    目前我的处理方法是,src_1.txt与src_2.txt合并(就是复制粘贴到一个文件里啦),然后利用Dotext的合并词条功能,得到+ P/ ?% @$ g. E3 ]$ L  g
    A
    6 K6 \% e8 q* H5 s8 lA_CONTENT_src_1
    , e/ B& N! {% L</>/ ^9 d" V; q+ N& _
    B
    , J5 Q5 k" g) d5 wB_CONTENT_src_1# d" o6 E0 J9 _+ ?# h
    B_CONTENT_src_2& p, ^7 ^, U4 O! _$ L( @
    </>2 ]# d' q. w0 ~$ E$ P; O
    C
    ; t/ [4 o0 a1 ?5 E$ {1 g+ vC_CONTENT_src_1/ x1 t* a' @# B0 g  U
    </>
    " t1 g' L. @% y$ H1 y$ qD
    4 _: r5 y2 l9 R1 c, }D_CONTENT_src_13 h6 b7 F7 C; e
    D_CONTENT_src_2
    3 b: L) Z/ `) r; z</>
    4 f6 ^& n4 y1 l) @# t5 H& I9 N
    然后利用src_2.txt里原有的一些标记性文字,删除不含src_2.txt内容的词条。最后也算可以得到src_result.txt。
    / \* ?) o; D0 k4 j5 T1 A. r这其实就是mdx源文件的合并、取差、筛选等等。
    + J4 ?1 t, `$ A! B* c) `  ~4 ~========================================================================. ?1 t8 Z. j3 V( l
    说说这个idea有什么用。* f/ W. X3 h4 L$ T% Y1 s. s
    一、9 y9 p  m3 S& L; j
    src_2.txt可以是一个list性质的mdx,比如5 q. x5 Z1 ~$ r* m5 X* a
    生词17 A& k' h4 _* z. i- s; \) h
    随便什么内容1$ J% f" k5 Q( L
    </>. x/ c% A& w( N$ n
    生词2
    1 T8 A' Z# T$ B随便什么内容2
    . t8 f6 A7 Q; U4 _( J+ u</>
    2 u9 J4 ^1 `3 G( ~. K
    src_1.txt可以是某本双解词典。9 l& ]1 {* s" K, B

    ; ]! X- y1 l* U6 x' w0 i/ U利用上面的操作,就从src_1.txt提取出了生词1、生词2的词条(内容),做成一个mdx,时常阅读、复习,可算是升级版本的“生词本”(单词本)。
    : |0 P, ^1 [, X9 V( ~二、
    . f% m. V; Z* ~( U6 B$ esrc_2.txt可以是一本小型的词典,比如& Q% s/ V2 g. A1 r; e7 `: q
    外研社现代法汉汉法词典+ Y2 o2 R! i" k9 K' G4 U7 m" b2 t+ Z
    src_1.txt则是chigre的【2013.05.27】法语发音库(121,310检索项, 实际90,626词条)9 |% y5 ^1 U  l% {  F7 N
    https://pdawiki.com/forum/thread-10685-1-1.html
    ) l. o1 T4 x# I/ W7 E! l6 p' `6 H5 f( d4 C' G" A1 b" }1 L
    利用上面的操作,src_result.txt就是有真人语音的《现代法汉汉法词典》了。; L2 H5 I: ~( N& C; r
    $ m( L# k7 u( u" v: O" f
    三、
    ' L* t/ P6 c: f) U3 ^) G1 b一、二的组合情况。
      X' X$ ~+ j$ _8 ~========================================================================
    7 I& `, G: T$ f- E说了这么多废话,跟Dotext什么关系呢?
    " s: Q, @4 v- A我上面那一堆,核心就是想得到src_1.txt里keyword为B、D的条目,
    ; U5 i+ v) L+ ^( g) y: G

    " ^8 ~; S$ B* @. |0 o  Dsrc_1.txt
    ! B6 n& K; k3 J3 W( B) S
    A
    3 ]- i1 L, [( {7 d9 lA_CONTENT_src_1
    # ]& O# ^6 D0 C6 r</>, o) m  Z4 v1 V: `' C1 W% ?
    B
    / m: o4 Q7 m/ z8 s' VB_CONTENT_src_1
    ; n& q( E, O. u2 R( I</>; A! A  \  @& ?
    C
    8 a* n6 S5 M* b: i3 q3 |C_CONTENT_src_1
    # T/ f% C% ~. n</>0 o3 {& e- ?! z# k9 e
    D) O5 m: x7 Z) |1 l6 E6 S- l1 ?
    D_CONTENT_src_1
    4 w  J& _. G+ q* P6 G8 W/ {+ h3 g</>

    ( Z6 t3 A$ U$ y2 H提取条件是
    & r/ k+ z7 V; ]* g& s$ _
    B' f0 L# [/ v3 H% h9 h( y, _. S- w
    D

    ( j9 c5 [8 `  W( X, S5 i4 d, H# |! x提取结果
    ( W# ]4 K) g) ?+ h4 h4 Osrc_1_extract.txt5 _! c& O+ w5 ^4 ^' L( S
    B
    ! l% a' p0 z+ v& ?B_CONTENT_src_10 b& J% y8 T; b
    </>
    # T" A- f% e( K# c& kD+ q( c9 ?+ Y. O+ \/ E. i: P
    D_CONTENT_src_1
    " K. H+ j5 z/ Y! y7 Z0 c5 I  u</>
    4 o( k% F( d# ~# V/ }
    Bingo!$ J* e1 N- n2 L0 c1 q6 m
    不知道能不能给RegEx Dotext加上这个功能,或者说已经可以实现,但是我没摸索到? ! s. |4 C) G7 G/ w
    再次感谢楼主。{:10_244:} 1 u7 m. c! c6 \. W3 M9 I3 `# b

    ( M2 X  {# n$ S5 d! `1 k

    该用户从未签到

    发表于 2013-11-30 11:07:34 | 显示全部楼层
    谢谢老大。我想要新版。我的邮箱:[email protected]

    该用户从未签到

     楼主| 发表于 2013-11-30 13:37:17 | 显示全部楼层
    本帖最后由 sunsmile23 于 2013-11-30 13:43 编辑
    ' A9 d% e" G/ m* `8 V% h7 y6 L7 f
    4 S  g6 N1 |! a: w% T* Umdx fan 们,O常委是本坛目前所见的知识储备多、勤奋好学又热心肠的人,我等若能有他一半,何愁解决不了自己的问题。+ |4 O3 r9 A5 E. k8 U9 y- N3 P

    2 L7 o6 }2 N6 [# _2 P. Y**所见略同。这种按需提取,正是dotext考虑的下一次升级。前面各版主要在于排错,以后可能主要在于添功能。
    9 T8 p+ \; U/ V6 V+ e: V9 r( Y正如你所言,懂英语、懂词典的,不懂技术;懂技术的不太懂这词典到底该怎么搞,怎么弄好用。恰好我几样都懂点(尽管只懂点皮毛),所以,知道想要什么

    该用户从未签到

    发表于 2013-11-30 20:18:03 | 显示全部楼层
    谢谢老大的工具。真的非常感谢!

    该用户从未签到

    发表于 2013-12-1 01:54:43 | 显示全部楼层
    正式我在找的软件,合并词条,去掉重复词条。
  • TA的每日心情
    擦汗
    2025-3-22 09:30
  • 签到天数: 21 天

    [LV.4]偶尔看看III

    发表于 2013-12-2 18:19:54 来自手机 | 显示全部楼层
    本帖最后由 majikun 于 2013-12-2 18:22 编辑 % Z) i: A; ^0 O3 s4 V4 @# R# H. Y
    + T) S" J8 q0 [  J7 i) E* U
    支持老大正在制作词典,里面的重复太多了,特别需要老大的新版软件,可以发我的邮箱吗?[email protected]谢谢了

    该用户从未签到

    发表于 2013-12-2 18:37:02 | 显示全部楼层
    本帖最后由 dingweifengye 于 2013-12-2 18:40 编辑 + e- A& l8 y7 S1 J3 t& x
    % a0 M$ E) k- T$ \& Z2 U6 T
    非常感谢楼主的分享!支持...E-mail:[email protected]

    该用户从未签到

    发表于 2013-12-3 11:04:24 | 显示全部楼层
    正在修改21世纪大英汉词典,这个词典释义比较广泛,例句丰富,但是需要词条合并一下。5 `7 r- `9 G# V; g1 c
    不知楼主能否共享下解压密码?谢过了~~
    8 m. \+ d5 y5 o; s4 Z7 @' }- w[email protected]
  • TA的每日心情
    开心
    2025-1-24 20:48
  • 签到天数: 635 天

    [LV.9]以坛为家II

    发表于 2013-12-3 15:39:34 | 显示全部楼层
    感谢楼主无私的奉献,请惠赐密码

    该用户从未签到

    发表于 2013-12-3 16:48:34 | 显示全部楼层
    sunsmile23大神你好," I2 h3 T5 q. G
    有个问题请教一下:
    1. Revere0 g: J7 ~2 l9 D2 c7 m: e1 h
    2. n. 里维尔(美国马萨诸塞州东部城市) . i( [8 b5 P: Z% v

    3. , d) r% r' X% ^. x. f# Q/ `5 n
    4. revere
      6 z* r! r# L' b$ H" i1 F1 l: S
    5. vt.尊敬,尊重;崇敬
      ' M" I8 R" U5 x! \8 z/ V

    6. * I3 N$ L) @9 k  G
    7. revere* X: m( A( V5 s, Z- R3 q$ ?0 t( {  `
    8. n.单词revers的变体
    复制代码
    这三个单词,我想合并后两者,前面的Revere作为独立的词条。8 g) k1 O) x% d
    但是我用RegEx Dotext 1.0β3转换后,这三个词条合并在了一起。1 T" J* F& i% s0 A8 ~+ U# \
    & \) Y# B( f# A+ U) k
    猜测可能是因为没有区分词条的大小写。
    1 o! c) w9 W" Y" q, g' l9 I. ?请问应该如何操作呢?8 X* ~% C9 `8 a
    5 [1 F. G* d( ~: `+ W
    谢谢!

    该用户从未签到

     楼主| 发表于 2013-12-3 20:25:58 来自手机 | 显示全部楼层
    确实不区分大小写。
    # d# r3 v/ Y+ _# g以后版中,是否区分,可交给用户去决定

    该用户从未签到

    发表于 2013-12-3 21:13:42 | 显示全部楼层
    能否增加一个功能:全部删除释义相同的词条?
    2 a/ u" ^; S, }( Y应用背景:在合并时,有些完全相同的词条在N本词典中都有,并合后就会重复出现,因此 只想保留其中的一条即可。  _- M! I% Y' l% e4 d- z8 ]
    如有可能,请提供,谢谢您 。

    该用户从未签到

    发表于 2013-12-7 23:00:11 | 显示全部楼层
    我是最大的受益者!再来致谢!(我甚至把我自己的语音库/词频/第一主力词典都用dotext合并了o(∩_∩)o)
    " C5 j& P+ e3 q# s, o4 s$ ^其实还想把牛津和朗文以及新牛津的短语和衍生词都提取了,可惜精力不够了!
  • TA的每日心情
    慵懒
    2025-1-28 16:22
  • 签到天数: 216 天

    [LV.7]常住居民III

    发表于 2013-12-9 20:40:02 | 显示全部楼层
    Hugh 发表于 2013-12-7 23:00
    9 F4 X- w9 f% k我是最大的受益者!再来致谢!(我甚至把我自己的语音库/词频/第一主力词典都用dotext合并了o(∩_∩)o)
    5 H; n, G! z9 C; s其 ...
    9 ?. K: c' ^8 O/ X
    赏心悦目的排版。

    该用户从未签到

    发表于 2013-12-11 22:49:30 | 显示全部楼层

    该用户从未签到

    发表于 2013-12-11 23:35:54 | 显示全部楼层
    前来致谢!合并词条效果很好!只是很奇怪,里面的正则表达式怎么用不了?总是报错。同样的表达式在c#里面没错啊?

    该用户从未签到

    发表于 2013-12-12 08:55:19 | 显示全部楼层
    抽取短语有没有人做过

    该用户从未签到

    发表于 2013-12-12 09:13:27 | 显示全部楼层
    老大的作品太好了,给个新版吧,谢谢!![email protected]

    该用户从未签到

     楼主| 发表于 2013-12-12 20:21:37 来自手机 | 显示全部楼层
    hyln9 发表于 2013-12-11 23:356 L( t- u" P: {8 @5 r
    前来致谢!合并词条效果很好!只是很奇怪,里面的正则表达式怎么用不了?总是报错。同样的表达式在c#里面没 ...
    4 A/ F6 z7 q2 ~! S' D  p
    贴出来看看。
    ; F. q' }/ \) d( \% C) u这个与perl兼容。

    该用户从未签到

     楼主| 发表于 2013-12-12 20:24:53 来自手机 | 显示全部楼层
    l126t 发表于 2013-12-12 08:550 f" A5 m5 ]/ h9 f
    抽取短语有没有人做过

    3 N9 S; \, D  q9 w9 G4 w( Y1 a) _7 c帮助里有使用示范文件的例子。
    # ~+ @6 v: r8 H4 H! N6 r& h最关键的是找出短语特征。

    该用户从未签到

    发表于 2013-12-13 01:46:44 | 显示全部楼层
    sunsmile23 发表于 2013-12-12 20:21 - ]% Y4 ~/ c+ m/ ~2 y
    贴出来看看。
    : A$ C  Q) q* j$ ]这个与perl兼容。
    3 J9 l: k: ~. }. r' q' Y$ N7 z
    实在抱歉,我后来吧表达式缩短了一些就没再报错,之前的没有记录下来。不过还有一个疑问,就是转出来的文件会有这样的:<a> 我都手工改成了 </a>
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2026-6-5 05:41 , Processed in 0.021218 second(s), 15 queries .

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表