掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

楼主: sunsmile23

[工具] mdx制作必备:RegEx Dotext,可合并词条,提取信息等

  [复制链接]

该用户从未签到

发表于 2013-11-28 09:26:19 | 显示全部楼层
这个可以把词库任意组合啦!无敌呀!
  • TA的每日心情
    开心
    2020-3-8 09:14
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2013-11-28 12:36:48 | 显示全部楼层
    谢谢楼主分享,让我也试试吧。

    该用户从未签到

    发表于 2013-11-28 21:27:54 | 显示全部楼层
    几天没上,大神已更新了这么多次,辛苦了
    9 l3 \' A9 ?( j( p7 ]: n想要您的最新版,可以吗?

    该用户从未签到

    发表于 2013-11-29 12:49:07 | 显示全部楼层
    软件真好,对我帮助很大!希望老大分享,体验新版使用的快感!

    该用户从未签到

    发表于 2013-11-30 09:50:33 | 显示全部楼层
    本帖最后由 Oeasy 于 2013-11-30 10:02 编辑
    5 x' n6 }7 n3 M5 B
    % o* ?. `; W0 Z; ]" {! |: l
    4 E, h. r% o  K1 |首先感谢楼主 ,提供了这么好的工具,谁用谁知道。节省了大量的时间,以前我都是用Excel来合并词条,很费劲,还有内容丢失的情况(因为Excel一个单元格里的内容有长度限制)。不过人心不足蛇吞象,我们想要的总是更多、更好。{:5_227:} 不知道可不可以添加下面的功能。- d7 s" P4 [% a$ P5 s/ X7 j

    + T8 e3 w" N$ p  N* p; o: f说明,下面我用到了三个有“名”的txt。
    # @! ~& ]6 E6 m, I1 Z" ~% rsrc_1.txt,mdx源文件1;  B, p( d+ a' g6 q2 @
    src_2.txt,mdx源文件2;
    6 B& g, r# [: F7 Zsrc_result.txt,最终(想)得到的txt,keywords为src_2.txt,条目内容为src_1.txt+src_2.txt对应条目下的内容。4 Z, C; A/ }- |  o( ~# M0 E; N) `5 g
    ========================================================================' |, C7 X7 W6 p- R% O/ M% K. u# r
    有src_1.txt、src_2.txt这样两个mdx源文件,其中
    & d; q) D' e' z* Msrc_1.txt# j" |6 s2 \' \8 x1 g0 W# }
    A2 g1 ^, s" S/ k
    A_CONTENT_src_1
      X. H# I8 F3 @0 I/ B) \+ J/ G& |</>
    , S) t/ n+ K& H6 F9 X' ^; _/ |! \& J0 tB: _! t/ d; |1 _
    B_CONTENT_src_1: C" G5 E2 v3 O5 t
    </>7 }4 P9 g1 k: }. c# }1 B: F
    C
    # m9 M5 B& N! O- H0 S9 d. e7 KC_CONTENT_src_12 W' L* H( m% \
    </>& l9 F/ Y* C& I/ T! p9 @
    D
    5 U5 A/ ?* d: g1 k& }D_CONTENT_src_1# a: s5 ^7 m- w$ Q$ s% G2 v" a/ C
    </>
    0 U# W% {9 c9 o% i. J' q
    " ]/ Z. f. l$ N
    src_2.txt
    $ m/ w" j- e* ^& c
    B" e! ^) W1 b$ }- Q2 r6 _
    B_CONTENT_src_2, p/ ]1 e( G; f
    </>  [8 B5 G; r% e3 R1 c  H4 n
    D
    ( U- K8 X: @' n( H/ W) oD_CONTENT_src_2
    0 t7 Y% U7 @% X/ B</>

    , @& k+ i8 k! W. w( |* l6 G! p1 E3 H" ]" K) o4 J2 N+ W
    我想得到这样一个mdx源文件
    2 C7 g8 }) G  e2 w. s8 w0 I, m" Psrc_result.txt# V. M: S2 c( Q; g+ ^* l# U( t
    B
    8 l% s3 I# i$ L* H# t2 B- o% ]B_CONTENT_src_1
      S4 h" }! O3 n  _& w1 f+ N( UB_CONTENT_src_2
    1 _5 N9 I+ K: G* a0 ]$ R' G</>
    ( E) G0 r) N, x1 z9 JD, @% Z' O2 c- r$ y4 I1 H
    D_CONTENT_src_15 H2 }- L; |$ W& n. W
    D_CONTENT_src_2
    $ b( b4 u3 o, y* y7 \: }</>

    * P& M. h+ B9 a$ L$ O( p+ Q% P- Y
    * _- E, K1 I- C. n- n目前我的处理方法是,src_1.txt与src_2.txt合并(就是复制粘贴到一个文件里啦),然后利用Dotext的合并词条功能,得到( k6 w2 v9 f' D. d
    A" r( R1 k1 a' R, A
    A_CONTENT_src_1( H. r% d0 \& g% o' `
    </>
    + }+ L4 x* Y& t/ J0 E# K0 q8 z+ LB- s! r0 I# m7 t8 m( y1 T
    B_CONTENT_src_1
    % P9 R5 v% K* c6 XB_CONTENT_src_27 p/ e8 k/ q! s5 q' x# O" o
    </>0 v( N3 {) x/ {. s
    C
    7 J5 h: X- E. `* J; h$ CC_CONTENT_src_18 L& C6 m# B% E( s: O8 T8 m
    </>( s! {$ X4 S& z' c/ x; B
    D: S8 S( q' k. K7 F! `
    D_CONTENT_src_1
    2 w8 |) w6 r( mD_CONTENT_src_2
    & s' Q7 m( U# N, G</>

    ' s: c) V% N% ~, {: b然后利用src_2.txt里原有的一些标记性文字,删除不含src_2.txt内容的词条。最后也算可以得到src_result.txt。
    $ `# S# u+ ?$ a2 l9 Q0 A; U" \这其实就是mdx源文件的合并、取差、筛选等等。% }+ X2 z0 `* o
    ========================================================================
    ; t4 K  Y% w- a6 X说说这个idea有什么用。
    ; z" d0 y4 S$ p7 V2 K一、
    + a, q, n  w2 V: m1 D* f" k* ^src_2.txt可以是一个list性质的mdx,比如
    2 w; l. i6 u$ P# v. `
    生词1' X! u, A2 h. {8 T2 m: D2 B
    随便什么内容15 q4 b0 ~2 E  R- }* ]
    </>" n7 \. G7 j6 |
    生词22 F/ z/ u) A) c3 Z0 k, b
    随便什么内容2
    0 D: r5 ^& l; a- H! v</>

    3 G+ E! w& }1 {0 O  Bsrc_1.txt可以是某本双解词典。2 O% F$ s; t# {' B# m# d
      X' J$ }* L+ k
    利用上面的操作,就从src_1.txt提取出了生词1、生词2的词条(内容),做成一个mdx,时常阅读、复习,可算是升级版本的“生词本”(单词本)。% {# g. j8 R* P) T4 P: C
    二、7 e' U& T  ^. H$ Q3 d% A. [. P
    src_2.txt可以是一本小型的词典,比如
    5 ~" u1 [! b1 N1 J" e) W外研社现代法汉汉法词典
    , y3 |5 p5 Y/ z# B, u: P( lsrc_1.txt则是chigre的【2013.05.27】法语发音库(121,310检索项, 实际90,626词条)
    4 j; c5 l; U: j8 }https://pdawiki.com/forum/thread-10685-1-1.html8 C8 B% F$ R  m/ j+ U+ ]5 ^

    0 A; z6 L5 X$ W2 v- ]7 u6 _利用上面的操作,src_result.txt就是有真人语音的《现代法汉汉法词典》了。
    : E- V+ y9 c8 R$ D
    ' s$ f" O* T( F三、6 k1 y# O. y; N# [/ b6 Z8 H
    一、二的组合情况。
    ( ?; z. v; z: ~! L7 E- a; G========================================================================
    $ p; Q$ z. F' \, j* u说了这么多废话,跟Dotext什么关系呢?
    " z) x! N2 W/ Y我上面那一堆,核心就是想得到src_1.txt里keyword为B、D的条目,) T, ], g0 l- M, B; B% d
    . v% f4 v0 s' d& B# [* K
    src_1.txt
    $ f  l& k: A$ s2 b# Z
    A; U  g# t% Q( O4 t# h; V
    A_CONTENT_src_18 l( H" w( l" b5 t2 M5 [2 `) j
    </>2 X7 N& x/ p* x8 {5 H
    B$ Z$ G/ E  h+ D' `$ z3 Y# h; C
    B_CONTENT_src_1
    0 a3 e+ L9 d7 T0 }0 ~</>
    % {: O/ n1 W( T/ }! gC# Z5 q4 T8 {4 m  {2 p2 S% T
    C_CONTENT_src_1+ c: t4 ]% t. `. s; U; k
    </>/ U* Q: X2 z  T" O! l
    D1 c9 z9 Q* c: @2 }
    D_CONTENT_src_1
    ! K1 ?# J( L  s</>
      p+ W* U# ?( n  ]- v; i
    提取条件是8 e2 m; M4 n* r1 H8 V7 E+ {$ {
    B2 Y8 Z' \/ h" G2 X! D, d
    D

    # ?. A1 c6 v/ A# W: R0 s提取结果
    7 f( j* ]" ]' Jsrc_1_extract.txt
    1 m0 y6 A" `  q+ f
    B7 r  D6 V3 y$ q
    B_CONTENT_src_1: V- \  _4 ^( o. S0 y
    </>
      u+ s. \1 m/ m6 r! @# nD. W8 j0 e+ b9 K5 ~8 T# s* r7 w
    D_CONTENT_src_19 {9 s3 l8 u8 W% X* ?
    </>

    . x( I4 a/ U% M$ d9 L" HBingo!+ \3 M: l9 r% M& ]: @# K, h( L9 G) e
    不知道能不能给RegEx Dotext加上这个功能,或者说已经可以实现,但是我没摸索到? : {$ q& a' p  J( S8 T, d' U
    再次感谢楼主。{:10_244:}
    + x4 [- Q) {, B
    2 P  D0 {3 ]# r

    该用户从未签到

    发表于 2013-11-30 11:07:34 | 显示全部楼层
    谢谢老大。我想要新版。我的邮箱:[email protected]

    该用户从未签到

     楼主| 发表于 2013-11-30 13:37:17 | 显示全部楼层
    本帖最后由 sunsmile23 于 2013-11-30 13:43 编辑 ' Z2 {  |2 S# S* ]" m9 P; I
    7 Y) D! X0 Y( q' {
    mdx fan 们,O常委是本坛目前所见的知识储备多、勤奋好学又热心肠的人,我等若能有他一半,何愁解决不了自己的问题。
    8 C, J: ~( y7 R7 j1 N: K; a
    9 R7 R1 n! \$ K**所见略同。这种按需提取,正是dotext考虑的下一次升级。前面各版主要在于排错,以后可能主要在于添功能。6 v* B6 G# i6 w7 q2 i# g, A/ s
    正如你所言,懂英语、懂词典的,不懂技术;懂技术的不太懂这词典到底该怎么搞,怎么弄好用。恰好我几样都懂点(尽管只懂点皮毛),所以,知道想要什么

    该用户从未签到

    发表于 2013-11-30 20:18:03 | 显示全部楼层
    谢谢老大的工具。真的非常感谢!

    该用户从未签到

    发表于 2013-12-1 01:54:43 | 显示全部楼层
    正式我在找的软件,合并词条,去掉重复词条。
  • TA的每日心情

    2023-7-8 07:03
  • 签到天数: 20 天

    [LV.4]偶尔看看III

    发表于 2013-12-2 18:19:54 来自手机 | 显示全部楼层
    本帖最后由 majikun 于 2013-12-2 18:22 编辑
    % f$ v  c7 D% L: n7 ?
    0 ]% Z$ d* C- O6 ~. o支持老大正在制作词典,里面的重复太多了,特别需要老大的新版软件,可以发我的邮箱吗?[email protected]谢谢了

    该用户从未签到

    发表于 2013-12-2 18:37:02 | 显示全部楼层
    本帖最后由 dingweifengye 于 2013-12-2 18:40 编辑
    2 M  I3 Z  K- p
    # H2 m2 X. Z! q, E/ ^$ i1 f非常感谢楼主的分享!支持...E-mail:[email protected]

    该用户从未签到

    发表于 2013-12-3 11:04:24 | 显示全部楼层
    正在修改21世纪大英汉词典,这个词典释义比较广泛,例句丰富,但是需要词条合并一下。
    % W* j& d' D: K0 i4 a9 z0 f, g不知楼主能否共享下解压密码?谢过了~~
    0 I, ^; z8 D6 s! }6 Y# C[email protected]
  • TA的每日心情
    开心
    2023-6-2 13:02
  • 签到天数: 634 天

    [LV.9]以坛为家II

    发表于 2013-12-3 15:39:34 | 显示全部楼层
    感谢楼主无私的奉献,请惠赐密码

    该用户从未签到

    发表于 2013-12-3 16:48:34 | 显示全部楼层
    sunsmile23大神你好,. D- T* I9 n$ S1 N1 e% r
    有个问题请教一下:
    1. Revere, {. N% r2 O) U
    2. n. 里维尔(美国马萨诸塞州东部城市)
      9 u2 G$ `( M$ X9 e3 M+ B8 Z6 [
    3. 5 @* X+ c" b. a9 s9 _8 R
    4. revere% G; y' L6 |$ o7 P4 S
    5. vt.尊敬,尊重;崇敬  r) y' i. r2 u5 A
    6. - J( e% H% J# s; L9 V2 }
    7. revere
      ; s5 |$ `' X" s6 [" L. B, Z
    8. n.单词revers的变体
    复制代码
    这三个单词,我想合并后两者,前面的Revere作为独立的词条。
    / V9 o* t+ b2 L% W* o但是我用RegEx Dotext 1.0β3转换后,这三个词条合并在了一起。" Y! I; m* b' {* J
    ( ^- `4 D$ a0 H# h& Z/ C
    猜测可能是因为没有区分词条的大小写。
    * q7 M  T. `! u* Z请问应该如何操作呢?" U) F# O/ v9 e2 C
    & C* z( m; v. ?7 k% O$ D2 G
    谢谢!

    该用户从未签到

     楼主| 发表于 2013-12-3 20:25:58 来自手机 | 显示全部楼层
    确实不区分大小写。
    & w! a* U9 a$ L  x+ Y以后版中,是否区分,可交给用户去决定

    该用户从未签到

    发表于 2013-12-3 21:13:42 | 显示全部楼层
    能否增加一个功能:全部删除释义相同的词条?1 {, ^' A" W1 O+ n0 V, l' t
    应用背景:在合并时,有些完全相同的词条在N本词典中都有,并合后就会重复出现,因此 只想保留其中的一条即可。+ ~' E$ y7 {6 M  g
    如有可能,请提供,谢谢您 。

    该用户从未签到

    发表于 2013-12-7 23:00:11 | 显示全部楼层
    我是最大的受益者!再来致谢!(我甚至把我自己的语音库/词频/第一主力词典都用dotext合并了o(∩_∩)o), S! a" @1 o/ `9 A. h9 Z
    其实还想把牛津和朗文以及新牛津的短语和衍生词都提取了,可惜精力不够了!
  • TA的每日心情
    慵懒
    2023-10-14 18:34
  • 签到天数: 210 天

    [LV.7]常住居民III

    发表于 2013-12-9 20:40:02 | 显示全部楼层
    Hugh 发表于 2013-12-7 23:00
    ; k- N" C. P* Z% E2 m: ]9 z我是最大的受益者!再来致谢!(我甚至把我自己的语音库/词频/第一主力词典都用dotext合并了o(∩_∩)o)9 l8 p! T6 ^* n! Z% I+ n" B) e3 h
    其 ...

    ' v' s. g/ `4 G. ~7 N1 {+ m6 m; s, g赏心悦目的排版。

    该用户从未签到

    发表于 2013-12-11 22:49:30 | 显示全部楼层

    该用户从未签到

    发表于 2013-12-11 23:35:54 | 显示全部楼层
    前来致谢!合并词条效果很好!只是很奇怪,里面的正则表达式怎么用不了?总是报错。同样的表达式在c#里面没错啊?

    该用户从未签到

    发表于 2013-12-12 08:55:19 | 显示全部楼层
    抽取短语有没有人做过

    该用户从未签到

    发表于 2013-12-12 09:13:27 | 显示全部楼层
    老大的作品太好了,给个新版吧,谢谢!![email protected]

    该用户从未签到

     楼主| 发表于 2013-12-12 20:21:37 来自手机 | 显示全部楼层
    hyln9 发表于 2013-12-11 23:35; ?% M7 O. A; }5 Q
    前来致谢!合并词条效果很好!只是很奇怪,里面的正则表达式怎么用不了?总是报错。同样的表达式在c#里面没 ...

    1 Q! G& f( Z' ~7 ?0 O" x8 J贴出来看看。5 S7 H! _3 J# J5 t$ m! n% j: h" n
    这个与perl兼容。

    该用户从未签到

     楼主| 发表于 2013-12-12 20:24:53 来自手机 | 显示全部楼层
    l126t 发表于 2013-12-12 08:55
    + R7 j" `  a: Q抽取短语有没有人做过
    3 A# C6 G, _* I4 c
    帮助里有使用示范文件的例子。
    " i4 m  ?1 |& b/ }# E最关键的是找出短语特征。

    该用户从未签到

    发表于 2013-12-13 01:46:44 | 显示全部楼层
    sunsmile23 发表于 2013-12-12 20:21
    - }/ F8 B" |/ Q6 s( X; A贴出来看看。, G6 r( k4 S* M0 z' c' z: ]
    这个与perl兼容。
    ' s7 Q" i2 u) I0 y* E! k  ~3 i# t
    实在抱歉,我后来吧表达式缩短了一些就没再报错,之前的没有记录下来。不过还有一个疑问,就是转出来的文件会有这样的:<a> 我都手工改成了 </a>
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-4-27 08:59 , Processed in 0.051344 second(s), 6 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表