掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

楼主: sunsmile23

[工具] mdx制作必备:RegEx Dotext,可合并词条,提取信息等

  [复制链接]

该用户从未签到

发表于 2013-11-28 09:26:19 | 显示全部楼层
这个可以把词库任意组合啦!无敌呀!
  • TA的每日心情
    开心
    2020-3-8 09:14
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2013-11-28 12:36:48 | 显示全部楼层
    谢谢楼主分享,让我也试试吧。

    该用户从未签到

    发表于 2013-11-28 21:27:54 | 显示全部楼层
    几天没上,大神已更新了这么多次,辛苦了0 k  S: r) G; \
    想要您的最新版,可以吗?

    该用户从未签到

    发表于 2013-11-29 12:49:07 | 显示全部楼层
    软件真好,对我帮助很大!希望老大分享,体验新版使用的快感!

    该用户从未签到

    发表于 2013-11-30 09:50:33 | 显示全部楼层
    本帖最后由 Oeasy 于 2013-11-30 10:02 编辑
    ) x$ Y/ s- h: X
    ; X7 }& @1 z% }9 ^$ W% J1 r- d0 Z, P/ a. l4 ~) L+ |; [
    首先感谢楼主 ,提供了这么好的工具,谁用谁知道。节省了大量的时间,以前我都是用Excel来合并词条,很费劲,还有内容丢失的情况(因为Excel一个单元格里的内容有长度限制)。不过人心不足蛇吞象,我们想要的总是更多、更好。{:5_227:} 不知道可不可以添加下面的功能。
    " z  [4 N; t! T: y. v( m
    2 z5 d. P8 s) Q# N8 p$ r! E说明,下面我用到了三个有“名”的txt。
    * L) V9 t# j% l. H+ Esrc_1.txt,mdx源文件1;: l, `, x, P; D  d
    src_2.txt,mdx源文件2;& L6 _# O! `) S: [- c5 h. K. c
    src_result.txt,最终(想)得到的txt,keywords为src_2.txt,条目内容为src_1.txt+src_2.txt对应条目下的内容。5 q4 Y8 {+ i6 H
    ========================================================================
    2 u, Z: y( [8 M6 m' M有src_1.txt、src_2.txt这样两个mdx源文件,其中
    ) z( J; V* E6 csrc_1.txt
    . \; O1 K0 M! B
    A
    5 C5 g7 a6 R8 z8 Z$ ~A_CONTENT_src_1
    . x; _- X' U! }2 M" X& B$ }9 l</>6 O3 \3 m2 i6 _4 M! W& R: z
    B
    1 J# u3 s5 \- F/ t+ m$ P2 RB_CONTENT_src_1! M2 D2 A% @/ E' X1 h
    </>0 M) Y# ]: x8 c
    C& S% O2 {6 `2 {3 p
    C_CONTENT_src_1- g. O" e+ T$ D
    </>' y/ H# F4 P6 V! ~) Y) ~6 S
    D9 ]) y! G$ I( P. J" r
    D_CONTENT_src_1) p; a! C+ `, h2 s0 \
    </>

    % o' [; x/ D- Q9 d, g" {, a3 j; O- T0 v$ i* [) J7 T, z
    src_2.txt$ E2 p8 E; }+ Q! p4 p
    B
    5 r" \2 u& H0 h! ^4 |; s) bB_CONTENT_src_2. _# `: `+ v1 x( [, }3 x& Y+ f
    </>* p  ]+ r' |0 x5 |
    D
    ) }  O# H! F# _' H- I0 J! TD_CONTENT_src_2
    / v  V3 z+ [7 P  m8 v3 g0 D</>
    6 Z3 @) I  r1 ]: a# U

    + h# m9 J, l! }8 W4 g& E我想得到这样一个mdx源文件
    2 S: y6 S& t1 l) lsrc_result.txt( G' Z: q& u5 M( m; ?
    B- m, M8 \, {: X% G
    B_CONTENT_src_17 g. G: k! H- @" [
    B_CONTENT_src_2
    * v- H7 J3 d; J4 `</>. h! b# q& t, G- q
    D* V* H& l& E; {& |, W. U
    D_CONTENT_src_1
    / c& b) A5 I1 p- yD_CONTENT_src_2
    ( f3 L0 @" z+ }9 u! y$ |% c8 _) e</>
    , |1 K! k+ E5 H9 V& L

    . u: J$ c& ]) h' v" w# L: x% i目前我的处理方法是,src_1.txt与src_2.txt合并(就是复制粘贴到一个文件里啦),然后利用Dotext的合并词条功能,得到
    5 D5 |+ _5 \  |3 V6 C; f; U) |
    A
    5 o2 H+ T& i' Q; P* @) GA_CONTENT_src_1
    3 ^; o0 _+ }8 X+ s( {+ J! L</>" G" D  q2 G1 i9 D( y
    B  w( N- f2 }  Z6 L! B
    B_CONTENT_src_1
    + V8 ?+ M# k  t+ S" m- ]2 pB_CONTENT_src_2
    ( D8 W* T% d# D' \</>
    6 v3 M( M' [7 R" bC" g3 H2 x# F" R
    C_CONTENT_src_1
    & `2 |+ T, ?0 ^3 K</>/ {- g& Z  ~+ h) B+ N
    D/ D; p" `/ v1 R6 b2 l
    D_CONTENT_src_1
    . S# ?/ z( F/ ~* E& cD_CONTENT_src_29 t; O$ y1 T6 I* \) f+ h2 C' l
    </>
    ( J9 T  Y% r* B% L2 ?- Z# M* n
    然后利用src_2.txt里原有的一些标记性文字,删除不含src_2.txt内容的词条。最后也算可以得到src_result.txt。1 P4 g4 x0 U# j. F
    这其实就是mdx源文件的合并、取差、筛选等等。& C" y) t- ]8 l; @
    ========================================================================) h2 ?3 B. w7 t5 f  `2 C1 T1 P) o7 Y
    说说这个idea有什么用。: z% [( G  |- F8 c8 S
    一、) n0 o9 @* q2 {6 p+ m( ?
    src_2.txt可以是一个list性质的mdx,比如6 g4 {! t3 h. B2 W) v
    生词1: V$ |9 ]8 b% ^8 l, _1 s5 Z/ j) h
    随便什么内容1
      R+ m0 O% w! w( ^. s</>2 [( h( u- c& q- S' z0 G5 T
    生词2
    ) }% E: G. A1 r: d/ L0 p随便什么内容2
    6 H, u2 n5 @2 X. Q# j</>
    4 B1 A- H- m3 L; s0 \8 F
    src_1.txt可以是某本双解词典。" ~7 W, B( f6 K/ z
    ' T7 H1 |8 ~- O8 ?
    利用上面的操作,就从src_1.txt提取出了生词1、生词2的词条(内容),做成一个mdx,时常阅读、复习,可算是升级版本的“生词本”(单词本)。
    1 E0 T! c7 V  Q+ m二、  A! P) _# Q0 N; B
    src_2.txt可以是一本小型的词典,比如1 `* c  c6 L# c# @) w
    外研社现代法汉汉法词典# r! M2 W+ U4 E& m
    src_1.txt则是chigre的【2013.05.27】法语发音库(121,310检索项, 实际90,626词条)$ J# |% h( `1 q( X3 y' H
    https://pdawiki.com/forum/thread-10685-1-1.html
    : m8 r% N. s3 {2 I  e. c5 P- z: ]3 I: @  ~6 Z4 t- _
    利用上面的操作,src_result.txt就是有真人语音的《现代法汉汉法词典》了。
    4 ]  K% E9 u- t0 ?$ a% R  f: ?6 x6 d
    三、
    + H; ~; w- D5 v; k8 G7 B一、二的组合情况。
    5 R) d$ ]' Q* H5 J- j- }, x* z========================================================================
    & n# k7 Y- ^. Q& J说了这么多废话,跟Dotext什么关系呢?
    . C. o+ [; E- n0 j. H我上面那一堆,核心就是想得到src_1.txt里keyword为B、D的条目,
    3 ^! n, ~' q( i) c" Y

    , H, J6 q( o( W' p+ J8 csrc_1.txt
    # u! L( x: @2 R3 F% V( e. p
    A
    9 o. J; F3 V4 h+ L0 s$ b9 ]A_CONTENT_src_1
    ; i+ H$ N! H( I5 G0 ^6 z7 f6 m</>
    6 H6 v. S0 q5 U$ @2 B4 QB* P1 n. Z8 z1 ~+ s5 Y9 ?3 W2 o
    B_CONTENT_src_1
    1 l# \3 a( w7 J" |4 x</>. ?+ `8 p; j: }" r: e  U; ]
    C7 D# a: S3 b  T! u" C3 F
    C_CONTENT_src_16 ^9 h5 W4 ^0 E0 [$ u) ]- {
    </>, U- u& [8 c7 [. W& ]
    D
    / @' ]" c0 H3 g5 X& hD_CONTENT_src_1
    % E1 J. ?6 j$ P4 N, q' w3 L3 l</>
    8 e' A2 s% ]% C) |+ }# n+ @5 [
    提取条件是1 R* X6 C6 Z1 L
    B+ O! h) H# m" p; {4 u1 k! b
    D

    : O5 o. ?7 |- m" V( ]0 y提取结果
    " ?, M8 U% r% R4 ysrc_1_extract.txt% J* L  u$ C6 Y
    B5 @$ W' Q/ W' \, S9 I% ?! N
    B_CONTENT_src_11 f. g- s% B" F4 u
    </>6 {/ b9 x1 Q' G) W5 I  V6 j
    D
    " h3 n! }) V7 D5 e( qD_CONTENT_src_1
    5 O& K" \# ~6 ]" S% Y# q/ f</>
    4 J% k' ]! h* j* J) m9 w, E7 T$ j: b
    Bingo!
    $ {% b6 i' K! V4 {) d: b: S) A不知道能不能给RegEx Dotext加上这个功能,或者说已经可以实现,但是我没摸索到?
    # Y/ ?) {4 ~" b2 Q) G7 ~- [再次感谢楼主。{:10_244:}
    ! {6 {" s7 [. d
    9 z# T7 s# U& F5 X

    该用户从未签到

    发表于 2013-11-30 11:07:34 | 显示全部楼层
    谢谢老大。我想要新版。我的邮箱:[email protected]

    该用户从未签到

     楼主| 发表于 2013-11-30 13:37:17 | 显示全部楼层
    本帖最后由 sunsmile23 于 2013-11-30 13:43 编辑
    6 O9 m# r) v: `% w' J! i: m3 U' w) o
    mdx fan 们,O常委是本坛目前所见的知识储备多、勤奋好学又热心肠的人,我等若能有他一半,何愁解决不了自己的问题。6 O# o0 c4 @0 t5 |9 G8 D
    1 T4 U+ c& p6 o1 x
    **所见略同。这种按需提取,正是dotext考虑的下一次升级。前面各版主要在于排错,以后可能主要在于添功能。! C- H% B3 S3 o1 p- C5 h( V
    正如你所言,懂英语、懂词典的,不懂技术;懂技术的不太懂这词典到底该怎么搞,怎么弄好用。恰好我几样都懂点(尽管只懂点皮毛),所以,知道想要什么

    该用户从未签到

    发表于 2013-11-30 20:18:03 | 显示全部楼层
    谢谢老大的工具。真的非常感谢!

    该用户从未签到

    发表于 2013-12-1 01:54:43 | 显示全部楼层
    正式我在找的软件,合并词条,去掉重复词条。
  • TA的每日心情
    擦汗
    2025-3-22 09:30
  • 签到天数: 21 天

    [LV.4]偶尔看看III

    发表于 2013-12-2 18:19:54 来自手机 | 显示全部楼层
    本帖最后由 majikun 于 2013-12-2 18:22 编辑
    3 t% h+ n1 H- u
    0 F. ]6 }" L& T0 Z* d支持老大正在制作词典,里面的重复太多了,特别需要老大的新版软件,可以发我的邮箱吗?[email protected]谢谢了

    该用户从未签到

    发表于 2013-12-2 18:37:02 | 显示全部楼层
    本帖最后由 dingweifengye 于 2013-12-2 18:40 编辑
    : h7 d& D( q1 G" n7 A: s7 R0 i" e! v. I9 m, q# n# j
    非常感谢楼主的分享!支持...E-mail:[email protected]

    该用户从未签到

    发表于 2013-12-3 11:04:24 | 显示全部楼层
    正在修改21世纪大英汉词典,这个词典释义比较广泛,例句丰富,但是需要词条合并一下。
    5 k8 f* a. R1 x) S& q% C不知楼主能否共享下解压密码?谢过了~~4 X: z# c4 }6 X3 \1 b- E1 ~
    [email protected]
  • TA的每日心情
    开心
    2025-1-24 20:48
  • 签到天数: 635 天

    [LV.9]以坛为家II

    发表于 2013-12-3 15:39:34 | 显示全部楼层
    感谢楼主无私的奉献,请惠赐密码

    该用户从未签到

    发表于 2013-12-3 16:48:34 | 显示全部楼层
    sunsmile23大神你好,  B* P" N; X4 t2 B) m  \1 k
    有个问题请教一下:
    1. Revere
      / h/ z8 `$ a) J/ ?& C
    2. n. 里维尔(美国马萨诸塞州东部城市)
      ; K+ y/ c: N- _# l* D2 |7 c, h7 l

    3. % l3 p3 ~5 @. e) i% V: p9 p8 K
    4. revere
      - ~& R9 a: E$ W; Q: |
    5. vt.尊敬,尊重;崇敬6 u4 p$ {- n! ~$ v0 k' T! @2 n
    6. : r' @* \2 r! p1 z0 j1 |6 C2 G
    7. revere
      + S% K0 M( _7 R% W
    8. n.单词revers的变体
    复制代码
    这三个单词,我想合并后两者,前面的Revere作为独立的词条。, Z6 D( J3 C7 ]/ s# R& r! X
    但是我用RegEx Dotext 1.0β3转换后,这三个词条合并在了一起。
    ; f' r  j3 f; N! k4 Z  {) a8 w# }  s, U2 k1 M9 P
    猜测可能是因为没有区分词条的大小写。6 `# X1 O3 D! p4 F  Q1 J2 k. Y+ D
    请问应该如何操作呢?
    $ ]5 v' q9 @0 ?" r* z' X: N/ Y* l6 u; b* ~
    谢谢!

    该用户从未签到

     楼主| 发表于 2013-12-3 20:25:58 来自手机 | 显示全部楼层
    确实不区分大小写。" D3 a8 C" g: J, @! ^0 m6 H# P
    以后版中,是否区分,可交给用户去决定

    该用户从未签到

    发表于 2013-12-3 21:13:42 | 显示全部楼层
    能否增加一个功能:全部删除释义相同的词条?' D4 _: k" O6 d- `
    应用背景:在合并时,有些完全相同的词条在N本词典中都有,并合后就会重复出现,因此 只想保留其中的一条即可。& t2 L% F) J# W) a. h; }3 D
    如有可能,请提供,谢谢您 。

    该用户从未签到

    发表于 2013-12-7 23:00:11 | 显示全部楼层
    我是最大的受益者!再来致谢!(我甚至把我自己的语音库/词频/第一主力词典都用dotext合并了o(∩_∩)o)
    0 ^+ @8 j8 Y' |' Q7 B7 ?; O" T其实还想把牛津和朗文以及新牛津的短语和衍生词都提取了,可惜精力不够了!
  • TA的每日心情
    慵懒
    2025-1-28 16:22
  • 签到天数: 216 天

    [LV.7]常住居民III

    发表于 2013-12-9 20:40:02 | 显示全部楼层
    Hugh 发表于 2013-12-7 23:00 ' ~+ G* l, m' X( R- {' z
    我是最大的受益者!再来致谢!(我甚至把我自己的语音库/词频/第一主力词典都用dotext合并了o(∩_∩)o)
    1 J  |2 w6 F4 C8 m( h9 y% @  U$ E% _其 ...

    , _/ O7 l7 g" Z1 U5 U- K赏心悦目的排版。

    该用户从未签到

    发表于 2013-12-11 22:49:30 | 显示全部楼层

    该用户从未签到

    发表于 2013-12-11 23:35:54 | 显示全部楼层
    前来致谢!合并词条效果很好!只是很奇怪,里面的正则表达式怎么用不了?总是报错。同样的表达式在c#里面没错啊?

    该用户从未签到

    发表于 2013-12-12 08:55:19 | 显示全部楼层
    抽取短语有没有人做过

    该用户从未签到

    发表于 2013-12-12 09:13:27 | 显示全部楼层
    老大的作品太好了,给个新版吧,谢谢!![email protected]

    该用户从未签到

     楼主| 发表于 2013-12-12 20:21:37 来自手机 | 显示全部楼层
    hyln9 发表于 2013-12-11 23:35. P# K8 O9 Y( ?8 U0 C; N& [
    前来致谢!合并词条效果很好!只是很奇怪,里面的正则表达式怎么用不了?总是报错。同样的表达式在c#里面没 ...
    $ W0 c' s( {$ K+ I9 m
    贴出来看看。
    - t' r' h2 u( R" e这个与perl兼容。

    该用户从未签到

     楼主| 发表于 2013-12-12 20:24:53 来自手机 | 显示全部楼层
    l126t 发表于 2013-12-12 08:55; b% i; V" q4 X+ c5 f( i1 ^; Q
    抽取短语有没有人做过
    + V1 R. ^* [2 A$ j
    帮助里有使用示范文件的例子。
    3 R. \2 I- e- V$ i# K1 s最关键的是找出短语特征。

    该用户从未签到

    发表于 2013-12-13 01:46:44 | 显示全部楼层
    sunsmile23 发表于 2013-12-12 20:21
    + S3 }7 I: W; ^: }; k8 o贴出来看看。) o$ d0 x  _( l1 U2 O4 E/ o, g
    这个与perl兼容。

    ! `& ~" z- P: o实在抱歉,我后来吧表达式缩短了一些就没再报错,之前的没有记录下来。不过还有一个疑问,就是转出来的文件会有这样的:<a> 我都手工改成了 </a>
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2025-7-11 14:47 , Processed in 0.022053 second(s), 15 queries .

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表