掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

楼主: sunsmile23

[工具] mdx制作必备:RegEx Dotext,可合并词条,提取信息等

  [复制链接]

该用户从未签到

发表于 2013-11-28 09:26:19 | 显示全部楼层
这个可以把词库任意组合啦!无敌呀!
  • TA的每日心情
    开心
    2020-3-8 09:14
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2013-11-28 12:36:48 | 显示全部楼层
    谢谢楼主分享,让我也试试吧。

    该用户从未签到

    发表于 2013-11-28 21:27:54 | 显示全部楼层
    几天没上,大神已更新了这么多次,辛苦了
    2 S- l  e, P3 Z" B3 M想要您的最新版,可以吗?

    该用户从未签到

    发表于 2013-11-29 12:49:07 | 显示全部楼层
    软件真好,对我帮助很大!希望老大分享,体验新版使用的快感!

    该用户从未签到

    发表于 2013-11-30 09:50:33 | 显示全部楼层
    本帖最后由 Oeasy 于 2013-11-30 10:02 编辑
    5 J6 I3 P1 E. F, I0 ~4 K$ B( J/ T3 ~2 R! l$ p6 q  c

    . {% j1 T" x" T) G, E/ w首先感谢楼主 ,提供了这么好的工具,谁用谁知道。节省了大量的时间,以前我都是用Excel来合并词条,很费劲,还有内容丢失的情况(因为Excel一个单元格里的内容有长度限制)。不过人心不足蛇吞象,我们想要的总是更多、更好。{:5_227:} 不知道可不可以添加下面的功能。
    : u. f. I5 H, k1 m/ r1 [2 I+ b: [  |  s- a' j: D) e0 |% T& D
    说明,下面我用到了三个有“名”的txt。6 o9 W5 _3 _6 S; d& k) _3 i
    src_1.txt,mdx源文件1;
    " q3 A! ^  [3 G: b2 T1 Z- [$ Zsrc_2.txt,mdx源文件2;' F  v' T; N) q$ X$ Y+ w* @
    src_result.txt,最终(想)得到的txt,keywords为src_2.txt,条目内容为src_1.txt+src_2.txt对应条目下的内容。$ L& }: v  B2 r8 \2 x
    ========================================================================3 j1 N5 d8 I+ W. q( o
    有src_1.txt、src_2.txt这样两个mdx源文件,其中
    6 ?% X- R: Q+ B9 U& Gsrc_1.txt2 H, y' }; f: Y7 y: I8 j
    A
    + j6 A9 G! Y8 P; T2 B( l% h& j7 ~2 w- L, MA_CONTENT_src_1
    ' _% X% Y. T" x! X</>& j5 B0 R6 ~9 ?
    B
    2 Q7 X/ E$ f8 R( P# I- Z: n0 BB_CONTENT_src_1
    6 N. b/ o$ ~# I8 }</>
    # H# Z- P/ f. wC3 C- N# r) V( }  D/ ]0 f4 Y
    C_CONTENT_src_14 w. V4 L/ a4 S: L" J8 T$ {: L/ Q
    </>
    " o7 M% q8 d: @: ]1 u6 T1 D, n, rD
    : s/ A& m& j/ r. u+ u( [: b+ WD_CONTENT_src_15 K" G7 r4 E# l% k( }; D
    </>
    5 V9 v( p! ?. L5 z  g

    + E1 \) @7 h0 ?, ?2 jsrc_2.txt' j" S; ?& T0 t1 [
    B0 g) ^8 x/ t0 x% v9 O
    B_CONTENT_src_27 f9 T" W" e: \- n( \3 x( c5 V1 K/ l
    </>4 N6 G4 _8 r, A; V' H9 r* c
    D2 Q; D2 Y) N) {3 I8 G/ ^
    D_CONTENT_src_2
    + x$ k' J& i3 Y# Z; g</>
    # o3 x/ W' n# o1 S  z
    ; W& [1 @6 t0 U" `
    我想得到这样一个mdx源文件7 C+ Y; j( x8 ~
    src_result.txt8 _, l) @+ L& P
    B
    # S  u$ j+ \  N' W) F3 h/ w9 t- wB_CONTENT_src_1% b% e, }( N5 k$ p0 Y- Q; D6 m! E
    B_CONTENT_src_2* m$ I( Y4 P) \, R1 W
    </>) \' D% ^+ T& c# _! a
    D6 z8 p8 y' F- u; T4 Z
    D_CONTENT_src_1
    & |3 e2 l, {) y! g; M/ u  ID_CONTENT_src_2
    6 V: S5 V' O, X# G1 H( o, K</>
    * @  X- X! d+ K+ m8 z  b! N  D

    ; y1 ~1 v* J! W6 Z% Z目前我的处理方法是,src_1.txt与src_2.txt合并(就是复制粘贴到一个文件里啦),然后利用Dotext的合并词条功能,得到, D* Q/ W+ W4 B( M  g0 o4 x
    A
    ) _# _3 {, o$ u8 x5 _7 xA_CONTENT_src_1
    ) L5 @3 \' Q0 g, X</>( S* F  A6 |2 t# L" Y. s
    B7 J: X4 `  Y' [2 @9 R! O
    B_CONTENT_src_1
    " N. H1 m) F% L% {# W/ g/ zB_CONTENT_src_21 Z5 N( q9 b) h% f7 w) N* p
    </>
    ' V# M3 o$ U) R4 e* k- TC* g( w1 @$ L6 K- v+ [
    C_CONTENT_src_1* f9 [% N! h2 e" [% x
    </>! ~* v$ v% o" N0 a. a/ x
    D
    " I! L) r" W1 H2 x0 M" ]D_CONTENT_src_1/ K4 c% g- y8 E- ^
    D_CONTENT_src_2
    ' l9 Q% @, B8 H, I( J</>

    % j& F6 O  S& Y+ U; G然后利用src_2.txt里原有的一些标记性文字,删除不含src_2.txt内容的词条。最后也算可以得到src_result.txt。
    . @0 j9 p4 O! b1 x7 d: [% C这其实就是mdx源文件的合并、取差、筛选等等。+ C" A- c0 w. P' M
    ========================================================================
    : T: \, F+ u) \8 n说说这个idea有什么用。# T0 u6 x  N+ ^
    一、
    0 q+ n6 G8 u! v4 |: f4 L$ O3 |src_2.txt可以是一个list性质的mdx,比如
    : V$ B5 |. ^7 G3 c7 V8 A
    生词1$ e: P$ g! f# {: K
    随便什么内容1
    3 b0 C% E/ o! a9 M</>
    , P- ]& R! ?" q* f  M生词2
    ' o! O4 i! _2 y9 O8 p' u  g随便什么内容2
    7 B. h. T1 j- x4 t</>

    6 p: R7 U% Y" `6 csrc_1.txt可以是某本双解词典。) r% A9 _5 X* H) ~5 E5 o% C/ C9 n

    , K, s7 y/ j; ^1 u2 t: B1 ~利用上面的操作,就从src_1.txt提取出了生词1、生词2的词条(内容),做成一个mdx,时常阅读、复习,可算是升级版本的“生词本”(单词本)。* M! w7 H6 |7 a+ o9 G
    二、- _: ~& f( ]7 J3 r. k4 o
    src_2.txt可以是一本小型的词典,比如- e# t1 @0 [: Z+ V1 j
    外研社现代法汉汉法词典
    ; R2 V: ^# u  ?5 S" R& xsrc_1.txt则是chigre的【2013.05.27】法语发音库(121,310检索项, 实际90,626词条)
    : ~1 A( q' i4 [% H+ R6 ]1 u# `https://pdawiki.com/forum/thread-10685-1-1.html
    0 W, J9 }  E( k) a5 k7 S0 a* [% H( G/ F# S# S
    利用上面的操作,src_result.txt就是有真人语音的《现代法汉汉法词典》了。
    6 [+ h2 E' u! B% K" W2 `; |
    5 \* _9 Z# F6 r. C7 R% g( q% I三、) u/ l. z4 z) e' X/ J1 o, [( [5 \
    一、二的组合情况。
    9 u# Q$ \: Y: Q========================================================================3 x7 v9 U5 N" c
    说了这么多废话,跟Dotext什么关系呢?, W" O/ L/ H8 I$ \" ~: V8 {; f
    我上面那一堆,核心就是想得到src_1.txt里keyword为B、D的条目,
    . f+ Y8 y6 h! g! s

    , m: j( {* h) l$ V! U1 U9 Psrc_1.txt' x5 Y# Y3 T0 u8 `' p' ]. R
    A
    & C& s9 Q& L7 ^4 R! l3 ?: Z2 z' DA_CONTENT_src_1
    & L; P; y% P5 o8 A4 O6 q7 E: R</>
    ) y& _8 g; U+ ~9 g# I. H/ l( [B
    + X; M0 Q9 E9 \4 {B_CONTENT_src_1) S% ?  H6 S+ v9 N2 z6 s& ?. |
    </>
    ' S6 d. F! S* l6 I; o) d5 |C5 s' c, l, F3 a' L: b- p% v# U* J
    C_CONTENT_src_1
    $ P4 @  {9 E, Y' V1 Z" {</>0 ~" a) E9 Z1 t: \9 N: ~
    D
    7 P% A( p. \) g8 KD_CONTENT_src_1
    ! h8 d) ~3 [+ t; Q( X4 w+ k</>

    / ~9 o0 y$ x: {0 ~# U+ w/ F8 b提取条件是0 _! Q' ]4 O8 p7 B
    B% u: I: m7 P) h8 C9 a
    D

    , {* b! Q: f8 M1 r4 `6 C提取结果
    6 m( B2 F6 _3 b. }: usrc_1_extract.txt
    ! H5 P4 a2 }1 G# t2 n
    B& r( t* e7 U& g: ?
    B_CONTENT_src_1
    $ Q6 c3 M; p8 [& Z* e</>1 y( E; ~5 {/ }: x8 v7 B% K
    D% x4 T; I3 l  h2 G; ^9 |' ~% j  H
    D_CONTENT_src_1
    + ~% u0 r! H/ D0 q</>
    4 @' g% c3 a3 ], \6 R
    Bingo!
    0 E1 o/ R$ B9 ]+ R. h) N0 F& Y不知道能不能给RegEx Dotext加上这个功能,或者说已经可以实现,但是我没摸索到?
    # G  L1 z) X  t6 h' S再次感谢楼主。{:10_244:} ! g0 t& q( J; S+ f, F

    6 g4 s6 R  O! n7 l

    该用户从未签到

    发表于 2013-11-30 11:07:34 | 显示全部楼层
    谢谢老大。我想要新版。我的邮箱:[email protected]

    该用户从未签到

     楼主| 发表于 2013-11-30 13:37:17 | 显示全部楼层
    本帖最后由 sunsmile23 于 2013-11-30 13:43 编辑 ! d9 x' j6 T6 F  E

    + t5 C# ]7 I# d% e- ^0 zmdx fan 们,O常委是本坛目前所见的知识储备多、勤奋好学又热心肠的人,我等若能有他一半,何愁解决不了自己的问题。
    ! P& H9 G$ _# {9 ~4 W/ Q" H7 l  x' l+ x# N2 G
    **所见略同。这种按需提取,正是dotext考虑的下一次升级。前面各版主要在于排错,以后可能主要在于添功能。
    8 j! i! m% k% _正如你所言,懂英语、懂词典的,不懂技术;懂技术的不太懂这词典到底该怎么搞,怎么弄好用。恰好我几样都懂点(尽管只懂点皮毛),所以,知道想要什么

    该用户从未签到

    发表于 2013-11-30 20:18:03 | 显示全部楼层
    谢谢老大的工具。真的非常感谢!

    该用户从未签到

    发表于 2013-12-1 01:54:43 | 显示全部楼层
    正式我在找的软件,合并词条,去掉重复词条。
  • TA的每日心情
    擦汗
    2025-3-22 09:30
  • 签到天数: 21 天

    [LV.4]偶尔看看III

    发表于 2013-12-2 18:19:54 来自手机 | 显示全部楼层
    本帖最后由 majikun 于 2013-12-2 18:22 编辑 5 W' H9 N" a5 P4 r

    " ]. |, r" F  G0 V支持老大正在制作词典,里面的重复太多了,特别需要老大的新版软件,可以发我的邮箱吗?[email protected]谢谢了

    该用户从未签到

    发表于 2013-12-2 18:37:02 | 显示全部楼层
    本帖最后由 dingweifengye 于 2013-12-2 18:40 编辑 4 S* @0 M0 e3 V
    ; y. c% l3 M2 [* k& Q6 Y8 ]
    非常感谢楼主的分享!支持...E-mail:[email protected]

    该用户从未签到

    发表于 2013-12-3 11:04:24 | 显示全部楼层
    正在修改21世纪大英汉词典,这个词典释义比较广泛,例句丰富,但是需要词条合并一下。
    ( l( R3 b5 n; h% F6 \6 u不知楼主能否共享下解压密码?谢过了~~
    5 [  A# l  G9 W% ^, f) o. J- h[email protected]
  • TA的每日心情
    开心
    2025-1-24 20:48
  • 签到天数: 635 天

    [LV.9]以坛为家II

    发表于 2013-12-3 15:39:34 | 显示全部楼层
    感谢楼主无私的奉献,请惠赐密码

    该用户从未签到

    发表于 2013-12-3 16:48:34 | 显示全部楼层
    sunsmile23大神你好,
    ' @& O0 p( M) R* a; ^有个问题请教一下:
    1. Revere
      - @2 P/ y% Z3 J6 X$ S% b" \
    2. n. 里维尔(美国马萨诸塞州东部城市)
      ! F& f3 Z* e  Q/ r

    3. 4 C8 \: _' A$ X# w& \& |8 V1 w
    4. revere
      / ]; [  Q: @0 n7 |8 z$ T5 R. S
    5. vt.尊敬,尊重;崇敬7 R0 U0 c/ Q4 `0 h! N4 \( E/ k

    6. 3 n3 a, }6 Q. z" ?4 c- ]
    7. revere; M8 J! D, P) C3 j) ]0 \7 j
    8. n.单词revers的变体
    复制代码
    这三个单词,我想合并后两者,前面的Revere作为独立的词条。9 f) g0 R2 ~" G0 T8 ?
    但是我用RegEx Dotext 1.0β3转换后,这三个词条合并在了一起。
    ) z6 C+ r. g! `% ~5 |( M7 v
    * m/ f* ]% M/ K: F2 ^9 X* Y猜测可能是因为没有区分词条的大小写。
    & f6 i6 y' K! }. [/ V请问应该如何操作呢?; v( T! S6 @* `! G/ E; h
    , v1 Z  I7 a3 A: D- o2 A0 z
    谢谢!

    该用户从未签到

     楼主| 发表于 2013-12-3 20:25:58 来自手机 | 显示全部楼层
    确实不区分大小写。
    " U! ]3 a& q4 j& N. L4 w; l- Y以后版中,是否区分,可交给用户去决定

    该用户从未签到

    发表于 2013-12-3 21:13:42 | 显示全部楼层
    能否增加一个功能:全部删除释义相同的词条?
    0 E0 K, \% q, a5 W  p) m% |应用背景:在合并时,有些完全相同的词条在N本词典中都有,并合后就会重复出现,因此 只想保留其中的一条即可。/ q* }1 ]6 C* O8 E
    如有可能,请提供,谢谢您 。

    该用户从未签到

    发表于 2013-12-7 23:00:11 | 显示全部楼层
    我是最大的受益者!再来致谢!(我甚至把我自己的语音库/词频/第一主力词典都用dotext合并了o(∩_∩)o)
    2 Y) U# |$ G2 _5 |其实还想把牛津和朗文以及新牛津的短语和衍生词都提取了,可惜精力不够了!
  • TA的每日心情
    慵懒
    2025-1-28 16:22
  • 签到天数: 216 天

    [LV.7]常住居民III

    发表于 2013-12-9 20:40:02 | 显示全部楼层
    Hugh 发表于 2013-12-7 23:00
    . V' o) [( f! a. e* d我是最大的受益者!再来致谢!(我甚至把我自己的语音库/词频/第一主力词典都用dotext合并了o(∩_∩)o)
    ' R2 R1 [7 [& I& m% W其 ...

    , J( @4 {6 m5 E8 p: Y赏心悦目的排版。

    该用户从未签到

    发表于 2013-12-11 22:49:30 | 显示全部楼层

    该用户从未签到

    发表于 2013-12-11 23:35:54 | 显示全部楼层
    前来致谢!合并词条效果很好!只是很奇怪,里面的正则表达式怎么用不了?总是报错。同样的表达式在c#里面没错啊?

    该用户从未签到

    发表于 2013-12-12 08:55:19 | 显示全部楼层
    抽取短语有没有人做过

    该用户从未签到

    发表于 2013-12-12 09:13:27 | 显示全部楼层
    老大的作品太好了,给个新版吧,谢谢!![email protected]

    该用户从未签到

     楼主| 发表于 2013-12-12 20:21:37 来自手机 | 显示全部楼层
    hyln9 发表于 2013-12-11 23:35
    & q, x# L: ]; K9 I1 P5 u  `前来致谢!合并词条效果很好!只是很奇怪,里面的正则表达式怎么用不了?总是报错。同样的表达式在c#里面没 ...
      {- P2 r1 m  c- F2 O7 r- L
    贴出来看看。
    2 @; P8 T; W9 W& Y这个与perl兼容。

    该用户从未签到

     楼主| 发表于 2013-12-12 20:24:53 来自手机 | 显示全部楼层
    l126t 发表于 2013-12-12 08:55
    2 i7 T5 X$ A5 `% s( @7 A抽取短语有没有人做过
    - J  a9 V4 E7 L
    帮助里有使用示范文件的例子。
    ! t  k6 N# }4 s4 F0 L+ Y最关键的是找出短语特征。

    该用户从未签到

    发表于 2013-12-13 01:46:44 | 显示全部楼层
    sunsmile23 发表于 2013-12-12 20:21
    5 ^5 I/ e3 c3 k* S$ L贴出来看看。9 @. D0 c" ^. _0 K1 g
    这个与perl兼容。
    % \% F  ]- x7 m- G* s1 h
    实在抱歉,我后来吧表达式缩短了一些就没再报错,之前的没有记录下来。不过还有一个疑问,就是转出来的文件会有这样的:<a> 我都手工改成了 </a>
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2025-5-4 07:42 , Processed in 0.022618 second(s), 15 queries .

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表