掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 4642|回复: 140

[资料] MDX词组提取 - 从正则进阶到头发护理

[复制链接]
  • TA的每日心情
    慵懒
    2018-8-25 12:29
  • 签到天数: 91 天

    [LV.6]常住居民II

    发表于 2018-5-3 00:01:37 | 显示全部楼层 |阅读模式
    本帖最后由 garypang 于 2018-5-8 18:56 编辑
    9 N) X, [# U" X0 m) n. p0 d1 T6 T  b: T  W) ]
    阅读本帖前建议对正则表达式有一定的了解,本帖不做基础知识普及,只讲解关键点和思路  F1 D$ _5 I* i
    , P0 `. P; l; T3 B- s
    在我出了两个词组提取资源帖后,不少小伙伴都留言表示希望我出教程帖,也有希望我提取某某词典的词组,秉着授之于鱼不如授之以渔,造福论坛和广大网友的想法,分享下我提取朗文5++词组的全过程,只要跟着我一步一步来,哪怕不懂代码的小白,也能提取出朗文5++,但是要扩展到自己提取其他词典,则需要看懂各个步骤,并举一反三啦.7 f+ U. G6 s; m
    $ L" j+ K  _/ J7 X2 \2 E
    所用工具:
    + n) l: {" H7 Z6 [  b% Y6 i0 B文本编辑器 notepad++  https://notepad-plus-plus.org/download/ (其他编辑器无法保证本帖提供的正则正常运行)
    , u2 [2 u  E6 y' j0 p5 G  R; S0 l7 s+ s( [, v, w1 |9 ^0 e* k
    tidy-html5  https://github.com/htacg/tidy-html5
    2 A- [$ O6 p" B# z3 S8 n6 r已编译好版本,直接下载
    + I! F+ W9 l' L9 C! e# S. F
    游客,如果您要查看本帖隐藏内容请回复
    5 Q0 X  l4 h2 m, _: Z4 N

    . G. [/ p/ M% k+ Rmdx解压软件MdxExport   mdx打包软件 MdxBuilder   论坛有提供下载,7 n* }4 @$ P( O8 P

    9 V2 `( C+ h7 j0 R1 ~: O0 k2 a具体步骤, v3 L2 R: O3 D
    / u) i. a7 i# }9 }1 Y) N
    第一步 使用MdxExport 将mdx文件解压成txt文本文件
    ; Z2 c( h/ p: y! a3 X& P+ i% p
    2 c: G3 [; W0 h, o1 u, ^! o" \- E第二步4 D' [* J! ]. X" A1 P) e) c
    用notepad++打开解压后的txt文件,ctrl+H打开替换窗口! `, T, [% v6 r

    ' E- V$ Z, x# c$ f( J8 R4 n  q; j替换目标:
    1. .*?(<a name="\w+?"></a><span class="(newline ){0,1}Sense( LDOCEVERSION_new){0,1}" id="\w+?">(<span class="LDOCE5pp_sensefold){0,1}.{0,400}?<span class="REFHWD merge_sense.*?)<!-- End of DIV dictionary-->.*?
      7 r0 C# o& F( K; B# Z) c$ j  `
    复制代码

    ( S  Y8 m$ n# R4 R( T, f9 z  d4 ~& C  m, p3 L
    替换为:
    1. \1\r\n
    复制代码
    查找模式:正则表达式   勾选匹配新行  保存替换后的文件为hb.txt7 o) g1 {) X: c  S: k

    4 M2 E$ w1 |& F" Z讲解:9 l0 I3 N. t2 a: i- p

    / H0 \- v& m/ l+ a' c/ f观察朗文5++词组部分的数据结构 6 q6 a6 |+ \% o" U5 A* p" U

    % }. R" v3 J: ]: H' H6 `7 g, _9 C$ l& v( W# ^2 F
    5 ~; x* ~' _+ S$ L0 D3 M
    词组部分起始位置标签是类似<span class="newline Sense " id="go__phr__1">,用正则很容易就匹配到,但是末尾闭合标签全是</span> 无法匹配,暂且先匹配至词组所处单词的释义的最末尾 即<!-- End of DIV dictionary-->,做为第一步的筛选,可以去掉很大一部分无用的内容
    6 }/ a* ^/ a& I& \6 E7 Z) z& j& G) F% @" y
    替换后结果是这样的& h, Z( I& X7 }7 y

    ; O; X8 k9 s8 |9 F0 c1 B* b
    7 X8 c- ~/ C  C, s6 b第三步" t/ [4 [7 P  ^/ M7 R
    打开 hb.txt) u3 _8 I( _) y
    替换目标:
    1. <span( class="(newline ){0,1}Sense( LDOCEVERSION_new){0,1}" id="\w+?">(<span class="LDOCE5pp_sensefold){0,1}.{0,400}?<)span( class="REFHWD merge_sense)
      * d* f, ^  Z- R8 B0 W8 u' j8 J
    复制代码
    " \% t& I! q; |* h2 {
    替换为:
    1. <jia\1hwd\5
    复制代码
      查找模式:正则表达式  
    " P( p' f* e+ J6 v
    ) j2 V. g0 e" I0 a3 b讲解:
    + _9 M# F& s' t7 w, ?) J9 @这一步的目的是将词组的起始标签比如<span class="newline Sense " id="go__phr__1">改为自定义标签<jia class="newline Sense " id="go__phr__1">,将词组名的起始标签 <span class="REFHWD merge_sense>改为<hwd class="REFHWD merge_sense> 为下一步格式化html做准备$ F8 o6 u4 r# w, K: B
    , B7 m3 B0 s% E
    第四步
    + H, v1 b; e8 w6 l  \) O2 Q
    游客,如果您要查看本帖隐藏内容请回复

    8 ^5 ]4 P9 v3 P' s. t' S# L6 A等待过程中的窗口
    ' I+ ?, D( i5 a+ h$ H# t
    5 H, d0 P5 c$ m% S! ^$ s
    9 T3 B  N# F4 U' m5 o. ]% n讲解0 C) \& q8 u% y8 z
    tidy是个大杀器,能将html格式化的同时自动修复html里的错误,比如我们前面改的自定义标签<jia>和<hwd>,tidy会自动配对这两个标签的闭合标签,发现是</span>而非</jia></hwd>,则会自动将闭合标签改为独一无二的</jia>和</hwd>$ y; s  }, `8 I# U3 }
    这样我们就能轻松通过正则匹配到每个词组的结尾标签位置以及词组名结尾标签位置
    * {0 j* S: V0 i) N0 x- O- s# r* s1 [
    # m% r" E& D7 A# Z8 d第五步
    $ ?+ O% V  W! V& L# C6 V+ S打开 output.txt# [' ?  H* p: W" I6 B5 L
    替换目标:
    1. .*?(<a name="\w+?"></a>\r\n\s+?<jia class="(newline ){0,1}Sense( LDOCEVERSION_new){0,1}" id="(\w+?)">.+?<hwd class="REFHWD merge_sense[\w\s]*?">(.{1,280}?)</hwd>.*?</jia>).*?
      ' }" M* K5 W4 Z
    复制代码

    . ^. D: f# v$ b/ B替换为:
    1. \5\r\n<link href="LM5style_vanilla.css" rel="stylesheet" type="text/css" /><link href="LM5style.css" rel="stylesheet" type="text/css" /><link href="LM5style_switch.css" rel="stylesheet" type="text/css" /><link href="LM5style_show.css" rel="stylesheet" type="text/css" /><script src="jquery-3.2.1.min.js" charset="utf-8" type="text/javascript"></script><script src="LM5Switch.js" charset="utf-8" type="text/javascript"></script><span class="lm5ppbody"><div class="entry_content"><div class="dictionary"><span class="dictentry"><a name="\4__a"></a><span class="ldoceEntry Entry" id="\4"><span class="frequent Head"><span class="HWD">\5</span></span>\1</span></span></div></div></span>\r\n</>\r\n$ F# U$ G. ]( e+ F. A% ]& I7 c! L
    复制代码
    查找模式:正则表达式   勾选匹配新行- |, _+ o) O4 {$ V6 [4 H8 t

    + P- N+ ]  n8 n6 I" g. f% b讲解
    * @: Z. O5 h1 ~: h既然我们能确定所有词组的起始和结束位置,以及词组名的起始和结束位置,那就可以彻底干掉所有没用的内容,只留下有用的词组相关的内容,并将其格式化为mdx要求的格式
    $ Q+ I3 M6 x3 ?. l  M+ |% d. _: w
    " ^  g+ @' I4 Y1 A2 M替换后效果
    : ?* A5 w" s: [7 ?8 @: x9 q& N9 J/ u* ]" v3 V% h4 }# D

    * T, p" I( S+ N8 F! i  I到这一步,一部词典的词组提取已经完成了
    0 [# x! K; ~1 c+ N2 i- u- j3 @: j( C& K0 h- |
    接下来步骤是针对朗文5++词组的调整和优化,不同词典可能不同.
    ) ~* q, S! w" Q1 C
    # a' ^, \( n4 _. }第一步:
    % n4 `5 E* e1 b" X% O/ N上一步完成后,提取出来的词组名有些是这样的
    % h/ [5 i7 @) }  H
      T0 |+ \0 K& ]5 s! z( \0 Z& R( h$ O' ]
    需要改为abide by something   ' m% d7 Q* L1 |+ G( |$ }* P

    8 O' l( M# y  s# h) {
    1. (^</>\r\n.+)\r\n\s*?<span class="OBJECT">(.+?)</span>( X6 Q0 h# n) ?7 f
    复制代码
    1. \1 \2. m% ^+ n; j2 s) x9 R2 w
    复制代码
    查找模式:正则表达式   需要替换两次,因为有些是两个<span class="OBJECT">(.+?)</span>  比如 take somebody up on something
    3 `7 [+ o" I# F: k4 D0 f' ?7 ?8 T1 Q. ^) }6 F6 Q% B
    第二步
    7 ~& K% l- Y) X0 h6 S5 P去掉词组名里的双空格 三空格6 _( y  Z) ?, {/ o. W* |
    替换目标:
    1. ^(.+?)(  |   )(.+?)\r\n<link
    复制代码

    " f5 t/ f4 i7 G7 G$ R. T3 }1 m替换为
    1. \1 \3\r\n<link
    复制代码
    查找模式:正则表达式    需要替换两次 因为有些词组名中多空格不止出现一次
    # j+ {! ?$ M' w, i  [
    1 G% M( i( W; H8 p+ L: g/ a第三步
    6 u6 G( t2 G6 i3 e/ a0 S6 d愿词典词组中 比如somebody's 使用的是 ’ 而非标准的单引号 ' 作为上标 需要改过来,否则会造成一些词组查不到' n2 B6 F! a+ I1 w* ~
    替换目标:
    复制代码
    ' Z$ I) l3 Z2 p9 M  U# m$ r7 V
    替换为:
    1. '
    复制代码
    查找模式:普通. \, p. [8 ~2 u* b8 w& u' ^

    # C  W$ s0 K( J# l5 }, k第四步, q; W5 ?( `+ L9 e. j% t
    去除词组前面的数字序号
    . ]& B: o/ d' h. O& m替换目标
    1. \r\n\s*?<span class="sensenum span"( newline="yes"){0,1}>[0-9]+</span>
    复制代码

    % t, h( q( h9 a. x: |替换为 空+ E: L  q' A1 l
    . Q4 l* Z( ^) e' ^9 V1 |
    还有进阶的针对查词的灵活性优化,合并原词典后的去重,这些就不说了,每部词典不同,没有通用性,  M3 i- L4 a& \5 r
    : u8 Z2 b  l7 Y8 o
    最后将完成后的文件内容复制到原mdx解压的txt中顶部, 用MdxBuilder   打包即可
    $ O  i( e- t3 Z/ b# j
    : k2 k% `: ~9 ^8 M只要严格按照我的步骤来,就一定可以完成提取,我是一遍码帖,一遍操作完成了一次提取的.
    8 f" l1 I" o/ |+ m5 L8 i# G+ Y+ X; ^. K0 v/ |. W3 |; ^; o  n$ V  t) i
    希望大家踊跃行动起来,提取出自己的词组词典,造福大家!* X* z% N: e3 f* f( z" I: U; {

    5 c$ S6 F6 O& v# w$ Y有问题请私信,正则,mdx等的基础知识普及不回哦.
    ! f* [) ?2 L0 C3 I) F/ P, ^6 x% n9 j6 X; l7 {' {
    " S3 j# U% y$ B5 i( O% Y
    8 H: k* l/ T; b# W( f

    # t- |9 Q; G: c5 k% g

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有帐号?免费注册

    x

    评分

    8

    查看全部评分

    本帖被以下淘专辑推荐:

    • · 工具|主题: 51, 订阅: 19
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

    发表于 2019-1-8 17:21:09 | 显示全部楼层
    编译了一个Mac版tidy html
    3 l: e0 J6 n% _- V. F) ^/ _不知道可以用不… 反正按官方步骤编译的。. Z- U* L) n. U4 b) H
    Mac用户有需要的时候 可以试试。8 T/ l/ G/ r7 i

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有帐号?免费注册

    x

    评分

    1

    查看全部评分

  • TA的每日心情
    开心
    2019-2-14 21:07
  • 签到天数: 2 天

    [LV.1]初来乍到

    发表于 2019-3-11 18:57:37 | 显示全部楼层
    把mdx导进sqlite3里面(网上能找到一个readmdict.py,稍微修改一下就能干这个),然后逐条处理,会不会比直接处理一个大txt要省劲一点儿?$ U5 {  q" t4 l7 n6 m
    " q7 u6 X& W  V% D# X( O
    我是用node.js来做正则处理的。当然用python也一样。
  • TA的每日心情
    开心
    2018-5-27 05:26
  • 签到天数: 55 天

    [LV.5]常住居民I

    发表于 2018-5-4 17:02:13 | 显示全部楼层
    本帖最后由 nidetou 于 2018-5-4 17:13 编辑
    % ^7 C! x& k( b$ y& [' q5 n2 w' r* L6 C/ R- _
    链接:https://pan.baidu.com/s/1LbaCNOIHVV-tND9Dg48QgQ 密码:omwb% |+ `' ~! a7 ~) ?2 t! u* D
    . i! ?. R. X3 N* e; D& q
    我提取Laad3词典例句音频(coca5000),按字母顺序分割为51个文件.最头痛的是每个单词下的例句没有排序。所以应按照theaurus, phrase,collocation, spoken和意项五个部分分别提取(如有可能把usage也单独提取),即使顺序不对,也没有什么大碍。
  • TA的每日心情
    开心
    2018-5-27 05:26
  • 签到天数: 55 天

    [LV.5]常住居民I

    发表于 2018-5-4 16:08:09 | 显示全部楼层
    本帖最后由 nidetou 于 2018-5-4 17:14 编辑 3 z$ A0 N" c$ Y6 [
    6 v7 ~$ O! f5 ]# @
    这个一定要收藏,我想把coca5000从LAAD3提取音频例句,让大家听。由于不熟悉计算机语言,找到anki一款插件提取mdd文件中的音频,我是一个一个手工提取(大家别笑我,人笨没办法),合并文件有50多小时,没有放在出来的原因是例句排序很很麻烦。我感觉应分五个部分提取,theaurus, phrase,collocation, spoken和意项(如有可能usage也单独提取)。学外语大量听优先。如果有可能再把coca5000-10000提取,这样可建立输入词汇在大脑里形成bank.
  • TA的每日心情
    开心
    2020-5-23 22:47
  • 签到天数: 128 天

    [LV.7]常住居民III

    发表于 2018-5-3 00:44:36 | 显示全部楼层
    非常好的东西,这么晚了还在码,辛苦了。明天我也要好好学学怎么替换……& H) j, r7 X1 A# p4 l
    比较好奇的是,为什么有些词典,例如简明必应 https://www.pdawiki.com/forum/fo ... hread&tid=20726 这份词典里: y/ n! O$ }' W- c7 u2 |2 U4 P. Z0 R
    一些比如say等基础词汇,会出现前缀,后缀的,-等符号,导致如果将该词典作为首词典查询单词的时候,由于搜索机制的问题,输入say,会直接被导向-say之类的,然后……一个say搜出很多个同样的解释。" e$ y5 C5 M8 k# T& B* [
    不知道制作这样带有符号的同一个单词,是批量生成过程中产生的问题,还是为了作为词组存在留下的。
    3 R% G* S4 N4 p: `7 h研究好以后,看看能不能正则把这部分切了。
  • TA的每日心情
    开心
    2018-6-18 01:07
  • 签到天数: 102 天

    [LV.6]常住居民II

    发表于 2018-5-3 00:47:22 | 显示全部楼层
    QQending2 发表于 2018-5-3 00:44( F1 J- c- b% }1 o  \7 S$ m( V
    非常好的东西,这么晚了还在码,辛苦了。明天我也要好好学学怎么替换……8 X" _% W  v) M/ [7 @$ P
    比较好奇的是,为什么有些词典, ...
    出现前缀,后缀的,-等符号
    词典中本来有这些词条,不奇怪
  • TA的每日心情
    开心
    2020-4-2 14:11
  • 签到天数: 464 天

    [LV.9]以坛为家II

    发表于 2018-5-3 14:23:25 | 显示全部楼层
    非常感谢楼主的分享!!!
  • TA的每日心情

    2020-7-6 20:25
  • 签到天数: 177 天

    [LV.7]常住居民III

    发表于 2018-5-3 19:32:29 | 显示全部楼层
    不管东西咋样 还是先谢谢了
    ; G+ z$ m8 [- |  A/ v5 [
  • TA的每日心情
    擦汗
    17 小时前
  • 签到天数: 977 天

    [LV.10]以坛为家III

    发表于 2018-5-3 20:50:11 | 显示全部楼层
    很喜欢关于词典技术的讨论
  • TA的每日心情
    开心
    2018-4-10 07:58
  • 签到天数: 60 天

    [LV.6]常住居民II

    发表于 2018-5-3 23:49:13 | 显示全部楼层
    给楼主点赞,这份工作需要一些创造力
  • TA的每日心情
    开心
    17 小时前
  • 签到天数: 930 天

    [LV.10]以坛为家III

    发表于 2018-5-4 00:34:27 | 显示全部楼层
    Thanks for sharing...
  • TA的每日心情

    2018-6-16 18:13
  • 签到天数: 158 天

    [LV.7]常住居民III

    发表于 2018-5-4 11:40:55 | 显示全部楼层
    千呼万唤始出来啊
  • TA的每日心情
    慵懒
    2018-9-28 00:22
  • 签到天数: 273 天

    [LV.8]以坛为家I

    发表于 2018-5-4 12:11:30 | 显示全部楼层
    还是要对正则熟悉。
  • TA的每日心情
    开心
    2018-5-27 05:26
  • 签到天数: 55 天

    [LV.5]常住居民I

    发表于 2018-5-4 16:11:01 | 显示全部楼层
    本帖最后由 nidetou 于 2018-5-4 16:34 编辑 4 L( V5 T& f* V" r; y% i- _" |) O
    6 p) w$ p2 n6 W# {2 m& w" d
    朗文现代不好的原因是例句英美音混杂。
  • TA的每日心情
    开心
    10 小时前
  • 签到天数: 694 天

    [LV.9]以坛为家II

    发表于 2018-5-4 22:55:18 | 显示全部楼层
    谢谢,下来看看
  • TA的每日心情
    开心
    2019-10-25 14:29
  • 签到天数: 32 天

    [LV.5]常住居民I

    发表于 2018-6-7 22:44:39 | 显示全部楼层
    感谢楼主的分享!学习下。
  • TA的每日心情
    开心
    16 小时前
  • 签到天数: 975 天

    [LV.10]以坛为家III

    发表于 2018-6-7 23:15:15 | 显示全部楼层
    谢谢楼主的介绍,很想学习制作,先从基础开始

    该用户从未签到

    发表于 2018-6-14 17:35:07 | 显示全部楼层
    感谢楼主分享制作经验,学习了!
  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-15 17:20:23 | 显示全部楼层
    好贴!讲的很详细!可惜我看到的太晚了,浪费了好多时间
  • TA的每日心情
    开心
    2018-6-18 09:03
  • 签到天数: 110 天

    [LV.6]常住居民II

    发表于 2018-6-15 18:17:14 | 显示全部楼层
    学习了。虽然会一丁点的正则,但一直没有太怎么敢用在这种大型处理上。
  • TA的每日心情
    开心
    2019-7-11 11:21
  • 签到天数: 313 天

    [LV.8]以坛为家I

    发表于 2018-6-15 22:24:34 | 显示全部楼层
    非常感谢garypang精心整理,无私分享,授人以渔!
  • TA的每日心情

    2018-6-15 14:54
  • 签到天数: 3 天

    [LV.2]偶尔看看I

    发表于 2018-6-16 18:47:15 | 显示全部楼层
    过来学习一下
  • TA的每日心情
    慵懒
    10 小时前
  • 签到天数: 884 天

    [LV.10]以坛为家III

    发表于 2018-6-16 19:24:52 | 显示全部楼层
    这个要好好学习下
    " |. M! ]9 M5 [- x9 g正则看不懂,哎。。。。。。。。。。
  • TA的每日心情
    开心
    2018-6-20 16:04
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2018-6-20 19:56:03 | 显示全部楼层
    看看啊。这个应该是非常好的。XUEXIB LA
  • TA的每日心情
    奋斗
    2020-7-12 05:59
  • 签到天数: 97 天

    [LV.6]常住居民II

    发表于 2018-6-25 16:42:23 | 显示全部楼层
    谢谢garypang 实在是太感谢了 谢谢 对我帮助很大 可以自己diy了
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    顶部qrcode底部
    关注公众号送论坛充值码
    关注微信公众平台
    关注微信公众号 pdawiki,获取邀请码,看文抢积分,抽奖得浮云! Follow our Wechat official account "pdawiki", get invitation codes, and play the lottery to earn points (积分)!

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2020-8-12 17:58 , Processed in 0.068484 second(s), 16 queries , MemCache On.

    Powered by Discuz! X3.4

    © 2001-2017 Comsenz Inc.

    快速回复 返回顶部 返回列表