掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

123
返回列表 发新帖
楼主: jonah_w

[求助] 正则表达式请教

[复制链接]
  • TA的每日心情
    开心
    2025-1-7 17:15
  • 签到天数: 773 天

    [LV.10]以坛为家III

    发表于 2018-12-30 22:43:08 | 显示全部楼层
    jonah_w 发表于 2018-12-30 13:31
    7 Y, G1 ]! o  H1 m1 k: }  R好吧。这个是Mac词典源文件…

    ; N$ h" G, n; U看出来了,你弄成mdx的格式再试一遍,绝对稳
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2018-12-30 23:45:02 | 显示全部楼层
    孤影 发表于 2018-12-30 22:43
    ) ]# V$ L8 k; g4 @3 I0 G5 y) t看出来了,你弄成mdx的格式再试一遍,绝对稳
    0 Y& p/ |" {" [' J& _4 y
    好,我试试
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2019-1-12 12:15:08 | 显示全部楼层
    zzhirong 发表于 2018-12-26 10:02
    5 u8 ]. c9 K9 Z6 J" w这问题用 XPath 可以不用这么烧脑,用正则表达式则是把简单事情复杂化了,附 python 程序实现,依赖 lxml  ...

    & c- P8 T0 n! G( V今天终于有机会试了一下这个方案,可是报了个错。。。6 Q  ^" F- ?/ u; N1 @
    7 q3 B3 Z. c) Q+ v  r
    5 i/ N6 w! F2 q* Q$ U) y
    1. Traceback (most recent call last):$ p( m9 @& R9 G
    2.   File "/Users/chris/Downloads/replace_tilde_with_title/replace_tilde_with_title.py", line 18, in <module>% [# K) U, }  p; f1 ]1 n0 [% S
    3.     D_NS = xml.nsmap["d"]
      3 S1 F) `" {& @. ~2 d
    4. AttributeError: 'lxml.etree._ElementTree' object has no attribute 'nsmap'
    复制代码
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2019-1-12 12:25:55 | 显示全部楼层
    本帖最后由 jonah_w 于 2019-1-12 12:27 编辑
    # N, B7 ?2 ?8 x1 p7 p9 q
    anyid999 发表于 2018-12-25 17:41
    7 o/ O# L; B/ X新建个文件夹:5 `9 R) U+ o% Q3 s* ]& d" A
    把附件解压放入, / \- M. |! T' Y- @5 s3 c
    将你的要修改的txt文件, 更名为 inp ...

    ) v9 v+ y9 M. U今天刚试了下这个脚本,发现有错误:! M9 ]  [! U& _0 f
    1. Hello World!. k4 a; t% D" L9 L
    2. panic: runtime error: index out of range
      ; D) V+ p3 ]1 L) j
    3. 4 r  H$ O, J- G
    4. goroutine 1 [running]:, q3 Y' U; l) }+ g* _, o  B) h( {
    5. main.aEreplace(0xc0000a6a11, 0x10, 0x290, 0x0)+ l  r" b1 j6 ~- z4 j
    6.         D:/Xspace/Xmen/re.go:27 +0xed( `( z! V$ R% g9 H7 Q% Y, F- I' q
    7. main.main()& U, _- i3 {2 ~$ |; v
    8.         D:/Xspace/Xmen/re.go:20 +0x20f
    复制代码

    1 b: w* O* I9 |+ I  k$ L- O4 V% j7 z. ]/ ^- @5 x
    不知道是不是我机器的问题。8 [& j" u7 W( s0 j7 r. F6 H
    / [: [, I$ C7 P
    这是input.txt内容:(更新一个附件:)
    9 Y/ y) B! X3 T, `1 v8 f: e
    1. <?xml version="1.0" encoding="UTF-8"?><d:dictionary xmlns="http://www.w3.org/1999/xhtml" xmlns:d="http://www.apple.com/DTDs/DictionaryService-1.0.rng">
      " S: Y! `% s3 e8 V3 c& n
    2.     <d:entry id="_2udw" d:title="roughshod"><d:index d:value="roughshod" d:title="roughshod"/><span class="hw">roughshod</span><br/><span class="tag3">a.</span><br/><span class="table"><span class="num">1.</span><span class="tag4"></span><span class="tag1">(马匹)</span>钉有防滑蹄铁的</span><span class="table"><span class="num">2.</span>残暴的;残忍的;无情的:</span><span class="ex">a tyrant's ~ rule </span><span class="ex_c">暴君的残暴统治</span><hr class="hr_1"/>ride ~ over / 残暴地<span class="tag1">(或盛气凌人地)</span>对待;对…横行霸道;对…不予同情:<br/><span class="ex">ride ~ over the people </span><span class="ex_c">骑在人民头上作威作福</span><span class="ex">ride ~ over the rights of the children </span><span class="ex_c">践踏儿童的权利</span><span class="ex">ride ~ over sb.'s feelings </span><span class="ex_c">伤害某人的感情</span><span class="ex">The boss rode ~ over the men when they asked for higher wages. </span><span class="ex_c">工人们要求加薪,老板不予理睬。</span></d:entry>
      ' ^# a$ u; d1 r: ~1 e* l1 [
    3.     <d:entry id="_2u05" d:title="rookie"><d:index d:value="rookie" d:title="rookie"/><span class="hw">rookie</span><br/><span class="tag3">n.</span><br/><span class="tag4"></span><br/><span class="table"><span class="num">1.</span>新兵;生手,新手:</span><span class="ex">a police ~ </span><span class="ex_c">警察新手</span><span class="ex">a ~ star </span><span class="ex_c">新星</span><span class="table"><span class="num">2.</span><span class="tag1">(第一年参加联赛的职业球队的)</span>新队员,新秀</span><span class="tag2"><br/>[词典校勘] <br/></span> <span>rookie现在通用翻译为“新秀”。 另外,括号中说法有歧义。</span></d:entry>4 N2 A" d% ?: @
    4.     <d:entry id="_owh" d:title="copybook"> <d:index d:value="copybook" d:title="copybook"/><span class="hw">copybook</span><br/> <span class="roma">Ⅰ</span> <span class="tag3">n.</span><br/> <span class="table"><span class="num">1.</span><span class="tag1">(附有规范供模仿的)</span>习字簿; 描红簿</span> <span class="table"><span class="num">2.</span><span class="tag1">(文件、信件、账目等的)</span>副本合订本, 副未册</span> <span class="roma">Ⅱ</span> <span class="tag3">a.</span><br/> <span class="table"><span class="num">1.</span>老一套的, 平庸的:</span> <span class="ex">a ~ maxim </span></d:entry> </d:dictionary>
    复制代码

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情

    2019-11-22 21:06
  • 签到天数: 133 天

    [LV.7]常住居民III

    发表于 2019-1-12 15:10:36 | 显示全部楼层
    中文的没有试过.
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2019-1-19 17:05:09 | 显示全部楼层
    zzhirong 发表于 2018-12-26 10:028 ^! L- j. w1 V+ G1 E  @
    这问题用 XPath 可以不用这么烧脑,用正则表达式则是把简单事情复杂化了,附 python 程序实现,依赖 lxml  ...

      M5 L5 D3 b( u! `8 m1 I, M: \感谢感谢。最终通过这个方案解决了。xpath果然是好东西。我发现很多正则无法实现的东西,xpath都可以轻松搞定! 不过xpath也有一些不好搞定的地方,比如生成的xml经常需要再次调整一下格式,这时候再用正则又可以完美解决。这两个东西结合用,潜力无穷的说。( d- F% r& Y4 b

    ; A7 q0 U. N7 z& W正则最适合以行为单位的操作,xpath适合以元素为单位的操作。正则容易误杀误删的严重问题,xpath可以很好的规避。
    8 s0 ?; _8 T  I) O" S2 M  B. j& w7 h0 H0 g& H% F
    再次感谢推荐。如果需要任意一本Mac词典,可以向我索取。
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2025-7-10 16:04 , Processed in 0.021353 second(s), 16 queries .

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表