掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

123
返回列表 发新帖
楼主: jonah_w

[求助] 正则表达式请教

[复制链接]
  • TA的每日心情
    开心
    2025-1-7 17:15
  • 签到天数: 773 天

    [LV.10]以坛为家III

    发表于 2018-12-30 22:43:08 | 显示全部楼层
    jonah_w 发表于 2018-12-30 13:31
    ' Z/ k) l& l' E9 ]4 N- |& ?; n好吧。这个是Mac词典源文件…
    6 {! `  ~/ w. \) m' U! |3 Y) C
    看出来了,你弄成mdx的格式再试一遍,绝对稳
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2018-12-30 23:45:02 | 显示全部楼层
    孤影 发表于 2018-12-30 22:43
    5 N, x/ W( @4 v* b6 L) [& u看出来了,你弄成mdx的格式再试一遍,绝对稳

    5 k6 Q; W1 T$ t8 L, C6 S3 \4 T好,我试试
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2019-1-12 12:15:08 | 显示全部楼层
    zzhirong 发表于 2018-12-26 10:02
      r4 r1 |* T4 J. s) E. P6 r这问题用 XPath 可以不用这么烧脑,用正则表达式则是把简单事情复杂化了,附 python 程序实现,依赖 lxml  ...

    / `& r6 Z1 Z1 s今天终于有机会试了一下这个方案,可是报了个错。。。3 M2 U$ ?5 X& ]0 `
    / T' S0 N: k& L
    6 N( ^: N+ T; m9 s! E
    1. Traceback (most recent call last):" }: w; f( g$ z( s
    2.   File "/Users/chris/Downloads/replace_tilde_with_title/replace_tilde_with_title.py", line 18, in <module>6 p- I' ]# K% u( O# P
    3.     D_NS = xml.nsmap["d"]
      / d; [, l8 L$ z! r
    4. AttributeError: 'lxml.etree._ElementTree' object has no attribute 'nsmap'
    复制代码
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2019-1-12 12:25:55 | 显示全部楼层
    本帖最后由 jonah_w 于 2019-1-12 12:27 编辑 9 T$ W' e$ ]. \6 I- X
    anyid999 发表于 2018-12-25 17:41
    % S& X! h( @$ N& d1 E新建个文件夹:
    2 ?2 Q* H) {; h+ s9 ?把附件解压放入, $ V' W+ w- V) r. a8 w
    将你的要修改的txt文件, 更名为 inp ...

    ' x+ a" l4 i9 L+ s: m8 g1 P& K今天刚试了下这个脚本,发现有错误:
    # ~( `, p6 [1 ~6 I: n% y  N. [
    1. Hello World!
      # E) y0 ^( A% T* Y- A8 B
    2. panic: runtime error: index out of range
        K% D$ Y% z& o) |

    3. & B# h5 K" c2 @$ `; B9 j
    4. goroutine 1 [running]:
      . C. ^$ n" D# a6 d( v# F! t9 y4 ^
    5. main.aEreplace(0xc0000a6a11, 0x10, 0x290, 0x0)& X2 b" @6 `/ I8 y5 |
    6.         D:/Xspace/Xmen/re.go:27 +0xed- _; p! g" I3 J- [
    7. main.main()! U$ C9 S& a' Q/ a
    8.         D:/Xspace/Xmen/re.go:20 +0x20f
    复制代码

    ! H! p8 Q4 i9 z# M6 R( {9 g
    . I! z- x* c3 f不知道是不是我机器的问题。% J: e* \" O) s8 t; `" @2 d$ L
      w/ R, b5 D! J' r* i7 u" {
    这是input.txt内容:(更新一个附件:)$ `  \, v$ X* ]
    1. <?xml version="1.0" encoding="UTF-8"?><d:dictionary xmlns="http://www.w3.org/1999/xhtml" xmlns:d="http://www.apple.com/DTDs/DictionaryService-1.0.rng">: A) G( M* B6 ^: [( j  ?
    2.     <d:entry id="_2udw" d:title="roughshod"><d:index d:value="roughshod" d:title="roughshod"/><span class="hw">roughshod</span><br/><span class="tag3">a.</span><br/><span class="table"><span class="num">1.</span><span class="tag4"></span><span class="tag1">(马匹)</span>钉有防滑蹄铁的</span><span class="table"><span class="num">2.</span>残暴的;残忍的;无情的:</span><span class="ex">a tyrant's ~ rule </span><span class="ex_c">暴君的残暴统治</span><hr class="hr_1"/>ride ~ over / 残暴地<span class="tag1">(或盛气凌人地)</span>对待;对…横行霸道;对…不予同情:<br/><span class="ex">ride ~ over the people </span><span class="ex_c">骑在人民头上作威作福</span><span class="ex">ride ~ over the rights of the children </span><span class="ex_c">践踏儿童的权利</span><span class="ex">ride ~ over sb.'s feelings </span><span class="ex_c">伤害某人的感情</span><span class="ex">The boss rode ~ over the men when they asked for higher wages. </span><span class="ex_c">工人们要求加薪,老板不予理睬。</span></d:entry>
      ( l2 e$ F* Q, }3 C7 A. d$ E
    3.     <d:entry id="_2u05" d:title="rookie"><d:index d:value="rookie" d:title="rookie"/><span class="hw">rookie</span><br/><span class="tag3">n.</span><br/><span class="tag4"></span><br/><span class="table"><span class="num">1.</span>新兵;生手,新手:</span><span class="ex">a police ~ </span><span class="ex_c">警察新手</span><span class="ex">a ~ star </span><span class="ex_c">新星</span><span class="table"><span class="num">2.</span><span class="tag1">(第一年参加联赛的职业球队的)</span>新队员,新秀</span><span class="tag2"><br/>[词典校勘] <br/></span> <span>rookie现在通用翻译为“新秀”。 另外,括号中说法有歧义。</span></d:entry>
      7 i1 T' ?( o" p' K( Q
    4.     <d:entry id="_owh" d:title="copybook"> <d:index d:value="copybook" d:title="copybook"/><span class="hw">copybook</span><br/> <span class="roma">Ⅰ</span> <span class="tag3">n.</span><br/> <span class="table"><span class="num">1.</span><span class="tag1">(附有规范供模仿的)</span>习字簿; 描红簿</span> <span class="table"><span class="num">2.</span><span class="tag1">(文件、信件、账目等的)</span>副本合订本, 副未册</span> <span class="roma">Ⅱ</span> <span class="tag3">a.</span><br/> <span class="table"><span class="num">1.</span>老一套的, 平庸的:</span> <span class="ex">a ~ maxim </span></d:entry> </d:dictionary>
    复制代码

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情

    2019-11-22 21:06
  • 签到天数: 133 天

    [LV.7]常住居民III

    发表于 2019-1-12 15:10:36 | 显示全部楼层
    中文的没有试过.
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2019-1-19 17:05:09 | 显示全部楼层
    zzhirong 发表于 2018-12-26 10:02: E7 z8 @: h6 R
    这问题用 XPath 可以不用这么烧脑,用正则表达式则是把简单事情复杂化了,附 python 程序实现,依赖 lxml  ...

    ( i" F" M6 ]2 r' K9 F0 {感谢感谢。最终通过这个方案解决了。xpath果然是好东西。我发现很多正则无法实现的东西,xpath都可以轻松搞定! 不过xpath也有一些不好搞定的地方,比如生成的xml经常需要再次调整一下格式,这时候再用正则又可以完美解决。这两个东西结合用,潜力无穷的说。
    ) U# V% b6 \+ L, _
    : b& q% V. k" J5 w0 ?正则最适合以行为单位的操作,xpath适合以元素为单位的操作。正则容易误杀误删的严重问题,xpath可以很好的规避。( r5 j5 I7 i, M! b# a7 c" S

    9 O. l$ E* J' V) p# z再次感谢推荐。如果需要任意一本Mac词典,可以向我索取。
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2025-5-6 13:06 , Processed in 0.020784 second(s), 16 queries .

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表