[求助] 请问有什么办法可以去除词典文件中多余的html闭合标签?

    1. <div>123</div></div>
    当然这个只是最简单的例子,实际应用当中会有更复杂的嵌套关系,我尝试用正则,感觉无解。
    我知道html tidy可以去除多余标签,可是它同时会格式化代码并且添加常规html所需的一些标签,而那些标签对于mdx来说是多余的。所以想问问有没有办法只去除多余标签不做其他的改动。
    ### Tidy 格式化 mdx 源文件技巧
    若采用默认 tidy 配置,mdx 源文件 tidy 后会出现如下问题:
    - Q1:添加了`<html><head></head></html>`等不必要的内容,造成 mdx 语法及词条内容错误
    - Q2:无法识别 mdx 标签</>,并将其转化为可读性差的 HTML entities `&lt;/&gt;`
    - Q3:将 keyword 与上下行合并,造成 mdx 语法及词条内容错误
    解决方案:

    Q1:配置 tidy configy.txt 文件:

    ( d( ?$ V4 v8 v7 l6 H0 B    show-body-only: yes
    Q2 和 Q3:
    1. 需暂时变换</>和关键字,以便 Tidy 正确识别

    "将</>替换为<mdx/>\r<keyword>
    :%s/<\/>\n/<mdx\/>\r<keyword>/
    "在关键字的最后添加</keyword>
        :%s/\v(\<keyword\>)(.*)/\1\2\<\/keyword\>/
    2. 配置 Tidy 的 configy.txt 文件:
    ' @, g' X2 l1 l    new-empty-tags: mdx
    ) u0 _* }/ U% Y$ K$ B  G/ e/ R    new-blocklevel-tags: keyword
    " h4 S7 l; `6 @1 S
        " 将<mdx />恢复为</>
    , k+ Q* ?) Z6 |5 n& m( K    :%s/<mdx \/>/<\/>/# O. z9 G# _; b
        " 将<keyword>和</keyword>删除7 r1 ?2 e4 ^1 U
    //HTML Tidy 5.6.0 Options for mdx

    //请特别关注以下选项
    //show-body-only, output-xhtml
    //quiet, indent, tidy-mark, wrap
    //break-before-br,
    //hide-comments
    //new-blocklevel-tags
    " Y4 j( _9 G  w8 g) w
    //Document Display Options
    gnu-emacs: no
    markup: yes
    mute:
    mute-id: no
    quiet: yes
    show-body-only: yes
    show-errors: 6
    show-info: yes
    show-warnings: yes
    //Document In and Out Options
    add-meta-charset: no
    add-xml-decl: no
    ' ]! s2 B* w3 o: c0 L  fadd-xml-space: no
    doctype: auto
    input-xml: no
      output-html: no
    output-xhtml: yes
    output-xml: no

    //File Input-Output Options
    keep-time: no
    write-back: no
    //Diagnostics Options Reference
    accessibility-check: 0
    force-output: no
    5 K6 Z2 v' Y: T, f7 kshow-meta-change: no
    warn-proprietary-attributes: yes
    2 M0 h' g7 C, o
    //Encoding Options Reference
    ( `8 H. t) T" Q4 achar-encoding: utf8
    ! F) s4 m$ I! q# |3 O0 minput-encoding: utf8
    newline: CRLF
    output-bom: auto
    output-encoding: utf8

    //Cleanup Options Reference
    bare: no
    clean: yes
    drop-empty-elements: yes
    drop-empty-paras: yes
    drop-proprietary-attributes: no
    gdoc: no
    logical-emphasis: yes
    merge-divs: auto
    merge-spans: auto
    word-2000: no

    //Entities Options Reference
    ascii-chars: no
    ) _6 g) S: m. i- [; R1 T/ pncr: yes
    numeric-entities: no
    preserve-entities: no
    quote-ampersand: no
    quote-marks: no
    quote-nbsp: yes
    //Repair Options Reference
    alt-text:
    anchor-as-name: yes
    assume-xml-procins: no
    coerce-endtags: yes
    css-prefix: c
    custom-tags: no
    enclose-block-text: no
    enclose-text: no
    escape-scripts: no
    fix-backslash: yes
    fix-bad-comments: auto
    fix-style-tags: yes
    fix-uri: yes
    literal-attributes: no
    lower-literals: yes
    repeated-attributes: keep-last
    skip-nested: yes
      strict-tags-attributes: no
    uppercase-attributes: no
    uppercase-tags: no

    //Transformation Options Reference
      decorate-inferred-ul: no
    escape-cdata: no
    hide-comments: no
    join-classes: no
    join-styles: yes
    merge-emphasis: yes
    replace-color: no

    //Teaching Tidy Options Reference
    new-blocklevel-tags: keyword
    new-empty-tags: mdx
    new-inline-tags:
    //Pretty Print Options Reference
    break-before-br: yes
    indent: auto
    indent-attributes: no
    indent-cdata: no
    indent-spaces: 4
    indent-with-tabs: no
    keep-tabs: no
    tab-size: 4
    omit-optional-tags: no
    priority-attributes:
    sort-attributes: none
    punctuation-wrap: no
    tidy-mark: no
    vertical-space: no
    wrap: 0
    wrap-asp: yes
    wrap-attributes: no
    wrap-jste: yes
    wrap-php: yes
    wrap-script-literals: no
    wrap-sections: yes
    EmEditor 自带一个特殊的功能: 高亮闭合标签内容. 配合简单的宏, 可以在代码量最少的情况下完成你所需的任务
    说实话, 这是一种比较笨的办法, 效率低下还有可能程序失去响应, 如果编辑的文件比较大, 程序会处于假死状态, 不要动电脑, 正常情况下会跑完的. 高级点的办法可以用 Python 的 bs4 库来完成, 那个我就没法帮你了, 我只是知道它可以处理, 怎么做你得自己查资料, 我也得现学...
    VimVim 发表于 2020-7-4 18:54
    , n" s% x# ~2 V5 g* T//HTML Tidy 5.6.0 Options for mdx
    我用这个config文件处理词典的文本,它确实去掉了多余的闭合标签,不过它也会去掉一些似乎有用的标签,比如:
    1. <div class='even'><div></div><div colspan='2' class='FrEx'>I'll be back in two or three minutes.</div></div>
      n, x- X! u, X1 i* c2 w
    我不知道在原来的词典文件中这个叫even的class是不是在css里面会有什么特殊用途,不过感觉它这样删标签还是可能会影响最后的结果。

    另外很重要的一点是,经过tidy处理的html会被格式化,本来没有多少行的代码会被拆分成好多好多行(我测试的文档里面源文件是189行,过了tidy后变成了655行),这样的文件如果在emeditor里面再做处理是很崩溃的。
    % J% v# q9 ~; H" i! e2 a另外很重要的一点是,经过tidy处理的html会被格式化,本来没有多少行的代码会被拆分成好多好多行(我测试的文档里面源文件是189行,过了tidy后变成了655行),这样的文件如果在emeditor里面再做处理是很崩溃的。
    EarthWorm 发表于 2020-7-5 02:00
    ! s/ N3 |) H" Y6 l  x) Y! A' SEmEditor 自带一个特殊的功能: 高亮闭合标签内容. 配合简单的宏, 可以在代码量最少的情况下完成你所需的任 ...
    谢谢你的建议,我对emeditor的macro不太熟,不过根据你提供的代码我查了查reference,大概明白了你这段的意思,你是根据一个opening tag来找closing tag然后删掉后者,如果我理解没错的话,这个功能并不是我所需要的,因为我要删除的是单独多出来的closing tag,而不是能跟一个opening tag配成一对的。
    ; g9 O1 G7 R1 M& h
    至于python我也不太会,我玩的是powershell + c#的路子,不过你能提供bs4库解决这个问题的基本逻辑吗?如果可以的话我也可以用同样的逻辑寻找c#的对应处理办法。
    preachers 发表于 2020-7-5 11:08, N: v, S) E3 S5 g. S! M
    我用这个config文件处理词典的文本,它确实去掉了多余的闭合标签,不过它也会去掉一些似乎有用的标签,比 ...

    join-styles: no
    5 X, v# C' s! q1 t+ x$ |+ w5 n, e- a/ K
    VimVim 发表于 2020-7-5 19:58
    1 }) T# Q+ @; c6 D7 U& ^join-styles: no; e& p1 d% j, t& [, x5 t
    : s: F& t- s( R/ ^
    3 X) V& J. B# I2 w
    1. //Document Display Options6 |* A2 j, [+ t# E# G
    2. gnu-emacs: no
    3. markup: yes8 C* t0 J. N* @' v) C; |& T, d
    4. mute:
    5. mute-id: no( |% A2 p$ I- n8 h- S/ X0 U
    6. quiet: yes. i6 c0 e+ I; a) G; w
    7. show-body-only: yes3 z/ j1 t9 O" ~8 S: B7 u
    8. show-errors: 6
      & Y3 g" }1 }8 z# ^
    9. show-info: yes( D5 t" w  o0 a0 `
    10. show-warnings: yes
      5 G& Z( K6 H' Y% F+ U( A
    12. //Document In and Out Options
    13. add-meta-charset: no
    14. add-xml-decl: no
    15. add-xml-space: no8 x+ ?" _& a8 B9 C& Y
    16. doctype: auto% V7 _) o( d, t: c7 G8 N6 X  P  O9 R
    17. input-xml: no& P9 f( o% x0 C# O; f
    18. output-html: no
    19. output-xhtml: yes
    20. output-xml: no+ Z, C; n; m; d9 ]# z, d
    22. //File Input-Output Options8 U0 s2 J7 n3 Y5 C+ [; c
    23. error-file:) O  U7 Z1 M0 d. g
    24. keep-time: no
      & {8 e* Z2 p  V; ]
    25. output-file:  i9 m5 F' Y; e! t9 p3 ^0 \  M
    26. write-back: no/ Q; @9 b; G# g! {3 C3 U3 o

    28. //Diagnostics Options Reference
    29. accessibility-check: 0
    30. force-output: no8 m' v! u$ q$ S8 F4 c) \* @
    31. show-meta-change: no
      1 f8 X, |5 L# M' }/ |1 l
    34. //Encoding Options Reference# F3 F4 }! U) A% j' V% Z& }5 }0 {, R  B
    35. char-encoding: utf8
    36. input-encoding: utf8
    37. newline: CRLF
    38. output-bom: auto
    39. output-encoding: utf8
    41. //Cleanup Options Reference; d& D, ?( A' }! m0 X$ ^2 G
    42. bare: no+ b6 c1 [7 S9 I4 y) v' J. a! L
    43. clean: no
    44. drop-empty-elements: no; Z# l& L; n0 O; d7 e+ a7 o" x
    45. drop-empty-paras: no0 q; }2 G5 @' e0 ?, x; ~/ p
    46. drop-proprietary-attributes: no8 |: ~0 O) N; B& _5 o
    47. gdoc: no
    48. logical-emphasis: no; q2 w! m( y- [1 d0 P+ \7 ?  x
    49. merge-divs: no
    50. merge-spans: no% d- N# X3 ^- ~' b; N9 M6 L# t# ]
    51. word-2000: no
    53. //Entities Options Reference. D- F+ d3 c# N1 G8 H5 G
    54. ascii-chars: no- p& \8 x" C9 G" U9 N6 Q
    55. ncr: yes! j& Y% b2 a# M: D# s
    56. numeric-entities: no
    57. preserve-entities: no& Q& A, L9 e( L
    58. quote-ampersand: no
    59. quote-marks: no$ m( d. Y3 C* M" r
    60. quote-nbsp: yes# H; j8 T8 R+ Q3 s
    62. //Repair Options Reference( y9 [0 n  W/ j' E) c5 X+ G
    63. alt-text:
    64. anchor-as-name: no/ Y. T5 B1 Y* F( M/ p1 |& r
    65. assume-xml-procins: no
    66. coerce-endtags: no" E+ L6 r% n- I. |$ n6 z
    67. css-prefix: c+ B" x' d, Q, D" j) }
    68. custom-tags: no
    69. enclose-block-text: no% N1 c. C+ L5 Y& D: j5 e
    70. enclose-text: no
    71. escape-scripts: no
    72. fix-backslash: no
    73. fix-bad-comments: auto
    74. fix-style-tags: no
    75. fix-uri: no
    76. literal-attributes: no) {5 ]& f" F2 V) d; y- }  g% H
    77. lower-literals: no
    78. repeated-attributes: keep-last+ w# u. z- G7 Y9 n' L
    79. skip-nested: no
    80. strict-tags-attributes: no
    81. uppercase-attributes: no
    82. uppercase-tags: no
    84. //Transformation Options Reference
    85. decorate-inferred-ul: no
    86. escape-cdata: no
    87. hide-comments: no1 V1 S1 u: j+ r( e4 U
    88. join-classes: no9 ~2 X4 I& P3 U8 O' [, G; _
    89. join-styles: no
    90. merge-emphasis: no5 Q" O: I3 _. |$ U6 A- _! Z
    91. replace-color: no
    93. //Teaching Tidy Options Reference
    94. new-blocklevel-tags: keyword
    95. new-empty-tags: mdx
    96. new-inline-tags:8 q& ~: x9 y2 D8 X7 o0 M
    97. new-pre-tags:
    99. //Pretty Print Options Reference: d. ], q) Q  b. L( x! e) D
    100. break-before-br: no7 I/ H& U3 l) R
    101. indent: no
    102. indent-attributes: no
    103. indent-cdata: no
    104. indent-spaces: 4
    105. indent-with-tabs: no
    106. keep-tabs: no
    107. tab-size: 49 \! x9 |! c, S; d
    108. omit-optional-tags: no
    109. priority-attributes:
    110. sort-attributes: none
    111. punctuation-wrap: no
    112. tidy-mark: no
    113. vertical-space: no
    114. wrap: 0
    115. wrap-asp: no
    116. wrap-attributes: no$ Q4 s% y# W4 _/ H6 P; F8 i
    117. wrap-jste: no. O- h- {! \% z( I! }- W
    118. wrap-php: no8 Y! C; v& X" Z4 d, l$ p, i$ F0 V
    119. wrap-script-literals: no
    120. wrap-sections: no

    基本上能变成no的全变成no了。之前去掉的一些标签确实得以保留,但是最崩溃的还是它把行数分成那么多,这个我找遍配置参数也没找到能改变这个的。
    虽然这个换行的问题其实可以在处理之后用正则再替换回来,但是很麻烦,如果我想保留词典源文件本来的换行规则的话几乎是不可能的,我只能选择把每个词条都变成一整行
