请教正则表达式去除重复内容

dongzhi1980 · 发表于 2019-4-26 14:52:39

本帖最后由 dongzhi1980 于 2019-4-26 14:56 编辑

要处理内容如下：

Chinese 中文汉语中国人中文华侨中文中国人的
American 美国人美国公民美国人美国人的美国的

全文不一一列举，请问，如何用正则处理第一行使结果中只保留第一个“中文”，其他不变，第二行类似，只保留第一个“美国人”而其他不变。烦请解释处理的过程。谢谢！

spoony1971 · 发表于 2019-4-26 15:58:47

这个已经在正则能力之外了，正则的能力是很有限的。你这一类用awk处理应该很方便。具体需要可查手册。

jonah_w · 发表于 2019-4-26 15:07:31

https://regex101.com/r/dTixFz/1

klwo2 · 发表于 2019-4-26 15:01:20

你可以直接贴进excel，用空格分隔，然后删掉右边的数据就好了

dongzhi1980 · 发表于 2019-4-26 15:19:11

klwo2 发表于 2019-4-26 15:01. |! D( L+ X2 F6 H& G2 _% h( s- K ?: w
你可以直接贴进excel，用空格分隔，然后删掉右边的数据就好了

因为文件较大，右侧重复的数据又不是相邻的单元格，各行长度不一，所以，不知道在Excel中如何处理，能详细些吗？

alredstone · 发表于 2019-4-26 15:20:29

jonah_w 发表于 2019-4-26 15:07
/ r7 j* [+ \$ E0 L2 f: {4 |https://regex101.com/r/dTixFz/1

这是个好东西。

dongzhi1980 · 发表于 2019-4-26 15:26:43

本帖最后由 dongzhi1980 于 2019-4-26 15:53 编辑

jonah_w 发表于 2019-4-26 15:07
! `7 n9 X- |, ]1 `https://regex101.com/r/dTixFz/1

谢谢你。你链接的程序应该能处理，请问为什么我粘贴进去的（或者在里面直接写进去）的重复内容不能自动去重？

jonah_w · 发表于 2019-4-26 15:55:01

dongzhi1980 发表于 2019-4-26 15:266 x2 ?- j* o0 r8 S
谢谢你。你链接的程序应该能处理，请问为什么我粘贴进去的（或者在里面直接写进去）的重复内容不能自动去 ...

一行最后留一个空格就好了

或者这样也可以
https://regex101.com/r/dTixFz/4

y8888 · 发表于 2019-4-26 22:22:07

本帖最后由 y8888 于 2019-4-27 07:43 编辑

用Em查找输入 ^(.*[a-z] [[:unicode:]].*?) .*
替换中输入\1

见图，这种是保留英文及一个中文是不是你想要的这种结果？

如果只要第一出现的中文则
查找输入^(.*[a-z] )([[:unicode:]].*?) .*
替换中输入\2

dongzhi1980 · 发表于 2019-4-27 10:36:27

jonah_w 发表于 2019-4-26 15:07( R. |0 i! ^" V2 L6 g/ R
https://regex101.com/r/dTixFz/1

你好，你的答案还能再完善一下吗，第二次替换时有点问题，谢谢
第一次时没有问题

第二次时，替换掉了不该替换的内容

dongzhi1980 · 发表于 2019-4-27 10:39:39

y8888 发表于 2019-4-26 22:220 v4 B& r t2 @: f" ?8 }; Q
用Em查找输入 ^(.*[a-z] [[:unicode:]].*?) .*
* `. T0 |' {1 ^* Q, O替换中输入\1

谢谢你，我想要的是“对于重复出现的项，只保留第一次出现的一项，其他内容不变“。可能是我没表达清楚，不好意思。

jonah_w · 发表于 2019-4-27 10:40:12

dongzhi1980 发表于 2019-4-27 10:369 q* l/ A6 ~! M3 `
你好，你的答案还能再完善一下吗，第二次替换时有点问题，谢谢
! Q8 w" [1 ]1 C. U/ C% d0 E第一次时没有问题

https://regex101.com/r/dTixFz/6

dongzhi1980 · 发表于 2019-4-27 10:47:12

本帖最后由 dongzhi1980 于 2019-4-27 10:54 编辑

jonah_w 发表于 2019-4-27 10:401 H+ e3 U0 j+ L6 t
https://regex101.com/r/dTixFz/6

谢谢，闪电般的答复。经验证，你的正则可以移植到Emeditor里，效果更好。

csw016 · 发表于 2019-4-27 22:50:58

awk is one of the best tools, if not the best, to work with tabular data.
on the other hand, powerful it is, regular expression is overly used in the wrong places.

To solve your problem with awk,
awk '{for(i=3; i<=NF; i++) if($i==$2) $i = "" } { print }' 2nd-col.txt > 2nd-cleaned.txt

suppose 2nd-col.txt is your original file and 2nd-cleaned.txt is your cleaned file.
I've uploaded a screenshot, but I'm not sure whether it shows correctly.

dongzhi1980 · 发表于 2019-4-28 08:00:32

csw016 发表于 2019-4-27 22:50" i% X/ U8 z/ r! K3 G
awk is one of the best tools, if not the best, to work with tabular data.
: R. m+ W3 R; ^/ x( m7 f- I3 a$ pon the other hand, powerf ...

谢谢你，感觉为了一个功能应用去学一门语言有点过了。

mikeee · 发表于 2019-4-29 10:16:50

一qq群友给的答案：

\s(\S+)(?=\s)(?<=(.*\s\1){2})

https://regex101.com/r/ldXeDC/2

要求支持肯定型逆序环视，Javascript正则引擎支持肯定型逆序环视，python， php，perl的t正则引擎貌似都不支持肯定型逆序环视， notepad++、emeditor大致也不会支持肯定型逆序环视， eeditpad有可能支持肯定型逆序环视，没试过

dongzhi1980 · 发表于 2019-4-29 15:39:31

mikeee 发表于 2019-4-29 10:161 s) v- T1 Z% }
一qq群友给的答案：
& J' c2 |/ H9 h$ c6 j, S* F: o# g% W7 r* Z) o3 ]( \" y9 _' r" T
\s(\S+)(?=\s)(?

你看自己发的链接了吗，替换前后有何不同？

mikeee · 发表于 2019-4-29 16:59:36

本帖最后由 mikeee 于 2019-4-29 17:07 编辑

dongzhi1980 发表于 2019-4-29 15:395 F# b, O. Y* X9 v' c T9 R7 ]
你看自己发的链接了吗，替换前后有何不同？

用 Chrome 打开 https://regex101.com/r/ldXeDC/2 看看

替换后

Chinese 中文汉语中国人华侨中国人的5 o1 z! H( h0 T% E7 M. W
American 美国人美国公民美国人的美国的

复制代码

Edge不支持肯定型逆序环视。regex101会显示 pattern error。

ogrishman · 发表于 2019-4-29 17:47:42

mikeee 发表于 2019-4-29 10:16/ w# W4 ^: W% Q$ _, f+ ^
一qq群友给的答案：4 A: M. |/ w$ M1 m2 a( m0 L1 n
, R& z9 Y3 V }
\s(\S+)(?=\s)(?

这个例子让我对regex look around有了更进一步的理解，前一阵子学习的时候就这一部分理解有问题，太感谢您和这位群友了！

ogrishman · 发表于 2019-4-29 17:54:13

mikeee 发表于 2019-4-29 10:16
" t% N( t# v2 o1 a一qq群友给的答案：1 e, v) X- b* |
2 ], @+ V9 ?! \7 j2 F5 [+ T5 ]
\s(\S+)(?=\s)(?

这个简直是regex look around的经典范例啊，越看越觉得写的太好了，收藏了！

dongzhi1980 · 发表于 2019-4-29 21:46:25

mikeee 发表于 2019-4-29 16:59
; D" M- ~% x, C0 {+ S$ F* {4 x用 Chrome 打开 https://regex101.com/r/ldXeDC/2 看看5 Z. b) B0 }/ K. r1 h7 p

) Y' Z% ~; v4 b j7 ?替换后

如你所说，一次成型，牛，Chorme下通过，Firefox失效

		自动登录	找回密码
密码			免费注册

[求助] 请教正则表达式去除重复内容

本帖被以下淘专辑推荐:

点评

评分

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

评分

评分