|
发表于 2009-5-17 18:49:08
|
显示全部楼层
这两天没有上论坛,刚刚才看到。& f% U# x. b* n8 c" Q& t2 I
首先要将文本全部转换成UNICODE格式。
) w: ]% c u7 @1、选择UE正则表达式引擎,
0 C9 s' y8 K1 R' y; i8 y查找:"。^(?^)^p①"(引号内)
7 \# u7 M/ S! i& d3 P) c' h: R7 P替换:"。^p</>^p^1^p①" 即可7 f) k" F3 Y& I3 [
2、要替换两次,第一次:
/ F' |, s5 K: I. L1 M2 [" v查找:"参见“ ^(?^)2^(?^)"
3 H A7 Y# O& u0 V- B9 c1 j替换:"参见“^1^2"
( X2 H: D5 J6 C9 _. A+ g( b2 y5 v, v
. D; h9 O) e7 d4 K5 x6 X第二次:- C. F$ B; t, ~9 ?% l1 s2 }7 u
查找:</>^p^(?^)2 替换:</>^p^10 h5 K: m0 Z5 t* }9 ~5 Z
如果不仅是2有其它的数字,把2改成[2-9]即可。8 t$ k4 A% B i2 \4 [* n" ]
7 r# n9 K8 `1 d' ^" C4 {
3、如果会SQL语言通过程序来处理会比较方便一些。
0 i/ |9 Y" w y& F7 T不过还有另一种办法:请先将换行符全部替换成特殊的字符(如@@@),转换后使一个词条为一行;然后用EXCEL打开(当然EXCEL最多只支持65536条词条,如果超过请截成多个文本。),排序,在B2单元格上构造一个公式:
, W& E$ q" F5 _B2=IF(A2=A1,1,0),然后把公式给复制到B2以下的所有单元格,见附图:* Z+ |. A! f3 D B8 b
0 [% `7 w- t6 E: t7 U* {这样很明确,凡是B列单元格中值为1的一定是重复的词条,通过EXCEL的数据→筛选→自动筛选 操作,删除值为1的所有行即可。 |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?免费注册
x
|