|
本帖最后由 sxingbai 于 2020-8-25 13:15 编辑 . F! T6 a+ N- [/ ` n- \
1 v$ Q u2 D8 N3 Z
一、excel文件的合并
/ U4 x4 p" A1 P7 K# p9 l0 \, d用wps非常方便0 `; _$ u( {: U
二、数据遗漏检查
}2 r3 C# a3 T数据所在网址如是连续的,在抓取时连网址一并抓取,然后用excel查漏。具体做法是先把网址中的数字复制到表格A列,在B列输入公式=SMALL(IF(FREQUENCY(a:a,ROW($1:$32821))=0,MMULT(ROW($1:$32822),1)),ROW(A1))进行计算。其中32821等替换为网址中的最大数字。& s, z1 X% A& P) f. }4 M
三、参见跳转
* h3 ]& c$ A2 I) e; U, w' x' s! j如果参见后的条目较多,可先用正则式(“.+?”。)全选相应文字,再用(“.+?”)在选区内替换。1 u8 K; w6 {$ J: z
四、目录制作
+ U1 F. u( j$ p8 U; h" b1 x如果是多级目录时制作较为麻烦,利用excel,一级目录在第一列,二级第二列,依次类推,其中细节处理用好公式,不再详述,最后目录加上p标签,条目加上a标签即可。# b; D' D; m3 X0 C; U) g% t
五、特殊序号7 p- `. c) W% V! ~* N. A' o
处理特殊序号,如带圈数字,可上网查找其起始值的unicode码,如\u2460,一般终止值设为\u2490已经够用,在emeditor中用[\x{2460}-\x{2490}]即可对其处理。
5 P4 D, h# X+ }7 k3 r六、多对一
& N2 D. p5 g9 m6 o+ ^8 G([^✐])◐(.*?)\|(.+)$-->\1=\3☁\2✐◐|\3。表达式|是多与一的分隔符,◐是多之间的分隔符,=是连接符。多次替换,一直到不能替换为止,最后处理掉无用的东西。这个用excel也行,不过也麻烦。$ z$ ]: ?8 k7 W I
2 l5 `) E* u, x2 ^9 e, f以上是自己摸索到的一点经验,不揣浅陋,不当之处望指正,更希望能起到抛砖引玉之效。 |
|