|
本帖最后由 sxingbai 于 2020-8-25 13:15 编辑 ( ]( V4 w2 |% }2 K0 n
( B) s. a/ W2 d. x- ]一、excel文件的合并
9 [% _4 Y v9 s7 R用wps非常方便
' p5 P: `/ V X0 ^: y u# f% M7 d二、数据遗漏检查* x, M% m2 o, ?9 G0 U. p
数据所在网址如是连续的,在抓取时连网址一并抓取,然后用excel查漏。具体做法是先把网址中的数字复制到表格A列,在B列输入公式=SMALL(IF(FREQUENCY(a:a,ROW($1:$32821))=0,MMULT(ROW($1:$32822),1)),ROW(A1))进行计算。其中32821等替换为网址中的最大数字。
$ k$ }# _9 `! o4 ]+ L三、参见跳转. e$ V- p/ `8 {4 p1 E1 m
如果参见后的条目较多,可先用正则式(“.+?”。)全选相应文字,再用(“.+?”)在选区内替换。
2 w) X) Y- K! u% c) t0 j四、目录制作% a( S! \! J5 r+ {2 n/ x. ?) [% r6 }8 d
如果是多级目录时制作较为麻烦,利用excel,一级目录在第一列,二级第二列,依次类推,其中细节处理用好公式,不再详述,最后目录加上p标签,条目加上a标签即可。9 { H+ D3 b* f+ T: K( o
五、特殊序号1 b7 F Y2 ~$ F5 `: z" J `) @
处理特殊序号,如带圈数字,可上网查找其起始值的unicode码,如\u2460,一般终止值设为\u2490已经够用,在emeditor中用[\x{2460}-\x{2490}]即可对其处理。& ]& N( M* G Z8 j- |
六、多对一% n$ t# |% R L$ J, [3 p* _6 f( X
([^✐])◐(.*?)\|(.+)$-->\1=\3☁\2✐◐|\3。表达式|是多与一的分隔符,◐是多之间的分隔符,=是连接符。多次替换,一直到不能替换为止,最后处理掉无用的东西。这个用excel也行,不过也麻烦。
; E) I9 R. I1 G9 m, A- h+ e' L1 ^: N7 I/ Z1 n' L
以上是自己摸索到的一点经验,不揣浅陋,不当之处望指正,更希望能起到抛砖引玉之效。 |
|