|
本帖最后由 sxingbai 于 2020-8-25 13:15 编辑 8 x1 v9 A+ \. T% i% U7 ^
7 N3 |+ {0 n2 Z; w
一、excel文件的合并8 w+ q" o! K( L3 q
用wps非常方便! _4 o; ?- @! X& f& @; Y
二、数据遗漏检查9 ^' D# w- Z% X! ^2 [+ {
数据所在网址如是连续的,在抓取时连网址一并抓取,然后用excel查漏。具体做法是先把网址中的数字复制到表格A列,在B列输入公式=SMALL(IF(FREQUENCY(a:a,ROW($1:$32821))=0,MMULT(ROW($1:$32822),1)),ROW(A1))进行计算。其中32821等替换为网址中的最大数字。 \, X U. D1 e7 K$ `, m9 M9 n+ x
三、参见跳转8 z$ B7 \0 M7 C8 M& N& I8 j" O
如果参见后的条目较多,可先用正则式(“.+?”。)全选相应文字,再用(“.+?”)在选区内替换。# c" Z& D/ O8 ^8 a9 T
四、目录制作 ~) w; t! O; d8 e9 @- y0 }
如果是多级目录时制作较为麻烦,利用excel,一级目录在第一列,二级第二列,依次类推,其中细节处理用好公式,不再详述,最后目录加上p标签,条目加上a标签即可。
1 Y. ^: P: x" b9 C五、特殊序号
. _& Y% H! q z! G' v处理特殊序号,如带圈数字,可上网查找其起始值的unicode码,如\u2460,一般终止值设为\u2490已经够用,在emeditor中用[\x{2460}-\x{2490}]即可对其处理。, c" e, F5 _2 d: q/ n$ Y( M8 }
六、多对一9 D+ K, ~# i3 D0 g0 u/ h; J" f
([^✐])◐(.*?)\|(.+)$-->\1=\3☁\2✐◐|\3。表达式|是多与一的分隔符,◐是多之间的分隔符,=是连接符。多次替换,一直到不能替换为止,最后处理掉无用的东西。这个用excel也行,不过也麻烦。' d' q+ F1 x7 U, r) J
: f# `7 p+ e* U6 V& v2 r
以上是自己摸索到的一点经验,不揣浅陋,不当之处望指正,更希望能起到抛砖引玉之效。 |
|