|
本帖最后由 sxingbai 于 2020-8-25 13:15 编辑 : N: q# K9 ^, j. ~
# V0 x" E4 Q4 `+ g% J
一、excel文件的合并
$ [8 c4 }8 G% H9 a用wps非常方便
3 g* ?$ ]: h6 {8 G" }2 b3 c/ b& V二、数据遗漏检查
8 z$ l+ G5 r( h2 f, W数据所在网址如是连续的,在抓取时连网址一并抓取,然后用excel查漏。具体做法是先把网址中的数字复制到表格A列,在B列输入公式=SMALL(IF(FREQUENCY(a:a,ROW($1:$32821))=0,MMULT(ROW($1:$32822),1)),ROW(A1))进行计算。其中32821等替换为网址中的最大数字。" D8 P' s* _6 p( Q
三、参见跳转9 |0 R/ T& t: [4 }& m
如果参见后的条目较多,可先用正则式(“.+?”。)全选相应文字,再用(“.+?”)在选区内替换。" j& d( N$ ^4 d- u* c* F( \- K
四、目录制作
: e/ B) T5 a' P4 R0 @如果是多级目录时制作较为麻烦,利用excel,一级目录在第一列,二级第二列,依次类推,其中细节处理用好公式,不再详述,最后目录加上p标签,条目加上a标签即可。
( E) o2 u) Q6 R2 E8 L0 f9 v- Y五、特殊序号
1 P4 {$ t J+ p) S处理特殊序号,如带圈数字,可上网查找其起始值的unicode码,如\u2460,一般终止值设为\u2490已经够用,在emeditor中用[\x{2460}-\x{2490}]即可对其处理。7 g* a7 R2 @3 x! e4 {
六、多对一
/ N1 P4 i8 t# A4 |0 M([^✐])◐(.*?)\|(.+)$-->\1=\3☁\2✐◐|\3。表达式|是多与一的分隔符,◐是多之间的分隔符,=是连接符。多次替换,一直到不能替换为止,最后处理掉无用的东西。这个用excel也行,不过也麻烦。
2 ]8 S2 V( O+ d9 x) Q1 T( B. A3 J8 D( o% j& Z2 X9 ^6 M. @& Y' f
以上是自己摸索到的一点经验,不揣浅陋,不当之处望指正,更希望能起到抛砖引玉之效。 |
|