|
本帖最后由 sxingbai 于 2020-8-25 13:15 编辑
: }: l8 R- T& m- W0 d* d+ W; d6 E0 q5 b4 o1 Y
一、excel文件的合并
9 n' I! k! f8 b6 C9 c( {9 Q9 e用wps非常方便 x4 m: G; ]8 h+ F- l8 S/ o
二、数据遗漏检查
8 e0 \7 Q- W# `" w, |- R3 L# S. w" M( Y数据所在网址如是连续的,在抓取时连网址一并抓取,然后用excel查漏。具体做法是先把网址中的数字复制到表格A列,在B列输入公式=SMALL(IF(FREQUENCY(a:a,ROW($1:$32821))=0,MMULT(ROW($1:$32822),1)),ROW(A1))进行计算。其中32821等替换为网址中的最大数字。" |% `- n) Z& x3 M3 X
三、参见跳转
& v" z" e" i; ~2 b7 F+ q H2 _+ j. i如果参见后的条目较多,可先用正则式(“.+?”。)全选相应文字,再用(“.+?”)在选区内替换。
, F, I5 g# o) O+ O" P& z" _) W* F四、目录制作
4 N2 f& n' @$ f! i如果是多级目录时制作较为麻烦,利用excel,一级目录在第一列,二级第二列,依次类推,其中细节处理用好公式,不再详述,最后目录加上p标签,条目加上a标签即可。( {! O; ]7 ^" x1 f3 a! l
五、特殊序号
' I( T3 |+ c4 t6 @9 t处理特殊序号,如带圈数字,可上网查找其起始值的unicode码,如\u2460,一般终止值设为\u2490已经够用,在emeditor中用[\x{2460}-\x{2490}]即可对其处理。
. _. J: j( }* }6 f6 \0 l" ?7 p六、多对一7 a; g* i6 w( a& O8 `3 X' ]( b! v9 n
([^✐])◐(.*?)\|(.+)$-->\1=\3☁\2✐◐|\3。表达式|是多与一的分隔符,◐是多之间的分隔符,=是连接符。多次替换,一直到不能替换为止,最后处理掉无用的东西。这个用excel也行,不过也麻烦。5 b. H+ i/ D, n7 k' J+ Q1 l2 g
8 `. N" K1 I4 }
以上是自己摸索到的一点经验,不揣浅陋,不当之处望指正,更希望能起到抛砖引玉之效。 |
|