|
本帖最后由 sxingbai 于 2020-8-25 13:15 编辑
+ ~, q' z7 l' T/ \& Y5 V9 }! b% G% S6 h( W- H; t
一、excel文件的合并
) m1 S1 Z' U+ B5 k* R7 O用wps非常方便
4 m; f( H- k$ ?3 ~: m+ x二、数据遗漏检查
" Q0 [9 r' O J- @6 s数据所在网址如是连续的,在抓取时连网址一并抓取,然后用excel查漏。具体做法是先把网址中的数字复制到表格A列,在B列输入公式=SMALL(IF(FREQUENCY(a:a,ROW($1:$32821))=0,MMULT(ROW($1:$32822),1)),ROW(A1))进行计算。其中32821等替换为网址中的最大数字。
; p: M; r) G4 d0 X三、参见跳转4 J! j2 C8 J& T
如果参见后的条目较多,可先用正则式(“.+?”。)全选相应文字,再用(“.+?”)在选区内替换。/ H8 O- p6 P O, O4 q* _( `! D
四、目录制作
* j8 d+ W* o% s# o5 O如果是多级目录时制作较为麻烦,利用excel,一级目录在第一列,二级第二列,依次类推,其中细节处理用好公式,不再详述,最后目录加上p标签,条目加上a标签即可。0 {7 Z) X" X0 C C# ^3 I; U: c& j
五、特殊序号5 }. V" c4 [( m2 n- o
处理特殊序号,如带圈数字,可上网查找其起始值的unicode码,如\u2460,一般终止值设为\u2490已经够用,在emeditor中用[\x{2460}-\x{2490}]即可对其处理。9 s1 K9 W; R, \2 D! j8 q6 l0 l
六、多对一7 i# Q: W3 [0 s' Q
([^✐])◐(.*?)\|(.+)$-->\1=\3☁\2✐◐|\3。表达式|是多与一的分隔符,◐是多之间的分隔符,=是连接符。多次替换,一直到不能替换为止,最后处理掉无用的东西。这个用excel也行,不过也麻烦。
* j0 a# A8 z8 {* ^/ p. l
2 N7 d$ V5 ]" {5 N1 n以上是自己摸索到的一点经验,不揣浅陋,不当之处望指正,更希望能起到抛砖引玉之效。 |
|