|
本帖最后由 sxingbai 于 2020-8-25 13:15 编辑
3 z# ^& J* B! Q9 j. D: o4 ?/ s
) r) h: t7 I: z4 G一、excel文件的合并6 f; z/ }8 M/ `* ?! M
用wps非常方便. q- N1 }; @* K( j1 ~( T
二、数据遗漏检查! W# n) r1 @, k. B& C% S$ [
数据所在网址如是连续的,在抓取时连网址一并抓取,然后用excel查漏。具体做法是先把网址中的数字复制到表格A列,在B列输入公式=SMALL(IF(FREQUENCY(a:a,ROW($1:$32821))=0,MMULT(ROW($1:$32822),1)),ROW(A1))进行计算。其中32821等替换为网址中的最大数字。& C) J/ r h% h: F4 H
三、参见跳转# F+ D& l, S% e* \2 y
如果参见后的条目较多,可先用正则式(“.+?”。)全选相应文字,再用(“.+?”)在选区内替换。
) ^$ k$ C a9 O L# h% _四、目录制作- D# I, ?- k/ Q
如果是多级目录时制作较为麻烦,利用excel,一级目录在第一列,二级第二列,依次类推,其中细节处理用好公式,不再详述,最后目录加上p标签,条目加上a标签即可。& c. R, g. @1 n t3 V
五、特殊序号9 _2 `9 \) B. k+ P4 i
处理特殊序号,如带圈数字,可上网查找其起始值的unicode码,如\u2460,一般终止值设为\u2490已经够用,在emeditor中用[\x{2460}-\x{2490}]即可对其处理。( X+ z+ J2 B( V% B2 C
六、多对一
/ u" e1 p0 T- J: F* E6 D% d([^✐])◐(.*?)\|(.+)$-->\1=\3☁\2✐◐|\3。表达式|是多与一的分隔符,◐是多之间的分隔符,=是连接符。多次替换,一直到不能替换为止,最后处理掉无用的东西。这个用excel也行,不过也麻烦。
9 L3 d# [, C& J2 b% ^0 d6 b6 o3 j" `- }
以上是自己摸索到的一点经验,不揣浅陋,不当之处望指正,更希望能起到抛砖引玉之效。 |
|