制作词典的一些心得

sxingbai · 发表于 2020-7-13 17:46:58

本帖最后由 sxingbai 于 2020-8-25 13:15 编辑

一、excel文件的合并
用wps非常方便
二、数据遗漏检查
数据所在网址如是连续的，在抓取时连网址一并抓取，然后用excel查漏。具体做法是先把网址中的数字复制到表格A列，在B列输入公式=SMALL(IF(FREQUENCY(a:a,ROW($1:$32821))=0,MMULT(ROW($1:$32822),1)),ROW(A1))进行计算。其中32821等替换为网址中的最大数字。
三、参见跳转
如果参见后的条目较多，可先用正则式(“.+?”。)全选相应文字，再用(“.+?”)在选区内替换。
四、目录制作
如果是多级目录时制作较为麻烦，利用excel，一级目录在第一列，二级第二列，依次类推，其中细节处理用好公式，不再详述，最后目录加上p标签，条目加上a标签即可。
五、特殊序号
处理特殊序号，如带圈数字，可上网查找其起始值的unicode码，如\u2460，一般终止值设为\u2490已经够用，在emeditor中用[\x{2460}-\x{2490}]即可对其处理。
六、多对一
([^✐])◐(.*?)\|(.+)$-->\1=\3☁\2✐◐|\3。表达式|是多与一的分隔符，◐是多之间的分隔符，=是连接符。多次替换，一直到不能替换为止，最后处理掉无用的东西。这个用excel也行，不过也麻烦。

以上是自己摸索到的一点经验，不揣浅陋，不当之处望指正，更希望能起到抛砖引玉之效。

herozyg · 发表于 2020-7-13 18:42:38

Thanks for sharing.

williamson · 发表于 2020-7-13 22:06:07

先收藏了，有时间了，配合bt4baidu版主的爬网页方式试试

Bartleby · 发表于 2020-7-14 21:41:52

会编程会不会快点

泥瓦匠萨奇 · 发表于 2020-7-15 21:09:34

williamson 发表于 2020-7-13 22:06 v- s; ~! K8 r4 T" P$ v1 b1 \
先收藏了，有时间了，配合bt4baidu版主的爬网页方式试试

少年，会不会汉语语料库制作技术啊？个人不是技术控，在这方面有点瓶颈

williamson · 发表于 2020-7-15 22:42:58

泥瓦匠萨奇发表于 2020-7-15 21:094 M& p Q& y3 l
少年，会不会汉语语料库制作技术啊？个人不是技术控，在这方面有点瓶颈 ...

汉语语料库，
您知道这是一个多大的工程么？
语料库，对于汉语，得先确定字正确，其次是语句有无问题，是件大工程

对于语料库制作，无外乎两种手段：
一是爬取现成的语料库，小白也能学的爬虫技术，是咱们论坛大佬发的https://www.pdawiki.com/forum/thread-13219-1-1.html
对于爬取我个人是推荐的，你只要按部就班，按着大佬说的，他说一步，你走一步，肯定会成功，而且省不少校对的时间
二是利用OCR的技术，可以是ABBYY finreader OCR的，也可以是tesseract的OCR，前者可以大面积，批量的识别，后者则是手动取词，不过两者利弊明显：
ABBYY虽能批量识别，但错误很多，需要投入大量校对时间；tesseract，虽是手动，但准确率很高
至于自己利用python写个脚本，把tesseract当成ABBYY来用，对于咱们小白来说无疑是不可能的

所以，鄙人不推荐你制作文字版语料库，太费时间，个人没有这个精力，如果你是干这份工作的话，校对无疑占用最多的时间。如果不是，那么就奉劝，量力而行，没必要非得费那么大精力去做一个不太讨好的活
如果你能发几张截图关于你的语料库制作，我想先看看，看能不能帮到你，毕竟没看到实图，不好说

泥瓦匠萨奇 · 发表于 2020-7-16 10:17:51

williamson 发表于 2020-7-15 22:42
+ [% ^+ X& K9 z/ i% c, w3 p- ]汉语语料库，
4 W! o, ]9 q: P: E1 |您知道这是一个多大的工程么？
" p9 m5 d. v" b6 l0 S/ B语料库，对于汉语，得先确定字正确，其次是语句有无问题，是 ...

抱歉，抱歉！没想到这竟然是这么一门高精尖的技术活

我的想法很简单，就是想把民国以降的武侠小说文本归拢到一起，然后进行词频统计，得出一份专属的历史文学语汇集，方便自己写作参考之用。不过昨天试下了网友给的rost cm6软件，压根用不了，分词功能可以正常使用，但一到词频统计就报错，压根不能用。

williamson · 发表于 2020-7-16 10:42:51

泥瓦匠萨奇发表于 2020-7-16 10:17
: I4 T. e, r2 f1 s# D- A抱歉，抱歉！没想到这竟然是这么一门高精尖的技术活我的想法很简单，就是想把民国以降的武侠小说 ...

首先这个先保证每个字都对呀，有很多错别字就会导致写作出现纰漏，你可以去搜搜小说集，咱们论坛有文字版的，不过错误很多，你可以去看看那个
你看看那个就知道汉语字典文字版有多么难做！个人力量太微小了，而且还是没有报酬的事，如果你执意于此，我精神上鼓励你，支持你

泥瓦匠萨奇 · 发表于 2020-7-17 11:42:44

williamson 发表于 2020-7-16 10:422 _* U- l3 G8 g# }/ c0 @5 Z* M
首先这个先保证每个字都对呀，有很多错别字就会导致写作出现纰漏，你可以去搜搜小说集，咱们论坛有文字版 ...

最近有个计划就是通过abbyy软件按部就班的将文史出版社出的那一套民国武侠小说文库转制成txt文本，估计真得耗费几个月的时间，但是成就感满满的。有时候都觉得这么好的大家宏编巨著却湮没无闻，声量还不如那些动不动碾压古龙比肩金庸的流量小说大，想想真的挺吊诡的(=￣ ρ￣=) ..zzZZ

williamson · 发表于 2020-7-17 12:20:43

泥瓦匠萨奇发表于 2020-7-17 11:42
. b( u+ E( X7 P3 J2 {) w! G* h最近有个计划就是通过abbyy软件按部就班的将文史出版社出的那一套民国武侠小说文库转制成txt文本，估计真 ...

我觉得个人做那个难度相当大，您不妨考虑一下制作图片版，也可以是切图，使之适合手机，文字版那是出版社的事，个人完成那么大的工作量，太难，你整天校对，也得半年以上，如果书不是很多，那就去做吧，我有时间也会帮你的

泥瓦匠萨奇 · 发表于 2020-7-22 19:40:09

williamson 发表于 2020-7-17 12:20 ^1 y3 H7 f0 j
我觉得个人做那个难度相当大，您不妨考虑一下制作图片版，也可以是切图，使之适合手机，文字版那是出版社 ...

工程量倒也不是说很大啦，abbyy扫描质量甚佳，基本上手动校订的比例很小，一本书大概3个小时左右可以出粗加工的半成品。主要是时间没那么充裕，只能周末两天才能腾出手来。

williamson · 发表于 2020-7-23 08:33:47

泥瓦匠萨奇发表于 2020-7-22 19:40. v) E. l1 l# } ]9 E
工程量倒也不是说很大啦，abbyy扫描质量甚佳，基本上手动校订的比例很小，一本书大概3个小时左右可以出粗 ...

那就好，看来你的清晰度可以，清晰度差的话就麻烦了

		自动登录	找回密码
密码			免费注册

[讨论] 制作词典的一些心得