掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 963|回复: 11

[讨论] 制作词典的一些心得

[复制链接]

该用户从未签到

发表于 2020-7-13 17:46:58 | 显示全部楼层 |阅读模式
本帖最后由 sxingbai 于 2020-8-25 13:15 编辑
- q8 S4 N0 G' L1 I$ p4 V6 [
. e8 K5 R+ W" J一、excel文件的合并/ j- Z3 g9 f$ J/ i+ s, E8 s
用wps非常方便/ ~, [9 m& f+ y+ S% ~& f7 z6 {! j7 u
二、数据遗漏检查/ \2 j9 d1 J& @9 ^+ z! j
数据所在网址如是连续的,在抓取时连网址一并抓取,然后用excel查漏。具体做法是先把网址中的数字复制到表格A列,在B列输入公式=SMALL(IF(FREQUENCY(a:a,ROW($1:$32821))=0,MMULT(ROW($1:$32822),1)),ROW(A1))进行计算。其中32821等替换为网址中的最大数字。
+ E4 b' u& w9 I* v三、参见跳转  O' l/ n. V+ W: A+ o) q2 F/ D
如果参见后的条目较多,可先用正则式(“.+?”。)全选相应文字,再用(“.+?”)在选区内替换。
5 c1 [, l5 c! i3 j四、目录制作
: ^5 H3 ~4 ~( m3 u8 K如果是多级目录时制作较为麻烦,利用excel,一级目录在第一列,二级第二列,依次类推,其中细节处理用好公式,不再详述,最后目录加上p标签,条目加上a标签即可。
% L* c4 g4 ~7 V4 w, S  x1 b. S五、特殊序号1 W, c! b+ L$ {' M8 y1 q1 J  y
处理特殊序号,如带圈数字,可上网查找其起始值的unicode码,如\u2460,一般终止值设为\u2490已经够用,在emeditor中用[\x{2460}-\x{2490}]即可对其处理。  k+ e; p6 n3 l# X, D  j
六、多对一4 j2 o  D3 s, }7 ]. F8 X) g
([^✐])◐(.*?)\|(.+)$-->\1=\3☁\2✐◐|\3。表达式|是多与一的分隔符,◐是多之间的分隔符,=是连接符。多次替换,一直到不能替换为止,最后处理掉无用的东西。这个用excel也行,不过也麻烦。1 ^- U, f- N: m
9 R: v/ |) v3 e. ~0 x  H
以上是自己摸索到的一点经验,不揣浅陋,不当之处望指正,更希望能起到抛砖引玉之效。
  • TA的每日心情
    开心
    2023-6-27 08:22
  • 签到天数: 1501 天

    [LV.Master]伴坛终老

    发表于 2020-7-13 18:42:38 | 显示全部楼层
    Thanks for sharing.
  • TA的每日心情
    擦汗
    2020-1-9 13:35
  • 签到天数: 178 天

    [LV.7]常住居民III

    发表于 2020-7-13 22:06:07 | 显示全部楼层
    先收藏了,有时间了,配合bt4baidu版主的爬网页方式试试
  • TA的每日心情
    奋斗
    7 天前
  • 签到天数: 633 天

    [LV.9]以坛为家II

    发表于 2020-7-14 21:41:52 | 显示全部楼层
    会编程会不会快点
  • TA的每日心情

    2024-4-12 12:02
  • 签到天数: 158 天

    [LV.7]常住居民III

    发表于 2020-7-15 21:09:34 | 显示全部楼层
    williamson 发表于 2020-7-13 22:062 T# ?* d+ `- t- b4 j
    先收藏了,有时间了,配合bt4baidu版主的爬网页方式试试

    % ?7 G  x1 a" `5 ^少年,会不会汉语语料库制作技术啊?个人不是技术控,在这方面有点瓶颈
  • TA的每日心情
    擦汗
    2020-1-9 13:35
  • 签到天数: 178 天

    [LV.7]常住居民III

    发表于 2020-7-15 22:42:58 | 显示全部楼层
    泥瓦匠萨奇 发表于 2020-7-15 21:09
    9 [! _7 m6 b& ?9 p/ s" K5 R) z1 N* y少年,会不会汉语语料库制作技术啊?个人不是技术控,在这方面有点瓶颈 ...
    6 Q' a7 k5 t: J( J8 {
    汉语语料库,/ N' P4 f' k- s$ \4 T& R) l0 U* k
    您知道这是一个多大的工程么?6 o( W6 w3 s) e+ z) w& ^& K! i5 l
    语料库,对于汉语,得先确定字正确,其次是语句有无问题,是件大工程6 o4 [* P5 I: k5 c. T6 c3 L, C
    # r& G* s* ]& ~
    对于语料库制作,无外乎两种手段:& \0 ^& {4 M# c! q; d6 T. t
    一是爬取现成的语料库,小白也能学的爬虫技术,是咱们论坛大佬发的https://www.pdawiki.com/forum/thread-13219-1-1.html
    , k: G; F, z8 K3 z/ `4 l6 G对于爬取我个人是推荐的,你只要按部就班,按着大佬说的,他说一步,你走一步,肯定会成功,而且省不少校对的时间  Z8 g. m& Y' n. Z5 B- t
    二是利用OCR的技术,可以是ABBYY finreader OCR的,也可以是tesseract的OCR,前者可以大面积,批量的识别,后者则是手动取词,不过两者利弊明显:
    0 ]/ q6 V% j, rABBYY虽能批量识别,但错误很多,需要投入大量校对时间;tesseract,虽是手动,但准确率很高
    ' _* T6 u2 S" g7 V, @1 K! ~2 n+ l3 o至于自己利用python写个脚本,把tesseract当成ABBYY来用,对于咱们小白来说无疑是不可能的! l) ~1 t- A% O0 L6 ?$ A

    0 `8 k# M7 u& x0 g6 W所以,鄙人不推荐你制作文字版语料库,太费时间,个人没有这个精力,如果你是干这份工作的话,校对无疑占用最多的时间。如果不是,那么就奉劝,量力而行,没必要非得费那么大精力去做一个不太讨好的活
    : Q) m0 K; [8 Y" h) O! `如果你能发几张截图关于你的语料库制作,我想先看看,看能不能帮到你,毕竟没看到实图,不好说
  • TA的每日心情

    2024-4-12 12:02
  • 签到天数: 158 天

    [LV.7]常住居民III

    发表于 2020-7-16 10:17:51 | 显示全部楼层
    williamson 发表于 2020-7-15 22:42" _3 q" N2 _7 m
    汉语语料库,+ H: k2 q3 ]3 k2 C( y+ C. `3 W
    您知道这是一个多大的工程么?8 a8 \# ]4 L% l* L6 Z( @9 s
    语料库,对于汉语,得先确定字正确,其次是语句有无问题,是 ...
    # @2 Y) v; @9 G: D# @% P7 W- R
    抱歉,抱歉!没想到这竟然是这么一门高精尖的技术活我的想法很简单,就是想把民国以降的武侠小说文本归拢到一起,然后进行词频统计,得出一份专属的历史文学语汇集,方便自己写作参考之用。不过昨天试下了网友给的rost cm6软件,压根用不了,分词功能可以正常使用,但一到词频统计就报错,压根不能用。
  • TA的每日心情
    擦汗
    2020-1-9 13:35
  • 签到天数: 178 天

    [LV.7]常住居民III

    发表于 2020-7-16 10:42:51 | 显示全部楼层
    泥瓦匠萨奇 发表于 2020-7-16 10:17( X, S- F7 ], Z* b( Z# K
    抱歉,抱歉!没想到这竟然是这么一门高精尖的技术活我的想法很简单,就是想把民国以降的武侠小说 ...

    ; [' f! c2 {. q' ?7 S3 C首先这个先保证每个字都对呀,有很多错别字就会导致写作出现纰漏,你可以去搜搜小说集,咱们论坛有文字版的,不过错误很多,你可以去看看那个5 c) m2 J2 }  f8 P* g3 C% P
    你看看那个就知道汉语字典文字版有多么难做!个人力量太微小了,而且还是没有报酬的事,如果你执意于此,我精神上鼓励你,支持你
  • TA的每日心情

    2024-4-12 12:02
  • 签到天数: 158 天

    [LV.7]常住居民III

    发表于 2020-7-17 11:42:44 | 显示全部楼层
    williamson 发表于 2020-7-16 10:42
    . V3 z% g7 q' e. U, _首先这个先保证每个字都对呀,有很多错别字就会导致写作出现纰漏,你可以去搜搜小说集,咱们论坛有文字版 ...

    1 F0 A  x" m4 S  I5 }2 Z+ U4 [最近有个计划就是通过abbyy软件按部就班的将文史出版社出的那一套民国武侠小说文库转制成txt文本,估计真得耗费几个月的时间,但是成就感满满的。有时候都觉得这么好的大家宏编巨著却湮没无闻,声量还不如那些动不动碾压古龙比肩金庸的流量小说大,想想真的挺吊诡的(= ̄ ρ ̄=) ..zzZZ
  • TA的每日心情
    擦汗
    2020-1-9 13:35
  • 签到天数: 178 天

    [LV.7]常住居民III

    发表于 2020-7-17 12:20:43 | 显示全部楼层
    泥瓦匠萨奇 发表于 2020-7-17 11:42( I% }( @% P( V' P+ k
    最近有个计划就是通过abbyy软件按部就班的将文史出版社出的那一套民国武侠小说文库转制成txt文本,估计真 ...
    : U1 n( ^% @3 `/ C) o* C0 H' S
    我觉得个人做那个难度相当大,您不妨考虑一下制作图片版,也可以是切图,使之适合手机,文字版那是出版社的事,个人完成那么大的工作量,太难,你整天校对,也得半年以上,如果书不是很多,那就去做吧,我有时间也会帮你的
  • TA的每日心情

    2024-4-12 12:02
  • 签到天数: 158 天

    [LV.7]常住居民III

    发表于 2020-7-22 19:40:09 | 显示全部楼层
    williamson 发表于 2020-7-17 12:204 k) J' l, G  d) k! W  a2 C/ v3 G' b
    我觉得个人做那个难度相当大,您不妨考虑一下制作图片版,也可以是切图,使之适合手机,文字版那是出版社 ...

    7 T+ V# W8 Q9 c/ k$ E: {' Y工程量倒也不是说很大啦,abbyy扫描质量甚佳,基本上手动校订的比例很小,一本书大概3个小时左右可以出粗加工的半成品。主要是时间没那么充裕,只能周末两天才能腾出手来。
  • TA的每日心情
    擦汗
    2020-1-9 13:35
  • 签到天数: 178 天

    [LV.7]常住居民III

    发表于 2020-7-23 08:33:47 | 显示全部楼层
    泥瓦匠萨奇 发表于 2020-7-22 19:40  H! X; M) |  k( v$ x
    工程量倒也不是说很大啦,abbyy扫描质量甚佳,基本上手动校订的比例很小,一本书大概3个小时左右可以出粗 ...

    9 ~$ H# a3 Z% \那就好,看来你的清晰度可以,清晰度差的话就麻烦了
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-4-26 11:45 , Processed in 0.052652 second(s), 8 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表