TA的每日心情 | 擦汗 2020-1-9 13:35 |
---|
签到天数: 178 天 [LV.7]常住居民III
|
发表于 2020-7-15 22:42:58
|
显示全部楼层
. _; Q0 e5 I, L汉语语料库,
C1 t. W l. M8 }/ ?您知道这是一个多大的工程么?
7 W- Z7 e$ |& r; d语料库,对于汉语,得先确定字正确,其次是语句有无问题,是件大工程
9 d' k3 h d" A, S. x1 R" r5 j0 b2 R* s4 B c
对于语料库制作,无外乎两种手段:
6 j! Q1 s* l$ _+ Z: N& X/ ?一是爬取现成的语料库,小白也能学的爬虫技术,是咱们论坛大佬发的https://www.pdawiki.com/forum/thread-13219-1-1.html4 j# B, ?0 T+ J1 i) M% r% Q4 ]1 b
对于爬取我个人是推荐的,你只要按部就班,按着大佬说的,他说一步,你走一步,肯定会成功,而且省不少校对的时间' Z" N0 V& z1 r
二是利用OCR的技术,可以是ABBYY finreader OCR的,也可以是tesseract的OCR,前者可以大面积,批量的识别,后者则是手动取词,不过两者利弊明显:, @0 g. r+ k/ e" Z1 K4 O
ABBYY虽能批量识别,但错误很多,需要投入大量校对时间;tesseract,虽是手动,但准确率很高
, x8 u; V6 T; |3 P( \至于自己利用python写个脚本,把tesseract当成ABBYY来用,对于咱们小白来说无疑是不可能的+ Z5 _& B, J. j% s
7 z1 Z7 ~* r/ _所以,鄙人不推荐你制作文字版语料库,太费时间,个人没有这个精力,如果你是干这份工作的话,校对无疑占用最多的时间。如果不是,那么就奉劝,量力而行,没必要非得费那么大精力去做一个不太讨好的活, Y, s! H3 G5 z: y( D
如果你能发几张截图关于你的语料库制作,我想先看看,看能不能帮到你,毕竟没看到实图,不好说 |
|