abnerzzz 发表于 2019-9-3 21:04:23

论如何爬取杨百翰大学iweb corpus语料库

最近花费不少心思,基于COCA20000,做了份Excel词汇表。
对比各类词典软件,据说有道做得最用心,中文释义全部取自有道,序号分割不同词性。




正准备打印出来,逛论坛看到两个贴子,发现iweb语料库更全更新。

https://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=33399&highlight=iweb

https://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=33281&highlight=iweb


本想偷个懒,找 @garypang要份csv排序版的,无奈联系不上。尝试自己爬取iweb语料库,奈何官网反爬虫做得贼好,有点棘手。


初步计划,爬前60000单词,匹配有道词典翻译,先弄份中文版出来。
然后爬每个词汇具体页面,再制作词汇搭配版本。搞定后分享给大家。

大家有什么想法,可以提提啊。
懒癌犯了,希望@garypang现身,直接做个成品出来,就不用我这小菜鸟折腾了。iweb语料库的确很棒,可惜全网找不到资源。



eplono 发表于 2019-9-26 17:59:52

本帖最后由 eplono 于 2019-9-30 07:44 编辑

Hi 楼主能不能做一个词组(or搭配)的词频?就是这COCA里提出来的词组或搭配按照频率越高排名越前的这样。

我相信这样一份词频,至少对很多人来说吧,远远比仅仅单词的词频有用得多(单词的词频已经有GaryPang大的iWeb词频了[搜索帖子关键词“iWeb”]),
功德无量哦{:11_389:}

我今年年初的时候BT(magnet:?xt=urn:btih:EEBAC1F45D81FC3EEA92A7C6CC7179C863E290B9&tr=http%3A%2F%2Fbt4.t-ru.org%2Fann%3Fmagnet)
下载了一份COCA 2012年的原始数据,

有一份Collocation20000的PDF(https://pan.baidu.com/s/1AOgIWHF1rZzlRsYy_JnLPQ[提取码:tetg]),(PDF转换成mdx已经有人做了,见https://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=33105)

无奈自己非IT相关专业、只会一点点Python,不会整理成搭配的词频,就把原始数据(印象中是都小说、杂志等等的原文)都删了,现在重新挂娘盘,离线几天了停在65.46%进度。

等下完了就放出来希望有人做个词组(or搭配)的词频...

咋刚才看到楼主回复进度的帖子回头看又不见了?我幻觉了???

abnerzzz 发表于 2019-9-25 19:30:52

反馈一下进度,上周就已经差不多爬完了。接下来需要将HTML转成文本,不过最近有点忙,看心情再转下格式。

abnerzzz 发表于 2019-9-5 21:24:19

你去哪里 发表于 2019-9-3 21:41
中文释义还是用权威词典的释义,比如说牛津或者朗文的比较好吧。

补图。。。。

你去哪里 发表于 2019-9-3 21:41:52

中文释义还是用权威词典的释义,比如说牛津或者朗文的比较好吧。

snwbpn 发表于 2022-11-25 17:50:01

非常感谢,请问原始爬出来的网页文件方便分享吗?谢谢????????

snwbpn 发表于 2020-1-25 21:05:27

楼主做的怎么样了呢?期待你的大作!

ericqjy 发表于 2019-11-18 15:33:50

这个没下文了?期待楼主更新。

lgmcw 发表于 2019-11-9 03:35:21

ubersoft 发表于 2019-9-8 23:56
有偿整合数据、排版美化和制作mdx,可否?可以合并其他词典的数据,需要爬取别的数据也可以提供。如果需 ...

我觉得最有用的是那个collocation和cluster

快乐巡洋舰 发表于 2019-11-6 11:34:39

能做出排序,已经非常好了。祝楼主早日功成!

ericqjy 发表于 2019-9-25 20:11:08

楼主加油↖(^ω^)↗

ericqjy 发表于 2019-9-3 23:08:43

最好有英文释义,推荐简明牛津或新牛津或美国传统词典的英语释义。

ericqjy 发表于 2019-9-3 23:09:54

非常期待您的成品!

freemanlea 发表于 2019-9-4 09:02:43

ChaunceyWei 发表于 2019-9-4 13:25:25

期待iweb的排序版啊,这个语料库收词量比COCA大了很多

abnerzzz 发表于 2019-9-5 14:09:09

ChaunceyWei 发表于 2019-9-4 13:25
期待iweb的排序版啊,这个语料库收词量比COCA大了很多

iweb语料库top6000排序版已经有了,但拿到相应的词汇搭配难度较大。

abnerzzz 发表于 2019-9-5 21:09:57

iweb语料库前60000个词频排序版已搞定

abnerzzz 发表于 2019-9-5 21:22:52

ericqjy 发表于 2019-9-3 23:08
最好有英文释义,推荐简明牛津或新牛津或美国传统词典的英语释义。

iweb语料库每个单词明细界面,有同义词、话题、搭配、词簇等,同时还能链接到其它在线词典网站(图中标注12345能跳转到剑桥、韦氏)。
正在想办法把这些明细数据爬下来,然而技术太菜{:4_91:}

alanpoon 发表于 2019-9-5 22:07:55

正想找高频表导入欧路背单词,楼主可否分享词频表?

cwx 发表于 2019-9-6 19:05:02

求分享csv格式单词表{:4_104:}

abnerzzz 发表于 2019-9-7 10:36:30

反馈一下iweb语料库爬取进度,暂时保存的都是html格式

有没有大佬原因做成mdx

717379060 发表于 2019-9-10 00:51:39

感谢楼主

yaknow 发表于 2019-9-10 17:08:07

可以的,个人赞成有偿服务!

gtxxeon 发表于 2020-11-19 13:11:50

支持支持

tiansdeyanj 发表于 2021-12-30 17:07:15

期待啊!
页: [1]
查看完整版本: 论如何爬取杨百翰大学iweb corpus语料库