论如何爬取杨百翰大学iweb corpus语料库
最近花费不少心思,基于COCA20000,做了份Excel词汇表。对比各类词典软件,据说有道做得最用心,中文释义全部取自有道,序号分割不同词性。
正准备打印出来,逛论坛看到两个贴子,发现iweb语料库更全更新。
https://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=33399&highlight=iweb
https://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=33281&highlight=iweb
本想偷个懒,找 @garypang要份csv排序版的,无奈联系不上。尝试自己爬取iweb语料库,奈何官网反爬虫做得贼好,有点棘手。
初步计划,爬前60000单词,匹配有道词典翻译,先弄份中文版出来。
然后爬每个词汇具体页面,再制作词汇搭配版本。搞定后分享给大家。
大家有什么想法,可以提提啊。
懒癌犯了,希望@garypang现身,直接做个成品出来,就不用我这小菜鸟折腾了。iweb语料库的确很棒,可惜全网找不到资源。
本帖最后由 eplono 于 2019-9-30 07:44 编辑
Hi 楼主能不能做一个词组(or搭配)的词频?就是这COCA里提出来的词组或搭配按照频率越高排名越前的这样。
我相信这样一份词频,至少对很多人来说吧,远远比仅仅单词的词频有用得多(单词的词频已经有GaryPang大的iWeb词频了[搜索帖子关键词“iWeb”]),
功德无量哦{:11_389:}
我今年年初的时候BT(magnet:?xt=urn:btih:EEBAC1F45D81FC3EEA92A7C6CC7179C863E290B9&tr=http%3A%2F%2Fbt4.t-ru.org%2Fann%3Fmagnet)
下载了一份COCA 2012年的原始数据,
有一份Collocation20000的PDF(https://pan.baidu.com/s/1AOgIWHF1rZzlRsYy_JnLPQ[提取码:tetg]),(PDF转换成mdx已经有人做了,见https://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=33105)
无奈自己非IT相关专业、只会一点点Python,不会整理成搭配的词频,就把原始数据(印象中是都小说、杂志等等的原文)都删了,现在重新挂娘盘,离线几天了停在65.46%进度。
等下完了就放出来希望有人做个词组(or搭配)的词频...
咋刚才看到楼主回复进度的帖子回头看又不见了?我幻觉了???
反馈一下进度,上周就已经差不多爬完了。接下来需要将HTML转成文本,不过最近有点忙,看心情再转下格式。 你去哪里 发表于 2019-9-3 21:41
中文释义还是用权威词典的释义,比如说牛津或者朗文的比较好吧。
补图。。。。 中文释义还是用权威词典的释义,比如说牛津或者朗文的比较好吧。 非常感谢,请问原始爬出来的网页文件方便分享吗?谢谢???????? 楼主做的怎么样了呢?期待你的大作! 这个没下文了?期待楼主更新。 ubersoft 发表于 2019-9-8 23:56
有偿整合数据、排版美化和制作mdx,可否?可以合并其他词典的数据,需要爬取别的数据也可以提供。如果需 ...
我觉得最有用的是那个collocation和cluster 能做出排序,已经非常好了。祝楼主早日功成! 楼主加油↖(^ω^)↗ 最好有英文释义,推荐简明牛津或新牛津或美国传统词典的英语释义。 非常期待您的成品! 期待iweb的排序版啊,这个语料库收词量比COCA大了很多 ChaunceyWei 发表于 2019-9-4 13:25
期待iweb的排序版啊,这个语料库收词量比COCA大了很多
iweb语料库top6000排序版已经有了,但拿到相应的词汇搭配难度较大。 iweb语料库前60000个词频排序版已搞定
ericqjy 发表于 2019-9-3 23:08
最好有英文释义,推荐简明牛津或新牛津或美国传统词典的英语释义。
iweb语料库每个单词明细界面,有同义词、话题、搭配、词簇等,同时还能链接到其它在线词典网站(图中标注12345能跳转到剑桥、韦氏)。
正在想办法把这些明细数据爬下来,然而技术太菜{:4_91:}
正想找高频表导入欧路背单词,楼主可否分享词频表? 求分享csv格式单词表{:4_104:} 反馈一下iweb语料库爬取进度,暂时保存的都是html格式
有没有大佬原因做成mdx
感谢楼主 可以的,个人赞成有偿服务! 支持支持 期待啊!
页:
[1]