论如何爬取杨百翰大学iweb corpus语料库

abnerzzz 发表于 2019-9-3 21:04:23

最近花费不少心思，基于COCA20000，做了份Excel词汇表。
对比各类词典软件，据说有道做得最用心，中文释义全部取自有道，序号分割不同词性。

正准备打印出来，逛论坛看到两个贴子，发现iweb语料库更全更新。

https://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=33399&highlight=iweb

https://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=33281&highlight=iweb

本想偷个懒，找 @garypang要份csv排序版的，无奈联系不上。尝试自己爬取iweb语料库，奈何官网反爬虫做得贼好，有点棘手。

初步计划，爬前60000单词，匹配有道词典翻译，先弄份中文版出来。
然后爬每个词汇具体页面，再制作词汇搭配版本。搞定后分享给大家。

大家有什么想法，可以提提啊。
懒癌犯了，希望@garypang现身，直接做个成品出来，就不用我这小菜鸟折腾了。iweb语料库的确很棒，可惜全网找不到资源。

eplono 发表于 2019-9-26 17:59:52

本帖最后由 eplono 于 2019-9-30 07:44 编辑

Hi 楼主能不能做一个词组（or搭配）的词频？就是这COCA里提出来的词组或搭配按照频率越高排名越前的这样。

我相信这样一份词频，至少对很多人来说吧，远远比仅仅单词的词频有用得多(单词的词频已经有GaryPang大的iWeb词频了[搜索帖子关键词“iWeb”]），
功德无量哦{:11_389:}

我今年年初的时候BT（magnet:?xt=urn:btih:EEBAC1F45D81FC3EEA92A7C6CC7179C863E290B9&tr=http%3A%2F%2Fbt4.t-ru.org%2Fann%3Fmagnet）
下载了一份COCA 2012年的原始数据，

有一份Collocation20000的PDF(https://pan.baidu.com/s/1AOgIWHF1rZzlRsYy_JnLPQ[提取码：tetg])，（PDF转换成mdx已经有人做了，见https://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=33105）

无奈自己非IT相关专业、只会一点点Python，不会整理成搭配的词频，就把原始数据（印象中是都小说、杂志等等的原文）都删了，现在重新挂娘盘，离线几天了停在65.46%进度。

等下完了就放出来希望有人做个词组（or搭配）的词频...

咋刚才看到楼主回复进度的帖子回头看又不见了？我幻觉了？？？

abnerzzz 发表于 2019-9-25 19:30:52

反馈一下进度，上周就已经差不多爬完了。接下来需要将HTML转成文本，不过最近有点忙，看心情再转下格式。

abnerzzz 发表于 2019-9-5 21:24:19

你去哪里发表于 2019-9-3 21:41
中文释义还是用权威词典的释义，比如说牛津或者朗文的比较好吧。

补图。。。。

你去哪里 发表于 2019-9-3 21:41:52

中文释义还是用权威词典的释义，比如说牛津或者朗文的比较好吧。

snwbpn 发表于 2022-11-25 17:50:01

非常感谢，请问原始爬出来的网页文件方便分享吗？谢谢????????

snwbpn 发表于 2020-1-25 21:05:27

楼主做的怎么样了呢？期待你的大作！

ericqjy 发表于 2019-11-18 15:33:50

这个没下文了？期待楼主更新。

lgmcw 发表于 2019-11-9 03:35:21

ubersoft 发表于 2019-9-8 23:56
有偿整合数据、排版美化和制作mdx，可否？可以合并其他词典的数据，需要爬取别的数据也可以提供。如果需 ...

我觉得最有用的是那个collocation和cluster

快乐巡洋舰 发表于 2019-11-6 11:34:39

能做出排序，已经非常好了。祝楼主早日功成！

ericqjy 发表于 2019-9-25 20:11:08

楼主加油↖(^ω^)↗

ericqjy 发表于 2019-9-3 23:08:43

最好有英文释义，推荐简明牛津或新牛津或美国传统词典的英语释义。

ericqjy 发表于 2019-9-3 23:09:54

非常期待您的成品！

freemanlea 发表于 2019-9-4 09:02:43

ChaunceyWei 发表于 2019-9-4 13:25:25

期待iweb的排序版啊，这个语料库收词量比COCA大了很多

abnerzzz 发表于 2019-9-5 14:09:09

ChaunceyWei 发表于 2019-9-4 13:25
期待iweb的排序版啊，这个语料库收词量比COCA大了很多

iweb语料库top6000排序版已经有了，但拿到相应的词汇搭配难度较大。

abnerzzz 发表于 2019-9-5 21:09:57

iweb语料库前60000个词频排序版已搞定

abnerzzz 发表于 2019-9-5 21:22:52

ericqjy 发表于 2019-9-3 23:08
最好有英文释义，推荐简明牛津或新牛津或美国传统词典的英语释义。

iweb语料库每个单词明细界面，有同义词、话题、搭配、词簇等，同时还能链接到其它在线词典网站（图中标注12345能跳转到剑桥、韦氏）。
正在想办法把这些明细数据爬下来，然而技术太菜{:4_91:}

alanpoon 发表于 2019-9-5 22:07:55

正想找高频表导入欧路背单词，楼主可否分享词频表？

cwx 发表于 2019-9-6 19:05:02

求分享csv格式单词表{:4_104:}

abnerzzz 发表于 2019-9-7 10:36:30

反馈一下iweb语料库爬取进度，暂时保存的都是html格式

有没有大佬原因做成mdx

717379060 发表于 2019-9-10 00:51:39

感谢楼主

yaknow 发表于 2019-9-10 17:08:07

可以的,个人赞成有偿服务!

gtxxeon 发表于 2020-11-19 13:11:50

支持支持

tiansdeyanj 发表于 2021-12-30 17:07:15

期待啊！

页: [1]

掌上百科 - PDAWIKI's Archiver

论如何爬取杨百翰大学iweb corpus语料库