掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 742|回复: 23

[讨论] 论如何爬取杨百翰大学iweb corpus语料库

[复制链接]
  • TA的每日心情

    2019-9-21 10:56
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2019-9-3 21:04:23 | 显示全部楼层 |阅读模式
    最近花费不少心思,基于COCA20000,做了份Excel词汇表。; A2 g7 F! l: {- }0 O1 \1 D
    对比各类词典软件,据说有道做得最用心,中文释义全部取自有道,序号分割不同词性。
    - r9 x: k0 X9 A, w7 p% t5 H
    " i! X6 B7 S& g8 o- v2 w8 F1 x& e

    " _7 b! p4 p( z* F! o  i) @
    5 i4 K: }! a" r- e% }: q
    9 O; G7 c# o: I9 Y8 v
    正准备打印出来,逛论坛看到两个贴子,发现iweb语料库更全更新。+ h1 I, W* j3 v* d

    : n9 J2 c/ i# |% P. g- U' e
    1. https://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=33399&highlight=iweb
      5 W2 J, ^% Q3 M+ V/ z  [* ?! t
    2. + n9 D, Y; C9 k( `4 A
    3. https://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=33281&highlight=iweb
    复制代码

    0 x3 e* J/ _1 X9 n7 L+ G# t, x. ?0 w

    + i; E" t$ S2 X# T1 y本想偷个懒,找 @要份csv排序版的,无奈联系不上。尝试自己爬取iweb语料库,奈何官网反爬虫做得贼好,有点棘手。7 v4 J, n% p. C' y* G$ z/ ^3 S4 h; N

    ) O- C% H; Z+ G4 W0 @2 V5 q% N4 z3 V7 m2 W  h. ], s
    初步计划,爬前60000单词,匹配有道词典翻译,先弄份中文版出来。
    : g" h4 D. n" t* O. z5 R然后爬每个词汇具体页面,再制作词汇搭配版本。搞定后分享给大家。& w' t, S! G2 u% d( p; I* `

    / C1 u& M# |5 q( V大家有什么想法,可以提提啊。
    9 _0 N. F$ E$ c/ V懒癌犯了,希望@现身,直接做个成品出来,就不用我这小菜鸟折腾了。iweb语料库的确很棒,可惜全网找不到资源。8 A. u) s0 |& R6 w9 P; z
    5 P: H; q9 f3 }

    4 f& R9 i/ B- E  p
    - I! d/ b$ l, {

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有帐号?免费注册

    x
  • TA的每日心情
    慵懒
    昨天 10:01
  • 签到天数: 81 天

    [LV.6]常住居民II

    发表于 2019-9-26 17:59:52 | 显示全部楼层
    本帖最后由 eplono 于 2019-9-30 07:44 编辑
    - l$ `' W" l# W- L5 g7 C$ t- u9 K/ W8 E! k' ]2 x) v) a
    Hi 楼主能不能做一个词组(or搭配的词频?就是这COCA里提出来的词组或搭配按照频率越高排名越前的这样。8 b" C# N" G$ }2 [% m& @9 C
    & O. l. J( G. i& Z5 p! Z4 h, S
    我相信这样一份词频,至少对很多人来说吧,远远比仅仅单词的词频有用得多(单词的词频已经有GaryPang大的iWeb词频了[搜索帖子关键词“iWeb”])," o; v+ Z  E4 I  H
    功德无量哦
    8 b. E4 q- C+ T) O4 c' o
    2 A1 d; [+ i7 b# U  L: _' l我今年年初的时候BT(magnet:?xt=urn:btih:EEBAC1F45D81FC3EEA92A7C6CC7179C863E290B9&tr=http%3A%2F%2Fbt4.t-ru.org%2Fann%3Fmagnet)
    4 U0 a" L' M4 I8 }下载了一份COCA 2012年的原始数据,* [. F, @4 R4 U2 M7 a* l1 }' f

    6 M2 n$ r: k. p" z3 B% L/ B# I+ O有一份Collocation20000的PDF(https://pan.baidu.com/s/1AOgIWHF1rZzlRsYy_JnLPQ[提取码:tetg]),(PDF转换成mdx已经有人做了,见https://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=33105" d) p7 }+ [% D6 y
    6 z8 c$ [% b6 p3 Q" X
    无奈自己非IT相关专业、只会一点点Python,不会整理成搭配的词频,就把原始数据(印象中是都小说、杂志等等的原文)都删了,现在重新挂娘盘,离线几天了停在65.46%进度。
    ' j, A+ \/ t+ v/ `9 x, U
    % |5 S3 Y: y% G. `0 ~等下完了就放出来希望有人做个词组(or搭配)的词频...( Q# V! }+ c" V- v" {" c

    . i  ?1 n0 T; @/ u咋刚才看到楼主回复进度的帖子回头看又不见了?我幻觉了???
    + Y; }( I3 K: s, r
  • TA的每日心情

    2019-9-21 10:56
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-9-25 19:30:52 | 显示全部楼层
    反馈一下进度,上周就已经差不多爬完了。接下来需要将HTML转成文本,不过最近有点忙,看心情再转下格式。
  • TA的每日心情

    2019-9-21 10:56
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-9-5 21:24:19 | 显示全部楼层
    你去哪里 发表于 2019-9-3 21:41% d0 g% ]7 o9 x8 g
    中文释义还是用权威词典的释义,比如说牛津或者朗文的比较好吧。
    2 b: [; x% ?6 D
    补图。。。。

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有帐号?免费注册

    x
  • TA的每日心情
    开心
    2019-8-20 15:14
  • 签到天数: 148 天

    [LV.7]常住居民III

    发表于 2019-9-3 21:41:52 | 显示全部楼层
    中文释义还是用权威词典的释义,比如说牛津或者朗文的比较好吧。
  • TA的每日心情
    开心
    昨天 14:16
  • 签到天数: 332 天

    [LV.8]以坛为家I

    发表于 2019-9-3 23:08:43 | 显示全部楼层
    最好有英文释义,推荐简明牛津或新牛津或美国传统词典的英语释义。
  • TA的每日心情
    开心
    昨天 14:16
  • 签到天数: 332 天

    [LV.8]以坛为家I

    发表于 2019-9-3 23:09:54 | 显示全部楼层
    非常期待您的成品!
  • TA的每日心情
    慵懒
    昨天 07:41
  • 签到天数: 201 天

    [LV.7]常住居民III

    发表于 2019-9-4 09:02:43 | 显示全部楼层
    提示: 该帖被管理员或版主屏蔽
  • TA的每日心情
    奋斗
    昨天 12:36
  • 签到天数: 246 天

    [LV.8]以坛为家I

    发表于 2019-9-4 13:25:25 | 显示全部楼层
    期待iweb的排序版啊,这个语料库收词量比COCA大了很多
  • TA的每日心情

    2019-9-21 10:56
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-9-5 14:09:09 | 显示全部楼层
    ChaunceyWei 发表于 2019-9-4 13:257 s1 n' M1 ~( \1 l' C
    期待iweb的排序版啊,这个语料库收词量比COCA大了很多

    7 I2 C1 V# `# t! W  Ziweb语料库top6000排序版已经有了,但拿到相应的词汇搭配难度较大。
  • TA的每日心情

    2019-9-21 10:56
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-9-5 21:09:57 | 显示全部楼层
    iweb语料库前60000个词频排序版已搞定
    # m9 L  j. g# j9 W% Y5 S7 i" w

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有帐号?免费注册

    x
  • TA的每日心情

    2019-9-21 10:56
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-9-5 21:22:52 | 显示全部楼层
    ericqjy 发表于 2019-9-3 23:08+ U2 L7 y& W( l% v! q
    最好有英文释义,推荐简明牛津或新牛津或美国传统词典的英语释义。

    2 Z! a' J4 g$ L8 t+ z3 O5 Jiweb语料库每个单词明细界面,有同义词、话题、搭配、词簇等,同时还能链接到其它在线词典网站(图中标注12345能跳转到剑桥、韦氏)。9 j5 |  e9 O* R% d0 \& Q  T
    正在想办法把这些明细数据爬下来,然而技术太菜- n4 n  Y2 t0 W

    该用户从未签到

    发表于 2019-9-5 22:07:55 | 显示全部楼层
    正想找高频表导入欧路背单词,楼主可否分享词频表?
  • TA的每日心情
    无聊
    2019-9-7 16:11
  • 签到天数: 13 天

    [LV.3]偶尔看看II

    发表于 2019-9-6 19:05:02 | 显示全部楼层
    求分享csv格式单词表
  • TA的每日心情

    2019-9-21 10:56
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-9-7 10:36:30 | 显示全部楼层
    反馈一下iweb语料库爬取进度,暂时保存的都是html格式1 N0 x! z& x/ `
    # w! V) m' L+ v2 E) p2 t% U
    有没有大佬原因做成mdx  Q$ M  V( f! M6 Y: l

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有帐号?免费注册

    x
  • TA的每日心情
    擦汗
    2019-10-17 14:10
  • 签到天数: 104 天

    [LV.6]常住居民II

    发表于 2019-9-8 23:56:04 | 显示全部楼层
    abnerzzz 发表于 2019-9-7 10:367 v0 `8 h& l4 N
    反馈一下iweb语料库爬取进度,暂时保存的都是html格式
    1 |* ~2 ]" s& d1 R5 {1 W8 D; i, i5 e
    有没有大佬原因做成mdx

    + I0 N8 A/ d; y1 E/ U5 e; b有偿整合数据、排版美化和制作mdx,可否?可以合并其他词典的数据,需要爬取别的数据也可以提供。如果需要js,实现类似FF大的词典里面那种切换功能也可以做。
  • TA的每日心情
    开心
    2019-4-29 05:51
  • 签到天数: 95 天

    [LV.6]常住居民II

    发表于 2019-9-10 17:08:07 | 显示全部楼层
    可以的,个人赞成有偿服务!
  • TA的每日心情
    开心
    昨天 14:16
  • 签到天数: 332 天

    [LV.8]以坛为家I

    发表于 2019-9-25 20:11:08 | 显示全部楼层
    楼主加油↖(^ω^)↗
  • TA的每日心情
    开心
    昨天 07:44
  • 签到天数: 93 天

    [LV.6]常住居民II

    发表于 2019-11-6 11:34:39 | 显示全部楼层
    能做出排序,已经非常好了。祝楼主早日功成!
  • TA的每日心情
    奋斗
    昨天 07:16
  • 签到天数: 175 天

    [LV.7]常住居民III

    发表于 2019-11-9 03:35:21 | 显示全部楼层
    ubersoft 发表于 2019-9-8 23:56
    % D3 j- a* q3 Q+ t有偿整合数据、排版美化和制作mdx,可否?可以合并其他词典的数据,需要爬取别的数据也可以提供。如果需 ...

    : C: G* n5 D. t7 r我觉得最有用的是那个collocation和cluster
  • TA的每日心情
    开心
    昨天 14:16
  • 签到天数: 332 天

    [LV.8]以坛为家I

    发表于 昨天 15:33 | 显示全部楼层
    这个没下文了?期待楼主更新。
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    顶部qrcode底部
    关注公众号送论坛充值码
    关注微信公众平台
    关注微信公众号 pdawiki,获取邀请码,看文抢积分,抽奖得浮云! Follow our Wechat official account "pdawiki", get invitation codes, and play the lottery to earn points (积分)!

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2019-11-19 03:58 , Processed in 0.151052 second(s), 11 queries , MemCache On.

    Powered by Discuz! X3.4

    © 2001-2017 Comsenz Inc.

    快速回复 返回顶部 返回列表