garypang 发表于 2018-6-7 12:27:23

hyqq2015 发表于 2018-5-20 21:20
同步更新:

1. 修正多余的换行,使排版更紧凑;


原来空行你早就修复了,赞!

Masoud_84 发表于 2018-6-7 13:17:45

Thank you so much for sharing.

hyqq2015 发表于 2018-6-7 15:10:31

garypang 发表于 2018-6-7 12:27
原来空行你早就修复了,赞!

你有没有发现这个脚本最多只能显示10条释义,你抓取的离线版也是。你查下 beautiful 或 good 试下。

garypang 发表于 2018-6-7 15:21:32

hyqq2015 发表于 2018-6-7 15:10
你有没有发现这个脚本最多只能显示10条释义,你抓取的离线版也是。你查下 beautiful 或 good 试下。 ...

是的,离线版和在线版都是用的http://api.urbandictionary.com/v0/define?term= 这个接口的数据 这个接口只能显示10条,

hyqq2015 发表于 2018-6-7 15:31:28

garypang 发表于 2018-6-7 15:21
是的,离线版和在线版都是用的http://api.urbandictionary.com/v0/define?term= 这个接口的数据 这个接口 ...

因为发现2015年的 dsl 版将近1个G,所以对比了下才发现最多只显示10条。不过10条也够了。

woaini123 发表于 2018-6-7 16:55:32

感谢更新,试试看

hyqq2015 发表于 2018-6-7 18:13:39

garypang 发表于 2018-6-7 15:21
是的,离线版和在线版都是用的http://api.urbandictionary.com/v0/define?term= 这个接口的数据 这个接口 ...

在网上找到一个1.9G的Urban Dictionary数据资源:
https://www.reddit.com/r/datasets/comments/63spoc/19gb_of_urban_dictionary_definitions_1999_may_2016/
下载数据看了下,这个2016年5月份的数据中,beautiful的释义有195条,看来作者抓取的时候抓到的释义很全。

作者介绍可以利用 defid 来抓取,
You can scrape word ids from here: http://www.urbandictionary.com/yesterday.php?date=2017-03-29&page=2 (note that each date has many pages) and then just throw them into the urbandictionary api link above.
其实我并不是很懂Python,不知这种方法是否可以完整抓取?

garypang 发表于 2018-6-8 13:46:53

hyqq2015 发表于 2018-6-7 18:13
在网上找到一个1.9G的Urban Dictionary数据资源:
https://www.reddit.com/r/datasets/comments/63spoc/1 ...

里面作者所说的 http://www.urbandictionary.com/yesterday.php?date=2017-03-29&page=2 这个接口已经失效了,不然可以抓取到更全的wordlists,至于释义,十条其实完全够用了,我这抓取的txt源文件也有2G多了.

hsp20080888 发表于 2018-6-8 14:15:37

在线的urban确实是比离线的更好的解决方案……

hyqq2015 发表于 2018-6-8 17:06:11

本帖最后由 hyqq2015 于 2018-6-8 17:15 编辑

garypang 发表于 2018-6-8 13:46
里面作者所说的 http://www.urbandictionary.com/yesterday.php?date=2017-03-29&page=2 这个接口已经失 ...

并没有失效,是按照日期来的,一天一天来,比如:
https://www.urbandictionary.com/yesterday.php?date=2018-06-07
https://www.urbandictionary.com/yesterday.php?date=2018-06-06
https://www.urbandictionary.com/yesterday.php?date=2018-06-05

作者抓取的数据是从1999年到2016年5月的。


urban的数据也是1999年开始,看下图:

garypang 发表于 2018-6-8 17:23:55

hyqq2015 发表于 2018-6-8 17:06
并没有失效,是按照日期来的,一天一天来,比如:
https://www.urbandictionary.com/yesterday.php?date= ...

只有2018年最近一两个月的有效,其他年份都失效了的.

hyqq2015 发表于 2018-6-8 18:08:39

garypang 发表于 2018-6-8 17:23
只有2018年最近一两个月的有效,其他年份都失效了的.

估计也是一种限制。抓不了也只能作罢,现有离线版和在线版用着也挺好。

名字自定义 发表于 2018-6-8 22:08:21

谢谢这么认真完善词典,很喜欢这部词典。

elusty 发表于 2018-6-11 20:57:55

感谢Garypang。

StarryZeng 发表于 2018-6-12 13:42:59

好棒的操作。试试哈。不知道能不能用哦。

2018wowo 发表于 2018-6-14 10:41:31

已经开始用了,谢谢楼主慷慨分享,thank you for your sharing

zjd 发表于 2018-6-14 11:23:25

谢谢,1111111111111111111111111111111111111111111111111111

adl.wawh 发表于 2018-6-18 12:11:15

謝谢楼主分享,下载试用!俚語對於英語水平是一個很大的進步

QQending2 发表于 2018-6-20 18:52:12

很好,电脑版上的goldendict确实很省事,这份也收集一个

vtvt 发表于 2018-6-21 11:17:25

感谢楼主分享,下载试用!                              

cici920 发表于 2018-6-28 08:51:16

这个排版比较好看

国宝滚滚 发表于 2018-6-28 23:03:08

谢谢谢谢

jizer2 发表于 2018-7-1 00:29:14

Thanks million times{:4_105:}

hsh791116 发表于 2018-7-1 06:47:18

不错的东东

thejiong 发表于 2018-7-1 19:33:30

兄弟,感谢感谢哈。
页: 1 2 [3] 4 5 6 7 8 9 10 11 12
查看完整版本: [6.7]urbandictionary.com城市俚语在线词典 [python]