garypang
发表于 2018-6-7 12:27:23
hyqq2015 发表于 2018-5-20 21:20
同步更新:
1. 修正多余的换行,使排版更紧凑;
原来空行你早就修复了,赞!
Masoud_84
发表于 2018-6-7 13:17:45
Thank you so much for sharing.
hyqq2015
发表于 2018-6-7 15:10:31
garypang 发表于 2018-6-7 12:27
原来空行你早就修复了,赞!
你有没有发现这个脚本最多只能显示10条释义,你抓取的离线版也是。你查下 beautiful 或 good 试下。
garypang
发表于 2018-6-7 15:21:32
hyqq2015 发表于 2018-6-7 15:10
你有没有发现这个脚本最多只能显示10条释义,你抓取的离线版也是。你查下 beautiful 或 good 试下。 ...
是的,离线版和在线版都是用的http://api.urbandictionary.com/v0/define?term= 这个接口的数据 这个接口只能显示10条,
hyqq2015
发表于 2018-6-7 15:31:28
garypang 发表于 2018-6-7 15:21
是的,离线版和在线版都是用的http://api.urbandictionary.com/v0/define?term= 这个接口的数据 这个接口 ...
因为发现2015年的 dsl 版将近1个G,所以对比了下才发现最多只显示10条。不过10条也够了。
woaini123
发表于 2018-6-7 16:55:32
感谢更新,试试看
hyqq2015
发表于 2018-6-7 18:13:39
garypang 发表于 2018-6-7 15:21
是的,离线版和在线版都是用的http://api.urbandictionary.com/v0/define?term= 这个接口的数据 这个接口 ...
在网上找到一个1.9G的Urban Dictionary数据资源:
https://www.reddit.com/r/datasets/comments/63spoc/19gb_of_urban_dictionary_definitions_1999_may_2016/
下载数据看了下,这个2016年5月份的数据中,beautiful的释义有195条,看来作者抓取的时候抓到的释义很全。
作者介绍可以利用 defid 来抓取,
You can scrape word ids from here: http://www.urbandictionary.com/yesterday.php?date=2017-03-29&page=2 (note that each date has many pages) and then just throw them into the urbandictionary api link above.
其实我并不是很懂Python,不知这种方法是否可以完整抓取?
garypang
发表于 2018-6-8 13:46:53
hyqq2015 发表于 2018-6-7 18:13
在网上找到一个1.9G的Urban Dictionary数据资源:
https://www.reddit.com/r/datasets/comments/63spoc/1 ...
里面作者所说的 http://www.urbandictionary.com/yesterday.php?date=2017-03-29&page=2 这个接口已经失效了,不然可以抓取到更全的wordlists,至于释义,十条其实完全够用了,我这抓取的txt源文件也有2G多了.
hsp20080888
发表于 2018-6-8 14:15:37
在线的urban确实是比离线的更好的解决方案……
hyqq2015
发表于 2018-6-8 17:06:11
本帖最后由 hyqq2015 于 2018-6-8 17:15 编辑
garypang 发表于 2018-6-8 13:46
里面作者所说的 http://www.urbandictionary.com/yesterday.php?date=2017-03-29&page=2 这个接口已经失 ...
并没有失效,是按照日期来的,一天一天来,比如:
https://www.urbandictionary.com/yesterday.php?date=2018-06-07
https://www.urbandictionary.com/yesterday.php?date=2018-06-06
https://www.urbandictionary.com/yesterday.php?date=2018-06-05
作者抓取的数据是从1999年到2016年5月的。
urban的数据也是1999年开始,看下图:
garypang
发表于 2018-6-8 17:23:55
hyqq2015 发表于 2018-6-8 17:06
并没有失效,是按照日期来的,一天一天来,比如:
https://www.urbandictionary.com/yesterday.php?date= ...
只有2018年最近一两个月的有效,其他年份都失效了的.
hyqq2015
发表于 2018-6-8 18:08:39
garypang 发表于 2018-6-8 17:23
只有2018年最近一两个月的有效,其他年份都失效了的.
估计也是一种限制。抓不了也只能作罢,现有离线版和在线版用着也挺好。
名字自定义
发表于 2018-6-8 22:08:21
谢谢这么认真完善词典,很喜欢这部词典。
elusty
发表于 2018-6-11 20:57:55
感谢Garypang。
StarryZeng
发表于 2018-6-12 13:42:59
好棒的操作。试试哈。不知道能不能用哦。
2018wowo
发表于 2018-6-14 10:41:31
已经开始用了,谢谢楼主慷慨分享,thank you for your sharing
zjd
发表于 2018-6-14 11:23:25
谢谢,1111111111111111111111111111111111111111111111111111
adl.wawh
发表于 2018-6-18 12:11:15
謝谢楼主分享,下载试用!俚語對於英語水平是一個很大的進步
QQending2
发表于 2018-6-20 18:52:12
很好,电脑版上的goldendict确实很省事,这份也收集一个
vtvt
发表于 2018-6-21 11:17:25
感谢楼主分享,下载试用!
cici920
发表于 2018-6-28 08:51:16
这个排版比较好看
国宝滚滚
发表于 2018-6-28 23:03:08
谢谢谢谢
jizer2
发表于 2018-7-1 00:29:14
Thanks million times{:4_105:}
hsh791116
发表于 2018-7-1 06:47:18
不错的东东
thejiong
发表于 2018-7-1 19:33:30
兄弟,感谢感谢哈。
页:
1
2
[3]
4
5
6
7
8
9
10
11
12