【求分享】英汉汉英双语平行资源
本帖最后由 lxchen2001 于 2016-10-12 02:31 编辑虽然有一些资源,但想能收集更多一些:
网站信息即可
要求:
- 翻译质量高 (类似经济学人或FT)
- 素材质量高 (文字档,排版不乱, 如ft, 听 voa, 爱sien)
(已有:部分经济学人素材、联合国双语素材、FT素材等) 论腾网有相当多翻译后的国外双语新闻,评论什么的. http://www.ltaaa.com/translation.html 本帖最后由 lxchen2001 于 2016-10-12 18:01 编辑
怪物猎人哥 发表于 2016-10-12 09:26
论腾网有相当多翻译后的国外双语新闻,评论什么的. http://www.ltaaa.com/translation.html
谢谢 很有特色的网站。
运营模式很特别 本帖最后由 goldmonkey 于 2016-10-12 22:05 编辑
我除了那几本英汉词典外就只有这篇帖子里提供的双语资料
https://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=11405
帖子里大概有4993份文本(采用段落对齐,但有部分对齐好像有误),我在用FileLocator的时候经常能在里面找到想要的用法
我感觉cuyoo网的结构确实如同帖子里说的一样非常清晰
但是我的python编程能力不够
整个网站大概有3万份文本,如果全部都能处理成段落对齐的txt形式,估计会非常有用
btw,能不能问下楼主的素材哪里找的? 本帖最后由 lxchen2001 于 2016-10-12 22:42 编辑
goldmonkey 发表于 2016-10-12 21:05
我除了那几本英汉词典外就只有这篇帖子里提供的双语资料
https://www.pdawiki.com/forum/forum.php?mod=v ...
听VOA上面有2300多篇经济学人的,从2013开始
FT上面有很多双语文章。
抓取,处理成文本应该不成问题,只要网站比较有规律。
看了一下cuyoo, 很多双语的是来自于FT。 goldmonkey 发表于 2016-10-12 21:05
我除了那几本英汉词典外就只有这篇帖子里提供的双语资料
https://www.pdawiki.com/forum/forum.php?mod=v ...
这个帖子里面的内容也还不错
https://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=15069&highlight=%D3%EF%C1%CF
linguee 查询可以加入到GD lxchen2001 发表于 2016-10-12 22:32
听VOA上面有2300多篇经济学人的,从2013开始
FT上面有很多双语文章。
cuyoo的网址非常有规律
http://www.cuyoo.com/article-*-1.html
就是这么简单。。。
我自己昨晚用beautifulsoup试了试
大概就是用soup.find_all(class_="vw visits")
就是会有些无用的信息(“路过雷人鲜花鸡蛋”这种),不过影响不大
但主要的问题这样提取出的文本全部都在一个段落里
那个帖子里的楼主也提到这个问题
他是这么说的:“试过用采集工具(spider/crawler 之类的工具)下载,下载后的文件无法实现段落对齐(就是一段英语,一段中文),最后改用监视剪贴板的树状笔记软件(keynote nf)手工复制收集而得”
手工显然太累了。。。
我不知道怎么处理才好 goldmonkey 发表于 2016-10-13 10:11
cuyoo的网址非常有规律
http://www.cuyoo.com/article-*-1.html
就是这么简单。。。
我自己没去抓取cuyoo的
1. 你可以用find('table', class_='vwtb')试试看这样抓取的应该就只是table里面的内容
2. 英文有etext* 中文有ctext* id 应该不需要手动调整 直接可以分行 lxchen2001 发表于 2016-10-13 14:32
我自己没去抓取cuyoo的
1. 你可以用find('table', class_='vwtb')试试看这样抓取的应该就只是table里 ...
不知道为什么抓出来的是英文在一起,中文在一起的
import requests
from bs4 import BeautifulSoup
r=requests.get('http://www.cuyoo.com/article-30928-1.html')
soup=BeautifulSoup(r.text,'lxml')
tables=soup.find_all('td')
for table in tables:
print(table.get_text()) 本帖最后由 lxchen2001 于 2016-10-13 18:15 编辑
goldmonkey 发表于 2016-10-13 15:57
不知道为什么抓出来的是英文在一起,中文在一起的
我明白你的问题了。你想把文章一句句拆开。
网页HTML上文字是放在一起的,经过处理后才成为两个栏位的。所以光用bs是不够的。
lxchen2001 发表于 2016-10-13 17:44
我明白你的问题了。你想把文章一句句拆开。
网页HTML上文字是放在一起的,经过处理后才成为两个栏位 ...
这样应该可以了
import requests
from bs4 import BeautifulSoup
r=requests.get('http://www.cuyoo.com/article-30928-1.html')
soup=BeautifulSoup(r.text,'lxml')
en=soup.find(id='en')
enstring=en.strings
cn=soup.find(id='cn')
cnstring=cn.strings
file=open('/30928.txt','w',encoding='utf-8')
while True:
try:
ensentence=next(enstring)
#print(ensentence)
file.write(ensentence)
file.write('\n')
cnsentence=next(cnstring)
#print(cnsentence)
file.write(cnsentence)
file.write('\n')
except StopIteration as e:
print('Finished')
break
file.close() goldmonkey 发表于 2016-10-13 18:42
这样应该可以了
{:4_104:} 很好用多交流 lxchen2001 发表于 2016-10-13 18:59
很好用多交流
感觉写得太粗暴了。。。
看到您说的我才意识到requests得到的和浏览器载入的源代码是不一样的 goldmonkey 发表于 2016-10-13 19:13
感觉写得太粗暴了。。。
看到您说的我才意识到requests得到的和浏览器载入的源代码是不一样的
现在越来越多的网站会用一些技术来防爬虫
http://novel.tingroom.com/shuangyu/这里有双语小说, 不知道有用不,另外问一下各路大神,还有没比较好的双语小说网站?以及有没有什么好的英语有声书网站 本帖最后由 lxchen2001 于 2016-10-15 02:02 编辑
hao371269498 发表于 2016-10-14 19:05
http://novel.tingroom.com/shuangyu/这里有双语小说, 不知道有用不,另外问一下各路大神,还有没比较 ...
谢谢。这个网站的小说双语是按照章节来分的,不太好处理。最好一句或者一小段平行,就像cuyoo上面的文章那样的。
cuyoo上也有双语小说, 排版方式和tingroom差不多
24en.com的排版是可以2栏,但不平行
tingvoa有些小说是分小段平行
沪江 keke的格式相对比较喜欢,但是分成太多网页,也不是太方便
英语有声书:
免费的:
https://librivox.org/
http://www.openculture.com/freeaudiobooks
亚马逊收费的
audible.com不少有名人配音
页:
[1]