lxchen2001 发表于 2016-10-12 02:02:52

【求分享】英汉汉英双语平行资源

本帖最后由 lxchen2001 于 2016-10-12 02:31 编辑

虽然有一些资源,但想能收集更多一些:

网站信息即可

要求:
- 翻译质量高 (类似经济学人或FT)
- 素材质量高 (文字档,排版不乱, 如ft, 听 voa, 爱sien)


(已有:部分经济学人素材、联合国双语素材、FT素材等)

怪物猎人哥 发表于 2016-10-12 09:26:38

论腾网有相当多翻译后的国外双语新闻,评论什么的. http://www.ltaaa.com/translation.html

lxchen2001 发表于 2016-10-12 17:55:22

本帖最后由 lxchen2001 于 2016-10-12 18:01 编辑

怪物猎人哥 发表于 2016-10-12 09:26
论腾网有相当多翻译后的国外双语新闻,评论什么的. http://www.ltaaa.com/translation.html

谢谢 很有特色的网站。

运营模式很特别

goldmonkey 发表于 2016-10-12 21:05:57

本帖最后由 goldmonkey 于 2016-10-12 22:05 编辑

我除了那几本英汉词典外就只有这篇帖子里提供的双语资料

https://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=11405

帖子里大概有4993份文本(采用段落对齐,但有部分对齐好像有误),我在用FileLocator的时候经常能在里面找到想要的用法

我感觉cuyoo网的结构确实如同帖子里说的一样非常清晰

但是我的python编程能力不够

整个网站大概有3万份文本,如果全部都能处理成段落对齐的txt形式,估计会非常有用

btw,能不能问下楼主的素材哪里找的?

lxchen2001 发表于 2016-10-12 22:32:49

本帖最后由 lxchen2001 于 2016-10-12 22:42 编辑

goldmonkey 发表于 2016-10-12 21:05
我除了那几本英汉词典外就只有这篇帖子里提供的双语资料

https://www.pdawiki.com/forum/forum.php?mod=v ...

听VOA上面有2300多篇经济学人的,从2013开始

FT上面有很多双语文章。

抓取,处理成文本应该不成问题,只要网站比较有规律。

看了一下cuyoo, 很多双语的是来自于FT。

lxchen2001 发表于 2016-10-13 03:11:08

goldmonkey 发表于 2016-10-12 21:05
我除了那几本英汉词典外就只有这篇帖子里提供的双语资料

https://www.pdawiki.com/forum/forum.php?mod=v ...

这个帖子里面的内容也还不错

https://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=15069&highlight=%D3%EF%C1%CF

linguee 查询可以加入到GD

goldmonkey 发表于 2016-10-13 10:11:29

lxchen2001 发表于 2016-10-12 22:32
听VOA上面有2300多篇经济学人的,从2013开始

FT上面有很多双语文章。


cuyoo的网址非常有规律
http://www.cuyoo.com/article-*-1.html
就是这么简单。。。

我自己昨晚用beautifulsoup试了试
大概就是用soup.find_all(class_="vw visits")
就是会有些无用的信息(“路过雷人鲜花鸡蛋”这种),不过影响不大
但主要的问题这样提取出的文本全部都在一个段落里
那个帖子里的楼主也提到这个问题
他是这么说的:“试过用采集工具(spider/crawler 之类的工具)下载,下载后的文件无法实现段落对齐(就是一段英语,一段中文),最后改用监视剪贴板的树状笔记软件(keynote nf)手工复制收集而得”
手工显然太累了。。。
我不知道怎么处理才好

lxchen2001 发表于 2016-10-13 14:32:30

goldmonkey 发表于 2016-10-13 10:11
cuyoo的网址非常有规律
http://www.cuyoo.com/article-*-1.html
就是这么简单。。。


我自己没去抓取cuyoo的
1. 你可以用find('table', class_='vwtb')试试看这样抓取的应该就只是table里面的内容
2. 英文有etext* 中文有ctext* id 应该不需要手动调整 直接可以分行

goldmonkey 发表于 2016-10-13 15:57:50

lxchen2001 发表于 2016-10-13 14:32
我自己没去抓取cuyoo的
1. 你可以用find('table', class_='vwtb')试试看这样抓取的应该就只是table里 ...

不知道为什么抓出来的是英文在一起,中文在一起的
import requests
from bs4 import BeautifulSoup
r=requests.get('http://www.cuyoo.com/article-30928-1.html')
soup=BeautifulSoup(r.text,'lxml')
tables=soup.find_all('td')
for table in tables:
        print(table.get_text())

lxchen2001 发表于 2016-10-13 17:44:20

本帖最后由 lxchen2001 于 2016-10-13 18:15 编辑

goldmonkey 发表于 2016-10-13 15:57
不知道为什么抓出来的是英文在一起,中文在一起的

我明白你的问题了。你想把文章一句句拆开。

网页HTML上文字是放在一起的,经过处理后才成为两个栏位的。所以光用bs是不够的。

goldmonkey 发表于 2016-10-13 18:42:44

lxchen2001 发表于 2016-10-13 17:44
我明白你的问题了。你想把文章一句句拆开。

网页HTML上文字是放在一起的,经过处理后才成为两个栏位 ...

这样应该可以了
import requests
from bs4 import BeautifulSoup
r=requests.get('http://www.cuyoo.com/article-30928-1.html')
soup=BeautifulSoup(r.text,'lxml')
en=soup.find(id='en')
enstring=en.strings
cn=soup.find(id='cn')
cnstring=cn.strings
file=open('/30928.txt','w',encoding='utf-8')
while True:
    try:
      ensentence=next(enstring)
      #print(ensentence)
      file.write(ensentence)
      file.write('\n')
      cnsentence=next(cnstring)
      #print(cnsentence)
      file.write(cnsentence)
      file.write('\n')
    except StopIteration as e:
      print('Finished')
      break
file.close()

lxchen2001 发表于 2016-10-13 18:59:12

goldmonkey 发表于 2016-10-13 18:42
这样应该可以了

{:4_104:}   很好用多交流

goldmonkey 发表于 2016-10-13 19:13:37

lxchen2001 发表于 2016-10-13 18:59
很好用多交流

感觉写得太粗暴了。。。

看到您说的我才意识到requests得到的和浏览器载入的源代码是不一样的

lxchen2001 发表于 2016-10-13 19:23:34

goldmonkey 发表于 2016-10-13 19:13
感觉写得太粗暴了。。。

看到您说的我才意识到requests得到的和浏览器载入的源代码是不一样的

现在越来越多的网站会用一些技术来防爬虫

hao371269498 发表于 2016-10-14 19:05:04

http://novel.tingroom.com/shuangyu/这里有双语小说, 不知道有用不,另外问一下各路大神,还有没比较好的双语小说网站?以及有没有什么好的英语有声书网站

lxchen2001 发表于 2016-10-15 01:01:11

本帖最后由 lxchen2001 于 2016-10-15 02:02 编辑

hao371269498 发表于 2016-10-14 19:05
http://novel.tingroom.com/shuangyu/这里有双语小说, 不知道有用不,另外问一下各路大神,还有没比较 ...

谢谢。这个网站的小说双语是按照章节来分的,不太好处理。最好一句或者一小段平行,就像cuyoo上面的文章那样的。

cuyoo上也有双语小说, 排版方式和tingroom差不多
24en.com的排版是可以2栏,但不平行
tingvoa有些小说是分小段平行

沪江 keke的格式相对比较喜欢,但是分成太多网页,也不是太方便

英语有声书:
免费的:
https://librivox.org/
http://www.openculture.com/freeaudiobooks

亚马逊收费的
audible.com不少有名人配音
页: [1]
查看完整版本: 【求分享】英汉汉英双语平行资源