掌上百科 - PDAWIKI

用户名  找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 1486|回复: 15

[词典求助] 【求分享】英汉汉英双语平行资源

[复制链接]

该用户从未签到

发表于 2016-10-12 02:02:52 | 显示全部楼层 |阅读模式
本帖最后由 lxchen2001 于 2016-10-12 02:31 编辑
  w. P! M# O4 z+ [- a
6 ?" c& ]- ]  R; o, C4 E' q虽然有一些资源,但想能收集更多一些:
4 C8 h3 X2 I( S9 u' {6 _4 @+ P+ v! ?6 K* _- v
网站信息即可
- u6 `+ `( F1 q9 [% F5 T+ o  s1 K* ?' y  w: [# U: y! X
要求:
7 ?- S: s+ b2 G7 k) O' m. x- 翻译质量高 (类似经济学人或FT)
  a2 q  P6 e; d3 a" l- 素材质量高 (文字档,排版不乱, 如ft, 听 voa, 爱sien)+ s% d  m) L9 x$ E
5 h& U9 q0 Z5 l+ W
0 }4 f) }* R  y- s6 g
(已有:部分经济学人素材、联合国双语素材、FT素材等)
  • TA的每日心情

    2021-3-6 14:47
  • 签到天数: 107 天

    [LV.6]常住居民II

    发表于 2016-10-12 09:26:38 | 显示全部楼层
    论腾网有相当多翻译后的国外双语新闻,评论什么的. http://www.ltaaa.com/translation.html

    该用户从未签到

     楼主| 发表于 2016-10-12 17:55:22 | 显示全部楼层
    本帖最后由 lxchen2001 于 2016-10-12 18:01 编辑 2 e% ?/ k) G) ?* k3 Y
    怪物猎人哥 发表于 2016-10-12 09:26" p! u# j5 J; j: Q% E  ~, F" V' E
    论腾网有相当多翻译后的国外双语新闻,评论什么的. http://www.ltaaa.com/translation.html
    + K4 r$ X, Y' U& u& d- r

    ) v3 l, Y$ A. _谢谢 很有特色的网站。
    & |7 \3 A1 L0 l8 ]! `4 I+ ^
    5 ?) A7 c' j- A6 @运营模式很特别

    该用户从未签到

    发表于 2016-10-12 21:05:57 | 显示全部楼层
    本帖最后由 goldmonkey 于 2016-10-12 22:05 编辑
    1 S$ G0 x5 A6 o: c5 J: b* I+ C7 [+ j- {. x* z! C
    我除了那几本英汉词典外就只有这篇帖子里提供的双语资料
      w# L* `- c; r) E/ i, x2 A8 g- I) J- h5 u# m* v
    https://www.pdawiki.com/forum/fo ... hread&tid=11405
    - ?. J: G1 n6 `9 N' M
    4 k  C2 {* [% X' R1 b+ l帖子里大概有4993份文本(采用段落对齐,但有部分对齐好像有误),我在用FileLocator的时候经常能在里面找到想要的用法
    3 h5 P9 M' W+ z2 P& V6 `+ l$ F; h6 {+ e3 k0 p/ w1 B
    我感觉cuyoo网的结构确实如同帖子里说的一样非常清晰" b. O! D- M( a7 U) f
    6 @3 J+ o8 B& a& m3 [
    但是我的python编程能力不够& a% |" t* Q& B/ x: R
    5 q1 o0 ?! F! K0 R8 K/ G
    整个网站大概有3万份文本,如果全部都能处理成段落对齐的txt形式,估计会非常有用
    - ]1 `- R3 Q7 `% N6 }# A1 {" `6 R9 I* C( v( |& U: q
    btw,能不能问下楼主的素材哪里找的?

    该用户从未签到

     楼主| 发表于 2016-10-12 22:32:49 | 显示全部楼层
    本帖最后由 lxchen2001 于 2016-10-12 22:42 编辑 . ~% @9 L4 F6 z% x
    goldmonkey 发表于 2016-10-12 21:05: N% y4 r: H( ]+ m7 m" T
    我除了那几本英汉词典外就只有这篇帖子里提供的双语资料
    , C+ J4 ]' \5 m' Q! B8 P, }
    - b& M: C$ R: @! B2 Zhttps://www.pdawiki.com/forum/forum.php?mod=v ...

    ) _2 G) {. h7 Y/ x
    " O! C4 a, \( m$ v1 Z+ u听VOA上面有2300多篇经济学人的,从2013开始
    9 H4 g+ U/ B1 p( n# R3 J1 F: O0 @$ K; w
    FT上面有很多双语文章。- I/ T4 v' M  D# I: p5 k
    & D: s4 \/ g2 z9 F% r6 b- D& J4 O
    抓取,处理成文本应该不成问题,只要网站比较有规律。
    ( }6 V3 a1 s( o& J
    9 B# q  {! ^3 D% L# g" m看了一下cuyoo, 很多双语的是来自于FT。

    该用户从未签到

     楼主| 发表于 2016-10-13 03:11:08 | 显示全部楼层
    goldmonkey 发表于 2016-10-12 21:05
    ) ^' p8 H" L) }; j6 @我除了那几本英汉词典外就只有这篇帖子里提供的双语资料, N8 B( h: M& v. T) V$ I9 E+ O
    9 L4 y1 E9 F. f6 Z8 D! q: t
    https://www.pdawiki.com/forum/forum.php?mod=v ...

    5 ~1 _6 o. G1 _8 D这个帖子里面的内容也还不错
    # {& Y, G! o# Y' B  L; {* @7 H" }! J% {4 s
    https://www.pdawiki.com/forum/fo ... hlight=%D3%EF%C1%CF
    ) j- w; S. N; p5 R- J% H4 _- c* d$ G! K! b" r- D! x
    linguee 查询可以加入到GD

    该用户从未签到

    发表于 2016-10-13 10:11:29 | 显示全部楼层
    lxchen2001 发表于 2016-10-12 22:32
    % Q8 @% U" _: X1 P2 ]% o( n* ~听VOA上面有2300多篇经济学人的,从2013开始( Y/ z' |* w, j  r- |

    - ?6 l  s# j' }( `6 CFT上面有很多双语文章。
    : M  T1 w$ ~9 _  t1 @! p. c
    cuyoo的网址非常有规律
    " |# I0 f* U; ^% S% h" }; Phttp://www.cuyoo.com/article-*-1.html4 H# B: T: y  [4 H$ J
    就是这么简单。。。0 _; E0 i8 L2 B; P- ^& h; `7 S

    2 H1 e2 z( h) Y我自己昨晚用beautifulsoup试了试$ ~" ~/ `! y% R. k, l" R4 x
    大概就是用soup.find_all(class_="vw visits")
    % o1 s2 j2 y( o% r1 y/ g, {就是会有些无用的信息(“路过雷人鲜花鸡蛋”这种),不过影响不大* m0 O/ M/ w. C+ C0 S
    但主要的问题这样提取出的文本全部都在一个段落里
    $ B1 i$ D4 z. e* R. Y8 H/ i1 l那个帖子里的楼主也提到这个问题7 e- ~+ {! K; W8 ?4 w6 z
    他是这么说的:“试过用采集工具(spider/crawler 之类的工具)下载,下载后的文件无法实现段落对齐(就是一段英语,一段中文),最后改用监视剪贴板的树状笔记软件(keynote nf)手工复制收集而得”5 F( S' H/ H' i; ?8 {& c2 n7 T4 ]: C
    手工显然太累了。。。4 L5 A& y3 p1 n$ M' m
    我不知道怎么处理才好

    该用户从未签到

     楼主| 发表于 2016-10-13 14:32:30 | 显示全部楼层
    goldmonkey 发表于 2016-10-13 10:114 s  q* [8 r) m) }3 v( ]* ~
    cuyoo的网址非常有规律
    ; W7 |' _* }1 m  Hhttp://www.cuyoo.com/article-*-1.html$ a: O: ?: q5 G5 k+ A6 G* N" w
    就是这么简单。。。
    3 x/ ]; o1 U4 r6 @
    我自己没去抓取cuyoo的& f* C6 q( N) n7 @; Z8 U; p
    1. 你可以用find('table', class_='vwtb')试试看  这样抓取的应该就只是table里面的内容; Z4 y8 W1 r/ ~4 F+ x
    2. 英文有etext* 中文有ctext* id 应该不需要手动调整 直接可以分行

    该用户从未签到

    发表于 2016-10-13 15:57:50 | 显示全部楼层
    lxchen2001 发表于 2016-10-13 14:32
    0 w* \8 r6 k9 I' H& X- }我自己没去抓取cuyoo的
    & E! ?, A  x8 t$ Q7 G1. 你可以用find('table', class_='vwtb')试试看  这样抓取的应该就只是table里 ...

      l* Q. N* h: Z8 ^! ^7 v- K不知道为什么抓出来的是英文在一起,中文在一起的
    " l7 D$ V* k9 B# B3 _
    1. import requests
        j1 S- G. I, L7 r( m
    2. from bs4 import BeautifulSoup
      5 m; [5 k0 G" k: Z2 q( ]
    3. r=requests.get('http://www.cuyoo.com/article-30928-1.html')
      : i0 Y) t- {1 |4 Q% n( d
    4. soup=BeautifulSoup(r.text,'lxml')0 Z5 X: Z+ A: u0 z6 Z
    5. tables=soup.find_all('td')
      $ h3 Y2 h8 C3 T. Z
    6. for table in tables:+ b. D7 k; t) P
    7.         print(table.get_text())
    复制代码

    该用户从未签到

     楼主| 发表于 2016-10-13 17:44:20 | 显示全部楼层
    本帖最后由 lxchen2001 于 2016-10-13 18:15 编辑 : w6 A; b1 q. p1 U- }" r. R7 t
    goldmonkey 发表于 2016-10-13 15:57* o  L& T+ X) y4 s# B" D
    不知道为什么抓出来的是英文在一起,中文在一起的
    8 `6 v# {" h  H0 N! ?
    3 N& p9 X3 n6 Q3 R  l
    我明白你的问题了。你想把文章一句句拆开。6 H# k  J% U; v/ T2 w1 s5 f
    $ i: w# w5 [. o: Z5 k$ C
    网页HTML上文字是放在一起的,经过处理后才成为两个栏位的。所以光用bs是不够的。
    , k) j% P0 d3 v) y+ k

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

    发表于 2016-10-13 18:42:44 | 显示全部楼层
    lxchen2001 发表于 2016-10-13 17:44, q7 }  Z% L) m2 g
    我明白你的问题了。你想把文章一句句拆开。
    2 q0 H7 f5 |7 g: M$ h+ d; A
    % V0 g- I& L5 l/ A4 W8 f1 _网页HTML上文字是放在一起的,经过处理后才成为两个栏位 ...

    . W5 w$ M- w) q' M( _& _, \  Q这样应该可以了( ?! r1 R5 l* |, J. X+ V! P( c' M
    1. import requests
      9 j% M9 R' i1 P& Z9 A% ^7 Y% ~4 j  Y
    2. from bs4 import BeautifulSoup; o$ U3 F* I5 v* g) n
    3. r=requests.get('http://www.cuyoo.com/article-30928-1.html')
      ( R- N3 E) n& E' J
    4. soup=BeautifulSoup(r.text,'lxml')
      & F, n* a1 K7 V7 p% p& [6 X3 s
    5. en=soup.find(id='en'): X( W9 l4 Y; h' e8 U0 Y
    6. enstring=en.strings% w! E* E& l2 F3 ?; J) i# A. x# E
    7. cn=soup.find(id='cn'): i6 P& D: B, ]5 c
    8. cnstring=cn.strings% {5 G: i- k$ B7 [, h8 e% e
    9. file=open('/30928.txt','w',encoding='utf-8'), Q9 J3 F( {, \2 x
    10. while True:
      2 K  A$ i! V! i( `$ e1 K0 s
    11.     try:
      2 c6 Z. Q9 [3 c+ r
    12.         ensentence=next(enstring)) U  L2 m; v" y" `' f7 y2 W
    13.         #print(ensentence)+ p& N, ^& b& u
    14.         file.write(ensentence)
      . N6 l' ]5 w4 m7 H& z
    15.         file.write('\n')
      / h8 x% E) Y* ~4 D
    16.         cnsentence=next(cnstring)/ o6 u; P/ L- p1 B
    17.         #print(cnsentence)
      3 |; _% T% s+ R
    18.         file.write(cnsentence)
      ) d$ z; o! v5 J9 K" l& C  j
    19.         file.write('\n')8 j9 T4 U+ U" [
    20.     except StopIteration as e:" m8 s. N9 M& o
    21.         print('Finished')
      $ w& u% J, |: J4 G1 E
    22.         break6 o: b: D& `# z& ?8 n/ Y4 [
    23. file.close()
    复制代码

    该用户从未签到

     楼主| 发表于 2016-10-13 18:59:12 | 显示全部楼层
    goldmonkey 发表于 2016-10-13 18:421 T+ t# E7 c! R6 h2 Y4 L+ i
    这样应该可以了

    & Q) u/ o3 W" ]   很好用  多交流

    该用户从未签到

    发表于 2016-10-13 19:13:37 | 显示全部楼层
    lxchen2001 发表于 2016-10-13 18:592 k3 E: I" r- y8 V5 L
    很好用  多交流

    + z0 ^  ^) X  T8 k6 T
    " \; w" q) n- K6 T. ?7 g7 T8 [感觉写得太粗暴了。。。
    4 {- @  F8 Q. Q
    9 K4 }9 ^/ i" n6 E看到您说的我才意识到requests得到的和浏览器载入的源代码是不一样的

    该用户从未签到

     楼主| 发表于 2016-10-13 19:23:34 | 显示全部楼层
    goldmonkey 发表于 2016-10-13 19:13
    6 L: J2 {" m# u, X; ?, \感觉写得太粗暴了。。。
    5 f0 A6 Q: E2 N2 j% ]9 Z6 Y9 w: _8 h) l* l
    看到您说的我才意识到requests得到的和浏览器载入的源代码是不一样的

    # h, ?5 P8 w- E现在越来越多的网站会用一些技术来防爬虫
      v8 J- E- W, D% {: }6 \
  • TA的每日心情

    2021-11-16 21:00
  • 签到天数: 119 天

    [LV.6]常住居民II

    发表于 2016-10-14 19:05:04 | 显示全部楼层
    http://novel.tingroom.com/shuangyu/  这里有双语小说, 不知道有用不,  另外问一下各路大神,  还有没比较好的双语小说网站?  以及有没有什么好的英语有声书网站

    该用户从未签到

     楼主| 发表于 2016-10-15 01:01:11 | 显示全部楼层
    本帖最后由 lxchen2001 于 2016-10-15 02:02 编辑 & P! n! S' \+ }! |
    hao371269498 发表于 2016-10-14 19:05, N; U) P+ u2 s; C: G1 X* |  }' U
    http://novel.tingroom.com/shuangyu/  这里有双语小说, 不知道有用不,  另外问一下各路大神,  还有没比较 ...

    * W6 c- V8 @" Q- A4 L
    , l  [3 S7 L' s1 @谢谢。这个网站的小说双语是按照章节来分的,不太好处理。最好一句或者一小段平行,就像cuyoo上面的文章那样的。$ |. Z6 I( w6 H& [; Y! m  J" c3 b
    5 C0 J( q  I/ c1 E2 |
    cuyoo上也有双语小说, 排版方式和tingroom差不多
    / M3 f9 q% \" a, O; z! w! O6 q. [24en.com的排版是可以2栏,但不平行
    ) l9 W3 E5 ~) f4 W1 ]& Jtingvoa有些小说是分小段平行" S  z+ y* {& C! G" k) z1 ?
    ) v3 \9 r5 q/ j" V: p
    沪江 keke的格式相对比较喜欢,但是分成太多网页,也不是太方便( L. ]9 ^" l5 b# K0 {3 G7 h

    5 F8 E% g$ N& G8 _5 k' e英语有声书:
    5 m: v- h% _( k. n% }免费的:. T, V$ B! v9 ?: B
    https://librivox.org/  p% ]5 V: v' g' O# M+ b
    http://www.openculture.com/freeaudiobooks9 I4 N( n& ~$ M6 v+ Q$ W! x0 M

    , `1 _" G/ L# H* N7 k* G亚马逊收费的& d) S% E5 t* w, l7 E( V3 s
    audible.com  不少有名人配音
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2025-5-23 16:51 , Processed in 0.023205 second(s), 22 queries .

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表