掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 832|回复: 19

[讨论] 最近学习制作图片词典,想制作张柏然版新牛津全索引词典

[复制链接]
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

    发表于 2023-10-10 12:07:21 | 显示全部楼层 |阅读模式
    本帖最后由 jonah_w 于 2023-10-10 12:12 编辑 7 d# H  u9 b3 A
    # G, Z5 ]1 Z7 ~- l) _7 |3 F
    学习的VimVim的图片制作工具,强烈推荐. H) B: S! F$ u- X
    ( _* C2 j( g. x$ [* m% J! ^0 i
    需要用到百度的云OCR服务。因为接近3000张图片,每月500张图片的免费额度不够用…
    + k7 a" b, t# ~$ v% E
    7 I, T( z7 {( o' J8 L1 [就想着在论坛问问,是否有对这部词典感兴趣的,众筹足够的OCR额度,对这部词典进行全文OCR,并制作为全索引图片词典MDX,方便对词典的例句进行全文检索。( D/ K# F# D: g& \, h

    " H- L7 A4 \4 a" ?8 [感兴趣的可以留言或者私信我哈。 6个人参与即可。; i( D4 _4 W, Z, A. c- v, c2 L

      i: f) Z% N- ep.s. 不知道类似帖子是否违规,如果违规,可以提醒我哈。
    ; g) n3 r+ F2 y& l2 ^$ i2 B' a
    OCR了一页看看效果,感觉还不错:
    ) N* j2 Q  d' g% E( G  N0 ^4 @% n& h$ o

    : o" [3 }9 ]- `, S+ |5 I
    6 [7 x' _$ w& d3 }% \
    1 S- u  ^  p9 G& H2 ^

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

    发表于 2023-10-12 18:11:02 | 显示全部楼层
    没太懂你,按说张柏然版的是大学版,例句比新牛津少。" p+ `  ^5 h8 ^+ R0 ]% @  |
    8 j9 U- T% g5 e( {8 l
    我用的某个调用API的OCR工具,是混合调用的,一天500条,你盯着一家撸,肯定不行
    5 Z9 Z8 s1 b& J0 Y4 f! V# _: V, ^+ B7 G8 Y3 @
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-15 09:35:44 | 显示全部楼层
    klwo2 发表于 2023-10-12 18:11: S9 C2 e0 T$ {
    没太懂你,按说张柏然版的是大学版,例句比新牛津少。
    % h# `% n& g/ ~" r/ t, y; ~
    0 _( C4 a7 p4 F+ l& B( M我用的某个调用API的OCR工具,是混合调用的,一天50 ...
    & z* \4 g) W) E* _- v3 j
    考虑到这本的翻译质量好。K大也可以推荐一些其他的高质量词典
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-15 09:37:05 | 显示全部楼层
    klwo2 发表于 2023-10-12 18:11
    / T0 K: T1 t# `没太懂你,按说张柏然版的是大学版,例句比新牛津少。( a; W% l* E' C4 ^& k/ X0 }
    * F9 ]0 q. J. U: W# E3 i
    我用的某个调用API的OCR工具,是混合调用的,一天50 ...
    某个调用API的OCR工具,是混合调用的,一天500条

    9 v# t+ I% t" `, Q. Y: a7 V, y+ a% \8 w/ q
    不知道是哪个工具?
  • TA的每日心情
    开心
    2024-4-18 00:54
  • 签到天数: 1014 天

    [LV.10]以坛为家III

    发表于 2023-10-16 00:46:36 | 显示全部楼层
    jonah_w 发表于 2023-10-15 09:35
    + h/ g" b0 ^5 p" i1 C考虑到这本的翻译质量好。K大也可以推荐一些其他的高质量词典
    * y! X$ f& t# i, b4 a6 b
    柏然版是李华驹翻译的。当然,李华驹翻译得也确实不错。

    该用户从未签到

    发表于 2023-10-19 14:29:47 | 显示全部楼层
    jonah_w 发表于 2023-10-15 09:35
    8 B$ b* }$ y5 K3 Z; S考虑到这本的翻译质量好。K大也可以推荐一些其他的高质量词典
    ' r! B7 l- P- J
    例句少,质量好也没辙呀,比如你这张图里,只有yammer有例句
    ! q. ~0 p, V- q( B- j3 I* x% _; ]8 m4 E8 H% ]3 w
    我用的https://ocr.oldfish.cn/
    $ ~& g; a! K6 P! S' T' n9 i; H8 |' i$ F; Z
    不过这是我随便选的) `# _# n$ g1 v- A3 t
    + ]+ o) E: S# ~! i
    其实我用过好些个反查,准确率就那样,质量较差,一般跳过不看的是……《文馨当代英汉词典》
    : S: q; W9 \  v& b1 t7 L

    该用户从未签到

    发表于 2023-10-19 15:00:54 | 显示全部楼层
    jonah_w 发表于 2023-10-15 09:35
    ; e4 z5 Q& B6 u8 m: l考虑到这本的翻译质量好。K大也可以推荐一些其他的高质量词典
    ( y) k8 |" ~8 a; U' p% z2 Y- h  n
    再来补充几句吧。我最近用例句反查用得比较多。纯粹从准确性(给出的词语、译文是否准确)、多样性(给出的词语、译文是否丰富)的角度看——
    8 P6 L( H' E8 X  \9 M9 V5 z" D2 h  n2 [  l. e  g7 i: t
    (1)汉英词典基本上没什么特别的用处,也不用做反查。有些专书,如《汉英词通》,我做了图片版,有些后悔;
    4 p8 {! c5 E6 I(2)一般的ESL词典都可以做,差别不大。都会有错误,不过谁也没比谁差到哪里去;
    $ C. }3 Y5 G% G( `8 x! y$ Y(3)林语堂先生的英语是很好的,对汉语的理解又准,有好些东西别的汉英词典没有。不过他的汉英词典自带反查,所以我觉得可以挖一挖他的双语著作做做例句反查' U; X7 T7 ~3 t% ?3 X$ X  P
    (4)霍克思(David Hawkes)翻译的红楼梦,其实很适合做反查:https://culture.gmw.cn/2020-03/29/content_33695610.htm
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-19 15:08:54 | 显示全部楼层
    klwo2 发表于 2023-10-19 14:29# Q: v. C2 h& J0 n+ d
    例句少,质量好也没辙呀,比如你这张图里,只有yammer有例句' n/ ?! i( B! ?5 k
      L. i9 J0 a' N2 q! x9 v; Q
    我用的https://ocr.oldfish.cn/
    3 s2 j0 R$ m4 J* u7 |
    https://ocr.oldfish.cn/ 这个是不是只能下载他们的Windows软件使用?没有找到调用API的接口文档之类的。  L4 s8 H) o, k$ {9 H

      U* h8 _( s5 I' c2 E& L反查我主要用来查英文例句和英文释义的句子了,汉语反查用的不是很多,不知道其他人
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-19 15:11:39 | 显示全部楼层
    klwo2 发表于 2023-10-19 14:29# h6 p3 y" Y, c9 M/ V& |7 y; A
    例句少,质量好也没辙呀,比如你这张图里,只有yammer有例句+ M7 F' y' O+ t9 A, g# {0 u

    , c+ a: E0 B: s; ~7 K( F0 \我用的https://ocr.oldfish.cn/
    3 N2 \* M% h2 ^% I8 M+ ~  d- E
    确实例句少。不过英文释义,有时候也有点用。虽然不如例句有用

    该用户从未签到

    发表于 2023-10-19 15:26:03 | 显示全部楼层
    jonah_w 发表于 2023-10-19 15:08
    8 Z) l$ P9 I; P( Vhttps://ocr.oldfish.cn/ 这个是不是只能下载他们的Windows软件使用?没有找到调用API的接口文档之类的。 ...

    8 h, p7 `& h$ y$ z5 T1 Y【反查我主要用来查英文例句和英文释义的句子了,汉语反查用的不是很多,不知道其他人】这句我没太懂,你主要是怎么用?
    ; t/ D( w2 G4 J# Q" o6 J0 T+ \# H: t" a- t& d6 D/ z
    张柏然版新牛津,跟新牛津的释义绝大部分相同啊
    ; H# W2 G% @- K$ Q" l: {1 _* w/ E
    9 B6 X+ o. [/ G% X' q4 n% n至于工具,本来就是我随意找的,你可以多看看,按理说,它是调用多个api,会比单个api稳定一点
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-19 15:58:19 | 显示全部楼层
    本帖最后由 jonah_w 于 2023-10-19 16:00 编辑
    # V. W, V' c6 r( ?- I
    klwo2 发表于 2023-10-19 15:268 I8 j: \/ y' E
    【反查我主要用来查英文例句和英文释义的句子了,汉语反查用的不是很多,不知道其他人】这句我没太懂,你 ...

    - c" G" f% D9 c  w# j
    + |+ I3 R/ }2 w$ ]比如某个英文表达或者罕见的短语,我不确定是不是地道,就在goldendict搜下例句反查,看看有多少例句包含了这个表达,用的语境是什么。这样经常可以深刻理解一个英文表达或短语。
    * m( {$ w5 z& k9 b) C/ N. t
    8 @" L8 M, \. `7 E6 I4 S或者某个常用表达,我想知道在语法里这种表达叫什么,语法上有什么具体说法、解释之类的,就可以反查语法类的词典7 ~) h4 L' q, ?7 _; W$ G, F( f* L

    ) |8 d$ v7 p" A% U5 n+ r或者想知道形容一个人极度高兴的单词或者短语是哪个?查 extremely happy,这种一般在英文释义的反查里可以查到(反查英文释义找词头)
    5 i8 Z/ h% N6 Q9 T. B& A8 q8 `
    ) F+ j1 P: R3 I# n- T, q( T: `不过,最后这种场景也非常适合用chatgpt
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-19 16:01:40 | 显示全部楼层
    klwo2 发表于 2023-10-19 15:26  m: z* [' K/ U% z
    【反查我主要用来查英文例句和英文释义的句子了,汉语反查用的不是很多,不知道其他人】这句我没太懂,你 ...
    张柏然版新牛津,跟新牛津的释义绝大部分相同啊
    ' j/ ^- H, Q  P; Y
    , @* p4 g2 [' v) ~
    那可能确实没必要了… 后面看看吧
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-19 16:06:12 | 显示全部楼层
    klwo2 发表于 2023-10-19 15:26
    9 F8 D2 k( Q. [' I; F1 H1 [【反查我主要用来查英文例句和英文释义的句子了,汉语反查用的不是很多,不知道其他人】这句我没太懂,你 ...
    按理说,它是调用多个api,会比单个api稳定一点

    " K: L6 u( l9 H
    ) @& L6 r3 U0 A0 p3 z7 j他内部可能是调用了多个api,但如果不暴露给用户的,就很像黑箱操作,缺了灵活性。
    9 Y* Z9 `. y) N百度,腾讯,谷歌提供的OCR接口,很多也需要很多修改,才能适应图片的多样性,比如很多词典是双栏,甚至三栏的,直接用官方接口,会有很多问题。
    - `9 @+ _; Y% H) t$ E) w  R' c  W7 }6 z4 Q: n: j$ E" ~
    偶尔用用,这个软件应该问题不大。(不过这个软件在我这个Windows虚拟机里运行不了,所以我也没法测试了…)

    该用户从未签到

    发表于 2023-10-19 16:36:50 | 显示全部楼层
    jonah_w 发表于 2023-10-19 15:58. h8 y# @4 x3 @6 }3 y9 v
    比如某个英文表达或者罕见的短语,我不确定是不是地道,就在goldendict搜下例句反查,看看有多少例句包含 ...
    7 E+ z8 r* Q, r( v& C
    (1)其实想要确定某个表达是否地道,靠词典里的例句是不够的,因为这些词典囿于纸书的限制,不可能无限收录句子,最好的办法还是Google。
    . K( V! D5 I, S. X% r- e
    ( ^9 e; i8 P  wGoogle也有局限性,比如你刚说的【不确定是不是地道】,google搜索结果为3个。假如你没有汉语语感,还是确定不了的。但是至少比词典的例句多。3 f) a5 q$ ?4 h' s

    # b# l. s1 _; d0 a- b有些工具、语料库资源可以帮你,比如linggle、ludwig.guru,它们的好处是语料比较纯净,不会把中国媒体、印度媒体、菲律宾媒体的不地道说法囊括进来,但是规模就小很多了。/ d" h5 m! {2 g# E' s5 B3 s

    4 s% g. ~4 N$ B3 W7 x/ U3 S5 K(2)语法问题不宜零敲碎打解决。( r, j1 j* C$ ^2 w  b: ~
    (3)这种用thesaurus就可以解决的
    : z7 _3 K: U4 Q  L4 Y% K
    0 C9 U8 z' j# E用chatgpt当然可以,不过准确性就需要验证了
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-19 17:52:51 | 显示全部楼层
    klwo2 发表于 2023-10-19 16:36
    . ]1 u6 L# U5 @8 O0 f: G' ~3 v(1)其实想要确定某个表达是否地道,靠词典里的例句是不够的,因为这些词典囿于纸书的限制,不可能无限 ...
    + k' `: A- h2 n
    因为输入任何单词组合,Google好像都有结果… 有时候可能不好判断,地道与否。对词典语料来说,小范围内可控
    1 |2 }' y3 D! V3 D! J8 c
    ! h/ C- D" q- `$ ?- `& I6 m1 k5 k% E当然Google肯定可以当那个last resort
    ) P  q7 S7 F  l5 w  y0 t) v2 h) B% W; J
    嗯,语法最好可以系统学习一遍。我现在的做法是假装已经系统学过了,然后把语法书当成词典语料去使用,有时候会有小惊喜。2 J8 [% B( a+ V' g( g
    + v0 p8 {& J% H6 h# ^' I
    是的,thesaurus 类词典也在用,释义反查 contribute to it as well. so it's nice to have it.

    该用户从未签到

    发表于 2023-10-19 20:44:33 | 显示全部楼层
    jonah_w 发表于 2023-10-19 17:52- r: I/ ^9 Q2 L' `2 z& v, I# @
    因为输入任何单词组合,Google好像都有结果…  有时候可能不好判断,地道与否。对词典语料来说, ...

    / z( Z& u' c) y5 a# X/ R当然不是输入任何单词组合,Google都有结果
    , C6 b% u0 I0 Y: B9 I, j  F
    7 Z5 l9 s% Q9 L" \4 F+ P$ _想要判断一句话是否地道,我认为最快的办法是:请ChatGPT写出你想要判断的句子的更地道的、同义表达,然后一个个去google搜索看结果。不要轻信ChatGPT的结论,只利用它给的句子。
    ! Z  F) ]1 r2 z6 [1 G# P" p/ z8 S2 J+ m% T! N- E* Y( a1 U
    最快的办法不是最优的办法。最优的办法当然是提高自身语感了,只不过这就难了。! t( l( H3 W- U7 A

    6 o0 L6 e0 x8 U# G) }此外,例句反查不需要用goldendict嘛,直接用archivarius 3000这类软件或者搞一个语料库软件(论坛置顶就有)
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-19 23:17:59 | 显示全部楼层
    klwo2 发表于 2023-10-19 20:44+ l9 h6 h4 R; w, K9 R: a9 A
    当然不是输入任何单词组合,Google都有结果# C( b7 n9 _9 |( m4 R2 x
    6 W0 h4 X4 @, K3 ?
    想要判断一句话是否地道,我认为最快的办法是:请ChatGPT写 ...
    例句反查不需要用goldendict嘛,直接用archivarius 3000这类软件或者搞一个语料库软件
    - u8 [' D2 v/ v1 S. O8 c% ]1 H+ L
    " T8 j! g- [9 q, ?& E) T6 M
    有语料库软件。我是直接用命令行搜索语料txt文件。这种方式当然是可以的,但相比goldendict少了排版。感觉平时还是更习惯于用goldendict查询。另外,专门优化的MDX可以做到尽可能的把一个句子的各种context集中到一起,放的互相更近一点,方便一眼就看到各种上下文信息。语料库这方面也稍微差一些
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-19 23:21:14 | 显示全部楼层
    klwo2 发表于 2023-10-19 20:44
    + u& ^6 W- Y! w0 S当然不是输入任何单词组合,Google都有结果
    - J, E6 d1 ?9 z& m4 j5 ]4 N
    ( }/ H+ K$ Q7 w1 V/ Z( Z+ ]想要判断一句话是否地道,我认为最快的办法是:请ChatGPT写 ...

    6 a: [. B% p- C5 ^是的,chatgpt用好了,对学习英语有大用。可惜国内多数人用不上

    该用户从未签到

    发表于 2023-10-20 01:03:49 | 显示全部楼层
    jonah_w 发表于 2023-10-19 23:21
    ( r7 q( n$ K& m- S是的,chatgpt用好了,对学习英语有大用。可惜国内多数人用不上
    2 t4 V8 {' H' K+ J$ z
    google也是“国内多数人用不上”啊. I1 I- k. q. _& v' t8 o/ g' i
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-20 09:26:10 | 显示全部楼层
    klwo2 发表于 2023-10-20 01:03
    / e7 ^# a% s( }# ~+ t& sgoogle也是“国内多数人用不上”啊

    0 w7 f9 ]( ?, k. L哈哈哈… 确实
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-5-13 01:42 , Processed in 0.057182 second(s), 9 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表