掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 860|回复: 19

[讨论] 最近学习制作图片词典,想制作张柏然版新牛津全索引词典

[复制链接]
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

    发表于 2023-10-10 12:07:21 | 显示全部楼层 |阅读模式
    本帖最后由 jonah_w 于 2023-10-10 12:12 编辑 " `2 i) f4 K* D( K# l- P9 o! \8 }

    % y7 E6 K3 X8 }1 X& ?1 J  q学习的VimVim的图片制作工具,强烈推荐
    3 |) u3 n; j3 v. p, l
    - q, Q6 v+ a/ v7 A7 \% ~( v9 X需要用到百度的云OCR服务。因为接近3000张图片,每月500张图片的免费额度不够用…
    8 f/ q$ ^$ d/ y9 U: \7 t3 j
    . |' H$ N/ D; f3 ^/ Y1 i+ q就想着在论坛问问,是否有对这部词典感兴趣的,众筹足够的OCR额度,对这部词典进行全文OCR,并制作为全索引图片词典MDX,方便对词典的例句进行全文检索。
    ( L' I' h% P% U
    ; L+ ?0 N" R1 c* `, p/ w感兴趣的可以留言或者私信我哈。 6个人参与即可。' X8 E, ^8 r2 S* C7 ]1 O/ [6 `$ e# u5 M

    2 o! g" R( I4 s! N0 Op.s. 不知道类似帖子是否违规,如果违规,可以提醒我哈。, S1 }) B% A) q9 w8 }: l: @# @) q
    ; O! v& L( E  M6 p& }
    OCR了一页看看效果,感觉还不错:) l* i: b) l# @' v% Z1 y

    ( }* m' g: C  i) w. m& V+ H
    / R' n0 ^" l/ h
    5 L& ?* i/ G& j' B1 p, }1 g/ z+ M  V! n6 S; {% H7 }

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

    发表于 2023-10-12 18:11:02 | 显示全部楼层
    没太懂你,按说张柏然版的是大学版,例句比新牛津少。
    7 X% T4 \- g3 f7 v5 Q0 X, T: J5 N
    我用的某个调用API的OCR工具,是混合调用的,一天500条,你盯着一家撸,肯定不行0 {, H( K& N. T, w' i' V5 N

    8 ^  M+ x4 y! k6 k9 A7 W
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-15 09:35:44 | 显示全部楼层
    klwo2 发表于 2023-10-12 18:11* v) ~& d* c6 _% q
    没太懂你,按说张柏然版的是大学版,例句比新牛津少。$ l0 |: m) i1 m2 E
    ! Z# S5 [7 c% z- l
    我用的某个调用API的OCR工具,是混合调用的,一天50 ...
    " a3 S8 F, f/ p. @
    考虑到这本的翻译质量好。K大也可以推荐一些其他的高质量词典
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-15 09:37:05 | 显示全部楼层
    klwo2 发表于 2023-10-12 18:11
    " M9 J$ ^1 Q4 z没太懂你,按说张柏然版的是大学版,例句比新牛津少。
    0 g9 z; [1 R. C5 s; ]6 B, Z1 \8 z8 b2 B3 T5 h6 K( ?' `3 y
    我用的某个调用API的OCR工具,是混合调用的,一天50 ...
    某个调用API的OCR工具,是混合调用的,一天500条
    4 {4 B/ l" J7 \) Z* i1 x" E

    9 S3 W6 \9 V  }, _4 \% Z8 b7 ?不知道是哪个工具?
  • TA的每日心情
    开心
    2024-4-18 00:54
  • 签到天数: 1014 天

    [LV.10]以坛为家III

    发表于 2023-10-16 00:46:36 | 显示全部楼层
    jonah_w 发表于 2023-10-15 09:356 C7 Z! f' y, H- E& ]7 m
    考虑到这本的翻译质量好。K大也可以推荐一些其他的高质量词典

      x  v6 b+ ]1 V$ a# n5 s柏然版是李华驹翻译的。当然,李华驹翻译得也确实不错。

    该用户从未签到

    发表于 2023-10-19 14:29:47 | 显示全部楼层
    jonah_w 发表于 2023-10-15 09:35
    7 Y1 L% s& e3 N$ X% b+ q& z: {- {考虑到这本的翻译质量好。K大也可以推荐一些其他的高质量词典

    * R7 ?7 X' R" ^8 D例句少,质量好也没辙呀,比如你这张图里,只有yammer有例句9 J9 ?1 y; `, p0 w8 S4 w( P
    & \1 C7 B" T4 o7 C9 ~+ g
    我用的https://ocr.oldfish.cn/
    : s0 z4 ~6 V& \
    6 M0 T- H9 M" z/ t不过这是我随便选的, U5 E" |5 Y+ S+ P  E4 L

    4 O: c& q" O3 ~+ _- Q& Q其实我用过好些个反查,准确率就那样,质量较差,一般跳过不看的是……《文馨当代英汉词典》
    , I: m& M" t3 X

    该用户从未签到

    发表于 2023-10-19 15:00:54 | 显示全部楼层
    jonah_w 发表于 2023-10-15 09:35' ^- l5 z, N1 Y% n* ^
    考虑到这本的翻译质量好。K大也可以推荐一些其他的高质量词典

    5 ?$ N% a. D0 ?再来补充几句吧。我最近用例句反查用得比较多。纯粹从准确性(给出的词语、译文是否准确)、多样性(给出的词语、译文是否丰富)的角度看——
    3 p8 n- D: p  |  Z; T
    - ~0 _0 t5 k" `(1)汉英词典基本上没什么特别的用处,也不用做反查。有些专书,如《汉英词通》,我做了图片版,有些后悔;8 I) T& f2 ~: }1 h+ a! c
    (2)一般的ESL词典都可以做,差别不大。都会有错误,不过谁也没比谁差到哪里去;
    . }2 x3 Z$ h- A4 ]7 D4 U1 @- z/ \7 t. f(3)林语堂先生的英语是很好的,对汉语的理解又准,有好些东西别的汉英词典没有。不过他的汉英词典自带反查,所以我觉得可以挖一挖他的双语著作做做例句反查
    * W- [5 Y8 X& m2 y+ ?& ^(4)霍克思(David Hawkes)翻译的红楼梦,其实很适合做反查:https://culture.gmw.cn/2020-03/29/content_33695610.htm
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-19 15:08:54 | 显示全部楼层
    klwo2 发表于 2023-10-19 14:29
    , g, k$ G; X3 C+ p6 Y" y例句少,质量好也没辙呀,比如你这张图里,只有yammer有例句
    ( o- e% P6 c9 L" _+ S& C$ e9 J5 B
    : J8 [7 }+ V" i* E) q! P+ q. b我用的https://ocr.oldfish.cn/
    3 a% Q# g1 C: o
    https://ocr.oldfish.cn/ 这个是不是只能下载他们的Windows软件使用?没有找到调用API的接口文档之类的。8 B7 V  |; [' `9 f% i
    2 u7 C6 e! A  ~9 L) L5 G9 Q
    反查我主要用来查英文例句和英文释义的句子了,汉语反查用的不是很多,不知道其他人
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-19 15:11:39 | 显示全部楼层
    klwo2 发表于 2023-10-19 14:29
    3 h! T& M# k9 p9 s% l7 e; y, A/ R' E6 p1 Q例句少,质量好也没辙呀,比如你这张图里,只有yammer有例句  B) M, u3 U1 ~
    ' Q/ d; Q. E- a7 {' u
    我用的https://ocr.oldfish.cn/
    8 @5 u! ]* {( f" y/ ?5 ~0 }
    确实例句少。不过英文释义,有时候也有点用。虽然不如例句有用

    该用户从未签到

    发表于 2023-10-19 15:26:03 | 显示全部楼层
    jonah_w 发表于 2023-10-19 15:08
    ! r. B7 \2 p  Y' a, Hhttps://ocr.oldfish.cn/ 这个是不是只能下载他们的Windows软件使用?没有找到调用API的接口文档之类的。 ...

    . ]& U4 Z7 V( X3 L/ f【反查我主要用来查英文例句和英文释义的句子了,汉语反查用的不是很多,不知道其他人】这句我没太懂,你主要是怎么用?
    - ?  Q$ S6 K2 N, _
    3 G- J8 b8 y0 N$ J张柏然版新牛津,跟新牛津的释义绝大部分相同啊
    8 G6 P7 h3 u7 j8 C
    9 h& Z0 J3 ?3 M) v3 Q至于工具,本来就是我随意找的,你可以多看看,按理说,它是调用多个api,会比单个api稳定一点
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-19 15:58:19 | 显示全部楼层
    本帖最后由 jonah_w 于 2023-10-19 16:00 编辑
    8 V8 h' K# y1 Q" S0 z& z
    klwo2 发表于 2023-10-19 15:26/ r6 f/ |& z( h. ^- }( E5 [# _' Q
    【反查我主要用来查英文例句和英文释义的句子了,汉语反查用的不是很多,不知道其他人】这句我没太懂,你 ...
    6 P7 N7 e* K3 z3 z$ r6 l
    + v0 C6 a' N" I1 W! ^3 g
    比如某个英文表达或者罕见的短语,我不确定是不是地道,就在goldendict搜下例句反查,看看有多少例句包含了这个表达,用的语境是什么。这样经常可以深刻理解一个英文表达或短语。' G, `  P+ z8 y+ _7 I

    ( c) S7 Z' g0 d/ g% O) M7 x% w或者某个常用表达,我想知道在语法里这种表达叫什么,语法上有什么具体说法、解释之类的,就可以反查语法类的词典
    + `6 Y" r  H! r" b; K, \  _+ l( N8 q
    . w6 t' a$ s1 p或者想知道形容一个人极度高兴的单词或者短语是哪个?查 extremely happy,这种一般在英文释义的反查里可以查到(反查英文释义找词头)+ o" d4 r+ R# ], K% F8 P. f+ X

    - z& L! t% n- ^1 L不过,最后这种场景也非常适合用chatgpt
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-19 16:01:40 | 显示全部楼层
    klwo2 发表于 2023-10-19 15:26
    " g3 X: N9 B) R+ ]  J; ?. c7 _; r【反查我主要用来查英文例句和英文释义的句子了,汉语反查用的不是很多,不知道其他人】这句我没太懂,你 ...
    张柏然版新牛津,跟新牛津的释义绝大部分相同啊

    . |# f' c  b/ o3 J" ?4 n1 P" ]" U8 J- r: h0 q& D" K
    那可能确实没必要了… 后面看看吧
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-19 16:06:12 | 显示全部楼层
    klwo2 发表于 2023-10-19 15:26; P. ^  t7 J3 J9 X
    【反查我主要用来查英文例句和英文释义的句子了,汉语反查用的不是很多,不知道其他人】这句我没太懂,你 ...
    按理说,它是调用多个api,会比单个api稳定一点

    , ~) ~; `! x* F3 B/ Y6 d5 k& R: c. b9 I' b/ W! i1 L
    他内部可能是调用了多个api,但如果不暴露给用户的,就很像黑箱操作,缺了灵活性。
    1 }) F/ S1 J$ t百度,腾讯,谷歌提供的OCR接口,很多也需要很多修改,才能适应图片的多样性,比如很多词典是双栏,甚至三栏的,直接用官方接口,会有很多问题。, n6 G6 Q9 R" H* o9 r  S
    # i, B6 B$ Y' l& {
    偶尔用用,这个软件应该问题不大。(不过这个软件在我这个Windows虚拟机里运行不了,所以我也没法测试了…)

    该用户从未签到

    发表于 2023-10-19 16:36:50 | 显示全部楼层
    jonah_w 发表于 2023-10-19 15:58  D# a7 J' x6 y1 i- V7 t( n! w
    比如某个英文表达或者罕见的短语,我不确定是不是地道,就在goldendict搜下例句反查,看看有多少例句包含 ...
    ; T& Z3 a0 c$ U3 M
    (1)其实想要确定某个表达是否地道,靠词典里的例句是不够的,因为这些词典囿于纸书的限制,不可能无限收录句子,最好的办法还是Google。
    3 {7 ~& i2 {) X, M) b& B; N" _# Y5 q0 ^5 o* d
    Google也有局限性,比如你刚说的【不确定是不是地道】,google搜索结果为3个。假如你没有汉语语感,还是确定不了的。但是至少比词典的例句多。
    . v5 W+ W' V; u( y/ z: u
    + Y- }* t0 w+ A; _) ?有些工具、语料库资源可以帮你,比如linggle、ludwig.guru,它们的好处是语料比较纯净,不会把中国媒体、印度媒体、菲律宾媒体的不地道说法囊括进来,但是规模就小很多了。" ]6 L$ ~' U4 w
    # x; ]% K# l$ G8 ~( }' z
    (2)语法问题不宜零敲碎打解决。
    3 {! q2 U# Y1 X9 v- `7 a. ~6 L(3)这种用thesaurus就可以解决的  f& q; r. @' K1 X" O* {+ ?
    ' L& U/ B7 T" n; t" h) W+ z
    用chatgpt当然可以,不过准确性就需要验证了
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-19 17:52:51 | 显示全部楼层
    klwo2 发表于 2023-10-19 16:36
    7 D) j% n" r& s1 d( r0 |- D(1)其实想要确定某个表达是否地道,靠词典里的例句是不够的,因为这些词典囿于纸书的限制,不可能无限 ...

    ( W! ^# ?; c( a. g7 s0 G因为输入任何单词组合,Google好像都有结果… 有时候可能不好判断,地道与否。对词典语料来说,小范围内可控, F! _- l7 F* p& ]4 @, k

    , X7 _6 |7 t9 {当然Google肯定可以当那个last resort
    * h3 Q* O8 p' F& z  U* B  f2 l
    ' E% T& R. v  z% \( P9 h嗯,语法最好可以系统学习一遍。我现在的做法是假装已经系统学过了,然后把语法书当成词典语料去使用,有时候会有小惊喜。/ Y: h. I5 P9 h) T9 c% z0 Y9 c/ i  J
    5 q* Z5 r+ G8 R2 e* X* p; w8 W+ D
    是的,thesaurus 类词典也在用,释义反查 contribute to it as well. so it's nice to have it.

    该用户从未签到

    发表于 2023-10-19 20:44:33 | 显示全部楼层
    jonah_w 发表于 2023-10-19 17:52  `: M. `+ G! S1 ?; s2 A5 T/ [5 V* Q
    因为输入任何单词组合,Google好像都有结果…  有时候可能不好判断,地道与否。对词典语料来说, ...
    - @9 U" {7 t, ?0 B  T
    当然不是输入任何单词组合,Google都有结果
    / o/ F: C# N- b/ z2 j
    , X0 i& \$ V; @3 c' b- [2 M% e' Z想要判断一句话是否地道,我认为最快的办法是:请ChatGPT写出你想要判断的句子的更地道的、同义表达,然后一个个去google搜索看结果。不要轻信ChatGPT的结论,只利用它给的句子。
    ) h6 g* t0 L  J. J3 w1 t5 @$ u: c3 h/ \
    最快的办法不是最优的办法。最优的办法当然是提高自身语感了,只不过这就难了。
    * T0 S( p6 Y: t1 N% ?
    % W* d- c  f# I, q( }9 W2 C" V此外,例句反查不需要用goldendict嘛,直接用archivarius 3000这类软件或者搞一个语料库软件(论坛置顶就有)
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-19 23:17:59 | 显示全部楼层
    klwo2 发表于 2023-10-19 20:44
    $ K  x5 d) l( @( B# F当然不是输入任何单词组合,Google都有结果
    9 B& Q0 }8 ~5 _+ q5 }3 Y' r
    % {( X) ^% j8 G想要判断一句话是否地道,我认为最快的办法是:请ChatGPT写 ...
    例句反查不需要用goldendict嘛,直接用archivarius 3000这类软件或者搞一个语料库软件

    $ i& @& \2 x) {) i5 s' G& \4 @$ j6 D
    1 g* e% z' |2 P( U, ^$ P% i有语料库软件。我是直接用命令行搜索语料txt文件。这种方式当然是可以的,但相比goldendict少了排版。感觉平时还是更习惯于用goldendict查询。另外,专门优化的MDX可以做到尽可能的把一个句子的各种context集中到一起,放的互相更近一点,方便一眼就看到各种上下文信息。语料库这方面也稍微差一些
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-19 23:21:14 | 显示全部楼层
    klwo2 发表于 2023-10-19 20:440 W3 q  g0 h8 @
    当然不是输入任何单词组合,Google都有结果
    $ B6 I0 ]4 C- J. ~* o7 p6 P0 k0 W) e
    想要判断一句话是否地道,我认为最快的办法是:请ChatGPT写 ...

    & V& T: f4 {0 p7 U- ]' U! B是的,chatgpt用好了,对学习英语有大用。可惜国内多数人用不上

    该用户从未签到

    发表于 2023-10-20 01:03:49 | 显示全部楼层
    jonah_w 发表于 2023-10-19 23:21
    + X2 C4 Q; Q- _) s/ l5 d8 I是的,chatgpt用好了,对学习英语有大用。可惜国内多数人用不上
    & u" D8 ?9 \$ N( S" F1 U: h8 P
    google也是“国内多数人用不上”啊, U1 f! y9 y- e+ S: n% ?
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-20 09:26:10 | 显示全部楼层
    klwo2 发表于 2023-10-20 01:03
    3 I' _4 R+ g# {1 _9 f4 J7 Q/ ?2 p& u) Dgoogle也是“国内多数人用不上”啊

    : F" O: h9 Z, B( D哈哈哈… 确实
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-6-6 23:46 , Processed in 0.052200 second(s), 9 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表