掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 859|回复: 19

[讨论] 最近学习制作图片词典,想制作张柏然版新牛津全索引词典

[复制链接]
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

    发表于 2023-10-10 12:07:21 | 显示全部楼层 |阅读模式
    本帖最后由 jonah_w 于 2023-10-10 12:12 编辑 & i- U1 F9 j% R* i7 @

    & W) b" w& z5 _. X1 f& a$ {学习的VimVim的图片制作工具,强烈推荐
    , X. f( |! \2 k* N1 E
    $ y$ |& V; b* E  [9 v需要用到百度的云OCR服务。因为接近3000张图片,每月500张图片的免费额度不够用…" Q6 N3 _' w. T2 s) n7 y
    * E1 ?" A3 V; s3 g* ]) j
    就想着在论坛问问,是否有对这部词典感兴趣的,众筹足够的OCR额度,对这部词典进行全文OCR,并制作为全索引图片词典MDX,方便对词典的例句进行全文检索。$ A2 Z, I3 A; q+ T& I# y
    ( x4 p& b6 E# H8 H. _7 R, F3 O
    感兴趣的可以留言或者私信我哈。 6个人参与即可。! j* U7 k: ~. N* ^" h% e' K, A

    " C* T) P$ D7 jp.s. 不知道类似帖子是否违规,如果违规,可以提醒我哈。8 P7 F( [7 j/ K+ ^

    8 m) s' K9 N- n* ~, ]6 q; V8 n" Z; AOCR了一页看看效果,感觉还不错:1 m( ?2 w9 f6 ~5 r' ?% H" K7 t
    . _. s: O( Q+ c" Z3 p
    7 a- D: a& d: Z5 P: U# ^

    3 \; i, A- y5 v  Q% X! Z
    * ^& E. |: _3 Q) E, s- q

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

    发表于 2023-10-12 18:11:02 | 显示全部楼层
    没太懂你,按说张柏然版的是大学版,例句比新牛津少。
    2 j/ u1 k3 U2 h
    " J" v8 N# R! R4 \% e- j我用的某个调用API的OCR工具,是混合调用的,一天500条,你盯着一家撸,肯定不行
    3 a& U7 i  y# e1 E8 Q; f8 j0 c% E* k+ I
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-15 09:35:44 | 显示全部楼层
    klwo2 发表于 2023-10-12 18:11
    % x0 u. |' i( ~8 W6 Q8 |没太懂你,按说张柏然版的是大学版,例句比新牛津少。
    - O) C1 Z$ T: ]# J5 s* B% P5 [( d9 e- a6 f2 X& a4 |
    我用的某个调用API的OCR工具,是混合调用的,一天50 ...

    " l6 M# f; O! P& T& L考虑到这本的翻译质量好。K大也可以推荐一些其他的高质量词典
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-15 09:37:05 | 显示全部楼层
    klwo2 发表于 2023-10-12 18:11
    + U1 m$ D! ]( `0 ?2 V9 k3 |没太懂你,按说张柏然版的是大学版,例句比新牛津少。
    6 W' m+ m8 y; G& v- J2 o
    6 h2 h) e# L( M3 _# }$ [" f0 c我用的某个调用API的OCR工具,是混合调用的,一天50 ...
    某个调用API的OCR工具,是混合调用的,一天500条
    $ q) B9 }% J% m

    0 ^) a1 K) p$ q/ @2 B9 t* A不知道是哪个工具?
  • TA的每日心情
    开心
    2024-4-18 00:54
  • 签到天数: 1014 天

    [LV.10]以坛为家III

    发表于 2023-10-16 00:46:36 | 显示全部楼层
    jonah_w 发表于 2023-10-15 09:351 s) q8 j7 u) ~( Y7 \/ G) f. ^- h5 y
    考虑到这本的翻译质量好。K大也可以推荐一些其他的高质量词典

    # f! o; U; C& ~4 |! w柏然版是李华驹翻译的。当然,李华驹翻译得也确实不错。

    该用户从未签到

    发表于 2023-10-19 14:29:47 | 显示全部楼层
    jonah_w 发表于 2023-10-15 09:35& V& X( B6 P5 @, }
    考虑到这本的翻译质量好。K大也可以推荐一些其他的高质量词典
    2 J/ |5 Q7 D* ^. M3 w4 h  i5 Z
    例句少,质量好也没辙呀,比如你这张图里,只有yammer有例句
    6 Y4 }% _' A, U1 t1 R' q5 o2 i9 K* K3 O4 F/ A8 b' e+ a2 r6 R6 C
    我用的https://ocr.oldfish.cn/
    9 I2 {3 T! K9 ~8 p
    3 ^8 D; d% g: F, p不过这是我随便选的
    - b1 M. J2 u, f2 B
    : q, I8 r3 i/ b) ~其实我用过好些个反查,准确率就那样,质量较差,一般跳过不看的是……《文馨当代英汉词典》
    ' _  v" j6 m9 t( L! T

    该用户从未签到

    发表于 2023-10-19 15:00:54 | 显示全部楼层
    jonah_w 发表于 2023-10-15 09:35
    * u1 M* K* c2 N" ~! r考虑到这本的翻译质量好。K大也可以推荐一些其他的高质量词典
    " A) W! ]4 Y: R8 N' g: \' Q" u
    再来补充几句吧。我最近用例句反查用得比较多。纯粹从准确性(给出的词语、译文是否准确)、多样性(给出的词语、译文是否丰富)的角度看——+ i. [( S4 y1 Z1 I% m- s9 A
    & Q. K$ y5 h1 q
    (1)汉英词典基本上没什么特别的用处,也不用做反查。有些专书,如《汉英词通》,我做了图片版,有些后悔;
    % p+ e2 t, D' k4 U(2)一般的ESL词典都可以做,差别不大。都会有错误,不过谁也没比谁差到哪里去;3 i* \8 p1 F5 a5 K& i
    (3)林语堂先生的英语是很好的,对汉语的理解又准,有好些东西别的汉英词典没有。不过他的汉英词典自带反查,所以我觉得可以挖一挖他的双语著作做做例句反查+ ^5 D( U8 [3 t% I4 y
    (4)霍克思(David Hawkes)翻译的红楼梦,其实很适合做反查:https://culture.gmw.cn/2020-03/29/content_33695610.htm
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-19 15:08:54 | 显示全部楼层
    klwo2 发表于 2023-10-19 14:29* M# k; ^# V$ F1 U! q+ m2 v
    例句少,质量好也没辙呀,比如你这张图里,只有yammer有例句
    4 V; Y5 z6 n$ }" b% _8 n8 `! `) j  H& z" \4 |- x
    我用的https://ocr.oldfish.cn/
    5 t1 L6 U1 T# y6 W6 ]4 t$ i" h
    https://ocr.oldfish.cn/ 这个是不是只能下载他们的Windows软件使用?没有找到调用API的接口文档之类的。
    , W2 W9 L6 S, E# D4 S2 c" b  U) I( m
    反查我主要用来查英文例句和英文释义的句子了,汉语反查用的不是很多,不知道其他人
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-19 15:11:39 | 显示全部楼层
    klwo2 发表于 2023-10-19 14:29  U4 k/ n5 W' \
    例句少,质量好也没辙呀,比如你这张图里,只有yammer有例句$ W2 s9 J, f% n

    + W% R/ e2 C. P, z0 l2 d5 b. O3 y我用的https://ocr.oldfish.cn/

    * l- N: }6 k  Z( O3 t$ H确实例句少。不过英文释义,有时候也有点用。虽然不如例句有用

    该用户从未签到

    发表于 2023-10-19 15:26:03 | 显示全部楼层
    jonah_w 发表于 2023-10-19 15:08# Z! B( ], t& r
    https://ocr.oldfish.cn/ 这个是不是只能下载他们的Windows软件使用?没有找到调用API的接口文档之类的。 ...

    " y6 r: _6 n6 o2 q1 s* O  o. c# F: n【反查我主要用来查英文例句和英文释义的句子了,汉语反查用的不是很多,不知道其他人】这句我没太懂,你主要是怎么用?
    $ T  g, l: V1 K3 h
    % y. U' `8 V6 i张柏然版新牛津,跟新牛津的释义绝大部分相同啊0 A5 O3 Q  N, b+ m' p5 @
    ; t* l5 c6 l2 x5 G7 O& ~( i
    至于工具,本来就是我随意找的,你可以多看看,按理说,它是调用多个api,会比单个api稳定一点
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-19 15:58:19 | 显示全部楼层
    本帖最后由 jonah_w 于 2023-10-19 16:00 编辑 1 M3 a! h; k7 S* ^0 i0 W, G
    klwo2 发表于 2023-10-19 15:26
    ( u9 K' h3 C' K2 H9 P* R【反查我主要用来查英文例句和英文释义的句子了,汉语反查用的不是很多,不知道其他人】这句我没太懂,你 ...
    0 W8 _1 T: e' [/ U0 Z; j
    2 \  R. {" H. Z) H4 ?' r2 A
    比如某个英文表达或者罕见的短语,我不确定是不是地道,就在goldendict搜下例句反查,看看有多少例句包含了这个表达,用的语境是什么。这样经常可以深刻理解一个英文表达或短语。* Y9 M/ r$ `2 a: a' P# S5 ?  S
    $ h* Q8 z$ w1 j; _' h( l9 N1 O
    或者某个常用表达,我想知道在语法里这种表达叫什么,语法上有什么具体说法、解释之类的,就可以反查语法类的词典6 g1 o# f! L( I) Q. B, ?" h, H! E
    ' t. [) S* {; Q  }. z
    或者想知道形容一个人极度高兴的单词或者短语是哪个?查 extremely happy,这种一般在英文释义的反查里可以查到(反查英文释义找词头)
    3 F; X! v9 T( f9 z2 l
    # T+ B5 _4 ^2 _, p不过,最后这种场景也非常适合用chatgpt
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-19 16:01:40 | 显示全部楼层
    klwo2 发表于 2023-10-19 15:26
    3 b9 r$ T+ q9 }5 O【反查我主要用来查英文例句和英文释义的句子了,汉语反查用的不是很多,不知道其他人】这句我没太懂,你 ...
    张柏然版新牛津,跟新牛津的释义绝大部分相同啊

    0 j# y% [/ X. J, D' \0 w6 k  m  v9 E0 b8 n/ E% P8 x$ H
    那可能确实没必要了… 后面看看吧
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-19 16:06:12 | 显示全部楼层
    klwo2 发表于 2023-10-19 15:26& C1 _  w1 I- y" W* N
    【反查我主要用来查英文例句和英文释义的句子了,汉语反查用的不是很多,不知道其他人】这句我没太懂,你 ...
    按理说,它是调用多个api,会比单个api稳定一点

    : i$ l7 k' g2 g+ x6 Z/ s/ k# f* v
    2 C4 ~5 ], h8 T; s! N他内部可能是调用了多个api,但如果不暴露给用户的,就很像黑箱操作,缺了灵活性。3 S) t, u# f8 Z, k
    百度,腾讯,谷歌提供的OCR接口,很多也需要很多修改,才能适应图片的多样性,比如很多词典是双栏,甚至三栏的,直接用官方接口,会有很多问题。
    8 m& F% j9 ~; |& t  m7 j2 b% `
    偶尔用用,这个软件应该问题不大。(不过这个软件在我这个Windows虚拟机里运行不了,所以我也没法测试了…)

    该用户从未签到

    发表于 2023-10-19 16:36:50 | 显示全部楼层
    jonah_w 发表于 2023-10-19 15:58
    ! K$ u8 b, o7 S: U6 z2 p比如某个英文表达或者罕见的短语,我不确定是不是地道,就在goldendict搜下例句反查,看看有多少例句包含 ...
    % |: i% p. H! P5 C% q, ~
    (1)其实想要确定某个表达是否地道,靠词典里的例句是不够的,因为这些词典囿于纸书的限制,不可能无限收录句子,最好的办法还是Google。
    , `- I% `$ a8 ^4 ?' x6 m9 w" B% O
    & D- M' M9 w9 e! p! p& ^6 U, ]# `Google也有局限性,比如你刚说的【不确定是不是地道】,google搜索结果为3个。假如你没有汉语语感,还是确定不了的。但是至少比词典的例句多。" u2 E4 W3 F& e1 [

    2 u9 l1 [9 Z' `5 f有些工具、语料库资源可以帮你,比如linggle、ludwig.guru,它们的好处是语料比较纯净,不会把中国媒体、印度媒体、菲律宾媒体的不地道说法囊括进来,但是规模就小很多了。' F& q  b- y% p  l% n5 g

    3 N5 d8 ^( h- @7 }(2)语法问题不宜零敲碎打解决。1 H% ^- }% j/ k9 ^+ }3 b. [
    (3)这种用thesaurus就可以解决的) C7 e4 e( [$ V* k& b  u! ]/ \
    ! _9 q4 [, s! ]7 Z9 t6 z
    用chatgpt当然可以,不过准确性就需要验证了
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-19 17:52:51 | 显示全部楼层
    klwo2 发表于 2023-10-19 16:36
    ! w* M# ^6 O! D6 y(1)其实想要确定某个表达是否地道,靠词典里的例句是不够的,因为这些词典囿于纸书的限制,不可能无限 ...

    / s, Y) g6 X. u0 l+ f* b' Y& m因为输入任何单词组合,Google好像都有结果… 有时候可能不好判断,地道与否。对词典语料来说,小范围内可控! Z, Q9 W7 C9 \0 F

    ( t  ~' S8 u' {# @4 `9 j2 Q当然Google肯定可以当那个last resort! @1 j# r1 n/ U6 {) P2 a" i

    % ^2 ~7 i+ ], p: X+ r2 b$ H嗯,语法最好可以系统学习一遍。我现在的做法是假装已经系统学过了,然后把语法书当成词典语料去使用,有时候会有小惊喜。
    ' O5 G9 N) V' ^, k. U5 d+ J
    1 m0 M7 q' I; ?: `是的,thesaurus 类词典也在用,释义反查 contribute to it as well. so it's nice to have it.

    该用户从未签到

    发表于 2023-10-19 20:44:33 | 显示全部楼层
    jonah_w 发表于 2023-10-19 17:52* F* ^: ]( V# m; D2 n
    因为输入任何单词组合,Google好像都有结果…  有时候可能不好判断,地道与否。对词典语料来说, ...
    6 d; D6 v6 J2 ?
    当然不是输入任何单词组合,Google都有结果9 w/ j1 g* D9 P# M

    ) S$ n/ _: }% G8 u0 H" Q5 f" g想要判断一句话是否地道,我认为最快的办法是:请ChatGPT写出你想要判断的句子的更地道的、同义表达,然后一个个去google搜索看结果。不要轻信ChatGPT的结论,只利用它给的句子。
    5 [1 ?- O2 N5 Z1 u  z5 `: F8 X6 C' }$ }5 ^  F
    最快的办法不是最优的办法。最优的办法当然是提高自身语感了,只不过这就难了。
    + s/ i: z" d- h( E/ \3 {' \: U  C9 m5 x
    此外,例句反查不需要用goldendict嘛,直接用archivarius 3000这类软件或者搞一个语料库软件(论坛置顶就有)
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-19 23:17:59 | 显示全部楼层
    klwo2 发表于 2023-10-19 20:44& _& F& l: i2 B* ?
    当然不是输入任何单词组合,Google都有结果! e+ Q2 M9 f( C

    . D9 y9 y2 q' h) J( n3 Q想要判断一句话是否地道,我认为最快的办法是:请ChatGPT写 ...
    例句反查不需要用goldendict嘛,直接用archivarius 3000这类软件或者搞一个语料库软件
    ! o- M' w# }/ P+ e
    5 o  ^" w) |# N3 l
    有语料库软件。我是直接用命令行搜索语料txt文件。这种方式当然是可以的,但相比goldendict少了排版。感觉平时还是更习惯于用goldendict查询。另外,专门优化的MDX可以做到尽可能的把一个句子的各种context集中到一起,放的互相更近一点,方便一眼就看到各种上下文信息。语料库这方面也稍微差一些
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-19 23:21:14 | 显示全部楼层
    klwo2 发表于 2023-10-19 20:446 |" Z% I  a* U' n! `+ V5 T8 d
    当然不是输入任何单词组合,Google都有结果
      v4 F6 Q! R) \  _1 N- O$ W2 r" g" d) T' \
    想要判断一句话是否地道,我认为最快的办法是:请ChatGPT写 ...

    , j, Z/ L9 g# U$ H是的,chatgpt用好了,对学习英语有大用。可惜国内多数人用不上

    该用户从未签到

    发表于 2023-10-20 01:03:49 | 显示全部楼层
    jonah_w 发表于 2023-10-19 23:216 e9 n# h1 q$ Y/ [
    是的,chatgpt用好了,对学习英语有大用。可惜国内多数人用不上

    5 l1 b4 L. \! n+ \. h, ~google也是“国内多数人用不上”啊
    8 {* Q' I, Y% J8 e* B3 v! N
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-20 09:26:10 | 显示全部楼层
    klwo2 发表于 2023-10-20 01:03
    0 E5 i: ^7 \; ]/ \6 \" U1 tgoogle也是“国内多数人用不上”啊
    2 n, O, P7 d% a/ v
    哈哈哈… 确实
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-6-6 19:22 , Processed in 0.065707 second(s), 9 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表