掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 1209|回复: 19

[讨论] 最近学习制作图片词典,想制作张柏然版新牛津全索引词典

[复制链接]
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

    发表于 2023-10-10 12:07:21 | 显示全部楼层 |阅读模式
    本帖最后由 jonah_w 于 2023-10-10 12:12 编辑
    " n- ]/ R8 f7 ]- d. H
    # y2 l6 N( G* H0 L学习的VimVim的图片制作工具,强烈推荐
    ! b! Q4 h# U/ \( [- _! g; u) Y
    & |+ E- W* r( G5 q  e" F" T6 ?需要用到百度的云OCR服务。因为接近3000张图片,每月500张图片的免费额度不够用…+ c' j4 }, u) t& H# D% k
    . ?  i- J7 ~3 v. e6 N
    就想着在论坛问问,是否有对这部词典感兴趣的,众筹足够的OCR额度,对这部词典进行全文OCR,并制作为全索引图片词典MDX,方便对词典的例句进行全文检索。
    9 {  n3 z- x: b
    3 ^* s, V% n' R) r( |, l4 k感兴趣的可以留言或者私信我哈。 6个人参与即可。5 _, T5 K) m: h" [' l" q3 o) e

    9 y. z# K7 u4 N0 L. {% \4 J3 a: Jp.s. 不知道类似帖子是否违规,如果违规,可以提醒我哈。: S' ~( K$ e% H0 @
    3 W8 d- q" w1 W
    OCR了一页看看效果,感觉还不错:
    ( W5 Y' J, y  \, |/ K( ?
    $ T8 D; [. e/ J# V4 T7 c1 B" `. p& @- l7 F6 v1 a, `
    # H9 _7 _3 M2 l0 ^$ x7 ]$ M# t
    # O$ V/ L' d$ q- D

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

    发表于 2023-10-12 18:11:02 | 显示全部楼层
    没太懂你,按说张柏然版的是大学版,例句比新牛津少。
    2 y' H9 O% q; Q3 J! {2 O' F6 n. @- U; k% M6 B
    我用的某个调用API的OCR工具,是混合调用的,一天500条,你盯着一家撸,肯定不行
    & t  c1 j9 P# \9 Q/ F% M+ |
    7 \) ]  U. u" f, ]# L
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-15 09:35:44 | 显示全部楼层
    klwo2 发表于 2023-10-12 18:11) C( B2 _% O3 T4 J; I
    没太懂你,按说张柏然版的是大学版,例句比新牛津少。
    & M  N' W4 _9 Q2 I  X1 E/ Z* u9 c6 v4 C$ d, i+ ]/ ]( b, q
    我用的某个调用API的OCR工具,是混合调用的,一天50 ...

    ; |8 y1 W; @- F* p& v; X考虑到这本的翻译质量好。K大也可以推荐一些其他的高质量词典
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-15 09:37:05 | 显示全部楼层
    klwo2 发表于 2023-10-12 18:11
    9 B! O6 a3 p* C# j) V# y% V/ q' X没太懂你,按说张柏然版的是大学版,例句比新牛津少。+ L, V, E* q( n- @+ @
    . u; ]. V9 P0 O8 j8 ~
    我用的某个调用API的OCR工具,是混合调用的,一天50 ...
    某个调用API的OCR工具,是混合调用的,一天500条

    . q' T6 X& _6 ]# u
    9 J% }/ k- ~9 ~0 g/ l不知道是哪个工具?
  • TA的每日心情
    开心
    2025-4-10 14:10
  • 签到天数: 1043 天

    [LV.10]以坛为家III

    发表于 2023-10-16 00:46:36 | 显示全部楼层
    jonah_w 发表于 2023-10-15 09:355 M. n) X% {/ c4 W
    考虑到这本的翻译质量好。K大也可以推荐一些其他的高质量词典

    4 }, S8 C2 P) x: Q2 [) e柏然版是李华驹翻译的。当然,李华驹翻译得也确实不错。

    该用户从未签到

    发表于 2023-10-19 14:29:47 | 显示全部楼层
    jonah_w 发表于 2023-10-15 09:35
    / Q+ U5 `. F2 {7 @% ]考虑到这本的翻译质量好。K大也可以推荐一些其他的高质量词典

    $ L) J1 I" F  B2 F例句少,质量好也没辙呀,比如你这张图里,只有yammer有例句1 K: ^; }8 L$ h, x

    . T/ ^3 z/ O& N( H我用的https://ocr.oldfish.cn/
    9 R6 k) a5 v7 R7 e  K; X" P; X( `/ ~6 J
    不过这是我随便选的
    7 t' V# }; h+ B- N
    ( S! a; q! x/ S# o! P其实我用过好些个反查,准确率就那样,质量较差,一般跳过不看的是……《文馨当代英汉词典》4 w0 F( n% C2 B, g8 I: H

    该用户从未签到

    发表于 2023-10-19 15:00:54 | 显示全部楼层
    jonah_w 发表于 2023-10-15 09:35
      q( h  N6 ]. \+ a1 P' w考虑到这本的翻译质量好。K大也可以推荐一些其他的高质量词典

    + T5 f/ E& l3 e0 ?6 h% v: X* h再来补充几句吧。我最近用例句反查用得比较多。纯粹从准确性(给出的词语、译文是否准确)、多样性(给出的词语、译文是否丰富)的角度看——
      Z, {) D7 t% D7 j7 ]5 i) h0 U  T
    (1)汉英词典基本上没什么特别的用处,也不用做反查。有些专书,如《汉英词通》,我做了图片版,有些后悔;* O6 |  w+ t: ~" ^. Q8 H' M: I9 E- A
    (2)一般的ESL词典都可以做,差别不大。都会有错误,不过谁也没比谁差到哪里去;% j, n- J6 X8 [/ A0 p( W4 v8 Q
    (3)林语堂先生的英语是很好的,对汉语的理解又准,有好些东西别的汉英词典没有。不过他的汉英词典自带反查,所以我觉得可以挖一挖他的双语著作做做例句反查) Q! Q; `$ G3 p% G8 l
    (4)霍克思(David Hawkes)翻译的红楼梦,其实很适合做反查:https://culture.gmw.cn/2020-03/29/content_33695610.htm
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-19 15:08:54 | 显示全部楼层
    klwo2 发表于 2023-10-19 14:293 K" F  Z1 }: n  I) \: ^8 k
    例句少,质量好也没辙呀,比如你这张图里,只有yammer有例句$ |4 u" K- o' ~2 U0 B9 E

    ; p* `8 W. V" v0 Z( I我用的https://ocr.oldfish.cn/

    6 V* Z! T0 k5 o+ l) V% J# Ehttps://ocr.oldfish.cn/ 这个是不是只能下载他们的Windows软件使用?没有找到调用API的接口文档之类的。
    , C3 p/ a; s, b( v8 h$ S! A5 x! r+ I* g2 ?$ m  Y. b1 G, i
    反查我主要用来查英文例句和英文释义的句子了,汉语反查用的不是很多,不知道其他人
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-19 15:11:39 | 显示全部楼层
    klwo2 发表于 2023-10-19 14:29
    4 B* N. a. H$ A# v例句少,质量好也没辙呀,比如你这张图里,只有yammer有例句
      K+ I3 b( Y+ e" s, P2 Q0 }& R' T- S! K& M% o
    我用的https://ocr.oldfish.cn/

    $ Y: F/ h9 T8 R! i9 b/ \  m4 y3 ?; G6 G确实例句少。不过英文释义,有时候也有点用。虽然不如例句有用

    该用户从未签到

    发表于 2023-10-19 15:26:03 | 显示全部楼层
    jonah_w 发表于 2023-10-19 15:08
    7 R( A! O: ]4 J4 Y+ p" Shttps://ocr.oldfish.cn/ 这个是不是只能下载他们的Windows软件使用?没有找到调用API的接口文档之类的。 ...

    0 w( R) e5 w0 U* g' L【反查我主要用来查英文例句和英文释义的句子了,汉语反查用的不是很多,不知道其他人】这句我没太懂,你主要是怎么用?
    ( N) c) j3 L& m( s
    & q( s& y# v, N& X9 ]: H张柏然版新牛津,跟新牛津的释义绝大部分相同啊
    % o( m; Z: z3 M3 |! ?; \
    2 V0 O6 O, Y/ b/ M; P1 e至于工具,本来就是我随意找的,你可以多看看,按理说,它是调用多个api,会比单个api稳定一点
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-19 15:58:19 | 显示全部楼层
    本帖最后由 jonah_w 于 2023-10-19 16:00 编辑 + x) E4 R! h" i( S6 R! |! |8 y" b
    klwo2 发表于 2023-10-19 15:26" j  o* D7 j. h
    【反查我主要用来查英文例句和英文释义的句子了,汉语反查用的不是很多,不知道其他人】这句我没太懂,你 ...
    ) ^  @0 z; I5 d
    * \0 Q5 B7 ~  U0 V, x: o+ j9 p
    比如某个英文表达或者罕见的短语,我不确定是不是地道,就在goldendict搜下例句反查,看看有多少例句包含了这个表达,用的语境是什么。这样经常可以深刻理解一个英文表达或短语。
    $ k$ Y8 T6 V/ i5 v& |
    * z9 i/ N1 ?8 p6 P+ k, H. X或者某个常用表达,我想知道在语法里这种表达叫什么,语法上有什么具体说法、解释之类的,就可以反查语法类的词典
    4 w+ n* e/ C$ P
    4 s: a* G  o1 j( q: C, u或者想知道形容一个人极度高兴的单词或者短语是哪个?查 extremely happy,这种一般在英文释义的反查里可以查到(反查英文释义找词头)
    + w9 e, L0 F* D& e0 u  ?# j1 r; ~5 d1 e; _9 c" z
    不过,最后这种场景也非常适合用chatgpt
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-19 16:01:40 | 显示全部楼层
    klwo2 发表于 2023-10-19 15:26
    . C3 j) M7 T+ ?2 m% a【反查我主要用来查英文例句和英文释义的句子了,汉语反查用的不是很多,不知道其他人】这句我没太懂,你 ...
    张柏然版新牛津,跟新牛津的释义绝大部分相同啊
    ( q5 y& V* m4 v2 W

    . [, o' {  e2 t# z0 ~% m3 p那可能确实没必要了… 后面看看吧
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-19 16:06:12 | 显示全部楼层
    klwo2 发表于 2023-10-19 15:26
    2 d- {( O% n5 M  x【反查我主要用来查英文例句和英文释义的句子了,汉语反查用的不是很多,不知道其他人】这句我没太懂,你 ...
    按理说,它是调用多个api,会比单个api稳定一点
    ' ^, o6 X. v2 o8 Z
    / c* g# }& m4 {& @  z. z. n) }
    他内部可能是调用了多个api,但如果不暴露给用户的,就很像黑箱操作,缺了灵活性。
    / m, x2 s2 ]7 t% l4 ?" V百度,腾讯,谷歌提供的OCR接口,很多也需要很多修改,才能适应图片的多样性,比如很多词典是双栏,甚至三栏的,直接用官方接口,会有很多问题。
      T: }  Z& r3 O: g5 x8 q( y) W; h9 ]! {" `( O: l) U3 ^. ~
    偶尔用用,这个软件应该问题不大。(不过这个软件在我这个Windows虚拟机里运行不了,所以我也没法测试了…)

    该用户从未签到

    发表于 2023-10-19 16:36:50 | 显示全部楼层
    jonah_w 发表于 2023-10-19 15:58
      y' T8 Y1 y, {, s比如某个英文表达或者罕见的短语,我不确定是不是地道,就在goldendict搜下例句反查,看看有多少例句包含 ...

    5 j6 c6 G. E. j/ ~+ ~) G2 u% j(1)其实想要确定某个表达是否地道,靠词典里的例句是不够的,因为这些词典囿于纸书的限制,不可能无限收录句子,最好的办法还是Google。
    . o  W1 t: K3 _$ N8 y, F
    ; P, E) u$ ^* C; H& F7 d; oGoogle也有局限性,比如你刚说的【不确定是不是地道】,google搜索结果为3个。假如你没有汉语语感,还是确定不了的。但是至少比词典的例句多。$ k' z; j6 }9 J: j

    " ~; H4 {+ i  W* c有些工具、语料库资源可以帮你,比如linggle、ludwig.guru,它们的好处是语料比较纯净,不会把中国媒体、印度媒体、菲律宾媒体的不地道说法囊括进来,但是规模就小很多了。
    5 @+ N$ G% [8 \  e" g- i' @$ l& [: H5 c3 u$ M' _7 J
    (2)语法问题不宜零敲碎打解决。
    4 y2 m" z8 b. b% g' v) B& W(3)这种用thesaurus就可以解决的+ U, Y+ \3 k9 P0 _% c! z
      }. S( C3 r1 @4 d
    用chatgpt当然可以,不过准确性就需要验证了
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-19 17:52:51 | 显示全部楼层
    klwo2 发表于 2023-10-19 16:36" I( G0 A7 Y1 P
    (1)其实想要确定某个表达是否地道,靠词典里的例句是不够的,因为这些词典囿于纸书的限制,不可能无限 ...

    9 e$ t! F) d5 ^) `, Z% ^因为输入任何单词组合,Google好像都有结果… 有时候可能不好判断,地道与否。对词典语料来说,小范围内可控1 ~9 s$ v) a% i% W, b

    4 P; w! f6 \; R: G- j# e当然Google肯定可以当那个last resort3 q' V& `7 y. t- ~
    . w" r7 p# P( E+ c
    嗯,语法最好可以系统学习一遍。我现在的做法是假装已经系统学过了,然后把语法书当成词典语料去使用,有时候会有小惊喜。) a7 u* }1 A  I( e; v5 H1 g$ N

    & a6 t, h% ^! c4 {是的,thesaurus 类词典也在用,释义反查 contribute to it as well. so it's nice to have it.

    该用户从未签到

    发表于 2023-10-19 20:44:33 | 显示全部楼层
    jonah_w 发表于 2023-10-19 17:52& P1 a9 }+ D% E' }2 @* C* d
    因为输入任何单词组合,Google好像都有结果…  有时候可能不好判断,地道与否。对词典语料来说, ...

    ! o  k+ h' s/ B8 }/ n当然不是输入任何单词组合,Google都有结果/ ?: Q; e7 `7 a+ }2 ~) }+ I
    ! w1 ~- E5 x" y8 B8 ]+ d
    想要判断一句话是否地道,我认为最快的办法是:请ChatGPT写出你想要判断的句子的更地道的、同义表达,然后一个个去google搜索看结果。不要轻信ChatGPT的结论,只利用它给的句子。  {1 A3 |; t) r% C

    $ V4 M4 Y2 f- G6 q: v& Z2 ^最快的办法不是最优的办法。最优的办法当然是提高自身语感了,只不过这就难了。
    ( z3 i9 h( C" V* {- f; @+ q5 V: y5 k; j) g2 H8 G$ G# o
    此外,例句反查不需要用goldendict嘛,直接用archivarius 3000这类软件或者搞一个语料库软件(论坛置顶就有)
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-19 23:17:59 | 显示全部楼层
    klwo2 发表于 2023-10-19 20:44+ D, J, h" F" K
    当然不是输入任何单词组合,Google都有结果
    . w& o" Q; Y: g9 R9 K+ V( @/ j/ A
    6 k$ T( S4 w8 {1 S想要判断一句话是否地道,我认为最快的办法是:请ChatGPT写 ...
    例句反查不需要用goldendict嘛,直接用archivarius 3000这类软件或者搞一个语料库软件

    1 b1 _% i/ c1 b/ f) _: a  Z# H* J7 Z( M. ^6 K# g
    有语料库软件。我是直接用命令行搜索语料txt文件。这种方式当然是可以的,但相比goldendict少了排版。感觉平时还是更习惯于用goldendict查询。另外,专门优化的MDX可以做到尽可能的把一个句子的各种context集中到一起,放的互相更近一点,方便一眼就看到各种上下文信息。语料库这方面也稍微差一些
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-19 23:21:14 | 显示全部楼层
    klwo2 发表于 2023-10-19 20:44
    1 v1 i. j  h9 J- x6 E7 k& Z+ A当然不是输入任何单词组合,Google都有结果
    . l$ l  z& \3 W  T
    ) w0 y: ]& z4 D4 u! L, _想要判断一句话是否地道,我认为最快的办法是:请ChatGPT写 ...
    1 V, v8 U" J+ }1 u; g; G* Z
    是的,chatgpt用好了,对学习英语有大用。可惜国内多数人用不上

    该用户从未签到

    发表于 2023-10-20 01:03:49 | 显示全部楼层
    jonah_w 发表于 2023-10-19 23:21
    # I) Q) S5 G  R) `# |! S. O* \是的,chatgpt用好了,对学习英语有大用。可惜国内多数人用不上
    0 w6 k8 H) [& c" X0 T
    google也是“国内多数人用不上”啊
    ! |5 G- @" V, Q. ^& E2 Z# t
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-20 09:26:10 | 显示全部楼层
    klwo2 发表于 2023-10-20 01:033 \& g; q5 o1 Z; Z4 }3 Q4 Y
    google也是“国内多数人用不上”啊
    8 X( `3 `5 N! z4 e  ^( J
    哈哈哈… 确实
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2025-5-3 15:44 , Processed in 0.024143 second(s), 22 queries .

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表