掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 831|回复: 19

[讨论] 最近学习制作图片词典,想制作张柏然版新牛津全索引词典

[复制链接]
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

    发表于 2023-10-10 12:07:21 | 显示全部楼层 |阅读模式
    本帖最后由 jonah_w 于 2023-10-10 12:12 编辑
    8 R7 B' v6 |* s4 z1 X: `8 z! m+ l4 w- C5 V+ ]2 {7 }5 j. I
    学习的VimVim的图片制作工具,强烈推荐
    , I/ q1 ]- t/ o$ B; S! ^* V% `! K& e/ {# e$ i# r) z# t( O6 ~$ T
    需要用到百度的云OCR服务。因为接近3000张图片,每月500张图片的免费额度不够用…
    $ W+ Q! ^" J$ X* H+ u
    / b3 [# v. Y" s1 l就想着在论坛问问,是否有对这部词典感兴趣的,众筹足够的OCR额度,对这部词典进行全文OCR,并制作为全索引图片词典MDX,方便对词典的例句进行全文检索。) l" `/ Y6 S" e7 M0 A: f( `+ D
    6 y- L- ~+ |( l9 @  L2 |. z
    感兴趣的可以留言或者私信我哈。 6个人参与即可。
    ; q+ z% M- _  U4 B6 Z* M' l$ b* H) u+ v: k1 B$ F
    p.s. 不知道类似帖子是否违规,如果违规,可以提醒我哈。
    : c3 |" l# L4 I" N5 i6 ]/ T
    $ y0 c" s2 m/ T6 x) oOCR了一页看看效果,感觉还不错:7 g3 t: ^  L/ v8 b$ V* t
    " [5 X/ `, L1 g; G9 f+ A
    6 l' V: d% i' _8 Q5 J1 b! K

    8 w$ b* w7 U( `! g8 Z; @9 S6 ?* u' N

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

    发表于 2023-10-12 18:11:02 | 显示全部楼层
    没太懂你,按说张柏然版的是大学版,例句比新牛津少。5 e0 N" O" K6 O, K" F# K# E! F

    ( Y# E" o1 u2 J) G; ~我用的某个调用API的OCR工具,是混合调用的,一天500条,你盯着一家撸,肯定不行
    ( G* b: g" {* Z  u  k- U( O  c
    6 d9 N, x3 W2 W4 A% I( H
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-15 09:35:44 | 显示全部楼层
    klwo2 发表于 2023-10-12 18:11
    9 \; T! P  p' @& ]8 P$ `没太懂你,按说张柏然版的是大学版,例句比新牛津少。2 E9 Y2 c& v' }$ q7 U( x% h; ?

    ( d/ C. q2 y# i% h  ]$ h我用的某个调用API的OCR工具,是混合调用的,一天50 ...

    1 W0 ]5 z7 ~6 M考虑到这本的翻译质量好。K大也可以推荐一些其他的高质量词典
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-15 09:37:05 | 显示全部楼层
    klwo2 发表于 2023-10-12 18:11& u3 i+ j+ T; t7 e. z1 E
    没太懂你,按说张柏然版的是大学版,例句比新牛津少。% x* K1 ^& X- e; X2 L9 v# P

    - Y9 p( ?4 O- m9 C我用的某个调用API的OCR工具,是混合调用的,一天50 ...
    某个调用API的OCR工具,是混合调用的,一天500条
    # z  k4 [9 R8 `+ E; b/ {- n

    " ?5 b3 k2 Y  T不知道是哪个工具?
  • TA的每日心情
    开心
    2024-4-18 00:54
  • 签到天数: 1014 天

    [LV.10]以坛为家III

    发表于 2023-10-16 00:46:36 | 显示全部楼层
    jonah_w 发表于 2023-10-15 09:35' a% S# Q6 x" K0 l, a7 \3 w3 [9 P! U
    考虑到这本的翻译质量好。K大也可以推荐一些其他的高质量词典

    / F) J+ F* m# L8 k" [1 d! N柏然版是李华驹翻译的。当然,李华驹翻译得也确实不错。

    该用户从未签到

    发表于 2023-10-19 14:29:47 | 显示全部楼层
    jonah_w 发表于 2023-10-15 09:35* Q  o9 a& s2 Z4 S" r4 t
    考虑到这本的翻译质量好。K大也可以推荐一些其他的高质量词典

    ' |9 X2 N) N7 }例句少,质量好也没辙呀,比如你这张图里,只有yammer有例句, k6 a5 m) V6 H0 z+ h3 C2 G

    0 @$ }6 m. S( `) i2 [9 `我用的https://ocr.oldfish.cn/
    " k4 F' O4 \4 T3 b
    : w& A, O, c% S* Q# b% l不过这是我随便选的
    2 B$ L3 _8 t3 Y: U. K! b
    5 }6 ]# X& ?& x) P其实我用过好些个反查,准确率就那样,质量较差,一般跳过不看的是……《文馨当代英汉词典》
    & _, ~) R% C/ B% K! }0 n

    该用户从未签到

    发表于 2023-10-19 15:00:54 | 显示全部楼层
    jonah_w 发表于 2023-10-15 09:35, u/ t3 `/ a: l! _8 Z
    考虑到这本的翻译质量好。K大也可以推荐一些其他的高质量词典

    - z1 z( t) M% g: S2 F. s" U: W再来补充几句吧。我最近用例句反查用得比较多。纯粹从准确性(给出的词语、译文是否准确)、多样性(给出的词语、译文是否丰富)的角度看——+ |, ?* x: T$ H
    # q3 v$ G& l2 e; }  @, n; D
    (1)汉英词典基本上没什么特别的用处,也不用做反查。有些专书,如《汉英词通》,我做了图片版,有些后悔;# r3 W( a2 m6 y
    (2)一般的ESL词典都可以做,差别不大。都会有错误,不过谁也没比谁差到哪里去;0 y. a  t8 D+ a6 I9 Q
    (3)林语堂先生的英语是很好的,对汉语的理解又准,有好些东西别的汉英词典没有。不过他的汉英词典自带反查,所以我觉得可以挖一挖他的双语著作做做例句反查* Z/ Z! m* m/ n( \7 M3 u/ J7 ~
    (4)霍克思(David Hawkes)翻译的红楼梦,其实很适合做反查:https://culture.gmw.cn/2020-03/29/content_33695610.htm
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-19 15:08:54 | 显示全部楼层
    klwo2 发表于 2023-10-19 14:29+ D: t! t% B1 T& P& }
    例句少,质量好也没辙呀,比如你这张图里,只有yammer有例句
    ; @3 p7 ?; k% W2 L- x0 y
    ) J1 o' A4 W7 L- m我用的https://ocr.oldfish.cn/

    : j. m; m+ C! A0 uhttps://ocr.oldfish.cn/ 这个是不是只能下载他们的Windows软件使用?没有找到调用API的接口文档之类的。
    1 v3 c0 L" Q% Z& @5 R
    . I+ p) b; \4 u/ O2 `反查我主要用来查英文例句和英文释义的句子了,汉语反查用的不是很多,不知道其他人
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-19 15:11:39 | 显示全部楼层
    klwo2 发表于 2023-10-19 14:29
    1 K* ^2 ]# ^: U9 N( v6 n; V例句少,质量好也没辙呀,比如你这张图里,只有yammer有例句
    * q; g# O1 u' r5 C! G  L; G0 F+ e. \* W; {
    我用的https://ocr.oldfish.cn/

    0 o8 g' U; Y) T. ^9 r5 ?确实例句少。不过英文释义,有时候也有点用。虽然不如例句有用

    该用户从未签到

    发表于 2023-10-19 15:26:03 | 显示全部楼层
    jonah_w 发表于 2023-10-19 15:08+ H3 x* M" ?" f7 T
    https://ocr.oldfish.cn/ 这个是不是只能下载他们的Windows软件使用?没有找到调用API的接口文档之类的。 ...
    5 u: k- \; }4 r, c, j
    【反查我主要用来查英文例句和英文释义的句子了,汉语反查用的不是很多,不知道其他人】这句我没太懂,你主要是怎么用?) R! v9 X( g7 i: d: J
    0 v) @/ u% x- a8 M$ h9 c6 e! j! m
    张柏然版新牛津,跟新牛津的释义绝大部分相同啊5 _1 N1 q4 ~( j& h* |; j

    % k( e0 }+ ^$ Y2 h, R4 m至于工具,本来就是我随意找的,你可以多看看,按理说,它是调用多个api,会比单个api稳定一点
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-19 15:58:19 | 显示全部楼层
    本帖最后由 jonah_w 于 2023-10-19 16:00 编辑
    & ^: z1 B$ U! V
    klwo2 发表于 2023-10-19 15:26
    9 F: c. N- Q: H- N) u【反查我主要用来查英文例句和英文释义的句子了,汉语反查用的不是很多,不知道其他人】这句我没太懂,你 ...
    6 Y' E8 E$ U7 a  U
    ' W+ h) ^  H* U
    比如某个英文表达或者罕见的短语,我不确定是不是地道,就在goldendict搜下例句反查,看看有多少例句包含了这个表达,用的语境是什么。这样经常可以深刻理解一个英文表达或短语。& q! v; K7 w; k* z' J: g( m
    4 C' d2 o, K. T* b
    或者某个常用表达,我想知道在语法里这种表达叫什么,语法上有什么具体说法、解释之类的,就可以反查语法类的词典1 h7 E; Y  q# C& y

    6 @1 ]2 I& m7 ]# W2 Q9 c或者想知道形容一个人极度高兴的单词或者短语是哪个?查 extremely happy,这种一般在英文释义的反查里可以查到(反查英文释义找词头)5 N! ?( @9 ~, B# m2 A* Q/ z! G
    , S% ^. Y2 o1 A! ^2 H& W( q9 ^
    不过,最后这种场景也非常适合用chatgpt
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-19 16:01:40 | 显示全部楼层
    klwo2 发表于 2023-10-19 15:26# c; l7 g, H3 T% N* Y
    【反查我主要用来查英文例句和英文释义的句子了,汉语反查用的不是很多,不知道其他人】这句我没太懂,你 ...
    张柏然版新牛津,跟新牛津的释义绝大部分相同啊

    0 R4 d# w/ w+ [0 y, J9 A+ E( ]/ L: l  V+ j6 g
    那可能确实没必要了… 后面看看吧
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-19 16:06:12 | 显示全部楼层
    klwo2 发表于 2023-10-19 15:26
    $ T7 u! u" ~5 l7 I# G【反查我主要用来查英文例句和英文释义的句子了,汉语反查用的不是很多,不知道其他人】这句我没太懂,你 ...
    按理说,它是调用多个api,会比单个api稳定一点
    - j9 @$ y6 q/ ^# L4 q- n' ]; j" x& f
    : H# y; H* g0 t9 Q' z, ]& g
    他内部可能是调用了多个api,但如果不暴露给用户的,就很像黑箱操作,缺了灵活性。
    # H; j8 |- S, E1 x百度,腾讯,谷歌提供的OCR接口,很多也需要很多修改,才能适应图片的多样性,比如很多词典是双栏,甚至三栏的,直接用官方接口,会有很多问题。
    $ y8 L% {0 g% D' \; _
    - p/ t- \$ N" q& t% ^偶尔用用,这个软件应该问题不大。(不过这个软件在我这个Windows虚拟机里运行不了,所以我也没法测试了…)

    该用户从未签到

    发表于 2023-10-19 16:36:50 | 显示全部楼层
    jonah_w 发表于 2023-10-19 15:58# X. U* k  ]* s1 B
    比如某个英文表达或者罕见的短语,我不确定是不是地道,就在goldendict搜下例句反查,看看有多少例句包含 ...

    ' A% U9 U3 L$ E  M+ I(1)其实想要确定某个表达是否地道,靠词典里的例句是不够的,因为这些词典囿于纸书的限制,不可能无限收录句子,最好的办法还是Google。
    , Z* F. j- Z9 i$ N& h, j+ s5 j8 \) h7 w$ A; Q
    Google也有局限性,比如你刚说的【不确定是不是地道】,google搜索结果为3个。假如你没有汉语语感,还是确定不了的。但是至少比词典的例句多。
    * V" v, r+ W8 y0 z$ y' V
    " H4 O( i( o! b- b有些工具、语料库资源可以帮你,比如linggle、ludwig.guru,它们的好处是语料比较纯净,不会把中国媒体、印度媒体、菲律宾媒体的不地道说法囊括进来,但是规模就小很多了。2 d1 d1 B$ k1 o" G
      _7 _1 d/ `0 \( t/ ?
    (2)语法问题不宜零敲碎打解决。
      Y" s, _) D1 P4 D(3)这种用thesaurus就可以解决的* }  r0 f) Y  N

    3 |( j- i0 K" a  `# h* ?用chatgpt当然可以,不过准确性就需要验证了
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-19 17:52:51 | 显示全部楼层
    klwo2 发表于 2023-10-19 16:365 N; d  }% S3 ^; L& ~  F( ~; b
    (1)其实想要确定某个表达是否地道,靠词典里的例句是不够的,因为这些词典囿于纸书的限制,不可能无限 ...

    * s- U& j  @0 w6 G5 q因为输入任何单词组合,Google好像都有结果… 有时候可能不好判断,地道与否。对词典语料来说,小范围内可控% A. `: n, m3 C+ c& F

    " {1 I) D- O) ?! o) L6 t8 U5 y; P当然Google肯定可以当那个last resort% g9 a. A) p/ X: z" |. f2 W
    ; e& \5 S: c0 B: n! Y( O
    嗯,语法最好可以系统学习一遍。我现在的做法是假装已经系统学过了,然后把语法书当成词典语料去使用,有时候会有小惊喜。! x$ E7 Z7 Z5 a0 ~- s* n

    ( s6 |& w5 x' q! q  l9 ?" N) d# A是的,thesaurus 类词典也在用,释义反查 contribute to it as well. so it's nice to have it.

    该用户从未签到

    发表于 2023-10-19 20:44:33 | 显示全部楼层
    jonah_w 发表于 2023-10-19 17:52
    * m. V, h$ t- L( U$ @; j3 t' d因为输入任何单词组合,Google好像都有结果…  有时候可能不好判断,地道与否。对词典语料来说, ...

      P, Z/ r  w3 u" h; s# Q) `4 ]当然不是输入任何单词组合,Google都有结果
    ! a4 R9 `$ T4 w, V/ W5 [; M9 ^2 Q4 _( S3 G
    想要判断一句话是否地道,我认为最快的办法是:请ChatGPT写出你想要判断的句子的更地道的、同义表达,然后一个个去google搜索看结果。不要轻信ChatGPT的结论,只利用它给的句子。( j4 [  F- P" W6 b! Q

    3 G' M2 r# L  L最快的办法不是最优的办法。最优的办法当然是提高自身语感了,只不过这就难了。# n  w; Y: g, o' A5 P5 C8 P) `

    + D# o8 s2 l& n+ c此外,例句反查不需要用goldendict嘛,直接用archivarius 3000这类软件或者搞一个语料库软件(论坛置顶就有)
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-19 23:17:59 | 显示全部楼层
    klwo2 发表于 2023-10-19 20:44
      f3 W) r8 b& }5 T当然不是输入任何单词组合,Google都有结果; P1 d- v  w6 p4 {$ E; D

    : B  M- Z) E! F5 q- G. P  X- \想要判断一句话是否地道,我认为最快的办法是:请ChatGPT写 ...
    例句反查不需要用goldendict嘛,直接用archivarius 3000这类软件或者搞一个语料库软件

    2 r3 N* E) S' y& P; _9 e6 b' z3 _* {# U
    有语料库软件。我是直接用命令行搜索语料txt文件。这种方式当然是可以的,但相比goldendict少了排版。感觉平时还是更习惯于用goldendict查询。另外,专门优化的MDX可以做到尽可能的把一个句子的各种context集中到一起,放的互相更近一点,方便一眼就看到各种上下文信息。语料库这方面也稍微差一些
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-19 23:21:14 | 显示全部楼层
    klwo2 发表于 2023-10-19 20:44
    2 j/ f! }! v( V当然不是输入任何单词组合,Google都有结果( g9 t. S+ `! O: }- T4 M1 H' G

    4 z8 w& f: {" J7 J  Y想要判断一句话是否地道,我认为最快的办法是:请ChatGPT写 ...

    $ E. z9 b2 L% N" s( [是的,chatgpt用好了,对学习英语有大用。可惜国内多数人用不上

    该用户从未签到

    发表于 2023-10-20 01:03:49 | 显示全部楼层
    jonah_w 发表于 2023-10-19 23:21
    $ [* g6 S* u% m8 ~% \是的,chatgpt用好了,对学习英语有大用。可惜国内多数人用不上

    : o  j7 f6 |% k4 |& l$ Igoogle也是“国内多数人用不上”啊
    0 J" E/ h$ Y7 T% ~0 g' e  ?1 A
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-20 09:26:10 | 显示全部楼层
    klwo2 发表于 2023-10-20 01:03
    6 [. l$ `3 E/ ]% ^7 z4 o* Igoogle也是“国内多数人用不上”啊
    3 e, o9 }: h3 ?- J
    哈哈哈… 确实
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-5-12 23:10 , Processed in 0.047397 second(s), 9 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表