掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 1341|回复: 19

[讨论] 最近学习制作图片词典,想制作张柏然版新牛津全索引词典

[复制链接]
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

    发表于 2023-10-10 12:07:21 | 显示全部楼层 |阅读模式
    本帖最后由 jonah_w 于 2023-10-10 12:12 编辑
    4 j) J3 i' r2 P6 ~/ i" X1 K) m' K: w3 ?) J
    学习的VimVim的图片制作工具,强烈推荐
    ( [/ }) [! c  m, Z7 A0 i+ S; L: |" G) C: R# t9 c4 d7 f, i
    需要用到百度的云OCR服务。因为接近3000张图片,每月500张图片的免费额度不够用…
    / F4 |9 t- j' H5 X* t$ n) h/ _( l/ d
    就想着在论坛问问,是否有对这部词典感兴趣的,众筹足够的OCR额度,对这部词典进行全文OCR,并制作为全索引图片词典MDX,方便对词典的例句进行全文检索。+ Z8 n6 e/ F; f( d2 M% ?4 K

    ! M. w) B7 _2 H; H. ~; {3 O感兴趣的可以留言或者私信我哈。 6个人参与即可。
    $ G# c* a4 ?! I3 s
    4 B/ H3 C8 K8 q4 Pp.s. 不知道类似帖子是否违规,如果违规,可以提醒我哈。5 [+ I7 X' d: t3 }6 }6 x3 H

    ) z) J" ^# G& B" r& `* jOCR了一页看看效果,感觉还不错:
    # l% O2 q0 }4 o9 W. Q2 @" N
    2 v2 s+ e$ f' x( G0 c
    ; k2 H4 `' k, I) A1 B  d9 R' K. g+ A% m) L

      ~9 R) I  h4 F# M' q) ^% t

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

    发表于 2023-10-12 18:11:02 | 显示全部楼层
    没太懂你,按说张柏然版的是大学版,例句比新牛津少。! x7 R, n/ z3 Y( i3 j

      B% X% X1 g, @我用的某个调用API的OCR工具,是混合调用的,一天500条,你盯着一家撸,肯定不行
    ' g$ E) e3 F! ?5 O* o1 \# J, m3 j9 X8 D0 T! A8 Y" L6 i6 K  V( g
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-15 09:35:44 | 显示全部楼层
    klwo2 发表于 2023-10-12 18:11) L" }  G: c2 d0 B4 _; _
    没太懂你,按说张柏然版的是大学版,例句比新牛津少。2 Y, ^$ v7 ]: E

    / @- p, \* _- z我用的某个调用API的OCR工具,是混合调用的,一天50 ...

    % m) R5 D- z6 O* ]4 }8 f考虑到这本的翻译质量好。K大也可以推荐一些其他的高质量词典
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-15 09:37:05 | 显示全部楼层
    klwo2 发表于 2023-10-12 18:11/ M% \; _; L# B0 e3 a8 k" a5 n
    没太懂你,按说张柏然版的是大学版,例句比新牛津少。: J% N" I- m9 u0 a

      Y+ N9 S2 n  E7 c" m  v; v我用的某个调用API的OCR工具,是混合调用的,一天50 ...
    某个调用API的OCR工具,是混合调用的,一天500条

    # y$ k. p& V6 f7 Z% ~
    , Y# T* a/ H% k不知道是哪个工具?
  • TA的每日心情
    开心
    5 天前
  • 签到天数: 1059 天

    [LV.10]以坛为家III

    发表于 2023-10-16 00:46:36 | 显示全部楼层
    jonah_w 发表于 2023-10-15 09:35
    / Y# G; \1 @: C考虑到这本的翻译质量好。K大也可以推荐一些其他的高质量词典
    8 M1 i8 [( b) r* f4 |; B7 S( \
    柏然版是李华驹翻译的。当然,李华驹翻译得也确实不错。

    该用户从未签到

    发表于 2023-10-19 14:29:47 | 显示全部楼层
    jonah_w 发表于 2023-10-15 09:35
      D) C, t! r% m* u7 C考虑到这本的翻译质量好。K大也可以推荐一些其他的高质量词典
    8 J, e2 u) d- E; O5 |' j
    例句少,质量好也没辙呀,比如你这张图里,只有yammer有例句
    5 P1 s+ M5 T& V1 z9 @8 g9 U/ n4 c5 D. f# u4 C: r! x) ^% j3 s, t
    我用的https://ocr.oldfish.cn/) a& u- `& b& t$ ~! c# B! i
    ; Q; e' T; ^5 t4 ^# p
    不过这是我随便选的
    % l! c) _; x9 {9 c( G4 S/ X: w5 B8 W/ f
    其实我用过好些个反查,准确率就那样,质量较差,一般跳过不看的是……《文馨当代英汉词典》
    5 c" C3 m. Z' w! {" j5 v/ m

    该用户从未签到

    发表于 2023-10-19 15:00:54 | 显示全部楼层
    jonah_w 发表于 2023-10-15 09:35+ y- R. [3 a' t' k  ?; @+ W5 n  ~
    考虑到这本的翻译质量好。K大也可以推荐一些其他的高质量词典
    ) k6 a2 e2 ^+ x8 }5 `$ k+ q
    再来补充几句吧。我最近用例句反查用得比较多。纯粹从准确性(给出的词语、译文是否准确)、多样性(给出的词语、译文是否丰富)的角度看——
    2 ^8 `5 g7 b# S( ?+ d  x( y" ^, Z8 ~
    (1)汉英词典基本上没什么特别的用处,也不用做反查。有些专书,如《汉英词通》,我做了图片版,有些后悔;
    * t4 X$ r' E6 D(2)一般的ESL词典都可以做,差别不大。都会有错误,不过谁也没比谁差到哪里去;" T2 h) H4 s' l& {& m. a3 `% \
    (3)林语堂先生的英语是很好的,对汉语的理解又准,有好些东西别的汉英词典没有。不过他的汉英词典自带反查,所以我觉得可以挖一挖他的双语著作做做例句反查  X; _7 j1 {0 O$ `
    (4)霍克思(David Hawkes)翻译的红楼梦,其实很适合做反查:https://culture.gmw.cn/2020-03/29/content_33695610.htm
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-19 15:08:54 | 显示全部楼层
    klwo2 发表于 2023-10-19 14:29* a; j+ ]3 ^" c# B/ M
    例句少,质量好也没辙呀,比如你这张图里,只有yammer有例句, G0 p% O9 r( m( j1 y  P
    ! L+ r: j/ c! Z$ [+ x# {
    我用的https://ocr.oldfish.cn/
    ) {4 t7 }. U  v2 P
    https://ocr.oldfish.cn/ 这个是不是只能下载他们的Windows软件使用?没有找到调用API的接口文档之类的。  d% S% |" U$ d, ~& [5 e
    $ Q* J2 B% z' ^* Z- o- q
    反查我主要用来查英文例句和英文释义的句子了,汉语反查用的不是很多,不知道其他人
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-19 15:11:39 | 显示全部楼层
    klwo2 发表于 2023-10-19 14:29
    3 v( p6 H" W  i% W, b& ]例句少,质量好也没辙呀,比如你这张图里,只有yammer有例句
    5 a6 h' Q  ^" b9 m% f6 Q4 q) H9 F! _
    我用的https://ocr.oldfish.cn/
    % ]6 o& \  y) [% t3 D0 B( @
    确实例句少。不过英文释义,有时候也有点用。虽然不如例句有用

    该用户从未签到

    发表于 2023-10-19 15:26:03 | 显示全部楼层
    jonah_w 发表于 2023-10-19 15:083 [4 h6 J6 E! H8 c/ m2 @
    https://ocr.oldfish.cn/ 这个是不是只能下载他们的Windows软件使用?没有找到调用API的接口文档之类的。 ...

    0 l' W- c# y! E1 J【反查我主要用来查英文例句和英文释义的句子了,汉语反查用的不是很多,不知道其他人】这句我没太懂,你主要是怎么用?
    1 \* _5 c4 ?4 r1 [2 L8 `2 N" p! @0 [& m) v6 b. I. _: L( J
    张柏然版新牛津,跟新牛津的释义绝大部分相同啊
    ' T+ d, ?/ ]6 q$ g; A) {" z0 x5 q
    $ k' Z+ ]; `4 h* T" ^至于工具,本来就是我随意找的,你可以多看看,按理说,它是调用多个api,会比单个api稳定一点
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-19 15:58:19 | 显示全部楼层
    本帖最后由 jonah_w 于 2023-10-19 16:00 编辑
    : M. B1 [* S# j: \- ^/ Z2 p+ z. k9 u
    klwo2 发表于 2023-10-19 15:26
    ! t4 S9 F& S1 l【反查我主要用来查英文例句和英文释义的句子了,汉语反查用的不是很多,不知道其他人】这句我没太懂,你 ...

    4 V" y6 o1 z5 i3 g$ g& |6 o' E
    & U5 \, p5 d9 X7 S. x& I比如某个英文表达或者罕见的短语,我不确定是不是地道,就在goldendict搜下例句反查,看看有多少例句包含了这个表达,用的语境是什么。这样经常可以深刻理解一个英文表达或短语。
    - F1 a" M. y9 {& a
    & ^% k: e3 t+ y! T  H& l$ u% |或者某个常用表达,我想知道在语法里这种表达叫什么,语法上有什么具体说法、解释之类的,就可以反查语法类的词典- Q  Y! m  R/ K8 t& d8 s

    - R0 Q3 E3 l& t5 R. I或者想知道形容一个人极度高兴的单词或者短语是哪个?查 extremely happy,这种一般在英文释义的反查里可以查到(反查英文释义找词头). S" M% n3 q% v$ Y' n0 [
    5 s- D5 h  N8 A) }/ C5 l
    不过,最后这种场景也非常适合用chatgpt
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-19 16:01:40 | 显示全部楼层
    klwo2 发表于 2023-10-19 15:26
    5 p1 D2 j: d" x! {# p1 X# O& B" Q) z【反查我主要用来查英文例句和英文释义的句子了,汉语反查用的不是很多,不知道其他人】这句我没太懂,你 ...
    张柏然版新牛津,跟新牛津的释义绝大部分相同啊

    0 G! w1 [& l6 C% t0 U, ?( I
    " J' V4 t  F+ Z那可能确实没必要了… 后面看看吧
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-19 16:06:12 | 显示全部楼层
    klwo2 发表于 2023-10-19 15:26
    . X9 l6 m( J0 I2 o% a【反查我主要用来查英文例句和英文释义的句子了,汉语反查用的不是很多,不知道其他人】这句我没太懂,你 ...
    按理说,它是调用多个api,会比单个api稳定一点
    / s/ h! _% U. Z' I& I5 c
    9 h! P2 q/ e& X1 P
    他内部可能是调用了多个api,但如果不暴露给用户的,就很像黑箱操作,缺了灵活性。
    ' a- g5 Q1 j  M( S$ @  I百度,腾讯,谷歌提供的OCR接口,很多也需要很多修改,才能适应图片的多样性,比如很多词典是双栏,甚至三栏的,直接用官方接口,会有很多问题。
    ) u" @& y7 W' P% o, N
    9 F# J$ P0 ]3 |4 i" o  L偶尔用用,这个软件应该问题不大。(不过这个软件在我这个Windows虚拟机里运行不了,所以我也没法测试了…)

    该用户从未签到

    发表于 2023-10-19 16:36:50 | 显示全部楼层
    jonah_w 发表于 2023-10-19 15:580 ^9 |: M& [6 S& ?! e  o) u4 `# r$ z
    比如某个英文表达或者罕见的短语,我不确定是不是地道,就在goldendict搜下例句反查,看看有多少例句包含 ...
    $ O+ L) t# f( d+ j
    (1)其实想要确定某个表达是否地道,靠词典里的例句是不够的,因为这些词典囿于纸书的限制,不可能无限收录句子,最好的办法还是Google。/ S, D8 k. i& P* ?' E

    7 x; e5 z: A( I" H9 V# n6 NGoogle也有局限性,比如你刚说的【不确定是不是地道】,google搜索结果为3个。假如你没有汉语语感,还是确定不了的。但是至少比词典的例句多。; P$ @9 S" f0 S4 ~& J& i
    ; J0 c, k% L) B: I
    有些工具、语料库资源可以帮你,比如linggle、ludwig.guru,它们的好处是语料比较纯净,不会把中国媒体、印度媒体、菲律宾媒体的不地道说法囊括进来,但是规模就小很多了。
    " s% m7 u9 p; X3 ~4 K, v$ `- n, S* W& U" J1 O1 _1 ~
    (2)语法问题不宜零敲碎打解决。
    & G* F! g2 v4 C  s(3)这种用thesaurus就可以解决的
    : M8 w* Z( u) Z$ o, f  E; y0 j6 s1 j* m
    用chatgpt当然可以,不过准确性就需要验证了
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-19 17:52:51 | 显示全部楼层
    klwo2 发表于 2023-10-19 16:36# r* {; [* U' p! h7 d2 A
    (1)其实想要确定某个表达是否地道,靠词典里的例句是不够的,因为这些词典囿于纸书的限制,不可能无限 ...
    9 o  a6 ]; {" X' m
    因为输入任何单词组合,Google好像都有结果… 有时候可能不好判断,地道与否。对词典语料来说,小范围内可控
    ( Q" D/ ]0 g% w* l) I  e
    - w- X' H  s: R6 I当然Google肯定可以当那个last resort6 G+ E) N% k/ F% L/ E' v
    0 C) A2 i; k* y5 k4 i: L
    嗯,语法最好可以系统学习一遍。我现在的做法是假装已经系统学过了,然后把语法书当成词典语料去使用,有时候会有小惊喜。
    % x7 U( }$ d" f7 e* R0 \- H" [% i8 i4 o) _7 f
    是的,thesaurus 类词典也在用,释义反查 contribute to it as well. so it's nice to have it.

    该用户从未签到

    发表于 2023-10-19 20:44:33 | 显示全部楼层
    jonah_w 发表于 2023-10-19 17:52; H; X; @% w) ?2 W- b
    因为输入任何单词组合,Google好像都有结果…  有时候可能不好判断,地道与否。对词典语料来说, ...
    ! G% k; ~! ?" y  `2 o9 F; W
    当然不是输入任何单词组合,Google都有结果
    ' q$ j, l5 {/ x7 o( ?$ ^1 c6 k8 p% Q, d5 X8 l( ?* U* M
    想要判断一句话是否地道,我认为最快的办法是:请ChatGPT写出你想要判断的句子的更地道的、同义表达,然后一个个去google搜索看结果。不要轻信ChatGPT的结论,只利用它给的句子。+ B6 J5 C  q: o0 P2 J
    4 b: {/ n/ y; p- y
    最快的办法不是最优的办法。最优的办法当然是提高自身语感了,只不过这就难了。- {8 V% v8 e/ a- K: X: e$ k
    ) Q6 e" A* {7 E. d( V( o
    此外,例句反查不需要用goldendict嘛,直接用archivarius 3000这类软件或者搞一个语料库软件(论坛置顶就有)
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-19 23:17:59 | 显示全部楼层
    klwo2 发表于 2023-10-19 20:44
    / q$ n6 r2 u. E当然不是输入任何单词组合,Google都有结果
    9 Y) B3 s) T' q7 G& m9 K
    - N7 |3 I' }$ E; O3 a) `想要判断一句话是否地道,我认为最快的办法是:请ChatGPT写 ...
    例句反查不需要用goldendict嘛,直接用archivarius 3000这类软件或者搞一个语料库软件
      ^, d# m+ `4 G' b, |
    # g. H: w& H$ `# v
    有语料库软件。我是直接用命令行搜索语料txt文件。这种方式当然是可以的,但相比goldendict少了排版。感觉平时还是更习惯于用goldendict查询。另外,专门优化的MDX可以做到尽可能的把一个句子的各种context集中到一起,放的互相更近一点,方便一眼就看到各种上下文信息。语料库这方面也稍微差一些
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-19 23:21:14 | 显示全部楼层
    klwo2 发表于 2023-10-19 20:443 G" t/ U) L* J9 \# V- i
    当然不是输入任何单词组合,Google都有结果. J* V* q$ T, i2 E2 B7 E$ K2 U
    " |- E/ w4 l" U$ Z6 d
    想要判断一句话是否地道,我认为最快的办法是:请ChatGPT写 ...

    ! M" K8 o  A- L是的,chatgpt用好了,对学习英语有大用。可惜国内多数人用不上

    该用户从未签到

    发表于 2023-10-20 01:03:49 | 显示全部楼层
    jonah_w 发表于 2023-10-19 23:21  N( q9 Z0 `1 A3 X" ?2 s
    是的,chatgpt用好了,对学习英语有大用。可惜国内多数人用不上
    + n: Z: s$ D: B1 |8 i: v
    google也是“国内多数人用不上”啊0 j( U- P0 h2 ?. a. `9 A- O+ m
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-20 09:26:10 | 显示全部楼层
    klwo2 发表于 2023-10-20 01:03
    4 k, g9 z& I5 Ggoogle也是“国内多数人用不上”啊

    8 L# P8 @1 ]* x/ ~哈哈哈… 确实
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2025-7-4 07:17 , Processed in 0.024087 second(s), 22 queries .

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表