掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 846|回复: 19

[讨论] 最近学习制作图片词典,想制作张柏然版新牛津全索引词典

[复制链接]
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

    发表于 2023-10-10 12:07:21 | 显示全部楼层 |阅读模式
    本帖最后由 jonah_w 于 2023-10-10 12:12 编辑
    7 j1 E' |7 a% }" a9 w
    " f# [. t) T+ K3 `, R7 A9 F' L学习的VimVim的图片制作工具,强烈推荐1 X! j: R+ i# o6 M: N

    ) o8 O7 V9 [3 V* H% r' J8 W( `需要用到百度的云OCR服务。因为接近3000张图片,每月500张图片的免费额度不够用…1 |/ z2 t/ t: Q( \

    7 Y, e# g7 ~7 h' ]就想着在论坛问问,是否有对这部词典感兴趣的,众筹足够的OCR额度,对这部词典进行全文OCR,并制作为全索引图片词典MDX,方便对词典的例句进行全文检索。8 {- I7 s# k, l1 {! j  D
    5 t! J7 e" |6 I
    感兴趣的可以留言或者私信我哈。 6个人参与即可。
    ) k' U0 F: n1 ~( X
    ! a1 j! c: U5 d: x+ k6 Hp.s. 不知道类似帖子是否违规,如果违规,可以提醒我哈。
    5 M& ?( W- R3 C8 {. J5 |% N. b( h0 o9 |$ o5 f9 K
    OCR了一页看看效果,感觉还不错:& |/ A1 {! E, O5 W6 f

    " g; t, ^" {$ d6 g/ b1 V6 Q! C0 T! p; O0 O. F* s

      s. |# a3 Z! }, g$ H
      F$ B7 p& T; h4 |, o

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

    发表于 2023-10-12 18:11:02 | 显示全部楼层
    没太懂你,按说张柏然版的是大学版,例句比新牛津少。: f4 h/ O) t$ E/ Q# `7 b

    ! ^$ [& {! `; k0 n0 c我用的某个调用API的OCR工具,是混合调用的,一天500条,你盯着一家撸,肯定不行# b% o" m0 W/ h. z% T% W  [

    ) P+ {3 Y* Z" v$ }9 ^1 ~
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-15 09:35:44 | 显示全部楼层
    klwo2 发表于 2023-10-12 18:11* x0 W  C* F; f% F- m' m3 ~
    没太懂你,按说张柏然版的是大学版,例句比新牛津少。
    6 Q/ {& i! }( I5 `" |. z$ z5 L# p/ _
    我用的某个调用API的OCR工具,是混合调用的,一天50 ...
    ; w  ]: |$ b! A% S( v/ z, ^
    考虑到这本的翻译质量好。K大也可以推荐一些其他的高质量词典
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-15 09:37:05 | 显示全部楼层
    klwo2 发表于 2023-10-12 18:11
    ) o2 {9 B* T' W1 ^+ o: Q# E没太懂你,按说张柏然版的是大学版,例句比新牛津少。
    4 G2 p8 I( l) a$ |) C
    & g( k) z; @* S) f( o( ~3 Q我用的某个调用API的OCR工具,是混合调用的,一天50 ...
    某个调用API的OCR工具,是混合调用的,一天500条

    ( O5 U9 ?; s% g
    : W* T  q; b) b+ Q6 J不知道是哪个工具?
  • TA的每日心情
    开心
    2024-4-18 00:54
  • 签到天数: 1014 天

    [LV.10]以坛为家III

    发表于 2023-10-16 00:46:36 | 显示全部楼层
    jonah_w 发表于 2023-10-15 09:35
    * M/ g0 g; ]* m7 }% Y考虑到这本的翻译质量好。K大也可以推荐一些其他的高质量词典

    ( r* Z3 H% Q4 _$ t; U5 I$ ~: K( F( T/ \' N柏然版是李华驹翻译的。当然,李华驹翻译得也确实不错。

    该用户从未签到

    发表于 2023-10-19 14:29:47 | 显示全部楼层
    jonah_w 发表于 2023-10-15 09:358 i6 Q0 M( X( @( e4 B
    考虑到这本的翻译质量好。K大也可以推荐一些其他的高质量词典

    ( h. P& t* p! |+ W7 t( C5 X例句少,质量好也没辙呀,比如你这张图里,只有yammer有例句
    3 r1 `7 q5 S& u: o: t3 B  C
    ! m! }+ b. {. A7 h9 T$ V我用的https://ocr.oldfish.cn/( S$ M+ O. ]/ I- P
    3 B+ I) Z: h9 [: @
    不过这是我随便选的$ |2 ], r, `, J0 I

    2 k, e( i! s% y. G# s其实我用过好些个反查,准确率就那样,质量较差,一般跳过不看的是……《文馨当代英汉词典》. Y2 V' `8 f8 I4 }/ h  n

    该用户从未签到

    发表于 2023-10-19 15:00:54 | 显示全部楼层
    jonah_w 发表于 2023-10-15 09:35
    2 D, U8 a# q! p0 i7 v+ s考虑到这本的翻译质量好。K大也可以推荐一些其他的高质量词典
    + I9 F1 l' V; `2 p/ R2 p
    再来补充几句吧。我最近用例句反查用得比较多。纯粹从准确性(给出的词语、译文是否准确)、多样性(给出的词语、译文是否丰富)的角度看——
    ( p6 Y0 c8 Q$ i$ e- s# ~; T& _' q1 G: `$ @: K- S( {
    (1)汉英词典基本上没什么特别的用处,也不用做反查。有些专书,如《汉英词通》,我做了图片版,有些后悔;
    8 f2 h  ?2 K( l" n$ V" G(2)一般的ESL词典都可以做,差别不大。都会有错误,不过谁也没比谁差到哪里去;
      [+ j/ q! i$ w% i/ G(3)林语堂先生的英语是很好的,对汉语的理解又准,有好些东西别的汉英词典没有。不过他的汉英词典自带反查,所以我觉得可以挖一挖他的双语著作做做例句反查! ?$ V$ B$ r& T8 \
    (4)霍克思(David Hawkes)翻译的红楼梦,其实很适合做反查:https://culture.gmw.cn/2020-03/29/content_33695610.htm
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-19 15:08:54 | 显示全部楼层
    klwo2 发表于 2023-10-19 14:29* c! m+ t! x. `/ n
    例句少,质量好也没辙呀,比如你这张图里,只有yammer有例句
    - E1 ^  I2 ~) Y. v- s( |% U
    ' i! Y2 a3 Q, h' [/ v我用的https://ocr.oldfish.cn/
    2 a) D+ r6 i. J" K2 {
    https://ocr.oldfish.cn/ 这个是不是只能下载他们的Windows软件使用?没有找到调用API的接口文档之类的。
    8 S+ s6 `0 F+ Y) n  [2 n5 e% f6 q% }0 C4 |$ ~. n
    反查我主要用来查英文例句和英文释义的句子了,汉语反查用的不是很多,不知道其他人
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-19 15:11:39 | 显示全部楼层
    klwo2 发表于 2023-10-19 14:29: X" i3 B* p( ]3 ?1 z( L5 k
    例句少,质量好也没辙呀,比如你这张图里,只有yammer有例句- o3 ^1 \7 a# a3 B4 o/ |+ L
    ! p9 y6 A% W- G7 G; E- d
    我用的https://ocr.oldfish.cn/

    7 h% O* m; A. g8 m4 {9 D  ?6 R; }确实例句少。不过英文释义,有时候也有点用。虽然不如例句有用

    该用户从未签到

    发表于 2023-10-19 15:26:03 | 显示全部楼层
    jonah_w 发表于 2023-10-19 15:08( F- |' N8 a/ ^2 q6 F* O
    https://ocr.oldfish.cn/ 这个是不是只能下载他们的Windows软件使用?没有找到调用API的接口文档之类的。 ...

    , l: N# C6 O$ k- `* {. {【反查我主要用来查英文例句和英文释义的句子了,汉语反查用的不是很多,不知道其他人】这句我没太懂,你主要是怎么用?
    # r3 _; W& ~: o, W4 \+ D& |5 t4 t6 E5 P7 o' h9 o' q$ A/ a+ E
    张柏然版新牛津,跟新牛津的释义绝大部分相同啊( v" t! q4 p1 t! L0 o* W3 J: d
    8 a, ~3 C8 c, h9 T! y" |
    至于工具,本来就是我随意找的,你可以多看看,按理说,它是调用多个api,会比单个api稳定一点
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-19 15:58:19 | 显示全部楼层
    本帖最后由 jonah_w 于 2023-10-19 16:00 编辑 - x8 N1 N8 t0 |6 B. f! j" j: U3 h1 a. F
    klwo2 发表于 2023-10-19 15:26
    ) G# p) F+ e% [$ E【反查我主要用来查英文例句和英文释义的句子了,汉语反查用的不是很多,不知道其他人】这句我没太懂,你 ...

    2 D. K! a( ^% l6 Q5 C5 \! Q6 N/ R8 Z
    比如某个英文表达或者罕见的短语,我不确定是不是地道,就在goldendict搜下例句反查,看看有多少例句包含了这个表达,用的语境是什么。这样经常可以深刻理解一个英文表达或短语。6 A3 C$ P$ ?. x( b7 F2 i1 ?

    # o% s( c4 r3 A& ?* A: q! S- t或者某个常用表达,我想知道在语法里这种表达叫什么,语法上有什么具体说法、解释之类的,就可以反查语法类的词典
    ' V: x/ J; @8 B2 m0 h, p. Z0 C+ f  W# V3 M  \1 H' l8 v
    或者想知道形容一个人极度高兴的单词或者短语是哪个?查 extremely happy,这种一般在英文释义的反查里可以查到(反查英文释义找词头)
    7 P  b( A# Y/ _7 Y) ^6 P
    ' K7 }* `6 P; e不过,最后这种场景也非常适合用chatgpt
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-19 16:01:40 | 显示全部楼层
    klwo2 发表于 2023-10-19 15:269 S7 p! `( |7 s
    【反查我主要用来查英文例句和英文释义的句子了,汉语反查用的不是很多,不知道其他人】这句我没太懂,你 ...
    张柏然版新牛津,跟新牛津的释义绝大部分相同啊
    : a& a; l% p7 b9 f2 H6 l9 M6 v! Z

    9 i9 `9 j+ Y0 t0 O! L那可能确实没必要了… 后面看看吧
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-19 16:06:12 | 显示全部楼层
    klwo2 发表于 2023-10-19 15:26
    5 l6 u6 y! T9 s4 s8 t" R7 a; U【反查我主要用来查英文例句和英文释义的句子了,汉语反查用的不是很多,不知道其他人】这句我没太懂,你 ...
    按理说,它是调用多个api,会比单个api稳定一点
    $ a2 z9 V5 c8 m0 s
    ( V+ Z# O1 k& e
    他内部可能是调用了多个api,但如果不暴露给用户的,就很像黑箱操作,缺了灵活性。
    ) \. i2 ~5 H, I3 A" P" z5 ]9 v8 s% z百度,腾讯,谷歌提供的OCR接口,很多也需要很多修改,才能适应图片的多样性,比如很多词典是双栏,甚至三栏的,直接用官方接口,会有很多问题。5 [3 ]5 K, z( J# g

    ) q/ N' _9 Z( \偶尔用用,这个软件应该问题不大。(不过这个软件在我这个Windows虚拟机里运行不了,所以我也没法测试了…)

    该用户从未签到

    发表于 2023-10-19 16:36:50 | 显示全部楼层
    jonah_w 发表于 2023-10-19 15:58
    / L4 Y5 @2 t" L比如某个英文表达或者罕见的短语,我不确定是不是地道,就在goldendict搜下例句反查,看看有多少例句包含 ...

    1 }* `) c+ ^# E5 `3 ?(1)其实想要确定某个表达是否地道,靠词典里的例句是不够的,因为这些词典囿于纸书的限制,不可能无限收录句子,最好的办法还是Google。
    0 b  x/ z/ }5 n- i
    7 I( Q0 k6 E. u( M+ \8 H& B3 AGoogle也有局限性,比如你刚说的【不确定是不是地道】,google搜索结果为3个。假如你没有汉语语感,还是确定不了的。但是至少比词典的例句多。
    $ T. |) t. Z5 @
    6 h+ r. k* \- j8 O" u5 Z7 ~9 y+ {有些工具、语料库资源可以帮你,比如linggle、ludwig.guru,它们的好处是语料比较纯净,不会把中国媒体、印度媒体、菲律宾媒体的不地道说法囊括进来,但是规模就小很多了。
    + S. n) t* k: u- ^# x+ J6 V; n: f# H
    (2)语法问题不宜零敲碎打解决。
    3 y! c. `$ p7 [: J( P# J0 {; \- D(3)这种用thesaurus就可以解决的
    1 R) m" r3 q% t% @
    & q9 R4 d5 h5 S' Q) Z  X2 `9 m  `用chatgpt当然可以,不过准确性就需要验证了
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-19 17:52:51 | 显示全部楼层
    klwo2 发表于 2023-10-19 16:367 c& T; X. m! `. D5 B
    (1)其实想要确定某个表达是否地道,靠词典里的例句是不够的,因为这些词典囿于纸书的限制,不可能无限 ...

    * k) o1 S/ K) C因为输入任何单词组合,Google好像都有结果… 有时候可能不好判断,地道与否。对词典语料来说,小范围内可控
    ( }. U. s6 u' Y. R: w: Q' Z3 i
    3 K! u/ q* Q4 g( H当然Google肯定可以当那个last resort; V3 ]+ M0 C2 Y
    , X2 m6 S& i% {* S# H8 K! o
    嗯,语法最好可以系统学习一遍。我现在的做法是假装已经系统学过了,然后把语法书当成词典语料去使用,有时候会有小惊喜。3 u$ Z; G5 ?; \1 |6 J: }

    $ s' l, Q( ]( L是的,thesaurus 类词典也在用,释义反查 contribute to it as well. so it's nice to have it.

    该用户从未签到

    发表于 2023-10-19 20:44:33 | 显示全部楼层
    jonah_w 发表于 2023-10-19 17:52+ A0 a0 a0 L. b4 n8 r( I& j
    因为输入任何单词组合,Google好像都有结果…  有时候可能不好判断,地道与否。对词典语料来说, ...
    ; N6 a) _" M8 g' J
    当然不是输入任何单词组合,Google都有结果
    ! Y: z! N1 x6 u$ S
    6 C# E; L3 B6 u/ n+ I- }! v想要判断一句话是否地道,我认为最快的办法是:请ChatGPT写出你想要判断的句子的更地道的、同义表达,然后一个个去google搜索看结果。不要轻信ChatGPT的结论,只利用它给的句子。: B* q/ W- j4 g0 _, z
    - d5 L% k% Y5 M. h" k& e% r: B- `) U
    最快的办法不是最优的办法。最优的办法当然是提高自身语感了,只不过这就难了。
    5 S- y. {- J, _. n
    # S7 a6 i0 H3 e' n此外,例句反查不需要用goldendict嘛,直接用archivarius 3000这类软件或者搞一个语料库软件(论坛置顶就有)
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-19 23:17:59 | 显示全部楼层
    klwo2 发表于 2023-10-19 20:442 N- X/ x& Y6 F3 D4 `5 K
    当然不是输入任何单词组合,Google都有结果
    ; b- c5 E) j. I* w6 q
    0 z& d6 _) n# t6 `想要判断一句话是否地道,我认为最快的办法是:请ChatGPT写 ...
    例句反查不需要用goldendict嘛,直接用archivarius 3000这类软件或者搞一个语料库软件
    " x( a' L6 M/ d6 g( |6 c9 @0 V7 Y
    ) ~" ~+ h6 i, R9 w* W' r6 S
    有语料库软件。我是直接用命令行搜索语料txt文件。这种方式当然是可以的,但相比goldendict少了排版。感觉平时还是更习惯于用goldendict查询。另外,专门优化的MDX可以做到尽可能的把一个句子的各种context集中到一起,放的互相更近一点,方便一眼就看到各种上下文信息。语料库这方面也稍微差一些
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-19 23:21:14 | 显示全部楼层
    klwo2 发表于 2023-10-19 20:44
    5 s; Z/ C! K. b3 m* M当然不是输入任何单词组合,Google都有结果! ?% o  V; w, E$ t7 }7 e6 \4 a! `
    # C, \, E/ z. s2 c  v# n4 ~- z
    想要判断一句话是否地道,我认为最快的办法是:请ChatGPT写 ...

    / T( B- B; S- X7 J6 i) F* U2 Y是的,chatgpt用好了,对学习英语有大用。可惜国内多数人用不上

    该用户从未签到

    发表于 2023-10-20 01:03:49 | 显示全部楼层
    jonah_w 发表于 2023-10-19 23:21' N( {, z/ E) U  |% r' q
    是的,chatgpt用好了,对学习英语有大用。可惜国内多数人用不上
    6 k/ y$ [& x3 I1 L% k
    google也是“国内多数人用不上”啊2 I1 z4 z3 y% I- G; y( y" ~  L( h
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-20 09:26:10 | 显示全部楼层
    klwo2 发表于 2023-10-20 01:039 p9 D, O/ [+ q, o, p2 [% U) u
    google也是“国内多数人用不上”啊

    6 P! b- T% b* K) f' |( B哈哈哈… 确实
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-5-23 22:05 , Processed in 0.058244 second(s), 9 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表