掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 858|回复: 19

[讨论] 最近学习制作图片词典,想制作张柏然版新牛津全索引词典

[复制链接]
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

    发表于 2023-10-10 12:07:21 | 显示全部楼层 |阅读模式
    本帖最后由 jonah_w 于 2023-10-10 12:12 编辑
      N- j: B. z$ L1 [' l
    ) O, q7 o+ i" p4 f, n9 v# ~6 [学习的VimVim的图片制作工具,强烈推荐
    : E& h; y  R* `( S7 n& x  P  A% e. L* C3 M. U5 {/ T
    需要用到百度的云OCR服务。因为接近3000张图片,每月500张图片的免费额度不够用…  L. |/ B8 r0 @6 g, p, X7 |: O
    2 M6 d1 B0 C3 K. n- \& q$ @; L
    就想着在论坛问问,是否有对这部词典感兴趣的,众筹足够的OCR额度,对这部词典进行全文OCR,并制作为全索引图片词典MDX,方便对词典的例句进行全文检索。
    ' A3 R; |$ `" u" v3 Y0 J/ F
    ! y* D6 |. J. `感兴趣的可以留言或者私信我哈。 6个人参与即可。
    4 ]* Z5 O' _# x4 B& ^6 z8 r
    5 s; p0 l+ R: P' y& Bp.s. 不知道类似帖子是否违规,如果违规,可以提醒我哈。5 E! h  U# v* o2 ]
    - z  I! c# J, h) q3 Q6 Y
    OCR了一页看看效果,感觉还不错:! H# h5 a: }8 l1 H! k
    . `' r5 y$ B6 ^( o: s

    - O5 S- E9 |6 y: K8 h: A6 _4 j7 @. T7 z! |  `% M

    7 b) M0 U3 d  f, I3 M4 g3 y

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

    发表于 2023-10-12 18:11:02 | 显示全部楼层
    没太懂你,按说张柏然版的是大学版,例句比新牛津少。
    : w3 G6 R( b0 w$ }) {
    4 J- m# i/ p6 F我用的某个调用API的OCR工具,是混合调用的,一天500条,你盯着一家撸,肯定不行% s$ W" ?4 M5 |- \0 ~, d
    + w( T. s0 j  Y/ R4 R& Z
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-15 09:35:44 | 显示全部楼层
    klwo2 发表于 2023-10-12 18:11
    . [/ w0 b/ g% M0 T没太懂你,按说张柏然版的是大学版,例句比新牛津少。1 j3 S3 y/ l" ^! P5 i, J
    2 p8 E9 }" z( q$ ^$ p; l# R
    我用的某个调用API的OCR工具,是混合调用的,一天50 ...

    6 u( R' |, t7 x/ u& X( `5 d考虑到这本的翻译质量好。K大也可以推荐一些其他的高质量词典
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-15 09:37:05 | 显示全部楼层
    klwo2 发表于 2023-10-12 18:11& G5 |) Z& ~1 l2 m
    没太懂你,按说张柏然版的是大学版,例句比新牛津少。
    8 r/ k& h% \/ A. W3 ~* n6 o1 a7 }3 d2 g
    我用的某个调用API的OCR工具,是混合调用的,一天50 ...
    某个调用API的OCR工具,是混合调用的,一天500条
    1 _, N: _  `1 O/ G6 Y

    % O) Q# ^9 ~1 q3 \( b" k2 j不知道是哪个工具?
  • TA的每日心情
    开心
    2024-4-18 00:54
  • 签到天数: 1014 天

    [LV.10]以坛为家III

    发表于 2023-10-16 00:46:36 | 显示全部楼层
    jonah_w 发表于 2023-10-15 09:35
    , w! g8 ~) ]: w& L. q$ ^考虑到这本的翻译质量好。K大也可以推荐一些其他的高质量词典

    " {: R; x7 G+ w$ l5 @" O7 M( D& B* t柏然版是李华驹翻译的。当然,李华驹翻译得也确实不错。

    该用户从未签到

    发表于 2023-10-19 14:29:47 | 显示全部楼层
    jonah_w 发表于 2023-10-15 09:35: k6 `9 s2 E6 _3 Y2 j
    考虑到这本的翻译质量好。K大也可以推荐一些其他的高质量词典

    ; Z) C8 A1 }# G1 f7 a* f# V$ L例句少,质量好也没辙呀,比如你这张图里,只有yammer有例句; O4 F6 f' t) \

    + l& ]$ I) j& P/ a% \我用的https://ocr.oldfish.cn/- x+ v& t% D1 s7 c6 w9 @* y
    $ y; b  o5 b8 P6 S4 K
    不过这是我随便选的# r: Z2 k9 ]9 R' ~1 z4 W& g4 b
    ! l; ~4 l( R+ K! c. b
    其实我用过好些个反查,准确率就那样,质量较差,一般跳过不看的是……《文馨当代英汉词典》  Y9 _3 ]2 B2 V

    该用户从未签到

    发表于 2023-10-19 15:00:54 | 显示全部楼层
    jonah_w 发表于 2023-10-15 09:35
    / o1 X; {" a" `, J1 F* C+ \考虑到这本的翻译质量好。K大也可以推荐一些其他的高质量词典
    ' m5 ^) ^* C" h+ Z5 u
    再来补充几句吧。我最近用例句反查用得比较多。纯粹从准确性(给出的词语、译文是否准确)、多样性(给出的词语、译文是否丰富)的角度看——* K2 X* J8 b6 c8 ^" k& G, k  z* H
    ! F' W% m# R1 ]( G8 k7 F; D
    (1)汉英词典基本上没什么特别的用处,也不用做反查。有些专书,如《汉英词通》,我做了图片版,有些后悔;* [% s8 i! o4 {2 d
    (2)一般的ESL词典都可以做,差别不大。都会有错误,不过谁也没比谁差到哪里去;' U! [2 n7 p. z  V/ o; p
    (3)林语堂先生的英语是很好的,对汉语的理解又准,有好些东西别的汉英词典没有。不过他的汉英词典自带反查,所以我觉得可以挖一挖他的双语著作做做例句反查
    1 F6 h/ ~3 c0 o4 [$ E& o" ](4)霍克思(David Hawkes)翻译的红楼梦,其实很适合做反查:https://culture.gmw.cn/2020-03/29/content_33695610.htm
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-19 15:08:54 | 显示全部楼层
    klwo2 发表于 2023-10-19 14:29
    2 e+ U" K+ l! o6 H9 H$ ?例句少,质量好也没辙呀,比如你这张图里,只有yammer有例句
    , P' b' R8 e1 \) f! S, e  j
    $ a9 M* x- _5 z0 J  K我用的https://ocr.oldfish.cn/
      E, Z8 o5 K, e
    https://ocr.oldfish.cn/ 这个是不是只能下载他们的Windows软件使用?没有找到调用API的接口文档之类的。
    7 }! m9 O4 K7 M  r
    - N, }9 @- A& H. P. E- H$ F3 p反查我主要用来查英文例句和英文释义的句子了,汉语反查用的不是很多,不知道其他人
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-19 15:11:39 | 显示全部楼层
    klwo2 发表于 2023-10-19 14:29
    5 u7 u4 C/ Q9 `. I  D- J1 q例句少,质量好也没辙呀,比如你这张图里,只有yammer有例句
    7 L+ b: ]& [: F0 p  D  V" a
    . g. h0 G8 R4 G我用的https://ocr.oldfish.cn/

    * _8 q: L, o  A  F( V' w5 W确实例句少。不过英文释义,有时候也有点用。虽然不如例句有用

    该用户从未签到

    发表于 2023-10-19 15:26:03 | 显示全部楼层
    jonah_w 发表于 2023-10-19 15:084 H8 s- H6 _: i/ ]- X- j
    https://ocr.oldfish.cn/ 这个是不是只能下载他们的Windows软件使用?没有找到调用API的接口文档之类的。 ...

    6 R; c5 m1 N7 y* N9 m【反查我主要用来查英文例句和英文释义的句子了,汉语反查用的不是很多,不知道其他人】这句我没太懂,你主要是怎么用?
    6 {3 S0 [4 W2 S; M8 P; O) \$ ~- y9 A9 J) P* s6 _
    张柏然版新牛津,跟新牛津的释义绝大部分相同啊
    6 g; k! {3 y) i  T8 Q% c) z
    6 P/ ]) K9 b2 a' c+ ?至于工具,本来就是我随意找的,你可以多看看,按理说,它是调用多个api,会比单个api稳定一点
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-19 15:58:19 | 显示全部楼层
    本帖最后由 jonah_w 于 2023-10-19 16:00 编辑 , u$ l" h5 o5 f6 a
    klwo2 发表于 2023-10-19 15:261 j0 R4 L/ e4 a: x3 k/ j6 G( c/ X
    【反查我主要用来查英文例句和英文释义的句子了,汉语反查用的不是很多,不知道其他人】这句我没太懂,你 ...
    + q+ I0 w3 j/ \, q4 @+ V$ U
    & ]. }& f3 `  o! L
    比如某个英文表达或者罕见的短语,我不确定是不是地道,就在goldendict搜下例句反查,看看有多少例句包含了这个表达,用的语境是什么。这样经常可以深刻理解一个英文表达或短语。4 ~. q* V8 ?0 C

    0 O: \. i1 D& P1 X: E! Q或者某个常用表达,我想知道在语法里这种表达叫什么,语法上有什么具体说法、解释之类的,就可以反查语法类的词典8 H- @& |. {: v' z; S

    & N( P9 K+ X8 k3 i或者想知道形容一个人极度高兴的单词或者短语是哪个?查 extremely happy,这种一般在英文释义的反查里可以查到(反查英文释义找词头)' N/ T+ T) O& b6 N* ~6 n6 e
    9 a( K4 k# i& Q% s8 G
    不过,最后这种场景也非常适合用chatgpt
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-19 16:01:40 | 显示全部楼层
    klwo2 发表于 2023-10-19 15:26/ J3 F8 U% w, o
    【反查我主要用来查英文例句和英文释义的句子了,汉语反查用的不是很多,不知道其他人】这句我没太懂,你 ...
    张柏然版新牛津,跟新牛津的释义绝大部分相同啊

    6 X4 ]* g4 S& O+ \; }& i/ N' g9 ?4 O& f; W5 D: a) e
    那可能确实没必要了… 后面看看吧
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-19 16:06:12 | 显示全部楼层
    klwo2 发表于 2023-10-19 15:26
    1 b4 S, b. K4 Z. O# n2 ^【反查我主要用来查英文例句和英文释义的句子了,汉语反查用的不是很多,不知道其他人】这句我没太懂,你 ...
    按理说,它是调用多个api,会比单个api稳定一点

    6 x1 C% l4 k& Q9 C0 K
    9 f- P6 A2 P3 u& b' B! B9 T他内部可能是调用了多个api,但如果不暴露给用户的,就很像黑箱操作,缺了灵活性。' O  A# l! t9 N+ g$ F, C$ O
    百度,腾讯,谷歌提供的OCR接口,很多也需要很多修改,才能适应图片的多样性,比如很多词典是双栏,甚至三栏的,直接用官方接口,会有很多问题。
    1 T9 e7 O# x9 [- f
    + V7 g6 ~* F1 b0 q偶尔用用,这个软件应该问题不大。(不过这个软件在我这个Windows虚拟机里运行不了,所以我也没法测试了…)

    该用户从未签到

    发表于 2023-10-19 16:36:50 | 显示全部楼层
    jonah_w 发表于 2023-10-19 15:586 j1 V( G9 M- \) p. ~& b
    比如某个英文表达或者罕见的短语,我不确定是不是地道,就在goldendict搜下例句反查,看看有多少例句包含 ...
    : q- D* a1 m: l' p0 W5 R
    (1)其实想要确定某个表达是否地道,靠词典里的例句是不够的,因为这些词典囿于纸书的限制,不可能无限收录句子,最好的办法还是Google。
    * l! `! x( T3 N' j$ r. A  n/ U' O* X8 ^4 c% Q9 z' z
    Google也有局限性,比如你刚说的【不确定是不是地道】,google搜索结果为3个。假如你没有汉语语感,还是确定不了的。但是至少比词典的例句多。
    4 w4 p! s$ V) _- ~, H% |0 N1 p- n! q8 Z
    有些工具、语料库资源可以帮你,比如linggle、ludwig.guru,它们的好处是语料比较纯净,不会把中国媒体、印度媒体、菲律宾媒体的不地道说法囊括进来,但是规模就小很多了。2 f2 Y3 g! I: p

    . S! m* K: c9 ?(2)语法问题不宜零敲碎打解决。& u! e% H( j* @! ?. O( U
    (3)这种用thesaurus就可以解决的& m- q  j* u/ s+ @! u

    9 s5 E$ j' ~$ V, l* l1 M" q) {5 O* R用chatgpt当然可以,不过准确性就需要验证了
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-19 17:52:51 | 显示全部楼层
    klwo2 发表于 2023-10-19 16:36
    4 }8 V; U5 ?/ U) _, h- Y3 a& O; [(1)其实想要确定某个表达是否地道,靠词典里的例句是不够的,因为这些词典囿于纸书的限制,不可能无限 ...
    . j- T2 A- K: n, w& Q
    因为输入任何单词组合,Google好像都有结果… 有时候可能不好判断,地道与否。对词典语料来说,小范围内可控/ x( M* L( h7 Y

    2 T/ J. f7 C# K( n) ?当然Google肯定可以当那个last resort
    & p8 v- L2 D8 r. n$ Z& H0 B# k/ @3 m4 C' t. K! b+ d2 }
    嗯,语法最好可以系统学习一遍。我现在的做法是假装已经系统学过了,然后把语法书当成词典语料去使用,有时候会有小惊喜。
    $ B' b/ \+ D) @7 P; Q+ F
      p2 Y2 k0 }8 |4 W" F5 r3 ?是的,thesaurus 类词典也在用,释义反查 contribute to it as well. so it's nice to have it.

    该用户从未签到

    发表于 2023-10-19 20:44:33 | 显示全部楼层
    jonah_w 发表于 2023-10-19 17:529 `' M* V8 j5 u  w8 `/ {
    因为输入任何单词组合,Google好像都有结果…  有时候可能不好判断,地道与否。对词典语料来说, ...
    * f! ]. l# K, W4 U  n! G7 d  f
    当然不是输入任何单词组合,Google都有结果+ |" |1 m/ ^1 g; H3 g/ ~+ D
    3 G- K/ p! ]$ a, H- \5 ^5 i3 u
    想要判断一句话是否地道,我认为最快的办法是:请ChatGPT写出你想要判断的句子的更地道的、同义表达,然后一个个去google搜索看结果。不要轻信ChatGPT的结论,只利用它给的句子。
    . D  x& L" K$ K
    2 X  C6 c/ D5 \6 U最快的办法不是最优的办法。最优的办法当然是提高自身语感了,只不过这就难了。# k4 ]* ~+ e' F1 K2 T% {# p
    * \( M( L+ B; ?# B. r
    此外,例句反查不需要用goldendict嘛,直接用archivarius 3000这类软件或者搞一个语料库软件(论坛置顶就有)
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-19 23:17:59 | 显示全部楼层
    klwo2 发表于 2023-10-19 20:44
    * |% x$ Y9 z( o$ ^6 S; I当然不是输入任何单词组合,Google都有结果3 ^( c  G' @) g

    + W  v1 Q( x1 S1 ]想要判断一句话是否地道,我认为最快的办法是:请ChatGPT写 ...
    例句反查不需要用goldendict嘛,直接用archivarius 3000这类软件或者搞一个语料库软件

    5 {# M1 ?7 m0 M
    ! k( Z: ?, R" z% G. [: f5 y& F有语料库软件。我是直接用命令行搜索语料txt文件。这种方式当然是可以的,但相比goldendict少了排版。感觉平时还是更习惯于用goldendict查询。另外,专门优化的MDX可以做到尽可能的把一个句子的各种context集中到一起,放的互相更近一点,方便一眼就看到各种上下文信息。语料库这方面也稍微差一些
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-19 23:21:14 | 显示全部楼层
    klwo2 发表于 2023-10-19 20:445 n1 Z% C4 i2 n/ X$ c. S2 o
    当然不是输入任何单词组合,Google都有结果
    # R9 `& Q: ^: f# O* N7 y+ _, Q6 g$ x! f3 J+ j6 E; x3 _2 V6 A
    想要判断一句话是否地道,我认为最快的办法是:请ChatGPT写 ...

    " d  r. ^+ m+ N) y$ X是的,chatgpt用好了,对学习英语有大用。可惜国内多数人用不上

    该用户从未签到

    发表于 2023-10-20 01:03:49 | 显示全部楼层
    jonah_w 发表于 2023-10-19 23:210 x) U% c* d( c4 b8 g  T+ O' f
    是的,chatgpt用好了,对学习英语有大用。可惜国内多数人用不上

    0 X4 K9 Z# e9 v1 |9 ^' I: dgoogle也是“国内多数人用不上”啊) [. f2 L9 C5 u+ P$ y& }# O+ h
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-20 09:26:10 | 显示全部楼层
    klwo2 发表于 2023-10-20 01:03* q) f( u7 _( x, F) l
    google也是“国内多数人用不上”啊

    6 V. L/ ?7 ]; W$ N% B- c哈哈哈… 确实
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-6-6 17:36 , Processed in 0.078675 second(s), 9 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表