掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 830|回复: 19

[讨论] 最近学习制作图片词典,想制作张柏然版新牛津全索引词典

[复制链接]
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

    发表于 2023-10-10 12:07:21 | 显示全部楼层 |阅读模式
    本帖最后由 jonah_w 于 2023-10-10 12:12 编辑 ( p+ W" E% W1 N4 r

    0 o9 @1 y) r" ^  K7 [8 ^  r学习的VimVim的图片制作工具,强烈推荐) \  Q9 k( ?4 X) {9 z

    6 A  ~$ O' @# p! Z3 R/ T- c. S需要用到百度的云OCR服务。因为接近3000张图片,每月500张图片的免费额度不够用…
    + ~- g$ S, R7 n- ^4 o& N) z
    , C; N4 Y1 c; O- U+ {5 b就想着在论坛问问,是否有对这部词典感兴趣的,众筹足够的OCR额度,对这部词典进行全文OCR,并制作为全索引图片词典MDX,方便对词典的例句进行全文检索。6 `. ~$ X* o& H6 K! {; F7 s7 `
    6 H7 @" p3 x; f6 R
    感兴趣的可以留言或者私信我哈。 6个人参与即可。
    + }' l2 T4 V" x& Q3 @! ~0 r) I; `8 r7 B. ]- e$ i% i% i* v
    p.s. 不知道类似帖子是否违规,如果违规,可以提醒我哈。
    ! e- [, w7 X; i. d& w9 }9 _
    ( S4 t/ b/ z4 Q. Y1 w: t3 J+ nOCR了一页看看效果,感觉还不错:
    - y3 o, y' @) Z% B/ f! m9 }4 A
    " n! W8 v. W6 C; C  r
    0 ~% C- E3 T, b
    * `6 |+ U7 P4 _0 M  v
    ( z$ [& U6 B$ Z2 y6 ~2 D8 y

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

    发表于 2023-10-12 18:11:02 | 显示全部楼层
    没太懂你,按说张柏然版的是大学版,例句比新牛津少。
    - Q4 F& P2 ^% J' d
    / K6 A9 W3 ^% u* l2 F6 d9 h我用的某个调用API的OCR工具,是混合调用的,一天500条,你盯着一家撸,肯定不行
    # e) c3 d1 d9 D8 {7 A' o
    % H, B7 B( Q1 k8 c8 z$ v
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-15 09:35:44 | 显示全部楼层
    klwo2 发表于 2023-10-12 18:11
    0 L/ ^9 ?, L# [# d, X5 d' v* f没太懂你,按说张柏然版的是大学版,例句比新牛津少。5 c2 j) U- T  C: _8 i" Q
    5 f% B1 O  k* s0 R# J" Z
    我用的某个调用API的OCR工具,是混合调用的,一天50 ...
    % E) T: w' ?% j7 T; J
    考虑到这本的翻译质量好。K大也可以推荐一些其他的高质量词典
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-15 09:37:05 | 显示全部楼层
    klwo2 发表于 2023-10-12 18:11
    % J( k1 u+ X& |1 l. o! \8 F6 v& u" T! e/ S没太懂你,按说张柏然版的是大学版,例句比新牛津少。2 h1 U0 L8 ?1 F9 j

    - R: v5 ~; s- Y& ]' L我用的某个调用API的OCR工具,是混合调用的,一天50 ...
    某个调用API的OCR工具,是混合调用的,一天500条

    8 \  a9 Y+ D0 L; T- a" P# o% e' S, F6 Z/ ]; o
    不知道是哪个工具?
  • TA的每日心情
    开心
    2024-4-18 00:54
  • 签到天数: 1014 天

    [LV.10]以坛为家III

    发表于 2023-10-16 00:46:36 | 显示全部楼层
    jonah_w 发表于 2023-10-15 09:35* f+ a- o5 n# c  N4 S# Q
    考虑到这本的翻译质量好。K大也可以推荐一些其他的高质量词典
    : z- }: _) A* Q, c) H0 y9 y1 r
    柏然版是李华驹翻译的。当然,李华驹翻译得也确实不错。

    该用户从未签到

    发表于 2023-10-19 14:29:47 | 显示全部楼层
    jonah_w 发表于 2023-10-15 09:35
    * l) b, P1 _2 L# Y考虑到这本的翻译质量好。K大也可以推荐一些其他的高质量词典

    " Q7 [0 G- ^$ b例句少,质量好也没辙呀,比如你这张图里,只有yammer有例句
    2 X6 g5 r: I/ G4 x" B  m" D7 G3 i$ i* f
    我用的https://ocr.oldfish.cn/* @  v$ q9 o- _0 s
    + Q9 ^3 e$ k% O/ z$ ?. K+ l
    不过这是我随便选的
    5 s4 O, o' S' x& \# y6 o- U8 S% |' k6 Y! A# e  s2 V* G1 `
    其实我用过好些个反查,准确率就那样,质量较差,一般跳过不看的是……《文馨当代英汉词典》/ V. U3 \% X! w' i2 x

    该用户从未签到

    发表于 2023-10-19 15:00:54 | 显示全部楼层
    jonah_w 发表于 2023-10-15 09:35
    , [3 `* H" D* c1 B: x" g考虑到这本的翻译质量好。K大也可以推荐一些其他的高质量词典

    $ ^, v* Q$ o- v, p再来补充几句吧。我最近用例句反查用得比较多。纯粹从准确性(给出的词语、译文是否准确)、多样性(给出的词语、译文是否丰富)的角度看——
    * r: A0 H! m0 C; }! a, }2 F" N7 L8 ?/ [: r8 w6 @
    (1)汉英词典基本上没什么特别的用处,也不用做反查。有些专书,如《汉英词通》,我做了图片版,有些后悔;
    ' z! a+ [% ]5 ?9 J(2)一般的ESL词典都可以做,差别不大。都会有错误,不过谁也没比谁差到哪里去;
    ! o( K1 f) C9 O# \' y. o" W5 Y9 F1 H(3)林语堂先生的英语是很好的,对汉语的理解又准,有好些东西别的汉英词典没有。不过他的汉英词典自带反查,所以我觉得可以挖一挖他的双语著作做做例句反查
    6 M/ g" h# {; h(4)霍克思(David Hawkes)翻译的红楼梦,其实很适合做反查:https://culture.gmw.cn/2020-03/29/content_33695610.htm
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-19 15:08:54 | 显示全部楼层
    klwo2 发表于 2023-10-19 14:29
    7 P9 U; {$ [! I. l( g例句少,质量好也没辙呀,比如你这张图里,只有yammer有例句) y0 n3 i/ U/ p* v5 a- F$ O% t

    , F/ W* G$ \5 k! B8 J我用的https://ocr.oldfish.cn/
    1 W; G" r3 q% G/ H; m9 w. D9 y
    https://ocr.oldfish.cn/ 这个是不是只能下载他们的Windows软件使用?没有找到调用API的接口文档之类的。! @. R  c2 ]0 H( R0 `0 c  S/ H) B; D
    ! }, S* x9 J8 K+ i: ~* J9 K
    反查我主要用来查英文例句和英文释义的句子了,汉语反查用的不是很多,不知道其他人
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-19 15:11:39 | 显示全部楼层
    klwo2 发表于 2023-10-19 14:29
    2 `; g( b1 O+ {; x6 ~9 X例句少,质量好也没辙呀,比如你这张图里,只有yammer有例句& k1 h4 X5 `( _5 t8 c. @% H" e" N

    # @9 w8 c9 B( n) q; J9 y我用的https://ocr.oldfish.cn/
    5 W" k. r6 I; |" R- {
    确实例句少。不过英文释义,有时候也有点用。虽然不如例句有用

    该用户从未签到

    发表于 2023-10-19 15:26:03 | 显示全部楼层
    jonah_w 发表于 2023-10-19 15:08
    9 F8 R0 I! R& a: [" v9 Y$ hhttps://ocr.oldfish.cn/ 这个是不是只能下载他们的Windows软件使用?没有找到调用API的接口文档之类的。 ...
    6 r+ K  }+ Q, x! o
    【反查我主要用来查英文例句和英文释义的句子了,汉语反查用的不是很多,不知道其他人】这句我没太懂,你主要是怎么用?
    & s9 n+ J1 j' d: H+ l- @2 m% `
    张柏然版新牛津,跟新牛津的释义绝大部分相同啊% H# `; e; k+ H, e- r1 M

    . E0 _4 K, e, k, a9 s# O至于工具,本来就是我随意找的,你可以多看看,按理说,它是调用多个api,会比单个api稳定一点
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-19 15:58:19 | 显示全部楼层
    本帖最后由 jonah_w 于 2023-10-19 16:00 编辑
    6 H2 i& ]  B( K+ T8 B# H: q: ]- v
    klwo2 发表于 2023-10-19 15:26
    & |6 x, \# W' E3 L* t" ?: j1 Q【反查我主要用来查英文例句和英文释义的句子了,汉语反查用的不是很多,不知道其他人】这句我没太懂,你 ...

    6 X* p, {! q1 A" r+ ?3 _* r, g, B
    % R. u  s! O+ J$ T$ l- o比如某个英文表达或者罕见的短语,我不确定是不是地道,就在goldendict搜下例句反查,看看有多少例句包含了这个表达,用的语境是什么。这样经常可以深刻理解一个英文表达或短语。. O: M5 T- t* F. ]) B0 f6 l- l2 Q
    . r% C1 f  A, A
    或者某个常用表达,我想知道在语法里这种表达叫什么,语法上有什么具体说法、解释之类的,就可以反查语法类的词典
    4 m3 N7 s$ A9 `0 x& _5 f% T9 T* h% N9 g6 {1 ?5 L8 s
    或者想知道形容一个人极度高兴的单词或者短语是哪个?查 extremely happy,这种一般在英文释义的反查里可以查到(反查英文释义找词头)0 C" Q7 g! ^. m) G

    4 d# n3 o/ J$ v" U" m* S8 d不过,最后这种场景也非常适合用chatgpt
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-19 16:01:40 | 显示全部楼层
    klwo2 发表于 2023-10-19 15:26
    # _+ I$ k( Y: H$ e9 A" e) ~【反查我主要用来查英文例句和英文释义的句子了,汉语反查用的不是很多,不知道其他人】这句我没太懂,你 ...
    张柏然版新牛津,跟新牛津的释义绝大部分相同啊
    * k/ t$ Z  A6 \; ~" n' n

      C) v  F2 N; [/ t0 q5 ^: k4 ?那可能确实没必要了… 后面看看吧
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-19 16:06:12 | 显示全部楼层
    klwo2 发表于 2023-10-19 15:26$ Z  T. R* m' i) N0 F. L) R& ^
    【反查我主要用来查英文例句和英文释义的句子了,汉语反查用的不是很多,不知道其他人】这句我没太懂,你 ...
    按理说,它是调用多个api,会比单个api稳定一点

    ' n: Y. J. @1 t5 o! Z
    # g7 i' [8 A# ]0 v& k他内部可能是调用了多个api,但如果不暴露给用户的,就很像黑箱操作,缺了灵活性。
    / V, F7 w7 C2 U% F9 `; V" g7 T4 O2 I百度,腾讯,谷歌提供的OCR接口,很多也需要很多修改,才能适应图片的多样性,比如很多词典是双栏,甚至三栏的,直接用官方接口,会有很多问题。+ _, `2 d2 M2 m1 B( M
    + @- \! C7 \7 C" T
    偶尔用用,这个软件应该问题不大。(不过这个软件在我这个Windows虚拟机里运行不了,所以我也没法测试了…)

    该用户从未签到

    发表于 2023-10-19 16:36:50 | 显示全部楼层
    jonah_w 发表于 2023-10-19 15:58
    * Z- V) S! Q7 l6 }1 \4 Y比如某个英文表达或者罕见的短语,我不确定是不是地道,就在goldendict搜下例句反查,看看有多少例句包含 ...
    9 \  f* z: \$ R# I( X% V
    (1)其实想要确定某个表达是否地道,靠词典里的例句是不够的,因为这些词典囿于纸书的限制,不可能无限收录句子,最好的办法还是Google。* x1 ?% V$ e4 Z. \

    ' O3 Q. E" d3 E' @# sGoogle也有局限性,比如你刚说的【不确定是不是地道】,google搜索结果为3个。假如你没有汉语语感,还是确定不了的。但是至少比词典的例句多。
    0 w% ^+ f" ]6 D6 s& ]  ^* W& r$ Z8 u# _: }* K8 n: X( |
    有些工具、语料库资源可以帮你,比如linggle、ludwig.guru,它们的好处是语料比较纯净,不会把中国媒体、印度媒体、菲律宾媒体的不地道说法囊括进来,但是规模就小很多了。" e% ?, t! \) i: L, z
    " f$ v/ ~1 t0 [9 ?* h" G
    (2)语法问题不宜零敲碎打解决。
    6 h1 F  d7 k7 C) a- j(3)这种用thesaurus就可以解决的
    7 Z6 Q' [2 _1 |! X4 t- ^2 x0 F6 @: R1 t" B! o& K' S$ X+ b
    用chatgpt当然可以,不过准确性就需要验证了
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-19 17:52:51 | 显示全部楼层
    klwo2 发表于 2023-10-19 16:36
    % R# ^5 E' l( ~/ }8 f  ~$ I(1)其实想要确定某个表达是否地道,靠词典里的例句是不够的,因为这些词典囿于纸书的限制,不可能无限 ...

    ' d3 t+ N. R0 T因为输入任何单词组合,Google好像都有结果… 有时候可能不好判断,地道与否。对词典语料来说,小范围内可控
    & S% _9 N& ], O6 X$ b* n+ k$ e  J! ]: |, ?! W* a& K& @
    当然Google肯定可以当那个last resort0 N/ ?  ^3 D, j
    4 H! X* U9 d' c; y  Z
    嗯,语法最好可以系统学习一遍。我现在的做法是假装已经系统学过了,然后把语法书当成词典语料去使用,有时候会有小惊喜。& d- Z/ n5 C7 c1 d& G

    ; w, l* a6 T/ w8 Z  L是的,thesaurus 类词典也在用,释义反查 contribute to it as well. so it's nice to have it.

    该用户从未签到

    发表于 2023-10-19 20:44:33 | 显示全部楼层
    jonah_w 发表于 2023-10-19 17:52
    ; A: T3 {: K( Z% i% O0 n, x/ t因为输入任何单词组合,Google好像都有结果…  有时候可能不好判断,地道与否。对词典语料来说, ...

    ( r( K* |1 K6 X* u' E- X1 ~$ N当然不是输入任何单词组合,Google都有结果
    2 a$ f/ c' l  U4 P
    - Q, o1 I( p- f想要判断一句话是否地道,我认为最快的办法是:请ChatGPT写出你想要判断的句子的更地道的、同义表达,然后一个个去google搜索看结果。不要轻信ChatGPT的结论,只利用它给的句子。
      Q* l. E% f! q7 u/ l& r0 F3 A  W' C& g1 T
    最快的办法不是最优的办法。最优的办法当然是提高自身语感了,只不过这就难了。) J9 q8 x6 b! r/ w/ w4 t9 i4 `7 ~* |
    9 @8 U1 c% b. Y) T  e1 v: ]
    此外,例句反查不需要用goldendict嘛,直接用archivarius 3000这类软件或者搞一个语料库软件(论坛置顶就有)
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-19 23:17:59 | 显示全部楼层
    klwo2 发表于 2023-10-19 20:442 k% C- o  l  c
    当然不是输入任何单词组合,Google都有结果0 A+ t: @! A0 y- U

    + `. p! i% P3 q# ]. E" F, K& J想要判断一句话是否地道,我认为最快的办法是:请ChatGPT写 ...
    例句反查不需要用goldendict嘛,直接用archivarius 3000这类软件或者搞一个语料库软件

    & t6 u% }8 c! w2 |; A6 H
    8 l3 M+ J0 |% W  F4 o9 V有语料库软件。我是直接用命令行搜索语料txt文件。这种方式当然是可以的,但相比goldendict少了排版。感觉平时还是更习惯于用goldendict查询。另外,专门优化的MDX可以做到尽可能的把一个句子的各种context集中到一起,放的互相更近一点,方便一眼就看到各种上下文信息。语料库这方面也稍微差一些
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-19 23:21:14 | 显示全部楼层
    klwo2 发表于 2023-10-19 20:443 g# R  U6 @# G' j7 z
    当然不是输入任何单词组合,Google都有结果
    " N7 m, @' g; Y$ \6 L0 Q3 G
    8 ?& O9 k1 ~" q$ l% J4 C想要判断一句话是否地道,我认为最快的办法是:请ChatGPT写 ...
    4 F# z  \; I5 f7 ?7 V# [' Y- z
    是的,chatgpt用好了,对学习英语有大用。可惜国内多数人用不上

    该用户从未签到

    发表于 2023-10-20 01:03:49 | 显示全部楼层
    jonah_w 发表于 2023-10-19 23:21
    & z3 m9 ?& U1 v3 H, ]: d是的,chatgpt用好了,对学习英语有大用。可惜国内多数人用不上

    5 ~9 M% R) `9 D! hgoogle也是“国内多数人用不上”啊" m+ x+ ?: Y. R8 E5 z
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-20 09:26:10 | 显示全部楼层
    klwo2 发表于 2023-10-20 01:03
    - `  q5 i! {6 m' g# ggoogle也是“国内多数人用不上”啊

    - j2 d0 g0 D2 d' I: d哈哈哈… 确实
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-5-12 20:33 , Processed in 0.050358 second(s), 9 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表