掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 805|回复: 19

[讨论] 最近学习制作图片词典,想制作张柏然版新牛津全索引词典

[复制链接]
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

    发表于 2023-10-10 12:07:21 | 显示全部楼层 |阅读模式
    本帖最后由 jonah_w 于 2023-10-10 12:12 编辑 1 Q5 g  t; a8 G: o/ z- B( N' P' y; b3 T
    2 B4 Z" ~6 l6 [" Y
    学习的VimVim的图片制作工具,强烈推荐
    % ], N' ~( e! u) s9 \- y+ G; w: r7 \9 k
    需要用到百度的云OCR服务。因为接近3000张图片,每月500张图片的免费额度不够用…
    : Z* A8 P! Q5 C6 j' s
    9 G$ q: n8 W1 o( I就想着在论坛问问,是否有对这部词典感兴趣的,众筹足够的OCR额度,对这部词典进行全文OCR,并制作为全索引图片词典MDX,方便对词典的例句进行全文检索。
    * ~* f$ h* A; _
    ' I6 w" V' D2 E- S  _4 l感兴趣的可以留言或者私信我哈。 6个人参与即可。
    - X$ q: C  s# x
    ' p1 m- L/ a' l. D$ T# mp.s. 不知道类似帖子是否违规,如果违规,可以提醒我哈。9 K6 Q1 [/ U6 a8 E4 ^5 e" L
    8 T% O+ F1 G' N+ B, T" ^* l9 r
    OCR了一页看看效果,感觉还不错:; z, F6 U: D4 l0 l
    % n  g$ K2 D9 s4 h. I/ E  I

    0 r1 [' v3 R0 x: b: Z
    & T0 T' r0 A! X- C/ W. H$ d7 s: i" o6 M% b2 v

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

    发表于 2023-10-12 18:11:02 | 显示全部楼层
    没太懂你,按说张柏然版的是大学版,例句比新牛津少。
    ) f8 c- [) l6 r' m. s8 s
    * a4 K% ~# ?- ^" J$ p我用的某个调用API的OCR工具,是混合调用的,一天500条,你盯着一家撸,肯定不行
    & F% R$ a8 i3 q
    * J0 g7 m! J7 q+ [0 Z
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-15 09:35:44 | 显示全部楼层
    klwo2 发表于 2023-10-12 18:11
    $ @4 j" `( v* ~0 e6 q0 l3 w3 p9 ?没太懂你,按说张柏然版的是大学版,例句比新牛津少。2 F$ f3 b5 {, p# u
    + u2 |! F0 H9 M* q; B6 y
    我用的某个调用API的OCR工具,是混合调用的,一天50 ...

    1 {9 S8 Z0 C: p. D# v考虑到这本的翻译质量好。K大也可以推荐一些其他的高质量词典
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-15 09:37:05 | 显示全部楼层
    klwo2 发表于 2023-10-12 18:11
    $ a8 C  [: M' C4 D, S没太懂你,按说张柏然版的是大学版,例句比新牛津少。
    ! S7 s. e% v7 E; P" s' L, h7 j% s" ?
    我用的某个调用API的OCR工具,是混合调用的,一天50 ...
    某个调用API的OCR工具,是混合调用的,一天500条

    . K1 l' g1 s3 Q0 U/ N' u: l$ z% h6 s* D6 u* e3 }
    不知道是哪个工具?
  • TA的每日心情
    开心
    2024-4-18 00:54
  • 签到天数: 1014 天

    [LV.10]以坛为家III

    发表于 2023-10-16 00:46:36 | 显示全部楼层
    jonah_w 发表于 2023-10-15 09:35
    5 b* P' u& l% L3 w考虑到这本的翻译质量好。K大也可以推荐一些其他的高质量词典

    " a% D* S1 Z% F" L2 L+ Y) }4 g5 U柏然版是李华驹翻译的。当然,李华驹翻译得也确实不错。

    该用户从未签到

    发表于 2023-10-19 14:29:47 | 显示全部楼层
    jonah_w 发表于 2023-10-15 09:35: V( X; j4 F! {' q
    考虑到这本的翻译质量好。K大也可以推荐一些其他的高质量词典

    / r# I9 Q7 C/ G( {例句少,质量好也没辙呀,比如你这张图里,只有yammer有例句
    & Y8 }% i7 w( _& s* Y. U6 r! `5 B* s* C" n) f% F& L. D# I. X
    我用的https://ocr.oldfish.cn/
    , L+ r. H# @7 ?: N1 l% H1 H' p8 R- z* D, l6 ?" y
    不过这是我随便选的5 H: C. s  {8 R6 H4 u7 F" M* `
    ' H. x2 P7 b$ i6 z  z0 U
    其实我用过好些个反查,准确率就那样,质量较差,一般跳过不看的是……《文馨当代英汉词典》
    % \7 M7 s/ L5 u( C

    该用户从未签到

    发表于 2023-10-19 15:00:54 | 显示全部楼层
    jonah_w 发表于 2023-10-15 09:35
    * P  J9 a3 a2 q9 h  R/ a考虑到这本的翻译质量好。K大也可以推荐一些其他的高质量词典

    : I' o; Y3 L5 K) z: m1 ]1 a/ P$ e再来补充几句吧。我最近用例句反查用得比较多。纯粹从准确性(给出的词语、译文是否准确)、多样性(给出的词语、译文是否丰富)的角度看——
    6 G1 b+ a+ Q) o! |* y& N5 z" k4 X8 H8 K; Q) Q0 E# y+ V3 i+ a0 ?
    (1)汉英词典基本上没什么特别的用处,也不用做反查。有些专书,如《汉英词通》,我做了图片版,有些后悔;
    + a9 d# X+ J# q' ?% v; s(2)一般的ESL词典都可以做,差别不大。都会有错误,不过谁也没比谁差到哪里去;
    6 U9 m  @  i/ e& c9 M/ I(3)林语堂先生的英语是很好的,对汉语的理解又准,有好些东西别的汉英词典没有。不过他的汉英词典自带反查,所以我觉得可以挖一挖他的双语著作做做例句反查
    0 Y( D* I4 Z6 b. F& y4 A(4)霍克思(David Hawkes)翻译的红楼梦,其实很适合做反查:https://culture.gmw.cn/2020-03/29/content_33695610.htm
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-19 15:08:54 | 显示全部楼层
    klwo2 发表于 2023-10-19 14:29* P* L  M6 u" l% y3 {
    例句少,质量好也没辙呀,比如你这张图里,只有yammer有例句& g" s' }3 R% D/ K: [$ e- H4 R3 {

    * O6 S% H. `0 m" I1 X+ [6 N我用的https://ocr.oldfish.cn/

    0 s5 Z3 y& d$ V- Rhttps://ocr.oldfish.cn/ 这个是不是只能下载他们的Windows软件使用?没有找到调用API的接口文档之类的。- W, y& m  b4 D( N$ T3 F4 q+ W+ m/ [

    . w- \7 x; O7 e3 C& C3 i反查我主要用来查英文例句和英文释义的句子了,汉语反查用的不是很多,不知道其他人
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-19 15:11:39 | 显示全部楼层
    klwo2 发表于 2023-10-19 14:29" V& O0 E; g3 X" A+ t
    例句少,质量好也没辙呀,比如你这张图里,只有yammer有例句
    % ^$ [: u+ S5 ~5 T1 Y6 a7 z: H  K6 V" h0 K, Y
    我用的https://ocr.oldfish.cn/

    : n( `% h: ?& R确实例句少。不过英文释义,有时候也有点用。虽然不如例句有用

    该用户从未签到

    发表于 2023-10-19 15:26:03 | 显示全部楼层
    jonah_w 发表于 2023-10-19 15:08
    6 g: z2 W7 @3 e6 C0 @/ ]8 L+ Khttps://ocr.oldfish.cn/ 这个是不是只能下载他们的Windows软件使用?没有找到调用API的接口文档之类的。 ...

    * e/ E" i! a: j, f* }0 v$ b  U6 c4 o【反查我主要用来查英文例句和英文释义的句子了,汉语反查用的不是很多,不知道其他人】这句我没太懂,你主要是怎么用?
    0 Y* ]/ G9 W( u) ~  G
    9 Y. v: F4 G. @3 {/ ]3 X张柏然版新牛津,跟新牛津的释义绝大部分相同啊2 A; d; b% r$ b8 r
    - H1 x: ?/ {- I
    至于工具,本来就是我随意找的,你可以多看看,按理说,它是调用多个api,会比单个api稳定一点
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-19 15:58:19 | 显示全部楼层
    本帖最后由 jonah_w 于 2023-10-19 16:00 编辑 / R& Q9 v+ @; z1 n: w
    klwo2 发表于 2023-10-19 15:26
    0 p0 ^9 U* @) t% X8 i9 X) {【反查我主要用来查英文例句和英文释义的句子了,汉语反查用的不是很多,不知道其他人】这句我没太懂,你 ...

    4 {1 U: A! E  e) O/ X5 ]2 L  D3 g( j( L9 [; Q) j. ~
    比如某个英文表达或者罕见的短语,我不确定是不是地道,就在goldendict搜下例句反查,看看有多少例句包含了这个表达,用的语境是什么。这样经常可以深刻理解一个英文表达或短语。" k) s- A, i3 y" q
    : y; Q1 b+ }0 a% q7 ^3 ~- G
    或者某个常用表达,我想知道在语法里这种表达叫什么,语法上有什么具体说法、解释之类的,就可以反查语法类的词典8 Z' }9 f. h  E7 n2 y0 ^$ h2 R
      G1 d0 m. I8 w4 K) E% j
    或者想知道形容一个人极度高兴的单词或者短语是哪个?查 extremely happy,这种一般在英文释义的反查里可以查到(反查英文释义找词头)
    & K# r6 @+ P) l& H+ N1 k' h) ]! n
    ) z4 R: J" T1 X6 L& j  w) x; L不过,最后这种场景也非常适合用chatgpt
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-19 16:01:40 | 显示全部楼层
    klwo2 发表于 2023-10-19 15:26
      _9 E) a7 p9 ?) [【反查我主要用来查英文例句和英文释义的句子了,汉语反查用的不是很多,不知道其他人】这句我没太懂,你 ...
    张柏然版新牛津,跟新牛津的释义绝大部分相同啊
    & K. @& g  w0 |! R/ m0 [: D8 ~
    ( g! S! L8 z$ @) W: l0 W0 u
    那可能确实没必要了… 后面看看吧
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-19 16:06:12 | 显示全部楼层
    klwo2 发表于 2023-10-19 15:264 K3 q: I1 J1 U' d; H
    【反查我主要用来查英文例句和英文释义的句子了,汉语反查用的不是很多,不知道其他人】这句我没太懂,你 ...
    按理说,它是调用多个api,会比单个api稳定一点

    / }4 l$ U& ^2 _5 f  Y! N3 z, s% `. Q3 y
    他内部可能是调用了多个api,但如果不暴露给用户的,就很像黑箱操作,缺了灵活性。
    ) v7 e9 j- E3 r5 e3 J. U百度,腾讯,谷歌提供的OCR接口,很多也需要很多修改,才能适应图片的多样性,比如很多词典是双栏,甚至三栏的,直接用官方接口,会有很多问题。
    . G, e& I! ?# S( ?" J9 n1 H+ Q+ G1 S% F, y! Z( y1 P9 q7 M
    偶尔用用,这个软件应该问题不大。(不过这个软件在我这个Windows虚拟机里运行不了,所以我也没法测试了…)

    该用户从未签到

    发表于 2023-10-19 16:36:50 | 显示全部楼层
    jonah_w 发表于 2023-10-19 15:58
    % T- m5 L5 R5 @. l* H/ e- r比如某个英文表达或者罕见的短语,我不确定是不是地道,就在goldendict搜下例句反查,看看有多少例句包含 ...
    : G' i, F' u$ |  o
    (1)其实想要确定某个表达是否地道,靠词典里的例句是不够的,因为这些词典囿于纸书的限制,不可能无限收录句子,最好的办法还是Google。7 B4 c1 n6 z) q. k7 v

    6 k5 \" X' B1 {Google也有局限性,比如你刚说的【不确定是不是地道】,google搜索结果为3个。假如你没有汉语语感,还是确定不了的。但是至少比词典的例句多。
    & A* p2 [- R, B* g' R; Q
    " Z% N! _1 i. q( t: u有些工具、语料库资源可以帮你,比如linggle、ludwig.guru,它们的好处是语料比较纯净,不会把中国媒体、印度媒体、菲律宾媒体的不地道说法囊括进来,但是规模就小很多了。
    # z* o1 [% g; G. g8 Q
    2 c' p1 _. C; E# L& W) K(2)语法问题不宜零敲碎打解决。
    4 x1 h3 u" v( g* v% m(3)这种用thesaurus就可以解决的" L1 B* X  x& }2 b: c  K( P
    0 ~* v( G" |9 @* [& ]3 \* C& O
    用chatgpt当然可以,不过准确性就需要验证了
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-19 17:52:51 | 显示全部楼层
    klwo2 发表于 2023-10-19 16:36
    ' m$ w* c, n7 l/ O! D(1)其实想要确定某个表达是否地道,靠词典里的例句是不够的,因为这些词典囿于纸书的限制,不可能无限 ...

    ) I! L; {' R) D3 y因为输入任何单词组合,Google好像都有结果… 有时候可能不好判断,地道与否。对词典语料来说,小范围内可控3 q- c# M+ h$ k* O7 ]* d

    $ x) M; {6 E$ e& ^; t% o9 [) r当然Google肯定可以当那个last resort
    " q5 n, a) w4 r3 X4 e. w
    ) m* P3 W2 ]# j1 N2 `5 h) b& ]嗯,语法最好可以系统学习一遍。我现在的做法是假装已经系统学过了,然后把语法书当成词典语料去使用,有时候会有小惊喜。* ^9 I9 ]; E" p/ M
    ( V" }* ?- C9 X$ f2 |4 B
    是的,thesaurus 类词典也在用,释义反查 contribute to it as well. so it's nice to have it.

    该用户从未签到

    发表于 2023-10-19 20:44:33 | 显示全部楼层
    jonah_w 发表于 2023-10-19 17:526 U+ n& e6 ]3 L. z
    因为输入任何单词组合,Google好像都有结果…  有时候可能不好判断,地道与否。对词典语料来说, ...

    0 R# u. |6 u& s: I4 i/ E当然不是输入任何单词组合,Google都有结果
    * e6 @6 X$ }. S% O7 t; @+ n- c& C+ k4 t
    想要判断一句话是否地道,我认为最快的办法是:请ChatGPT写出你想要判断的句子的更地道的、同义表达,然后一个个去google搜索看结果。不要轻信ChatGPT的结论,只利用它给的句子。
    9 {) ~4 C. u" ~# D2 D
    & P: @& h! V. d& O3 Q3 E最快的办法不是最优的办法。最优的办法当然是提高自身语感了,只不过这就难了。
    # W, @" ^1 L: s2 a" |4 j
    4 ]! e! m2 |! d: F! g8 i4 {. Q此外,例句反查不需要用goldendict嘛,直接用archivarius 3000这类软件或者搞一个语料库软件(论坛置顶就有)
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-19 23:17:59 | 显示全部楼层
    klwo2 发表于 2023-10-19 20:44
    2 O, o) F3 V$ y当然不是输入任何单词组合,Google都有结果
    ' y3 w0 _  P( p' n, e- Z
    5 c, R$ D, }0 ~3 R( i7 y想要判断一句话是否地道,我认为最快的办法是:请ChatGPT写 ...
    例句反查不需要用goldendict嘛,直接用archivarius 3000这类软件或者搞一个语料库软件

    * b& C3 ?$ O' ^( y' p+ B. H1 B- J  R2 z% U9 j% [8 B
    有语料库软件。我是直接用命令行搜索语料txt文件。这种方式当然是可以的,但相比goldendict少了排版。感觉平时还是更习惯于用goldendict查询。另外,专门优化的MDX可以做到尽可能的把一个句子的各种context集中到一起,放的互相更近一点,方便一眼就看到各种上下文信息。语料库这方面也稍微差一些
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-19 23:21:14 | 显示全部楼层
    klwo2 发表于 2023-10-19 20:444 m1 _3 q/ D1 c4 ]- K! f+ l. N% }; `
    当然不是输入任何单词组合,Google都有结果
    % I1 V  O7 l" i. r- V- y" b  I: f' `+ d; F, `+ ?9 x2 `
    想要判断一句话是否地道,我认为最快的办法是:请ChatGPT写 ...
    6 R- O0 p9 k  W3 D. V" P
    是的,chatgpt用好了,对学习英语有大用。可惜国内多数人用不上

    该用户从未签到

    发表于 2023-10-20 01:03:49 | 显示全部楼层
    jonah_w 发表于 2023-10-19 23:21
    $ Z( a6 ?; \0 g: K  Z是的,chatgpt用好了,对学习英语有大用。可惜国内多数人用不上

    , a, b3 {$ V/ Y  ~7 u9 }google也是“国内多数人用不上”啊
    2 W1 y0 G* v" E2 p- a: F
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-20 09:26:10 | 显示全部楼层
    klwo2 发表于 2023-10-20 01:03
    ' ]/ c) E/ E" Q1 jgoogle也是“国内多数人用不上”啊

    4 `# E4 D7 i8 y8 c+ q哈哈哈… 确实
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-4-28 19:52 , Processed in 0.062904 second(s), 8 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表