掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 834|回复: 19

[讨论] 最近学习制作图片词典,想制作张柏然版新牛津全索引词典

[复制链接]
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

    发表于 2023-10-10 12:07:21 | 显示全部楼层 |阅读模式
    本帖最后由 jonah_w 于 2023-10-10 12:12 编辑
    4 M; g& L/ G" M' S5 H! l
    ; ^! O3 [$ s% m) \, c学习的VimVim的图片制作工具,强烈推荐
    / D- `7 y, |2 e
    ! \# q% g* d9 H- y需要用到百度的云OCR服务。因为接近3000张图片,每月500张图片的免费额度不够用…) i& k& m! O' Z6 S2 Q* p
    + k. `. F& j2 H
    就想着在论坛问问,是否有对这部词典感兴趣的,众筹足够的OCR额度,对这部词典进行全文OCR,并制作为全索引图片词典MDX,方便对词典的例句进行全文检索。3 R: Q2 U) M3 Z8 r  p+ s
    1 n" D! a- v6 h5 ~# {
    感兴趣的可以留言或者私信我哈。 6个人参与即可。% `9 p( L: D& ]' a* }7 A
    ) C# Y& B( M' D3 A
    p.s. 不知道类似帖子是否违规,如果违规,可以提醒我哈。
    5 V3 L$ @  |) j0 x3 ^
    + Y! [) n1 k# j" d' O7 s& l- J- nOCR了一页看看效果,感觉还不错:8 [! g! M3 E3 z2 j2 ~
    9 W9 i  i. c2 x4 C  F' k

    2 d# w5 K' O3 g, `% h- C! d# M9 ]( b; s, E
    , @6 i% a1 f; N- U0 \

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

    发表于 2023-10-12 18:11:02 | 显示全部楼层
    没太懂你,按说张柏然版的是大学版,例句比新牛津少。9 Y, s0 K4 O4 \+ S; }
    / G7 R# i8 k% O5 x7 \
    我用的某个调用API的OCR工具,是混合调用的,一天500条,你盯着一家撸,肯定不行
    3 K4 m* q% t8 ]% X& i7 d% O* ?
    1 m7 I- w/ B! f; h
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-15 09:35:44 | 显示全部楼层
    klwo2 发表于 2023-10-12 18:11
    . F3 x9 A/ J+ B/ p" M5 Z$ D没太懂你,按说张柏然版的是大学版,例句比新牛津少。
    ) o2 b( v. e/ u# L" |
    % S& l& ^8 l% M# b1 g: o0 T, q我用的某个调用API的OCR工具,是混合调用的,一天50 ...
    $ C/ C" |; f+ G& n0 J
    考虑到这本的翻译质量好。K大也可以推荐一些其他的高质量词典
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-15 09:37:05 | 显示全部楼层
    klwo2 发表于 2023-10-12 18:11$ q" s# I% g: z
    没太懂你,按说张柏然版的是大学版,例句比新牛津少。3 z: J( ^6 P- y8 p' h

    % t. z) A: N: q) V我用的某个调用API的OCR工具,是混合调用的,一天50 ...
    某个调用API的OCR工具,是混合调用的,一天500条

    " b' }$ W5 m. a+ A% i' c6 T# ^. b2 V! f( t# P# X+ o
    不知道是哪个工具?
  • TA的每日心情
    开心
    2024-4-18 00:54
  • 签到天数: 1014 天

    [LV.10]以坛为家III

    发表于 2023-10-16 00:46:36 | 显示全部楼层
    jonah_w 发表于 2023-10-15 09:35, Z9 I! b5 L3 F
    考虑到这本的翻译质量好。K大也可以推荐一些其他的高质量词典
    % A3 {: S* C  c- A3 }
    柏然版是李华驹翻译的。当然,李华驹翻译得也确实不错。

    该用户从未签到

    发表于 2023-10-19 14:29:47 | 显示全部楼层
    jonah_w 发表于 2023-10-15 09:35
    + `" ~) d3 g/ ]- z+ a考虑到这本的翻译质量好。K大也可以推荐一些其他的高质量词典

    , T; \* _3 d1 m8 Z0 E5 \& J例句少,质量好也没辙呀,比如你这张图里,只有yammer有例句( A& c) ?% q8 q

    , K$ |( R" d- d0 W  t0 g我用的https://ocr.oldfish.cn/4 E  ^4 k$ G5 v( T4 [# j! ^

    , \: W; _( R1 w; `1 w7 l9 |不过这是我随便选的1 ?& R- z$ d+ C- D- n  ~: f. X# M$ L% L, N

      Y, ~, U3 V. L6 x: H其实我用过好些个反查,准确率就那样,质量较差,一般跳过不看的是……《文馨当代英汉词典》
    ) e* N% x% s5 f

    该用户从未签到

    发表于 2023-10-19 15:00:54 | 显示全部楼层
    jonah_w 发表于 2023-10-15 09:35
    + [2 j; z' A0 U& g, V! I考虑到这本的翻译质量好。K大也可以推荐一些其他的高质量词典

    * U5 J! Q& N$ Q, l5 f2 H7 H再来补充几句吧。我最近用例句反查用得比较多。纯粹从准确性(给出的词语、译文是否准确)、多样性(给出的词语、译文是否丰富)的角度看——! O0 e. Y; L+ m; R
    & X, g3 n; P* d& p, o* a/ V, u
    (1)汉英词典基本上没什么特别的用处,也不用做反查。有些专书,如《汉英词通》,我做了图片版,有些后悔;# t4 c5 C7 L, _; a
    (2)一般的ESL词典都可以做,差别不大。都会有错误,不过谁也没比谁差到哪里去;
    3 k4 B# D- i0 e(3)林语堂先生的英语是很好的,对汉语的理解又准,有好些东西别的汉英词典没有。不过他的汉英词典自带反查,所以我觉得可以挖一挖他的双语著作做做例句反查
    * R$ @, E8 a% ](4)霍克思(David Hawkes)翻译的红楼梦,其实很适合做反查:https://culture.gmw.cn/2020-03/29/content_33695610.htm
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-19 15:08:54 | 显示全部楼层
    klwo2 发表于 2023-10-19 14:29" `& P0 T. {& a. u/ {3 ~
    例句少,质量好也没辙呀,比如你这张图里,只有yammer有例句5 c( ]  J" D% ]' o$ k5 X( L. x3 D* {
    * ?9 t" e: G- Z7 p! Q
    我用的https://ocr.oldfish.cn/

    & M6 y7 G1 p, ]) J% H: `https://ocr.oldfish.cn/ 这个是不是只能下载他们的Windows软件使用?没有找到调用API的接口文档之类的。
    + n6 s8 H$ L& p" S8 v* U5 K* j% k0 i5 @! {4 |0 ?2 l$ D% L
    反查我主要用来查英文例句和英文释义的句子了,汉语反查用的不是很多,不知道其他人
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-19 15:11:39 | 显示全部楼层
    klwo2 发表于 2023-10-19 14:299 B) s4 C9 o$ g) s4 O3 B8 a8 [
    例句少,质量好也没辙呀,比如你这张图里,只有yammer有例句
    ; _9 Z+ e2 o4 q9 g* Y9 \  S$ s) ^5 V1 t7 Q8 q1 f6 E
    我用的https://ocr.oldfish.cn/

    9 V* |! S6 u  l9 _7 H& X确实例句少。不过英文释义,有时候也有点用。虽然不如例句有用

    该用户从未签到

    发表于 2023-10-19 15:26:03 | 显示全部楼层
    jonah_w 发表于 2023-10-19 15:08
    8 C( |5 l$ c9 Thttps://ocr.oldfish.cn/ 这个是不是只能下载他们的Windows软件使用?没有找到调用API的接口文档之类的。 ...
    , K: E) S# U2 W, S
    【反查我主要用来查英文例句和英文释义的句子了,汉语反查用的不是很多,不知道其他人】这句我没太懂,你主要是怎么用?
    , Q4 @/ M& \8 i5 H  c
    % C  q% _9 ?, X9 s: {8 R张柏然版新牛津,跟新牛津的释义绝大部分相同啊! T5 f. V* i2 q$ a1 B- r

    " |3 e- r' N7 l7 c0 M7 c. y7 R- p- H! B至于工具,本来就是我随意找的,你可以多看看,按理说,它是调用多个api,会比单个api稳定一点
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-19 15:58:19 | 显示全部楼层
    本帖最后由 jonah_w 于 2023-10-19 16:00 编辑
    8 ~  M. a. o$ r0 R7 K
    klwo2 发表于 2023-10-19 15:26% Z: k6 @6 |1 X; R% `6 {
    【反查我主要用来查英文例句和英文释义的句子了,汉语反查用的不是很多,不知道其他人】这句我没太懂,你 ...
    & z1 S  ]0 M3 o0 c* Y0 b0 Z
    * [  C2 e; e& P) {
    比如某个英文表达或者罕见的短语,我不确定是不是地道,就在goldendict搜下例句反查,看看有多少例句包含了这个表达,用的语境是什么。这样经常可以深刻理解一个英文表达或短语。2 O* H2 l  r. f* ^6 C$ {7 Y$ V; `

    7 m! @' f6 H' D- D" _% H或者某个常用表达,我想知道在语法里这种表达叫什么,语法上有什么具体说法、解释之类的,就可以反查语法类的词典
    . [8 y# T! i# h( y' m  F5 j! A: _; ]7 _
    或者想知道形容一个人极度高兴的单词或者短语是哪个?查 extremely happy,这种一般在英文释义的反查里可以查到(反查英文释义找词头)
    . O5 ^1 l+ X; v5 k4 D5 L1 k5 T6 r$ a2 K
    不过,最后这种场景也非常适合用chatgpt
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-19 16:01:40 | 显示全部楼层
    klwo2 发表于 2023-10-19 15:26
    - k) d6 j3 o+ R" R4 l【反查我主要用来查英文例句和英文释义的句子了,汉语反查用的不是很多,不知道其他人】这句我没太懂,你 ...
    张柏然版新牛津,跟新牛津的释义绝大部分相同啊
    8 \7 g1 l9 r7 N
    / Q) f' c! G; C' g! ?8 ]
    那可能确实没必要了… 后面看看吧
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-19 16:06:12 | 显示全部楼层
    klwo2 发表于 2023-10-19 15:26
    1 `# T4 W& b( C" ?6 b【反查我主要用来查英文例句和英文释义的句子了,汉语反查用的不是很多,不知道其他人】这句我没太懂,你 ...
    按理说,它是调用多个api,会比单个api稳定一点
    & W  e& A: x. j( ]  _$ y$ `. D" f0 y

    + @3 K; z, Z4 l2 |9 J, @. j他内部可能是调用了多个api,但如果不暴露给用户的,就很像黑箱操作,缺了灵活性。, `9 N4 y" V+ i; E! m" c
    百度,腾讯,谷歌提供的OCR接口,很多也需要很多修改,才能适应图片的多样性,比如很多词典是双栏,甚至三栏的,直接用官方接口,会有很多问题。+ |* v1 ], e8 n6 [! c7 v6 ~
    - m" A: x: }! i9 a9 T
    偶尔用用,这个软件应该问题不大。(不过这个软件在我这个Windows虚拟机里运行不了,所以我也没法测试了…)

    该用户从未签到

    发表于 2023-10-19 16:36:50 | 显示全部楼层
    jonah_w 发表于 2023-10-19 15:58
    $ P  j2 Z0 h/ z# Z比如某个英文表达或者罕见的短语,我不确定是不是地道,就在goldendict搜下例句反查,看看有多少例句包含 ...

    : l* [- B9 m. s(1)其实想要确定某个表达是否地道,靠词典里的例句是不够的,因为这些词典囿于纸书的限制,不可能无限收录句子,最好的办法还是Google。  Q' Z/ P" L8 y! Q6 z
    0 _1 `: {2 P8 r4 e" p1 i. m* {
    Google也有局限性,比如你刚说的【不确定是不是地道】,google搜索结果为3个。假如你没有汉语语感,还是确定不了的。但是至少比词典的例句多。
    4 E6 p4 i5 b8 o: Z9 U# R) V% ~$ e3 H! B+ ?! z1 `3 B% y) _
    有些工具、语料库资源可以帮你,比如linggle、ludwig.guru,它们的好处是语料比较纯净,不会把中国媒体、印度媒体、菲律宾媒体的不地道说法囊括进来,但是规模就小很多了。
    9 S& a9 I) f5 H% n% t1 Y& k. [# C
    " u" D3 a& s) Y(2)语法问题不宜零敲碎打解决。" {  U4 U5 N8 I
    (3)这种用thesaurus就可以解决的
    % y4 x- n5 g; k2 C
    - q; v0 T- o( ~用chatgpt当然可以,不过准确性就需要验证了
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-19 17:52:51 | 显示全部楼层
    klwo2 发表于 2023-10-19 16:364 z* f# M9 L& F- L& E, H
    (1)其实想要确定某个表达是否地道,靠词典里的例句是不够的,因为这些词典囿于纸书的限制,不可能无限 ...

    / j4 }) D  ~' U7 F' N- S因为输入任何单词组合,Google好像都有结果… 有时候可能不好判断,地道与否。对词典语料来说,小范围内可控, a; w7 ]# u7 u

    ' ?5 @% |7 l* t6 N当然Google肯定可以当那个last resort# R' m0 O0 S& }, ~: ^
    4 d. d" N7 T5 J5 D& R
    嗯,语法最好可以系统学习一遍。我现在的做法是假装已经系统学过了,然后把语法书当成词典语料去使用,有时候会有小惊喜。+ D* f: f1 e' C) V8 J

    6 T. f) i+ S+ }; ~1 i4 i8 e是的,thesaurus 类词典也在用,释义反查 contribute to it as well. so it's nice to have it.

    该用户从未签到

    发表于 2023-10-19 20:44:33 | 显示全部楼层
    jonah_w 发表于 2023-10-19 17:52
    0 c5 D# v; |* y% W因为输入任何单词组合,Google好像都有结果…  有时候可能不好判断,地道与否。对词典语料来说, ...

    4 @& K3 u. {9 v' C6 x) z+ ?5 `9 _当然不是输入任何单词组合,Google都有结果
    ; T2 W6 {. s" b3 [( @& M5 o
    " h0 A8 ~& D: N$ F* ~# X8 U. R想要判断一句话是否地道,我认为最快的办法是:请ChatGPT写出你想要判断的句子的更地道的、同义表达,然后一个个去google搜索看结果。不要轻信ChatGPT的结论,只利用它给的句子。: W9 |) ^6 M* j* @. i  [7 s( l

    * ?0 x2 l# R: G" L* k! o最快的办法不是最优的办法。最优的办法当然是提高自身语感了,只不过这就难了。. F8 }% p# f* [, u/ f

      e/ i- O( k6 Z; a8 b5 @! Y; Q此外,例句反查不需要用goldendict嘛,直接用archivarius 3000这类软件或者搞一个语料库软件(论坛置顶就有)
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-19 23:17:59 | 显示全部楼层
    klwo2 发表于 2023-10-19 20:44
    1 W  ?& m0 B+ x5 i当然不是输入任何单词组合,Google都有结果! d! B4 O  v3 E
    ) |% _2 Y' j7 E. T2 d! k$ r
    想要判断一句话是否地道,我认为最快的办法是:请ChatGPT写 ...
    例句反查不需要用goldendict嘛,直接用archivarius 3000这类软件或者搞一个语料库软件

    ; F' ]! a' h6 `3 K3 _( x
    + v% b% Q1 P3 c有语料库软件。我是直接用命令行搜索语料txt文件。这种方式当然是可以的,但相比goldendict少了排版。感觉平时还是更习惯于用goldendict查询。另外,专门优化的MDX可以做到尽可能的把一个句子的各种context集中到一起,放的互相更近一点,方便一眼就看到各种上下文信息。语料库这方面也稍微差一些
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-19 23:21:14 | 显示全部楼层
    klwo2 发表于 2023-10-19 20:44
    1 I2 Z8 S% _* I. V2 ]7 v3 Y( }当然不是输入任何单词组合,Google都有结果
    9 E# R; I) ]8 T3 C% S
    . X& a6 M/ [( F1 Q/ y3 y% Z$ Q想要判断一句话是否地道,我认为最快的办法是:请ChatGPT写 ...

    5 u0 m0 ~) B. I9 L2 D是的,chatgpt用好了,对学习英语有大用。可惜国内多数人用不上

    该用户从未签到

    发表于 2023-10-20 01:03:49 | 显示全部楼层
    jonah_w 发表于 2023-10-19 23:21
    6 k$ d9 [6 g6 Q$ ^是的,chatgpt用好了,对学习英语有大用。可惜国内多数人用不上
    " e8 u: W# m3 I5 x7 I2 o
    google也是“国内多数人用不上”啊
    + [, H  t+ a! x/ S
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

     楼主| 发表于 2023-10-20 09:26:10 | 显示全部楼层
    klwo2 发表于 2023-10-20 01:03
    7 b' Z4 G9 m/ W9 L# Ygoogle也是“国内多数人用不上”啊

    & \7 M, J( H4 {: U哈哈哈… 确实
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-5-13 16:36 , Processed in 0.074846 second(s), 9 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表