掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 297|回复: 27

[讨论] [挖坑]【需要校对】Synonyms discriminated by Smith, Charles John

[复制链接]
  • TA的每日心情

    2019-2-16 21:57
  • 签到天数: 9 天

    [LV.3]偶尔看看II

    发表于 2019-8-14 12:00:22 | 显示全部楼层 |阅读模式
    本帖最后由 lmjiao 于 2019-8-16 14:35 编辑
    $ Z3 T, u- M/ Z: G, p, }7 H2 V. s
    & M- T8 _/ z+ i& v2 }Loveaffairs大推荐的两本专家级辨析词典之一 词典推荐帖
    & @, i' K& u4 V. E; t- ^/ r- U4 y/ d
    网上居然找到了:
    6 B) b4 E8 b, w' V( w更新:1911版扫描原图: B# y1 e* k/ F: e
    - Q. v: W1 `; q5 `! |
    看了书本数据,貌似直接OCR成无格式文本就行了。词条和关键词都全部大写了,可以直接用正则从纯文本提取出来。/ U& N2 H3 H, j7 s
    OCR难点在于个别法语字母,估计要用abbyy fine reader的训练模式。( _3 C/ v2 y( L7 b9 _) R
    ( n4 p) @* j7 v& e" J  Q
    更新:文档OCR好了,请见附件。 可以开始校对了。谢谢cocowind切图!  X2 O% J' D4 m# ~! R$ w
    & Q0 R% R( G; [! d# @* e: J! @9 `

    9 g1 k( _1 ~, u! h文档OCR成了纯文本,使用任何带拼写检查的文本编辑软件(word或者其它的都可以),可以对照原文校对。
    5 }1 Y9 @8 b) p9 H! m

    * H$ f/ n/ Z, }如果有大神出手校对的话,建议忽略所有括号中的希腊语、拉丁语、安格鲁撒克逊语。个别正文中直接引用的可以酌情保留。
    建议的校对格式:词头单独一行。每个段落单独一行。每条例证单独一行。% N. S9 B7 S# [8 `! H) a
    0 d2 n3 n3 a7 ~' N5 H8 p; W2 P. V+ h
    校对完成,会利用正则匹配和python脚本,重建词典格式。
    , L' a" L1 P9 J2 z; v
    : q, [4 a6 l$ ^" ]; I7 B) K
    ; X7 s% a( h1 G( d5 @8 b
    % b) Z0 K; L% @: i' c) ]7 I1 N) E8 u* A. f; {( P

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有帐号?免费注册

    x
  • TA的每日心情

    2019-2-16 21:57
  • 签到天数: 9 天

    [LV.3]偶尔看看II

     楼主| 发表于 2019-8-15 11:27:33 | 显示全部楼层
    本帖最后由 lmjiao 于 2019-8-15 11:29 编辑 9 R+ D. F! E' h4 P
    nihaocool1980 发表于 2019-8-15 09:26
    5 L; A& N; j! \& _1 }& T; f这是一个非常非常耗体力的活,相信我!还是慢慢来吧……

    ) m2 ~3 ~; r* s, j9 N) T嗯,不着急,慢慢弄,不急着完成。3 r2 X1 `1 w2 U
    这个词典对我个人比较重要,所以可以弄上个五年八年的。
    ' l4 {/ U& U4 c

    点评

    这份恒心与毅力让我感动!我要坚持学习英语,到那时候估计词汇量应该没有问题了,就可以用这个词典精进一下措辞和用法了,加油!  发表于 2019-8-16 08:49
  • TA的每日心情

    2019-2-16 21:57
  • 签到天数: 9 天

    [LV.3]偶尔看看II

     楼主| 发表于 2019-8-14 12:05:03 | 显示全部楼层
    是不是发错版了?如有需要还请版主移动到掌上百科编纂处

    点评

    不用担心,版块正确^_^  发表于 2019-8-14 13:15
  • TA的每日心情
    擦汗
    5 天前
  • 签到天数: 26 天

    [LV.4]偶尔看看III

    发表于 2019-8-14 16:45:23 | 显示全部楼层
    支持早日转为mdx
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

    发表于 2019-8-14 17:30:50 | 显示全部楼层
    看了一下,讲得非常通透。
      r$ S; |! S% ]) C
    . O1 k, J: X$ h$ t% n2 jOCR后应该可以做成mdx0 z6 l8 T( M, v/ \

    该用户从未签到

    发表于 2019-8-14 22:10:38 | 显示全部楼层
    jonah_w 发表于 2019-8-14 17:30
    2 J4 D. C3 b3 r* Z% a看了一下,讲得非常通透。
    ( F2 s. K  ~2 `$ E: H) U
    6 J) \+ _* s! F6 I' K. F, MOCR后应该可以做成mdx
    9 ], a6 ?: J. C) v: U! v# [" d
    的确如此,同义词辨析貌似细致入微,往往让人不得要领。这本词典的确不一般。期待!
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

    发表于 2019-8-14 22:21:47 | 显示全部楼层
    louislaolu 发表于 2019-8-14 22:10
    3 z/ ^: v9 @8 i的确如此,同义词辨析貌似细致入微,往往让人不得要领。这本词典的确不一般。期待! ...

    1 Z( M6 e- p7 _& Y# o' j6 t需要有心人提供OCR后比较完善的文本
  • TA的每日心情

    2019-2-16 21:57
  • 签到天数: 9 天

    [LV.3]偶尔看看II

     楼主| 发表于 2019-8-14 23:18:27 | 显示全部楼层
    本帖最后由 lmjiao 于 2019-8-14 23:23 编辑 9 ]. [( |( `$ N+ `! q0 E
    jonah_w 发表于 2019-8-14 22:213 s( E  ]( E  X7 s. B' g2 G
    需要有心人提供OCR后比较完善的文本

    4 ]" |% R. V6 K" E, |+ KOCR我有点心得,我打算自己搞。不过可能要过一阵子。2 O; a5 c3 F: a4 R- D7 J2 V6 E4 Z: j
    主要有两个,一个是原始图片要切图,是个体力活。另一个是特殊字符(法语)可能需要用户模式处理,我还没试过,看abbyy的网站貌似可以。
    # f, C. a* L% a$ n9 U! m: T& {
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

    发表于 2019-8-14 23:32:57 | 显示全部楼层
    lmjiao 发表于 2019-8-14 23:18
    " j) Z. I: p/ fOCR我有点心得,我打算自己搞。不过可能要过一阵子。8 n, P+ k3 g* G3 Z# I1 p  W
    主要有两个,一个是原始图片要切图,是个体力活。另 ...
    6 V: F- ]3 j2 A1 v  B$ b
    我对OCR完全没啥经验7 F' X6 A" _+ i" j4 |
    所以期待一下3 j+ }+ z8 S$ D' H+ J! v

    点评

    感谢支持!  发表于 2019-8-15 01:32
  • TA的每日心情
    开心
    2 小时前
  • 签到天数: 135 天

    [LV.7]常住居民III

    发表于 2019-8-14 23:45:29 | 显示全部楼层
    lmjiao 发表于 2019-8-14 23:18
    ) r) r8 a1 w7 TOCR我有点心得,我打算自己搞。不过可能要过一阵子。$ D1 v) S/ K4 b. N- p
    主要有两个,一个是原始图片要切图,是个体力活。另 ...

    $ M( M( i4 H3 F4 ^; ?* A( YArchive.org上的pdf貌似是双层ocr过的?如果是可以提取文本层
  • TA的每日心情
    开心
    昨天 00:23
  • 签到天数: 63 天

    [LV.6]常住居民II

    发表于 2019-8-15 01:13:28 | 显示全部楼层
    楼主热心高涨,期待大作早日问世。
  • TA的每日心情

    2019-2-16 21:57
  • 签到天数: 9 天

    [LV.3]偶尔看看II

     楼主| 发表于 2019-8-15 01:34:16 | 显示全部楼层
    cocowind 发表于 2019-8-14 23:45
    . z( D, N0 X1 k; BArchive.org上的pdf貌似是双层ocr过的?如果是可以提取文本层
    ! q) I9 G2 V/ ]. j; w5 q+ M' |
    那个识别的惨不忍睹。pdf制作的质量也不高。
    5 k5 R. Y1 k3 K4 R! D7 z0 g7 L: n9 R% C0 \$ v2 `/ p
    好在archive给了高清原图,可以重新再来一遍。
  • TA的每日心情
    慵懒
    昨天 13:56
  • 签到天数: 80 天

    [LV.6]常住居民II

    发表于 2019-8-15 09:26:57 | 显示全部楼层
    这是一个非常非常耗体力的活,相信我!还是慢慢来吧……
  • TA的每日心情

    2019-2-16 21:57
  • 签到天数: 9 天

    [LV.3]偶尔看看II

     楼主| 发表于 2019-8-15 14:37:18 | 显示全部楼层
    本帖最后由 lmjiao 于 2019-8-15 14:51 编辑
    : A( e' u# {9 m4 ]5 s
    & x2 \- A9 X  Z, J( j$ s( |6 ~$ J% v, P) y: {3 Z

    / Y+ q- i- p1 M& }( A+ M) a' h  b7 c9 K

    3 D! G  x3 J7 H6 Q: O) Qabbyy的训练模式果然够厉害,训练了一会儿之后英语已经基本没错误了,normal和italic字体都能识别。
    ) a& w; s: Q+ ]  C! S7 S- r- W- o- n) N
    就还剩一些拉丁语希腊语什么的字符还得练练。
    . {" l4 @; Q/ N0 ?. f/ B3 C  |( J
    . e5 ~3 C. w4 W$ T- I7 k% s' N用abbyy直接导出为epub效果,代码也比较干净。未做任何校对。
  • TA的每日心情

    2019-2-16 21:57
  • 签到天数: 9 天

    [LV.3]偶尔看看II

     楼主| 发表于 2019-8-15 14:59:06 | 显示全部楼层
    感兴趣的可以用abbyy fine reader 12自行导入 用户模式和语言,请见附件。( J. V6 T4 F( p# O
    - x/ x) |) V7 O  X) @; u
    ) h6 p9 L4 w* X5 J( a

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有帐号?免费注册

    x
  • TA的每日心情

    2019-2-16 21:57
  • 签到天数: 9 天

    [LV.3]偶尔看看II

     楼主| 发表于 2019-8-15 16:27:18 | 显示全部楼层
    估计了下工作量,至少需要几百个小时。几年内估计是完不成了
  • TA的每日心情
    擦汗
    昨天 07:08
  • 签到天数: 111 天

    [LV.6]常住居民II

    发表于 2019-8-15 19:21:42 | 显示全部楼层
    工作量超大呀,但期待您的大作!
  • TA的每日心情
    开心
    昨天 00:23
  • 签到天数: 63 天

    [LV.6]常住居民II

    发表于 2019-8-15 23:09:57 | 显示全部楼层
    lmjiao 发表于 2019-8-15 11:27& V4 y6 M& }: J7 T; g! C; d
    嗯,不着急,慢慢弄,不急着完成。3 h3 @/ G5 p/ f, @2 a/ [
    这个词典对我个人比较重要,所以可以弄上个五年八年的。$ [5 g5 y; x! S2 }: I. f5 s
    ...
    - d, r/ {/ _* P  D+ j2 U
    可以组织下多个人弄就快得多啊。如果有十个人,每人就70页而已。
  • TA的每日心情
    开心
    昨天 00:23
  • 签到天数: 63 天

    [LV.6]常住居民II

    发表于 2019-8-15 23:16:28 | 显示全部楼层
    另外,还可以用老马的软件ComicEnhancerPro,将页面进行图像处理,更利于abbyy 识别,所谓磨刀不误砍柴工。只是需要先把图片旋转,切边。" }6 x5 y4 K8 }) R/ ^* p! v

    " c( y" t  B4 f顺便问一下jp2格式的图片,什么软件操作方便啊(批量)。xnview转换为png时,体积大了10倍。想必是弄错了。
  • TA的每日心情

    2019-2-16 21:57
  • 签到天数: 9 天

    [LV.3]偶尔看看II

     楼主| 发表于 2019-8-16 09:31:54 | 显示全部楼层
    macos6 发表于 2019-8-15 23:16
    ( \1 W3 U; u* s7 V( j/ }" ?; Y* A7 `) y另外,还可以用老马的软件ComicEnhancerPro,将页面进行图像处理,更利于abbyy 识别,所谓磨刀不误砍柴工。 ...
    . T( ]! u  u7 Y' x8 A  E! ~1 d0 R$ m
    老马的全套我都在用,上面只是试验一下OCR的。另外,OCR时,尽量使用原图而不要做任何处理。任何处理都会损失信息。
    7 e( M3 V% t, k3 s3 ?8 n  S5 j) p% b+ O2 \. b$ T
    你是要OCR还是做pdf?OCR的话直接用abbyy打开就行。: H7 b+ V" V6 g3 \+ _. D
    # v  M  t7 p9 y2 p8 E
    做pdf的话应该可以用老马的freepic2pdf直接转吧。
    2 b5 Q. X2 R) m2 n6 F8 {. h5 z2 m; h! O8 A
    如果想要图像的话用老马的comicenhancerpro直接转成黑白双色的tiff就好了,体积很小,信息损失也最小0 T0 }6 M! {$ \: c5 T4 @
    9 b* X! E3 Y( F' j1 O
  • TA的每日心情

    2019-2-16 21:57
  • 签到天数: 9 天

    [LV.3]偶尔看看II

     楼主| 发表于 2019-8-16 09:36:29 | 显示全部楼层
    macos6 发表于 2019-8-15 23:09
    ! I: @! l  e2 y0 K, n可以组织下多个人弄就快得多啊。如果有十个人,每人就70页而已。

    * e5 t( `; v% c# l, }! W我没能耐做组织工作。而且,说实话辨析词典在这个小众论坛也是蛮小众的。
    # Q$ U/ z6 m( O( E' r' ~6 ?- a  e$ Y* Y" E. z( Z9 s  q
    说实话,主要是没时间。如果OCR成txt纯文本,格式都不要(后期可以通过正则匹配重建格式),拉丁语希腊语古安格鲁撒克逊语都不要,估计几天就能校对好了。可惜我个人实在没时间。
  • TA的每日心情
    开心
    昨天 00:23
  • 签到天数: 63 天

    [LV.6]常住居民II

    发表于 2019-8-16 09:41:33 | 显示全部楼层
    lmjiao 发表于 2019-8-16 09:31) B) N' ~" v5 G
    老马的全套我都在用,上面只是试验一下OCR的。另外,OCR时,尽量使用原图而不要做任何处理。任何处理都会 ...

      O' F/ V! v+ S' @2 F; X知悉。
    8 d: D" Z: h, x4 F  K& ~$ v, ?
    ! e8 j$ c4 r1 y- F" q. X4 C我是在折腾因为:原图要先旋转(偶数页左转90度;奇数页右转90度,或者相反如果我记错了)才能再进一步处理;我手里的旋转软件只支持jpg,png等少数几种格式,jp2肯定是不支持的。% S4 O& m2 e! b' y3 z: ?, T  a
    + X0 o% f2 i: x" e9 o
    在转png时遇到了体积10倍增加的问题。
  • TA的每日心情
    开心
    昨天 00:23
  • 签到天数: 63 天

    [LV.6]常住居民II

    发表于 2019-8-16 09:44:35 | 显示全部楼层
    lmjiao 发表于 2019-8-16 09:364 L  R7 i, C7 H, g
    我没能耐做组织工作。而且,说实话辨析词典在这个小众论坛也是蛮小众的。
    % L: e+ Q! e- R. g1 I& y
    & b/ O0 K9 J" O说实话,主要是没时间。如果OCR ...

    % ?5 d7 G9 `) a3 F' e这个确实是需要有持久力的人参加才好,其实如果能找到5个人 也是好的。最少也要快5倍哦;人员太多就很难掌控质量了。
  • TA的每日心情

    2019-2-16 21:57
  • 签到天数: 9 天

    [LV.3]偶尔看看II

     楼主| 发表于 2019-8-16 09:46:46 | 显示全部楼层
    macos6 发表于 2019-8-16 09:41; K, L2 V5 O; X( F# i
    知悉。
    , Q' p$ e$ {( U3 O/ a4 V0 B$ q% X3 U- P6 ?7 s/ E& D5 O
    我是在折腾因为:原图要先旋转(偶数页左转90度;奇数页右转90度,或者相反如果我记错了)才能再 ...

    . ^2 J1 r/ W* o/ t可以用老马的comicenhancerpro来旋转,支持jp2.
    ) E; `& F: I) A
    2 r  a3 m% f$ ^
    ; s! P4 o: |" \# e+ R) t
  • TA的每日心情

    2019-2-16 21:57
  • 签到天数: 9 天

    [LV.3]偶尔看看II

     楼主| 发表于 2019-8-16 09:48:57 | 显示全部楼层
    macos6 发表于 2019-8-16 09:448 X) V5 V. r) f' Y: B+ n
    这个确实是需要有持久力的人参加才好,其实如果能找到5个人 也是好的。最少也要快5倍哦;人员太多就很难 ...

    5 ^  W8 ?+ V! j  S8 S1 N1 g是的。O大建议过,文本化最好就5、6个人来搞。
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    顶部qrcode底部
    关注公众号送论坛充值码
    关注微信公众平台
    关注微信公众号 pdawiki,获取邀请码,看文抢积分,抽奖得浮云! Follow our Wechat official account "pdawiki", get invitation codes, and play the lottery to earn points (积分)!

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2019-8-25 02:54 , Processed in 0.569621 second(s), 10 queries , MemCache On.

    Powered by Discuz! X3.4

    © 2001-2017 Comsenz Inc.

    快速回复 返回顶部 返回列表