掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 499|回复: 27

[讨论] [挖坑]【需要校对】Synonyms discriminated by Smith, Charles John

[复制链接]
  • TA的每日心情

    2019-2-16 21:57
  • 签到天数: 9 天

    [LV.3]偶尔看看II

    发表于 2019-8-14 12:00:22 | 显示全部楼层 |阅读模式
    本帖最后由 lmjiao 于 2019-8-16 14:35 编辑 1 ]3 \' ]6 K( q1 v* B

    5 {, q( ]+ O) W0 A; |! ILoveaffairs大推荐的两本专家级辨析词典之一 词典推荐帖
    % g/ ^6 h. |$ D$ }+ _) w" Q) f$ V" r# g% c
    网上居然找到了:
    $ S# ]' ~( ?1 M. x8 e更新:1911版扫描原图5 Y' i6 ]4 ~) D
    : C6 F# ]5 e& u/ L% K
    看了书本数据,貌似直接OCR成无格式文本就行了。词条和关键词都全部大写了,可以直接用正则从纯文本提取出来。
    . E  {  @* {. |1 y2 |( KOCR难点在于个别法语字母,估计要用abbyy fine reader的训练模式。" X5 B7 b( d& ?% S% k' f, }

    1 k0 g3 N. \( ]' R4 ]+ {更新:文档OCR好了,请见附件。 可以开始校对了。谢谢cocowind切图!( D% {( d8 F: Y
    3 A1 \: t5 }1 a! y/ }! v

    / ^/ f) z" x. l7 S4 Z& i5 \; H) Y文档OCR成了纯文本,使用任何带拼写检查的文本编辑软件(word或者其它的都可以),可以对照原文校对。1 v7 s7 f* k/ u# u

    0 m+ c+ R: |7 ?7 J如果有大神出手校对的话,建议忽略所有括号中的希腊语、拉丁语、安格鲁撒克逊语。个别正文中直接引用的可以酌情保留。
    建议的校对格式:词头单独一行。每个段落单独一行。每条例证单独一行。
    0 u, |& Z; S" H5 W! w, c1 c8 k7 N  q$ {1 b
    校对完成,会利用正则匹配和python脚本,重建词典格式。' Q* {) y9 W/ \% ]& v( a
    3 t2 g# {8 J3 h2 l2 }9 _

    / p8 M  f* T1 Q2 L7 I' ^7 H- z# {* V' @4 L8 q& \/ i( p

    # o; A; T4 `1 t2 T" d

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有帐号?免费注册

    x
  • TA的每日心情

    2019-2-16 21:57
  • 签到天数: 9 天

    [LV.3]偶尔看看II

     楼主| 发表于 2019-8-15 11:27:33 | 显示全部楼层
    本帖最后由 lmjiao 于 2019-8-15 11:29 编辑 / k7 q$ i0 ~  v) J) H. a# O, z
    nihaocool1980 发表于 2019-8-15 09:26
    8 P- Z& T9 u: ]9 u- S/ U6 ~  n这是一个非常非常耗体力的活,相信我!还是慢慢来吧……
    3 Q4 y8 D; _# n* d# ~; k
    嗯,不着急,慢慢弄,不急着完成。) @/ m+ k) w  [- l
    这个词典对我个人比较重要,所以可以弄上个五年八年的。
    2 H7 q6 A( L- G6 _1 ]

    点评

    这份恒心与毅力让我感动!我要坚持学习英语,到那时候估计词汇量应该没有问题了,就可以用这个词典精进一下措辞和用法了,加油!  发表于 2019-8-16 08:49
  • TA的每日心情

    2019-2-16 21:57
  • 签到天数: 9 天

    [LV.3]偶尔看看II

     楼主| 发表于 2019-8-14 12:05:03 | 显示全部楼层
    是不是发错版了?如有需要还请版主移动到掌上百科编纂处

    点评

    不用担心,版块正确^_^  发表于 2019-8-14 13:15
  • TA的每日心情
    擦汗
    2019-8-20 15:11
  • 签到天数: 26 天

    [LV.4]偶尔看看III

    发表于 2019-8-14 16:45:23 | 显示全部楼层
    支持早日转为mdx
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

    发表于 2019-8-14 17:30:50 | 显示全部楼层
    看了一下,讲得非常通透。. \3 h8 l1 W5 |* M7 @- Q
      f6 n, p( o0 `# d
    OCR后应该可以做成mdx- m- P+ E5 ^0 K$ {7 z' n  e

    该用户从未签到

    发表于 2019-8-14 22:10:38 | 显示全部楼层
    jonah_w 发表于 2019-8-14 17:30
    * e, L; F* p0 U  z& c  B. g看了一下,讲得非常通透。
    7 D* w- Q0 h4 Z6 L! [& D' l" O  T2 F3 d
    OCR后应该可以做成mdx
    : x; {& H5 M3 c( w7 R( g. y
    的确如此,同义词辨析貌似细致入微,往往让人不得要领。这本词典的确不一般。期待!
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

    发表于 2019-8-14 22:21:47 | 显示全部楼层
    louislaolu 发表于 2019-8-14 22:10  Z+ \( E  s8 Q6 v2 e) x$ E% o7 P1 ^
    的确如此,同义词辨析貌似细致入微,往往让人不得要领。这本词典的确不一般。期待! ...

    " l% X. t5 _! z5 W9 T7 O, E需要有心人提供OCR后比较完善的文本
  • TA的每日心情

    2019-2-16 21:57
  • 签到天数: 9 天

    [LV.3]偶尔看看II

     楼主| 发表于 2019-8-14 23:18:27 | 显示全部楼层
    本帖最后由 lmjiao 于 2019-8-14 23:23 编辑 + z+ a' {: D- G  U: P
    jonah_w 发表于 2019-8-14 22:216 W: s0 w; \& @' `' Q3 N  e% R  c5 P/ y
    需要有心人提供OCR后比较完善的文本

    & ^. s& J) I* c( C7 YOCR我有点心得,我打算自己搞。不过可能要过一阵子。
    0 V. O+ L& B- f9 f+ m主要有两个,一个是原始图片要切图,是个体力活。另一个是特殊字符(法语)可能需要用户模式处理,我还没试过,看abbyy的网站貌似可以。+ |# {' ^( t) e( T5 D0 M8 X$ W
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

    发表于 2019-8-14 23:32:57 | 显示全部楼层
    lmjiao 发表于 2019-8-14 23:18: _3 t( r8 i% p, S% V  S# @
    OCR我有点心得,我打算自己搞。不过可能要过一阵子。' i& o% [- C1 X4 q4 N7 J) q
    主要有两个,一个是原始图片要切图,是个体力活。另 ...

    5 o* O6 s0 }, o% ?" W2 {我对OCR完全没啥经验
    2 e$ @& D2 f7 ]所以期待一下
    2 K/ K0 `- ^, c9 A+ _

    点评

    感谢支持!  发表于 2019-8-15 01:32
  • TA的每日心情
    开心
    4 小时前
  • 签到天数: 287 天

    [LV.8]以坛为家I

    发表于 2019-8-14 23:45:29 | 显示全部楼层
    lmjiao 发表于 2019-8-14 23:188 i8 ?( t4 }( q8 }. R( r
    OCR我有点心得,我打算自己搞。不过可能要过一阵子。: c8 ?7 M5 c1 W% h' K2 h
    主要有两个,一个是原始图片要切图,是个体力活。另 ...
    % L( @7 i8 T. l& C9 ?& D% p4 }
    Archive.org上的pdf貌似是双层ocr过的?如果是可以提取文本层
  • TA的每日心情
    无聊
    2019-11-19 07:33
  • 签到天数: 126 天

    [LV.7]常住居民III

    发表于 2019-8-15 01:13:28 | 显示全部楼层
    楼主热心高涨,期待大作早日问世。
  • TA的每日心情

    2019-2-16 21:57
  • 签到天数: 9 天

    [LV.3]偶尔看看II

     楼主| 发表于 2019-8-15 01:34:16 | 显示全部楼层
    cocowind 发表于 2019-8-14 23:45( l( {3 e) O7 I" P: [, W" X
    Archive.org上的pdf貌似是双层ocr过的?如果是可以提取文本层

    2 q* T- l1 T, ?" \那个识别的惨不忍睹。pdf制作的质量也不高。
    - ?2 a; D; ^' \0 J& d
    3 b- o! k# k* b. [  G好在archive给了高清原图,可以重新再来一遍。
  • TA的每日心情
    开心
    昨天 12:04
  • 签到天数: 225 天

    [LV.7]常住居民III

    发表于 2019-8-15 09:26:57 | 显示全部楼层
    这是一个非常非常耗体力的活,相信我!还是慢慢来吧……
  • TA的每日心情

    2019-2-16 21:57
  • 签到天数: 9 天

    [LV.3]偶尔看看II

     楼主| 发表于 2019-8-15 14:37:18 | 显示全部楼层
    本帖最后由 lmjiao 于 2019-8-15 14:51 编辑
    5 A/ b4 j  p* g; ]
    $ _9 V' Y- T- }# Z+ l! k5 \' [( V* p; P9 S8 B# }1 M. T

      z- Y' O: G& S- R( C/ f# W, R: n$ [+ }2 C$ t. ]

    4 H( C. C( C* P" e( U8 g' |8 r$ kabbyy的训练模式果然够厉害,训练了一会儿之后英语已经基本没错误了,normal和italic字体都能识别。2 V7 v% h. j7 H! h/ s2 f# r1 K
    9 u( i8 |( h- i4 V1 u4 }( |9 c% f
    就还剩一些拉丁语希腊语什么的字符还得练练。
    ' D2 E( e# E' s4 L. Q$ r/ _% b7 v# l7 G; O
    用abbyy直接导出为epub效果,代码也比较干净。未做任何校对。
  • TA的每日心情

    2019-2-16 21:57
  • 签到天数: 9 天

    [LV.3]偶尔看看II

     楼主| 发表于 2019-8-15 14:59:06 | 显示全部楼层
    感兴趣的可以用abbyy fine reader 12自行导入 用户模式和语言,请见附件。
    ' ?% C" p# v" j4 y- a: q
    / @; D* B; P$ O) O; F, W9 R- @, ~( m/ j- y  D

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有帐号?免费注册

    x
  • TA的每日心情

    2019-2-16 21:57
  • 签到天数: 9 天

    [LV.3]偶尔看看II

     楼主| 发表于 2019-8-15 16:27:18 | 显示全部楼层
    估计了下工作量,至少需要几百个小时。几年内估计是完不成了
  • TA的每日心情
    奋斗
    2020-1-4 11:13
  • 签到天数: 224 天

    [LV.7]常住居民III

    发表于 2019-8-15 19:21:42 | 显示全部楼层
    工作量超大呀,但期待您的大作!
  • TA的每日心情
    无聊
    2019-11-19 07:33
  • 签到天数: 126 天

    [LV.7]常住居民III

    发表于 2019-8-15 23:09:57 | 显示全部楼层
    lmjiao 发表于 2019-8-15 11:27
    ( U* A8 S' c0 P! ^9 g, v嗯,不着急,慢慢弄,不急着完成。2 h2 S: J( c- M% i, F
    这个词典对我个人比较重要,所以可以弄上个五年八年的。
    4 ?" c! Y$ c4 I6 h( J ...

    6 h% \' K8 U  D' M# i0 u可以组织下多个人弄就快得多啊。如果有十个人,每人就70页而已。
  • TA的每日心情
    无聊
    2019-11-19 07:33
  • 签到天数: 126 天

    [LV.7]常住居民III

    发表于 2019-8-15 23:16:28 | 显示全部楼层
    另外,还可以用老马的软件ComicEnhancerPro,将页面进行图像处理,更利于abbyy 识别,所谓磨刀不误砍柴工。只是需要先把图片旋转,切边。
    8 O# S; B" S- _! F& I1 w7 }  _! t2 M2 M: g4 q. t& O( Q
    顺便问一下jp2格式的图片,什么软件操作方便啊(批量)。xnview转换为png时,体积大了10倍。想必是弄错了。
  • TA的每日心情

    2019-2-16 21:57
  • 签到天数: 9 天

    [LV.3]偶尔看看II

     楼主| 发表于 2019-8-16 09:31:54 | 显示全部楼层
    macos6 发表于 2019-8-15 23:16
    9 e1 M4 G% c" Z$ R" {另外,还可以用老马的软件ComicEnhancerPro,将页面进行图像处理,更利于abbyy 识别,所谓磨刀不误砍柴工。 ...

    ; d" a8 {  {" P* _老马的全套我都在用,上面只是试验一下OCR的。另外,OCR时,尽量使用原图而不要做任何处理。任何处理都会损失信息。
    : ]* w5 |. j& l3 a/ N/ V
    ) v! \/ {' }# x0 o) \- \你是要OCR还是做pdf?OCR的话直接用abbyy打开就行。
    9 k7 [* }1 a! W$ Y& Z! }: e9 E4 e
    做pdf的话应该可以用老马的freepic2pdf直接转吧。4 Z3 q, @6 j) Y2 `& \
    5 B" C/ D* ^& c$ K% E
    如果想要图像的话用老马的comicenhancerpro直接转成黑白双色的tiff就好了,体积很小,信息损失也最小
    5 W' q9 r6 }) _, d$ z5 q& e% L* [1 K& g# x* g! k
  • TA的每日心情

    2019-2-16 21:57
  • 签到天数: 9 天

    [LV.3]偶尔看看II

     楼主| 发表于 2019-8-16 09:36:29 | 显示全部楼层
    macos6 发表于 2019-8-15 23:09
    6 Y2 T0 k' i0 |$ V可以组织下多个人弄就快得多啊。如果有十个人,每人就70页而已。
    7 j0 i3 {0 E) s4 z
    我没能耐做组织工作。而且,说实话辨析词典在这个小众论坛也是蛮小众的。; q# n6 |0 y  I9 J" y9 B' h

    ; ~- J" f) C/ I5 A说实话,主要是没时间。如果OCR成txt纯文本,格式都不要(后期可以通过正则匹配重建格式),拉丁语希腊语古安格鲁撒克逊语都不要,估计几天就能校对好了。可惜我个人实在没时间。
  • TA的每日心情
    无聊
    2019-11-19 07:33
  • 签到天数: 126 天

    [LV.7]常住居民III

    发表于 2019-8-16 09:41:33 | 显示全部楼层
    lmjiao 发表于 2019-8-16 09:31
    3 A) k7 Z* M6 G, O老马的全套我都在用,上面只是试验一下OCR的。另外,OCR时,尽量使用原图而不要做任何处理。任何处理都会 ...
    0 Y' h1 r2 i) V$ k3 N
    知悉。
    $ A7 `2 @8 h7 m' X( z& ~8 G/ K! O( r' H3 S7 ~: F
    我是在折腾因为:原图要先旋转(偶数页左转90度;奇数页右转90度,或者相反如果我记错了)才能再进一步处理;我手里的旋转软件只支持jpg,png等少数几种格式,jp2肯定是不支持的。6 Q; m$ Z6 k/ ~
    + E, J! l1 |% P  m
    在转png时遇到了体积10倍增加的问题。
  • TA的每日心情
    无聊
    2019-11-19 07:33
  • 签到天数: 126 天

    [LV.7]常住居民III

    发表于 2019-8-16 09:44:35 | 显示全部楼层
    lmjiao 发表于 2019-8-16 09:36- W7 v8 p8 P) ~4 r$ P( b5 q
    我没能耐做组织工作。而且,说实话辨析词典在这个小众论坛也是蛮小众的。
    1 R6 I' E( e+ {. O, o* v, I) J, V0 w$ Q7 a; H$ p% o8 {
    说实话,主要是没时间。如果OCR ...
    4 a; F! S- G+ f: [
    这个确实是需要有持久力的人参加才好,其实如果能找到5个人 也是好的。最少也要快5倍哦;人员太多就很难掌控质量了。
  • TA的每日心情

    2019-2-16 21:57
  • 签到天数: 9 天

    [LV.3]偶尔看看II

     楼主| 发表于 2019-8-16 09:46:46 | 显示全部楼层
    macos6 发表于 2019-8-16 09:417 z$ Q$ c! _5 A6 K; h" D
    知悉。
    5 {* @- p7 Z' _! y* w" e  h; L) H% ?$ [( c
    我是在折腾因为:原图要先旋转(偶数页左转90度;奇数页右转90度,或者相反如果我记错了)才能再 ...

    / T+ H! U( y, e5 P+ r+ s可以用老马的comicenhancerpro来旋转,支持jp2.
    , l; m* M* g: G- m0 u2 V
      ]8 @' O( `+ M9 L6 M# `: o
    6 c) g2 c; y3 T. w8 o: [8 B. A
  • TA的每日心情

    2019-2-16 21:57
  • 签到天数: 9 天

    [LV.3]偶尔看看II

     楼主| 发表于 2019-8-16 09:48:57 | 显示全部楼层
    macos6 发表于 2019-8-16 09:449 t& A& D, o6 [% E! w+ i
    这个确实是需要有持久力的人参加才好,其实如果能找到5个人 也是好的。最少也要快5倍哦;人员太多就很难 ...

    , @+ W4 z# x: t  e! r是的。O大建议过,文本化最好就5、6个人来搞。
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    顶部qrcode底部
    关注公众号送论坛充值码
    关注微信公众平台
    关注微信公众号 pdawiki,获取邀请码,看文抢积分,抽奖得浮云! Follow our Wechat official account "pdawiki", get invitation codes, and play the lottery to earn points (积分)!

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2020-1-30 05:35 , Processed in 0.162692 second(s), 10 queries , MemCache On.

    Powered by Discuz! X3.4

    © 2001-2017 Comsenz Inc.

    快速回复 返回顶部 返回列表