掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 2403|回复: 60

[求助] 如何快速进行书籍OCR后的文字校对、我用excel的VBA

[复制链接]
  • TA的每日心情
    无聊
    2023-2-17 11:35
  • 签到天数: 284 天

    [LV.8]以坛为家I

    发表于 2020-4-3 14:40:31 | 显示全部楼层 |阅读模式
    本帖最后由 lwx228 于 2020-4-3 18:55 编辑 2 G1 z$ O- Y- z: j! E# l- g* j
    0 B7 i4 W; u5 f3 [) T; `
    题目抢眼。
    6 q( z9 V6 {) L9 w
    6 W2 u5 v+ t, q+ z4 t我算是OCR狂人、几乎将所得到超哥的书都制作为双层PDF! ~' P1 e; j4 ]) v2 W0 b! {
    自己通过自拍制作了不少自己需要的双层PDF
    ; n: w4 \# I# E. b& F# I4 c) ]; C0 R( N* x1 z
    但要将书籍转文字、再将文字转为数据库。文字校对是头痛的问题。8 `! i' a8 l, Q* i5 }5 ~' d

    6 g; e" J8 C" V我主要用excel的VBA进行、EmEditor辅助。
    + n8 Q; U( r; l' V$ m来到此坛学习、些此坛高手如云、所以特意来请教。劳烦众侠指点。5 x6 B2 |4 x3 o. j3 w. d
    7 C) X( v3 ]% k( O4 Y9 w$ L

    + C" \+ S! l8 C' A

    该用户从未签到

    发表于 2020-4-7 19:22:59 | 显示全部楼层
    2 e6 F2 g/ Z3 E- f" p
    楼主精神可嘉,依稀看到了过去的自己。
      g7 z0 I7 `3 w; _# o$ N" H/ E. ]' v, I' C5 L, Q
    我这里歪个楼,如果把 OCR、校对乃至录入作为个人娱乐活动或者是当做技术学习练手,那自然是可以的。
    8 S: f, E. B0 a6 ?' M  V" ^1 a# @( {. Q5 I
    过去 30 余年出版的书籍,其实出版社那里是有文字版的,当然可能质量不如人意,但是怎么也胜过自己 OCR。
      g) ^7 o7 {/ T  L# F- ]& @) j9 @: a- `6 P" g
    比如您提到的辞源、古典诗词百科描写辞典,其实来源可靠的 mdx 版本很早都有了,抱歉我这里暂时没有,但是我知道有人很久之前就做过了。+ |5 e& d! N/ I& h5 v2 N, Y: |
    7 A0 _& f9 i3 C% E/ |( y
    - 辞源官方在线版 http://ciyuan.cp.com.cn/
    ! v5 G+ Y* d; q( h: X- 古典诗词百科描写辞典 上 http://mall.cnki.net/reference/detail_R200610136.html
    0 t  N% `9 d$ o- p# X1 Q8 i- 古典诗词百科描写辞典 下 http://mall.cnki.net/reference/detail_R200610135.html$ Z: o7 |) ?# a
    " Q7 S, W1 ]# E0 p
    . E/ i: a) }0 A. B( p
    时间宝贵,虽然人生本就是轮回,我们不停地重复自己,重复别人做过的事情。但是,充分调研信息,节省时间、精力,去做一些于人于己更有意义的事情,岂不美哉。
    7 B* g1 a4 L+ g/ `9 `8 ^* ~6 z; M1 ?9 _& E
    一点拙见,如有冒犯,还请见谅。
    ) U6 T, B& K$ K7 v- D. [8 ]6 ^) c5 \/ ~7 B7 U% X* u
    * F7 t. Y! A0 t, O1 T7 v

    5 v* O; |4 h0 |4 E; o/ P
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2020-4-3 21:55:12 | 显示全部楼层
    本帖最后由 喬治兄 于 2020-4-3 22:09 编辑 ' j' {: e1 P0 y" W; o! K, f2 o
    lwx228 发表于 2020-4-3 21:45
    : _$ g9 i) ?9 D& r2 x五笔要先背口诀。很多人不喜欢
    . E9 v3 X- r2 G
    換手机,好輸入些,您剛所謂的無法認新詞或創新詞,那是資料庫無此新詞所以無法認得是嗎?,但,若要自動收入,是否也得有個程序能幫你判斷此是新詞,然後收入吧!,感覺此有點牽扯 Markov Chain 和 數位電子的的狀態机模型,和 Decision Three
    3 t5 N5 d7 D5 F& a! O的結合, 且您所謂僅靠詞頻想來判斷是否新詞,此也有點薄弱,說不定對目前的資料處理一下,線性迴歸一下,也許會有答案,不需大數據,其實,每個詞在一個固定字表裡都會有個固定的机率,我不便多提,因此法類似算牌的方法,哈!哈哈哈哈哈!
  • TA的每日心情
    无聊
    2023-2-17 11:35
  • 签到天数: 284 天

    [LV.8]以坛为家I

     楼主| 发表于 2020-4-4 12:33:07 | 显示全部楼层
    喬治兄 发表于 2020-4-4 12:26
    : }1 w: ^& a- J" ^[工具] (更新)图片版mdx源文件生成工具: G: a5 V# r7 Y, S, x; w* G0 d8 g9 f
         tsiank 兄 已提供完美秒殺生成工具, https://www.pdawiki. ...

    2 j  |5 F, X* v/ U; B嗯、用VBA就能全自动化。一键完成。
    9 ^& G0 L5 l5 i# I; T4 SVBA的初衷就是自动化。虽然VBA在编程高手眼中是不入流的。
    ) w% K0 _- L* j! b8 M6 A……
    1 D, k# y- i% i* f  j0 S. t- E* t我用VBA也十多年了。! b* ], D/ K* w3 b
    / ]0 Y: M) d* Q' {0 ~$ s
    难在文字校对。
  • TA的每日心情
    无聊
    2023-2-17 11:35
  • 签到天数: 284 天

    [LV.8]以坛为家I

     楼主| 发表于 2020-4-3 14:40:48 | 显示全部楼层
    本帖最后由 lwx228 于 2020-4-3 14:46 编辑
    * M: `0 e  Q3 ?2 l9 a- \& {, p) P- e% P% @9 ?" C, Z- e1 Y
    二楼备用                            : G5 X6 J' D: ~

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    无聊
    2023-2-17 11:35
  • 签到天数: 284 天

    [LV.8]以坛为家I

     楼主| 发表于 2020-4-3 14:41:04 | 显示全部楼层
    本帖最后由 lwx228 于 2020-4-3 14:49 编辑 ! ~) v$ j- d. T( N* z
    % t0 c0 D1 r( t
    三楼备用                           

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    无聊
    2023-2-17 11:35
  • 签到天数: 284 天

    [LV.8]以坛为家I

     楼主| 发表于 2020-4-3 14:50:06 | 显示全部楼层
    坛子上传东西太慢了

    该用户从未签到

    发表于 2020-4-3 15:23:29 | 显示全部楼层
    你是想问「汉语书怎么做好文字校对?」. R8 ]9 f4 c" X0 y0 w% Q6 h
    9 Z$ O- W0 F1 c" W: b0 p# W
    没有秘诀,就是多花时间,谁叫汉字有这么多呢,呵呵~
    0 b- r' {# m4 t* \' I$ T& m5 V0 z3 c9 }
    做多了就厌倦了,做不下去了,可能唯一的秘诀就是降低工作量,一次只做一点点
    3 d" `0 s# h) j" }2 y  F
    * u, p6 ?2 b5 j1 ~& T; A4 y
  • TA的每日心情
    无聊
    2023-2-17 11:35
  • 签到天数: 284 天

    [LV.8]以坛为家I

     楼主| 发表于 2020-4-3 15:31:08 | 显示全部楼层
    klwo2 发表于 2020-4-3 15:23# @: |* ~5 f, p% b7 `3 {4 I, p5 W& M
    你是想问「汉语书怎么做好文字校对?」
    2 G8 l4 A2 {4 U: I* t( I* f$ K+ j6 S: X7 _5 `9 ?3 @9 D, L- K
    没有秘诀,就是多花时间,谁叫汉字有这么多呢,呵呵~
    5 s# M: ~, V5 Y! l+ X( F7 s" D
    非常感谢大侠!% {1 I7 U: K/ ^# i
    3 }  j" K( ?5 b+ d. D% B: i
    一次只做一点点、日子见功夫。
    4 g! D6 n" e8 _9 c谢谢!
  • TA的每日心情
    难过
    2024-1-9 09:43
  • 签到天数: 36 天

    [LV.5]常住居民I

    发表于 2020-4-3 16:53:54 | 显示全部楼层
    百度:古典诗词百科描写辞典) m! u& N' h$ _6 H  L- r5 z- g
    腾讯优图:古诗词百科描写辞典4 b; T  q, Z9 v( e* a$ G: t
    Google:古典诗词百科描写辞典
    ! L& J! H: C7 i% R9 ?$ x- ]. F0 y+ p8 S6 R" \
    其实在线接口的识别率还是可以的,只要印刷没啥问题
  • TA的每日心情
    无聊
    2023-2-17 11:35
  • 签到天数: 284 天

    [LV.8]以坛为家I

     楼主| 发表于 2020-4-3 16:59:26 | 显示全部楼层
    ltr970503 发表于 2020-4-3 16:53* H. v$ q8 `# ~4 A# ]5 ?
    百度:古典诗词百科描写辞典
    - g( O7 ^+ {: i/ Y腾讯优图:古诗词百科描写辞典1 J" o3 N+ x, ]) _, G
    Google:古典诗词百科描写辞典

    $ o( v3 D$ `. B  h& Q$ {! |不知大侠的是如何具体操作?7 s* g+ `. [: }

    3 }6 B  W; L8 n1 N% X6 s我是指整本书全部提取文字。
    7 D8 ~7 J: I1 P7 c/ F6 B8 s. n
  • TA的每日心情
    难过
    2024-1-9 09:43
  • 签到天数: 36 天

    [LV.5]常住居民I

    发表于 2020-4-3 17:04:44 | 显示全部楼层
    lwx228 发表于 2020-4-3 16:59  F7 G9 l6 }* e8 d- [! _# g; R/ K
    不知大侠的是如何具体操作?3 r* T. z$ U8 E, W
    ! T, z6 n( a. l7 |
    我是指整本书全部提取文字。

    1 p9 L2 |* d- O' O$ P( d& A4 a如果要保留排版就没法了,如果只是纯文本,转图片用接口去做呗,就是书页太多耗时可能不少= =
  • TA的每日心情
    无聊
    2023-2-17 11:35
  • 签到天数: 284 天

    [LV.8]以坛为家I

     楼主| 发表于 2020-4-3 17:10:30 | 显示全部楼层
    本帖最后由 lwx228 于 2020-4-3 17:11 编辑 / D% y+ e/ Q* u" J( y
    ltr970503 发表于 2020-4-3 17:04
    ) r0 K1 k, K: Q5 o# |' [( f; r) A如果要保留排版就没法了,如果只是纯文本,转图片用接口去做呗,就是书页太多耗时可能不少= = ...

    8 x' e5 j! ]* m0 m2 y2 C* l: k2 A; Y我只用ABBYY
  • TA的每日心情
    无聊
    2023-2-17 11:35
  • 签到天数: 284 天

    [LV.8]以坛为家I

     楼主| 发表于 2020-4-3 17:11:00 | 显示全部楼层
    一次过                 
    - p6 d# W2 A8 q! d

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    开心
    前天 05:37
  • 签到天数: 754 天

    [LV.10]以坛为家III

    发表于 2020-4-3 17:50:46 | 显示全部楼层
    我算是OCR狂人、几乎将超哥的书都制作为双层PDF
    3 Q; a- r0 B$ K& b
    , W# a( K" d/ z- j8 O所有?几百万本?
  • TA的每日心情
    奋斗
    4 天前
  • 签到天数: 589 天

    [LV.9]以坛为家II

    发表于 2020-4-3 18:53:33 | 显示全部楼层
    超哥是谁啊……
  • TA的每日心情
    无聊
    2023-2-17 11:35
  • 签到天数: 284 天

    [LV.8]以坛为家I

     楼主| 发表于 2020-4-3 18:54:25 | 显示全部楼层
    孤影 发表于 2020-4-3 17:50
    ' t) t2 `7 d" z/ z; g0 t- L我算是OCR狂人、几乎将超哥的书都制作为双层PDF
    ! W1 K  U  p6 C! l, N2 L7 F
    , v1 ?* a* a  t+ e7 w5 a0 r所有?几百万本?
    7 x% z+ A5 L6 [' E$ f
    呵呵、我的粗心惊动了超级版主
    # I( P/ X& w( B4 P8 C4 f) f
    ; g6 o4 @" J6 N3 |# R5 C( m只有是我所要的、也几个T了
  • TA的每日心情
    无聊
    2023-2-17 11:35
  • 签到天数: 284 天

    [LV.8]以坛为家I

     楼主| 发表于 2020-4-3 19:03:39 | 显示全部楼层
    辞源第三版也全部OCR了、计划将词条校对
    # S2 w' @" {4 }+ S! c

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    无聊
    2023-2-17 11:35
  • 签到天数: 284 天

    [LV.8]以坛为家I

     楼主| 发表于 2020-4-3 19:10:51 | 显示全部楼层
    用excel+VBA整理       事半功倍               5 P- ], b: V" d, C0 U

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    无聊
    2023-2-17 11:35
  • 签到天数: 284 天

    [LV.8]以坛为家I

     楼主| 发表于 2020-4-3 19:54:25 | 显示全部楼层
    本帖最后由 lwx228 于 2020-4-3 19:58 编辑 & v1 v) T& q" f0 d

    . q8 D4 N9 Z! D: p, o还好、在github得到的古诗。) ~3 J  J! }$ O' \3 R" J. H
    用JMP将这些JSON格式的一网打尽、省却了校对; i1 q# M: w' g+ U0 D3 U

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2020-4-3 20:51:30 | 显示全部楼层
    lwx228 发表于 2020-4-3 19:54; f% P( O: A0 b/ l
    还好、在github得到的古诗。  O+ q2 L% i. c/ A( O- l" G, M6 }
    用JMP将这些JSON格式的一网打尽、省却了校对

    % X* T( Q+ k/ |& I  D; h7 RBrother lwx228 :
    $ l3 j3 F  ?$ R$ v3 t: w厲害呀! 仁兄, 文學家 or 歷史學家 ' x7 o6 x- _9 I( F8 O0 v
    JMP.......已在此論壇看到一位也使用此軟件
    " b6 w3 O* K1 z( n) c& |* R+ N. f) J: E) z4 l" T/ i/ G& t
    實在很難連結 JMP 怎.......來處理此類資料....2 U: b  p/ W: s) J6 [4 |
  • TA的每日心情
    无聊
    2023-2-17 11:35
  • 签到天数: 284 天

    [LV.8]以坛为家I

     楼主| 发表于 2020-4-3 20:56:45 | 显示全部楼层
    喬治兄 发表于 2020-4-3 20:514 P+ I  t1 j' h& h6 B7 u: x
    Brother lwx228 :% G$ C3 M& t7 X3 h2 \- _
    厲害呀! 仁兄, 文學家 or 歷史學家 / M  ~! W* C& @1 Q
    JMP.......已在此論壇看到一位也使用此軟件
    8 R6 x- \2 X5 `1 B0 B9 f7 q
    JMP是SAS旗下的产品、应比SPSS强
  • TA的每日心情
    无聊
    2023-2-17 11:35
  • 签到天数: 284 天

    [LV.8]以坛为家I

     楼主| 发表于 2020-4-3 20:58:47 | 显示全部楼层
    我是纯粹无聊、想搞数据库而已、JMP还能进行词频统计、但是鸡肋
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2020-4-3 21:10:33 | 显示全部楼层
    本帖最后由 喬治兄 于 2020-4-3 21:22 编辑
    / g4 F( I/ b4 V& Y/ H
    lwx228 发表于 2020-4-3 20:58$ j7 E2 O- v" t+ j: `
    我是纯粹无聊、想搞数据库而已、JMP还能进行词频统计、但是鸡肋

    & g. [/ H% t$ {* q
    2 s' j. c: O( V5 h: s: B為何是鸡肋.....
    : E9 f1 s; U& z3 s1 q7 o+ P. K我只知早期 JMP focus on  DOE
    2 h, N$ G4 o/ N1 M- W& C9 a其他區塊似乎不是很有特色
    % ~- [, x: V& w2 d  v& R後來沒再注意過1 u+ Z  e, X0 _: l5 s7 g) ^! X, ]
    中文輸入 1hr 我可能打不出 200-300 中文字' `. B! J; ?0 O1 ?4 e
    MS 這種輸入真是有夠難輸
    , t/ u# x6 E# C2 x4 {2 O+ v
    ; t: R1 g0 r$ B  Y- N7 \* P5 z2 l
  • TA的每日心情
    无聊
    2023-2-17 11:35
  • 签到天数: 284 天

    [LV.8]以坛为家I

     楼主| 发表于 2020-4-3 21:21:36 | 显示全部楼层
    喬治兄 发表于 2020-4-3 21:10* V6 m3 p2 U/ o2 x/ b$ K2 r
    為何是鸡肋.....1 t# O0 I# B% [# i2 s( i+ T
    我只知早期 JMP focus on  DOE
    0 j5 e% ]4 }3 k$ E. C其他區塊似乎不是很有特色
    3 v- i; ?$ e0 j7 H$ Y  y8 ^
    它的词频、不能学习新词语、只认它词库的词、这不合理
  • TA的每日心情
    无聊
    2023-2-17 11:35
  • 签到天数: 284 天

    [LV.8]以坛为家I

     楼主| 发表于 2020-4-3 21:24:44 | 显示全部楼层
    但JMP的DOE还是强项、说高端行业都在用它3 O/ D7 C6 s( L; p. h! K6 B
    https://mp.weixin.qq.com/s/pxFr5jRdvhVuf5NhzHnz9w
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2020-4-3 21:26:19 | 显示全部楼层
    本帖最后由 喬治兄 于 2020-4-3 21:28 编辑
    2 X' ~; P' R$ P7 m# P$ P$ I
    lwx228 发表于 2020-4-3 21:21
    # l: @2 A1 U5 h: l2 K它的词频、不能学习新词语、只认它词库的词、这不合理

    5 c4 p- F* i3 W) `3 {" U4 d% J6 o; q- L
    一般如何学习新词语......??
    + `0 a/ K' W- ?学习新词语為何和词频有相關$ g' |1 A6 T% h/ |! Z
    是透過類似 markov chain 模型嗎
    3 Q! C+ `' r0 q  D7 V& J" D& e5 E9 Q. K+ O7 y4 j
  • TA的每日心情
    无聊
    2023-2-17 11:35
  • 签到天数: 284 天

    [LV.8]以坛为家I

     楼主| 发表于 2020-4-3 21:26:46 | 显示全部楼层
    喬治兄 发表于 2020-4-3 21:10
    0 C: S  n* ^0 V( D$ g為何是鸡肋.....7 P2 w4 I5 ]! D; E5 F% s# a
    我只知早期 JMP focus on  DOE8 j" b! B' d! u
    其他區塊似乎不是很有特色
    0 {8 {' o& }$ \& L1 q& n$ j; U
    大兄用何输入法?
    + d+ Q6 y& p( Z6 p0 H- L我是用五笔  V! Q  N% V/ c" n# \0 L
    7 k0 j% p. k4 Y0 B# q& B3 \7 p
    而且用五笔来输出不同类型的编码
    1 D% ?# p9 z/ J  Q- ^4 j0 h; H2 lVBA、JSL、python的代码都制作为五笔的词库
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-4-20 04:57 , Processed in 0.075581 second(s), 10 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表