掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 138|回复: 3

[教程] 词头OCR制作经验

[复制链接]
  • TA的每日心情
    擦汗
    2020-7-2 14:04
  • 签到天数: 364 天

    [LV.8]以坛为家I

    发表于 2020-7-26 09:57:28 | 显示全部楼层 |阅读模式
    本帖最后由 abtxu 于 2020-7-26 10:24 编辑 " @: V- h+ K* A, D. G' I( `- R8 O8 \
    6 @! @$ R! K8 m7 L! `

    8 _8 ]- G/ g# A7 P2 h. X( eOCR
    $ ]- D' A" W% w9 O; ~( i9 m用A**YY,不要用Acrobat,因为能调OCR的区域。坛内就有。
    . A  A, s# u1 m4 z1 ^  页码之类的无关信息先用Acrobat剪裁去掉
    ! d( o) M+ v: C& M  双栏的尽量切成单栏,否则大概率格式混乱) d  w% E/ n" F% f/ Y  C- r
    7 n* {/ I/ Z1 G$ s2 @6 w* n: ^
    OCR结束之后要先看看哪里没有识别到,没有识别到的地方,拖动识别框重新划定识别区域,一般只要包住文字+页码即可
    6 r, t0 C- c: w+ A2 [* }2 I: w7 u7 o' O7 U, W- h9 ~/ K; L
    初步整理完后,导出,保存为格式化文本,选txt格式,这样保存所得的索引词头和页码之间是tab分隔,用emeditor打开就能开始用正则处理。
    + w2 Q( V1 d$ X2 C  打开txt看看那里识别不好,回去重新识别。! V2 T- E; q0 r4 U! G3 {
      仍旧识别不好,用quicker的截图ocr:https://getquicker.net/Sharedact ... b-e065-08d70f398a04
    0 j- O0 u' A$ |$ Z6 i) Z7 U! s0 Z; ]' \( S* A& Y' y/ d4 f$ e2 p
    反复确保数据完整之后再开始用正则处理词头。正则很强大,但不用正则就做好词头才是最吼的。# N/ J% v1 Z$ G0 q
    ' b9 v: v9 @- Z' g

    8 Z8 G9 k/ w% `  p3 Y7 i索引清理
    4 B5 ^6 f, b8 O7 h( G1 O2 T% J' G6 ?' h+ g; ~5 Q% U8 s
    索引最终的形式是词头(例如中文)+tab+页码(1-4位数)9 E. `4 v- y4 s: u$ Q' M

    - U+ i. U9 N: ~9 f; @9 Q$ L先清理干净词头,不要让OCR带来的错误污染词头。例如汉字前面有数字,英文字母之类的情况,如:
    8 g. A( y9 }( Q, A8 l# G/ {$ V\d([一-龠])
    6 t1 f+ Q2 H+ y; Y  V7 t: f2 ^+ i1 x这种前方有数字的需要删掉,所以替换为\1
    6 g8 u% n* W  M- i+ @9 J
    8 p/ Y6 u/ Z& n1 H* b+ A1 K首先要把词头和数字之间的空格去掉:9 E; w, X- X0 t% z4 u' L8 E/ b
    ([一-龠])(\s){1,}(\d)
    : O1 f) a& v9 @/ w" X& m0 S+ ?& I6 q
    大致清理完成之后用\t查一遍,因为会高亮  p4 S5 j/ ^, u7 ]

    6 C6 {* y4 W) ^( T9 {检查完成后搜索:([一-龠])(\d)
    & o: P6 y! {0 T* X% O4 I4 ^替换为\1\t\2
    9 \1 I* W- F" e/ I! L- Q: a8 g
    7 V4 G: b1 J$ Z1 c  L; ?
    : z0 u& g8 L1 f, y. W最后提取:[一-龠]{1,}\t\d{1,3}, 在emeditor中,全部选中,然后右键筛选2 f, n  c' J( r1 i( M5 t

    " I$ e$ Z$ \7 R- U; X3 p! J, ^% A: ?
    一点感想:
    8 H1 ~& P7 B6 Q$ A0 U/ p1 q学好正则,词典制作的路会顺畅很多* F4 P+ e8 t9 W! c4 ^1 G9 g

    评分

    2

    查看全部评分

  • TA的每日心情
    擦汗
    2020-1-6 01:34
  • 签到天数: 63 天

    [LV.6]常住居民II

    发表于 2020-7-26 10:03:39 | 显示全部楼层
    感谢授人以渔
  • TA的每日心情
    开心
    4 小时前
  • 签到天数: 50 天

    [LV.5]常住居民I

    发表于 2020-7-26 10:20:51 | 显示全部楼层
    多谢分享经验,不过你这种方法怎么才能只识别词头而不识别的别的文本呢?是要先将各个词头单独切图吗?
  • TA的每日心情
    擦汗
    2020-7-2 14:04
  • 签到天数: 364 天

    [LV.8]以坛为家I

     楼主| 发表于 2020-7-26 10:25:18 | 显示全部楼层
    wjl 发表于 2020-7-26 10:20
      ?- N( k3 k8 g1 v# g7 r& D- N: y多谢分享经验,不过你这种方法怎么才能只识别词头而不识别的别的文本呢?是要先将各个词头单独切图吗? ...
    0 l0 P, h$ q' ~
    把索引单独分割为一个pdf
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    顶部qrcode底部
    关注公众号送论坛充值码
    关注微信公众平台
    关注微信公众号 pdawiki,获取邀请码,看文抢积分,抽奖得浮云! Follow our Wechat official account "pdawiki", get invitation codes, and play the lottery to earn points (积分)!

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2020-8-6 05:43 , Processed in 0.346388 second(s), 10 queries , MemCache On.

    Powered by Discuz! X3.4

    © 2001-2017 Comsenz Inc.

    快速回复 返回顶部 返回列表