掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 148|回复: 3

[教程] 词头OCR制作经验

[复制链接]
  • TA的每日心情
    擦汗
    2020-7-2 14:04
  • 签到天数: 364 天

    [LV.8]以坛为家I

    发表于 2020-7-26 09:57:28 | 显示全部楼层 |阅读模式
    本帖最后由 abtxu 于 2020-7-26 10:24 编辑
    $ U, y" t! B# g: p2 p$ }4 ~* h- @4 X' q( L3 {; M

    2 R  ~1 m' c, v3 |OCR$ ]4 N( w* C0 ]4 `* V
    用A**YY,不要用Acrobat,因为能调OCR的区域。坛内就有。! i, K+ i0 i2 H8 W" \7 |9 J' E: Q7 f
      页码之类的无关信息先用Acrobat剪裁去掉7 _" h! p5 u, I
      双栏的尽量切成单栏,否则大概率格式混乱" h7 I% H* g9 o4 B  P: ^3 V( O
    * `8 Q! r% F7 y) E1 ~
    OCR结束之后要先看看哪里没有识别到,没有识别到的地方,拖动识别框重新划定识别区域,一般只要包住文字+页码即可
    ! h% w, s* Z8 o3 o
    + ]5 m- y1 z* {/ w) V0 o4 J初步整理完后,导出,保存为格式化文本,选txt格式,这样保存所得的索引词头和页码之间是tab分隔,用emeditor打开就能开始用正则处理。1 x# b; i# a$ t+ F
      打开txt看看那里识别不好,回去重新识别。2 Q! h6 k8 g, ?6 [7 H
      仍旧识别不好,用quicker的截图ocr:https://getquicker.net/Sharedact ... b-e065-08d70f398a04
    7 b( V+ U* u+ h9 T$ P  `( ?: P! l( H% t% @; M* x+ E) S  y
    反复确保数据完整之后再开始用正则处理词头。正则很强大,但不用正则就做好词头才是最吼的。
    " m6 F1 T1 |. g
    . K! r& o/ [3 M  f. {7 T/ V
      A) l9 T9 p: h) P) N/ f0 K索引清理
      d8 E$ I: N; w  l  X7 O( D0 `5 R  _6 [
    . x7 b" z! ]6 g+ S! x索引最终的形式是词头(例如中文)+tab+页码(1-4位数)
    0 G) k. j+ n5 h5 R' g1 ^0 E
    + h* K  L  R0 \: O* p( Q. E+ V先清理干净词头,不要让OCR带来的错误污染词头。例如汉字前面有数字,英文字母之类的情况,如:5 P8 G2 M" M+ B
    \d([一-龠])/ m+ w# I0 K/ j0 q! r- i( |
    这种前方有数字的需要删掉,所以替换为\10 A/ Z0 u+ I! y5 Z" k3 V

    " N8 {% X5 C1 _  Z! w8 l首先要把词头和数字之间的空格去掉:
    5 J4 S: f  ?% A, ?: G# `([一-龠])(\s){1,}(\d)6 F( E2 ?" u, e' |' B, }# Z) Y
    ! }) Y/ t! {' e3 h
    大致清理完成之后用\t查一遍,因为会高亮
    / i( V% w& r4 o
    $ x% x( O+ M- t! m8 K* V检查完成后搜索:([一-龠])(\d)6 K# J% }' T4 |6 d' t
    替换为\1\t\26 l* {; V7 a- S- w4 r1 z  y. G

    ( u, ^& c7 B2 V1 }2 J/ o* \4 b# j9 \6 B% W8 I3 Y6 y; Q& }& I) n- ^
    最后提取:[一-龠]{1,}\t\d{1,3}, 在emeditor中,全部选中,然后右键筛选
    2 |3 C4 h- Y9 A- m* ^( J  M" @4 c! V* W* f4 R# E. k2 d8 A

    ) F9 H0 U/ N6 X7 }. b一点感想:
    - m1 R2 |) _& j$ P0 l  T学好正则,词典制作的路会顺畅很多
    1 Q2 M0 \; I) J5 U. m

    评分

    3

    查看全部评分

  • TA的每日心情
    擦汗
    2020-1-6 01:34
  • 签到天数: 63 天

    [LV.6]常住居民II

    发表于 2020-7-26 10:03:39 | 显示全部楼层
    感谢授人以渔
  • TA的每日心情
    开心
    5 分钟前
  • 签到天数: 60 天

    [LV.6]常住居民II

    发表于 2020-7-26 10:20:51 | 显示全部楼层
    多谢分享经验,不过你这种方法怎么才能只识别词头而不识别的别的文本呢?是要先将各个词头单独切图吗?
  • TA的每日心情
    擦汗
    2020-7-2 14:04
  • 签到天数: 364 天

    [LV.8]以坛为家I

     楼主| 发表于 2020-7-26 10:25:18 | 显示全部楼层
    wjl 发表于 2020-7-26 10:20
    ) W9 |+ A; \3 T& [多谢分享经验,不过你这种方法怎么才能只识别词头而不识别的别的文本呢?是要先将各个词头单独切图吗? ...
    9 e* R8 R& [* [( j; q: j
    把索引单独分割为一个pdf
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    顶部qrcode底部
    关注公众号送论坛充值码
    关注微信公众平台
    关注微信公众号 pdawiki,获取邀请码,看文抢积分,抽奖得浮云! Follow our Wechat official account "pdawiki", get invitation codes, and play the lottery to earn points (积分)!

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2020-8-16 00:07 , Processed in 0.032033 second(s), 8 queries , MemCache On.

    Powered by Discuz! X3.4

    © 2001-2017 Comsenz Inc.

    快速回复 返回顶部 返回列表