掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 17487|回复: 73

[工具] 20181130更新_自动画线+OCR+切图+校对 软件

  [复制链接]

该用户从未签到

发表于 2016-11-15 20:14:56 | 显示全部楼层 |阅读模式
本帖最后由 chigre3 于 2018-11-30 08:14 编辑 & Y% U: I# m2 t& @! Z5 U
9 C0 s' d3 a7 D  C( {" C" z
一、致谢:( W  E1 J9 b; `3 {$ ^( ?
  感谢 @vbnet 的自动画线测试版, 现在经过个人修改, 几乎完全删除了原先的内容, 软件名称仍为 Picture Capture
- I# O7 X8 a- `9 B! B8 h1 p3 N  感谢 @孤影 的自动划线软件, 给了很多界面上的参考
5 K& ?/ b, K, |$ N; R3 g( _------------------------------------------------------------------------
# Z. L1 v+ d* P4 P% ^0 V: I! y二、这个软件有什么用呢???
6 Q" Z7 I* b  _+ x! s5 l  极大地提高制作图片版词典的效率,现在个人需要做的事情仅仅为:
- s1 w) e% b  O- d7 G9 i7 d  1. 前期的图片处理:Abbyy Finereader(整体校直)、Photoshop(模板调位置, 统一)、ComicEnhancerPro(转换格式、大小) 等1 l$ M" k- t- ~5 d% X9 J
  2. 使用本软件进行:0 Z2 E! ~! \& O
   (1) 全部页面的 自动划线-->自动OCR2 R/ G4 H1 @/ J* S) \
   (2) 逐页校对划线和文本(可删可增)
! Z: f. b% S* X, c   (3) A.合并 .pdic (词条 + 坐标信息) --> Excel 模板 --> 文本替换 --> 精确高亮定位 整页版 图片词典1 @9 g8 }. N' Z
      B.导出单词整体切图 --> 合并 .PWWords (词条+图片名称) --> 文本替代 --> 切图版 图片词典
' K0 K$ u; ]' L1 B------------------------------------------------------------------------
0 V. A$ g6 r# j) d! w9 }三、实现的功能:
. h: @0 {4 X! l- S! x+ u  \  1. 画线:) y  R: \# ^8 P/ ^7 ^
   (1) 自动分析页面 + 自动画线. d* O/ j! A; T( Z( C# u
   (2) 手动模式定义页面 + 自动划线
) O( g  M2 n% H+ _; W9 x& c   (3) 鼠标右键单击修改单栏重新自动画线7 v, v- f* ?, L$ ^! V7 J3 @' p6 t
   以上均 + 鼠标左键单击增加画线, 文本框内快捷键`删除划线! R. v* X4 g& Y1 q4 D

5 y& o/ o8 Z1 A  2. OCR:
" ?8 L) z( I6 S2 D; ?0 S3 Q5 N   采用Tesseract OCR, 具体语言文件 tessdata 可以到官网下载:https://github.com/tesseract-ocr/tessdata
" X7 _: z7 ^1 H  a9 \   (1) 导出文本:可外部编辑后导入, 避免OCR单个切图的不足
) b! v1 T  J4 y: z' R3 Z! m) F   (2) 导入文本! D: f' X$ T* I% F6 T1 r* ]1 y
   (3) 1 + 2:直接将OCR结果导入当前页面的文本框 --> 校对
/ I/ x/ D0 v: n& i+ \( a, U   外置批量替换表达式文本, 可自行创建和编辑, 适应各个词典不同OCR处理的场景
' D% m6 e, V# A' p' p- ^
& x& ]# ~$ ^: [  3. 切图:8 N' w1 R6 y4 t5 n- b( V  L
   (1) 词条单行切图:也可以使用外部其他OCR软件处理,或者其他用途
; ]0 L" e' g0 k. w4 q/ F   (2) 词条整体切图:实现切图版图片词典的制作(背景透明,不过目前需要其他PNG优化软件缩减大小:https://www.pdawiki.com/forum/thread-19157-1-1.html
/ s# y2 F0 M1 l/ q) h% a! a4 `    (实例1:[英-汉] 20161113《英汉大词典(第2版)》10页单词 切图版  https://www.pdawiki.com/forum/thread-19015-1-1.html
/ r, _* p" J- y* T/ J    (实例2:新西汉词典 切图版 https://www.pdawiki.com/forum/fo ... 6545&fromuid=174481
( Y+ w" P1 v2 M& s2 a0 c8 m8 [    
8 W- S" u9 c# V2 y$ \# Z   可实现仅导出切图坐标等信息,不导出切图,方便使用外部软件进行
) m) G& w: R& e) ?) s    
+ K; ^& q- h* V3 @/ ?6 h/ C3 |- D5 z
2 |0 A) h& T6 ]: u  4. 校对:; u# v/ H( Q2 [4 E+ I$ ?! W: M+ k
   列表式样, 与主窗口同步更新文本框内容, 也高亮匹配提示
& D, V3 ^6 x0 y" G  c+ I9 q" _
' V3 u! J6 n# I) |; n& B" d  5. 其他:
0 L" ?0 p$ P* V5 y5 [   (1) 配置文件保存、导入
( T0 U' z$ f% p* T   (2) 自动下一页+操作(定时):自动保存、自动画线、自动OCR、自动切图。方便无人值守完成相应任务- t9 y! }/ e/ G% W: r: ]
   (3) 最重要的还是要人工校对!!!!7 b2 Q; ?: S- o! Y4 [# J
   (4) 高度自定义参数设置0 R( k# o5 I, y8 \5 g* X
------------------------------------------------------------------------$ P  p' f$ B% Z0 K: v0 q# t
如题,放个图:
* ~) [6 S1 z& S3 s" Z
, |3 ?# c( d1 c5 R8 C% e
) i' u( o. n1 I6 e$ R7 P4 h: b  y4 b9 D' N' @
( A1 j* O, {- p5 q4 [4 B( C; p# H
截图内的词条文字为OCR结果1 V5 Y# u, y: S' l$ J

9 S7 l. {6 _( C; ~6 T
$ j' I2 g3 @. N& |: Y
7 ]2 H7 C8 X# a- L# h1 ?----------------------------20181130更新:4 F$ I0 t& d6 v5 g4 G# t$ x
校对窗口增加按当前提示索引(全部或部分)填充当前划线的文本框!
% c8 y5 Z8 E! z; S( X; ?----------------------------
! F# _' H* v% @* j! h# Z2 a* H4 o3 Y20180809更新:( u0 k5 L: {3 a! C
插图画区域由之前的矩形升级为任意多边形( G6 ^' S9 v9 d9 l2 z7 v$ C* a

; i  Z5 e: O5 F/ ~3 H
8 ?& h9 \8 w) N& o$ ^----------------------------$ C0 g! H, K+ \3 R7 b1 V& G
20180614更新:. G9 s8 q, j( }: ]) w1 S; H$ p
在校对界面中增加一列单词,即大词库表中 上页末单词和本页末单词 之间的所有单词。
3 s" a7 c# i. F7 Q5 g% W单击则替换当前校对文本框中的文本!
" A, Z" {  E, H. b2 l- B* C不同颜色提示,方便定位!
6 F: h% Q* X2 z0 X( d. ^9 }; _* O& {# p3 s  z! p

5 o/ u) R; S3 w6 [) M/ F$ A. r$ ], g; X, Z+ ^/ O* f- D. \
----------------------------+ Z9 n. V- z1 N+ Z$ T" f8 x
20170314更新2:. N/ r2 _& y$ [/ e* c
校对界面修改如下,增添更多特殊字符(aeiou等),方便校对的时候直接复制粘贴:8 [' b+ o+ G& j8 q
; u3 I" U/ m- T) a9 Y+ M

" j; s" k3 ?# F% t20170314更新:
8 t5 F7 K1 ?) S$ H* q3 f0 |起始页-->终止页& m5 y( v4 y3 ^  G7 w1 P
[切图]-【词条整体切图】
  S1 G1 R4 L; N---> 会直接把范围内的页面的所有单词切图导出(软件界面会有假死的状态,不用理会,导出结束就OK了)
! v0 f1 N+ ]4 j7 O) T8 D如果起始页和终止页为空,则导出当前页的词条切图
" l4 |6 @* b2 l: G) E2 i$ x, P% L& J* w7 V: P; M1 J7 w! l8 N7 S" C
在校对界面时,主界面【√隐藏线框】,那么此时就只有颜色框(平行线宽)( k" O; D/ W. U" i8 ?7 h( H3 j
当前词条亮黄色,其他还是红色( S% E% H2 _# c/ T! e6 _: h( m
这儿主要是考虑到有时候词条不只是单行,多行的时候可以方便查看。- k  Y7 R) V# I; }" Z
. o3 _* ^5 G- x8 M* V
----------------------------2 P  I$ t. @# v8 p% V
20170313更新:' o# J* k5 B: [+ P
1. 词条整体导出切图的判断逻辑的补充(3栏以上时,位于不同列的上下单词中间隔了空列。之前这个情况未考虑到)6 ?, V; m7 K7 O8 ?5 q3 R6 L, [
  【仅修改了:从PDIC整体导出切图的坐标数据的这部分补充内容】
0 r* }" X' _- W$ U8 F/ W/ v----------------------------
5 `2 t) R1 r6 R  d20170217更新:
9 \7 c) l% B7 `; s1 E5 w$ E1. 画线判断的方法改进(2种方法均改进)
3 l9 q# W3 ]; {$ B----------------------------
/ t, R! I' B( r' z20170115更新:, Q0 n5 h6 G0 P0 S$ d# C
1. tessdata 的完整语言列表,具体语言移步【https://github.com/tesseract-ocr/tessdata】下载
9 G  F. S: C' n1 B) Z: u% d4 H2. 在图片文件名列表上方的文本框里输入“SMALL”,点击【校对】,每个词条行的缩略图切图(非原始图片上裁剪)
* L/ O7 j1 ~& \0 K----------------------------3 z/ y. h! Y6 c  u) x& A
20161119更新:
) D6 e. F. k8 s- W. C6 _- X1.修复保存坐标数据时的bug
$ o/ f  }; R% c6 a- [2.修复单词整体导出页面的一个bug
: K* I  x' s& Z+ V" ]6 x' O* |3.增加功能: 选定范围页面的批量导入词条/ r0 n: I* k1 J  p0 I8 v2 `
4.增加功能: 快速查找定位索引
6 I  u5 s/ i4 y# z" n----------------------------( W& S3 V7 @5 \
20161123更新:1 C% ?% s4 U- {6 e2 I2 r
重写词条整体导出切图的判断逻辑,现在应该不会有切图坐标不一致、切图数目不一致的情况了。+ T+ `1 _; @/ k0 v* m2 e

; s5 b7 F7 j$ S( ?
  1. 问题:页面是否有词条?+ N" D- e! g8 S: K' ], H2 ^/ g+ [
  2. 1. NO --> 直接导出和栏数一致的大切图 (标记为上页末词条续)( ^' E; ^) H! Q9 o( O- e7 Y* V
  3. 2. YES -->
    / r# m( y7 r" \6 K/ C6 e, F- e
  4.  (1) 确定0号词条所在栏:# B  n; J, ~7 q9 f8 b2 c# p
  5.   --> 0号词条所在栏之前的栏, 直接导出大切图 (标记为上页末词条续)
    ( h8 V4 E0 d" a# e5 g: Q* ~/ _
  6.   --> 0号词条所在栏上方若还有部分上页末词条接续, 则导出切图 (标记为上页末词条续)
      r( p8 r/ J9 Z+ E3 ]
  7.  (2) 次数为所有词条数目的循环:
    7 X; H8 o% z( \: w
  8.   A. 若: 当前为最后一个词条 --> 确定高度3 v! E8 d/ S. H' l0 ?
  9.   B. 否则:
    " v" \* R4 K+ P# U
  10.    a. 下一个词条在下一栏 --> 确定高度
    # ]+ Q; a0 V& ?0 d1 g4 `$ C0 a5 S. m
  11.      --> 如果当前词条在下一栏仍有接续 --> 导出切图 (标记为当前词条接续2)
    ! M3 Q' {$ t& h! i  t2 M* P+ k, X) q
  12.    b. 下一个词条在同一栏 --> 确定高度
    + C3 W1 Z6 f, o8 ?4 }
  13. * z" Y9 g7 S- v' k9 j( w
  14.   --> 导出每个词条的切图/ Q" v. F. e+ {
  15. . m  t' Y' X4 C, R- o+ {- h  k
  16.  (3) 确定最后一个词条所在栏:
    : e: z; G5 h$ {" x
  17.   --> 最后词条所在栏之后的栏, 直接导出大切图 (标记为本页末词条续)
复制代码
' K! k% V8 V; |2 o8 C
7 |7 c  t- M" U- }0 v3 ~8 d
重要更新:
; o+ i3 p/ {1 i: ]1. 词条整体切图模块重写9 Z, o& y2 J3 m" I1 F) g7 `
2. 增加根据.pdic导出所有图片切图信息(+切图)--> 几十秒【如下面动图GIF】
, ?. @- H8 ^* g5 X3 |/ O
& f$ V; A9 E3 j8 ]$ Z, X8 ?) j. O7 Z5 P
2 M' d- i! Q! m1 A6 ^) d2 i- J
2016.11.28
. H# [8 m) j; `: {更新:一个小小的bug(跳过页首处下方如果单行接续,会因为判断的距离和行高过于接近造成缺漏 --> 修改了公式)0 J- w7 ~/ C: n2 `9 g

: g% K6 H* }3 e; f0 z2 N2 H

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?免费注册

x

评分

1

查看全部评分

本帖被以下淘专辑推荐:

  • TA的每日心情
    奋斗
    2022-1-12 06:11
  • 签到天数: 118 天

    [LV.6]常住居民II

    发表于 2018-2-23 08:45:34 | 显示全部楼层
    请问大神,软件在哪儿有下载啊

    该用户从未签到

    发表于 2017-2-1 12:03:46 | 显示全部楼层
    本帖最后由 teresaiao 于 2017-2-10 13:47 编辑
    . N+ O% O7 O/ c9 w3 U2 \9 v
    ( B( {' O7 }. H! ^我在第一頁設置了參數和保存了, 第二頁的紅色豎線就移位了, 是不是參數有問題?

    该用户从未签到

     楼主| 发表于 2017-2-1 04:49:02 | 显示全部楼层
    teresaiao 发表于 2017-2-1 03:39; x% O+ f: F3 l# A4 U4 S
    嗯,字典裏看得到了,真的快很多,基本上是要用photoshop和打詞條就好。 另外那個自動畫線,我在第一幅弄 ...
    - `1 [& j5 a1 `2 `3 T& o
    PS 模板 移动位置 让每一张图片位置都一样 这样在软件里你设置了的参数就会是全局通用的 之后便可以全自动全部页面划线 紧接着就可以OCR

    该用户从未签到

    发表于 2017-2-1 01:58:45 | 显示全部楼层
    本帖最后由 teresaiao 于 2017-2-10 13:46 编辑
    9 B, L4 F4 l0 g* W& O: d0 V* A3 c0 I  F
    可是我想問用你那個軟件, 如果轉頁, 或解釋在第二欄, 要怎麼合併?

    该用户从未签到

    发表于 2016-11-26 13:05:03 | 显示全部楼层
    感谢chigre3,待我有空可以把汉语大字典图片版做一下了。

    该用户从未签到

     楼主| 发表于 2016-11-17 00:34:06 | 显示全部楼层
    group1234 发表于 2016-11-16 23:30
    $ A: D8 d# d. G$ z! z/ P製作圖片辭典的福音,可以節省非常多的時間,期待軟件分享~~~
    7 ], ~* M  I- h
    是的,这个软件确实极大提高效率,+ ~( n. Y/ ]2 `1 q7 f1 M1 C
    现在个人需要做的事情仅仅为:  L6 E6 H0 r6 h+ @; G* V) A
    1. 前期的图片处理:Abbyy Finereader(整体校直)、Photoshop(模板调位置, 统一)、ComicEnhancerPro(转换格式、大小) 等
      z3 K/ o- \( ?2. 使用本软件进行:
    : ?% G" _# u) \! v/ }& d (1) 全部页面的 自动划线-->自动OCR6 c9 G( J  h8 M: U& w  m* l, V4 \
     (2) 逐页校对划线和文本(可删可增)  M5 D! E. l. E! Y: `9 ^
     (3) A.合并.pdic (词条+坐标信息) --> Excel模板 --> 文本替换 --> 精确高亮定位 整页版 图片词典. S# p! I! g/ k- t3 v" @# h& k
        B.导出单词整体切图 --> 合并.PWWords (词条+图片名称) --> 文本替代 --> 切图版 图片词典' @: r0 D  r% W, R( i' D8 S9 Y) C

    该用户从未签到

    发表于 2016-11-15 22:50:35 | 显示全部楼层
    逆天还是吊炸天了。。。。。

    该用户从未签到

     楼主| 发表于 2016-11-16 02:11:49 | 显示全部楼层
    本帖最后由 chigre3 于 2016-11-16 02:22 编辑 + [8 W1 u: R" j7 V8 ~: n  _7 Q
    9 M# E: U/ q2 c% o0 F
    比如《现代汉语词典》也可以画线和OCR、切图等:
    $ ]1 j0 \1 N! s6 |2 W& q----------------------------------------------------
    . [/ Y* Y! v6 l' p% \2 b画线时:
    1 R2 b) X& m$ x" Q[行间距离]: 17
    6 H3 l! t- `4 }, _$ C* }: {3 A[向右倍率]: 1/1.03 G7 Q9 n+ e- F: |
    $ G4 J5 e" b" m- ?" ]6 f) G
    OCR时:0 e9 t& m% G/ Y5 T
    [行间距离]: 10
    - y& A' b+ e, W+ b5 k# E$ ?! r[向右倍率]: 1/3.0
    4 k6 I# J8 _% ]' \) F' ~" ^4 ^9 }+ S6 w& s文本框匹配都是红色,因为没有加载中文的词条索引来进行匹配检查3 n4 ~& h2 H: E. P4 n
    6 w! m1 ^4 U& P" h. @1 q

    2 [3 s- [0 D/ Z5 h  @& o7 k6 s2 B1 [: L6 p+ Q. \. h

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

    发表于 2016-11-16 07:12:22 | 显示全部楼层
    几乎只剩下人工校对工作了

    该用户从未签到

    发表于 2016-11-16 08:09:02 | 显示全部楼层
    chigre3 发表于 2016-11-16 02:111 R2 M3 @( L3 J& U* ?( B1 {0 t
    比如《现代汉语词典》也可以画线和OCR、切图等:8 ~$ V  k/ G4 {5 @' a& o9 @
    ----------------------------------------------------
    , Y( d. e# X: G0 O1 V1 u7 ^ ...
    + c/ G6 O" J+ a. a8 b
    歪图问题,上下页不对齐,某些不是矩形栏的排版,3栏以及3栏以上,不知道能不能处理?

    该用户从未签到

    发表于 2016-11-16 08:46:56 | 显示全部楼层
    提示: 该帖被管理员或版主屏蔽

    该用户从未签到

     楼主| 发表于 2016-11-16 17:36:45 | 显示全部楼层
    644830104 发表于 2016-11-16 08:09
    ( u* c4 {+ t$ o+ P) |歪图问题,上下页不对齐,某些不是矩形栏的排版,3栏以及3栏以上,不知道能不能处理?

    " {9 x9 U( V" W# s' v所有图片统一修图 还有轻微歪斜能够画线* i$ o/ h' I* Z# S: D
    图片不处理到一致规格 那最多用来划线切图OCR 每一页还要设置参数 3 F0 A: p5 }) L
    不规则形状不考虑 # p  h7 w3 }& x
    支持N栏
  • TA的每日心情
    开心
    2019-6-28 11:53
  • 签到天数: 28 天

    [LV.4]偶尔看看III

    发表于 2016-11-16 23:30:48 | 显示全部楼层
    製作圖片辭典的福音,可以節省非常多的時間,期待軟件分享~~~
    ' S  ~( D+ \/ k5 o% |' O
  • TA的每日心情
    慵懒
    2023-2-4 11:26
  • 签到天数: 579 天

    [LV.9]以坛为家II

    发表于 2016-11-17 17:28:54 | 显示全部楼层
    这个绝对是神器
  • TA的每日心情
    开心
    2018-5-8 11:51
  • 签到天数: 18 天

    [LV.4]偶尔看看III

    发表于 2016-11-20 01:16:53 | 显示全部楼层
    激动不已!跃跃欲试

    该用户从未签到

    发表于 2016-11-20 09:18:39 来自手机 | 显示全部楼层
    哇,很牛的软件,期待chigre3的分享。
  • TA的每日心情
    开心
    2020-12-9 19:29
  • 签到天数: 27 天

    [LV.4]偶尔看看III

    发表于 2016-11-22 17:12:18 | 显示全部楼层
    这个软件太厉害了
  • TA的每日心情
    开心
    2020-12-9 19:29
  • 签到天数: 27 天

    [LV.4]偶尔看看III

    发表于 2016-11-22 17:13:11 | 显示全部楼层
    提示: 该帖被管理员或版主屏蔽

    该用户从未签到

     楼主| 发表于 2016-11-26 09:05:40 | 显示全部楼层
    【20161125更新】《葡汉词典》切图版
      C& @# h0 g: ~5 @5 l, d6 `3 Shttps://www.pdawiki.com/forum/fo ... &fromuid=174481
    0 L. U* w9 L1 X( }( y0 T6 e(出处: 掌上百科)
    + D: j6 [! i4 \* E# z

    该用户从未签到

    发表于 2016-11-27 08:21:42 | 显示全部楼层
    C大神器,谁与争锋?创意无限,匠心十足。佩服佩服。

    该用户从未签到

     楼主| 发表于 2016-11-27 20:23:37 | 显示全部楼层
    切图版后续:. x7 |$ @$ `/ Z. h
    因为切出的图片数目极多,目前想法是:
    : ?4 K- W  _! ^5 \  N# V  s, X2 M(1) 制作成MDX/MDD格式, CSS不内嵌入MDD, 外置CSS, 方便个人设置
    , _* ?* ?' j) d/ n6 k( L(2) 制作成DSL格式, 图片资源直接打包zip: G5 M' d3 ~7 j, J

    该用户从未签到

     楼主| 发表于 2017-2-1 02:01:35 | 显示全部楼层
    teresaiao 发表于 2017-2-1 01:58
    2 ^1 N. {/ c: h! S5 T9 z) |終於都會做了, 可是我想問用你那個軟件, 如果轉頁, 或解釋在第二欄, 要怎麼合併?

    6 c8 b2 P6 a! ~所有位置的切图都是分离的,后期导出时同时导出对应信息7 ^3 f# L- |( H
    也就是:词条+页码+切图图片名(1~多个)

    该用户从未签到

     楼主| 发表于 2017-2-1 02:04:52 | 显示全部楼层
    teresaiao 发表于 2017-2-1 01:58+ C0 `: y( a% o* G8 x1 S
    終於都會做了, 可是我想問用你那個軟件, 如果轉頁, 或解釋在第二欄, 要怎麼合併?
    2 c) q( {( |+ d9 F3 C' D0 l
    你下载了那个红葡汉词典 查一些释义特别长的单词 就可以了解到啦 DSL.dz 可以使用解压缩软件还原为.dsl 文本的 你打开就可看到词条结构

    该用户从未签到

    发表于 2017-2-1 03:39:23 | 显示全部楼层
    本帖最后由 teresaiao 于 2017-2-10 13:46 编辑 * n5 P3 F- ?* {: w
    chigre3 发表于 2017-2-1 02:04: M4 I! a0 P6 o7 k, F
    你下载了那个红葡汉词典 查一些释义特别长的单词 就可以了解到啦 DSL.dz 可以使用解压缩软件还原为.dsl  ...
    + w. L/ o  ^% a
    $ `0 y4 w5 o8 C+ l6 y% p
    如何才能固定
    2 E$ Z, \( i# b' e; Z2 o# Y' D+ G* y. ~* M# c! \
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-4-27 08:02 , Processed in 0.155929 second(s), 14 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表