掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 23436|回复: 77

[工具] 20181130更新_自动画线+OCR+切图+校对 软件

  [复制链接]

该用户从未签到

发表于 2016-11-15 20:14:56 | 显示全部楼层 |阅读模式
本帖最后由 chigre3 于 2018-11-30 08:14 编辑 4 l. s& X0 O' @1 F7 n' I! A6 ?! {) S! D
! @: t' l$ R1 }/ B
一、致谢:' @: @+ e4 _5 E3 Y+ a9 s9 @4 l
  感谢 @vbnet 的自动画线测试版, 现在经过个人修改, 几乎完全删除了原先的内容, 软件名称仍为 Picture Capture
2 q& k; E( n% l$ t6 q( I  感谢 @孤影 的自动划线软件, 给了很多界面上的参考* x8 T- M' D+ w+ g" `3 C
------------------------------------------------------------------------) j. v- E# b4 v7 M9 [1 i, p  n; v
二、这个软件有什么用呢???
9 ]  K. W$ i3 |  极大地提高制作图片版词典的效率,现在个人需要做的事情仅仅为:, Y. i# W2 ]2 P! \
  1. 前期的图片处理:Abbyy Finereader(整体校直)、Photoshop(模板调位置, 统一)、ComicEnhancerPro(转换格式、大小) 等0 `: f7 X( F1 o$ }
  2. 使用本软件进行:# `9 H% K) j  s0 d/ J! x$ y
   (1) 全部页面的 自动划线-->自动OCR
+ m: D+ P( H) y) V$ C   (2) 逐页校对划线和文本(可删可增)/ h' i0 z9 v% u5 V6 U  ]- p  Z' S  J
   (3) A.合并 .pdic (词条 + 坐标信息) --> Excel 模板 --> 文本替换 --> 精确高亮定位 整页版 图片词典5 M3 w1 M# G8 {
      B.导出单词整体切图 --> 合并 .PWWords (词条+图片名称) --> 文本替代 --> 切图版 图片词典
  S3 N! M; ?' L1 I& T------------------------------------------------------------------------
1 G3 s; A* H% y  u三、实现的功能:
, T9 @, p) Y$ l) ?2 K  1. 画线:/ @. e; x6 T! ?% Z# h. k8 k6 @
   (1) 自动分析页面 + 自动画线
# u. O, k8 N9 g* v& i. a   (2) 手动模式定义页面 + 自动划线/ v* W" F9 T7 F- L8 ^1 n
   (3) 鼠标右键单击修改单栏重新自动画线
" p% m8 H3 ~, T   以上均 + 鼠标左键单击增加画线, 文本框内快捷键`删除划线' v& E- ]$ A6 @' E- i
, a$ E/ _/ A% I! y* _0 u& O" @
  2. OCR:
% a6 r9 T$ g5 u. P$ v. A: y- x   采用Tesseract OCR, 具体语言文件 tessdata 可以到官网下载:https://github.com/tesseract-ocr/tessdata" L2 `: [* t- S+ F: c  R) s1 }
   (1) 导出文本:可外部编辑后导入, 避免OCR单个切图的不足7 q6 f- I6 f7 e
   (2) 导入文本
( n7 \3 s" p; Q4 m( Y+ _   (3) 1 + 2:直接将OCR结果导入当前页面的文本框 --> 校对/ z0 u% P* o! R) z8 r2 Y
   外置批量替换表达式文本, 可自行创建和编辑, 适应各个词典不同OCR处理的场景
6 y7 \& K+ Z1 x+ @) k( C7 u( F8 a3 M" w' p$ o5 p
  3. 切图:# M5 I  E. w5 z  T. a+ `
   (1) 词条单行切图:也可以使用外部其他OCR软件处理,或者其他用途
8 l3 `: ?/ }7 T* {/ T3 \2 T) }   (2) 词条整体切图:实现切图版图片词典的制作(背景透明,不过目前需要其他PNG优化软件缩减大小:https://www.pdawiki.com/forum/thread-19157-1-1.html
1 N  D" u& H2 }3 [2 O  T: @6 s    (实例1:[英-汉] 20161113《英汉大词典(第2版)》10页单词 切图版  https://www.pdawiki.com/forum/thread-19015-1-1.html" U5 I& {  ^4 m" E
    (实例2:新西汉词典 切图版 https://www.pdawiki.com/forum/fo ... 6545&fromuid=174481+ j( j9 l9 N  M5 u/ t
    
4 q( z+ T6 D: t) r0 r   可实现仅导出切图坐标等信息,不导出切图,方便使用外部软件进行
; K% Z# M! F1 u; z, q    & L& L! S- |5 Q8 s2 ?0 f

% [0 }1 J7 Z4 x: V0 i9 R: g( m  4. 校对:0 y# m5 p5 v) S- j8 i  ^
   列表式样, 与主窗口同步更新文本框内容, 也高亮匹配提示9 r) Z' c# {, |. r0 }2 p

4 C* f$ F2 [$ O$ I6 q1 c2 G8 I# ?  5. 其他:$ M4 c' E+ @& c( e# T0 @
   (1) 配置文件保存、导入
1 p) b5 W& N( }& m   (2) 自动下一页+操作(定时):自动保存、自动画线、自动OCR、自动切图。方便无人值守完成相应任务& O, i1 R! i! E) u
   (3) 最重要的还是要人工校对!!!!
: o) \; t& \& K: a0 I   (4) 高度自定义参数设置  g8 ^- q1 c2 u
------------------------------------------------------------------------
' J2 C8 O" P& \  T9 ]% f9 P2 m如题,放个图:
5 \; p- {, M+ Y4 [- D6 f/ ~3 z3 y" f

8 L' u) P+ D. N! h
2 t& \9 x3 x5 Q, a& j* g' k. S" i- C; _
截图内的词条文字为OCR结果
8 ?# ]! h+ H6 q- o! j( o" d. E2 @1 ~* N6 p8 D6 Z! ^! L# U) e
/ f0 x- f: w# ~; D+ w
3 ?) |( w( [# ?9 @, P
----------------------------20181130更新:4 {& y. ?( B1 G3 t6 k
校对窗口增加按当前提示索引(全部或部分)填充当前划线的文本框!
: i7 O2 Q+ d, `/ ^( U% }3 B9 \5 L& m----------------------------
7 V8 E/ B- p4 i' ~20180809更新:: c: w0 U3 n+ v, J' v  U) p. O# k
插图画区域由之前的矩形升级为任意多边形
# a6 Q. r  b! z) D6 I
" f7 ~) I' @+ B& |) c, \% [6 y) W' M% b; r; t& V
----------------------------; O4 L, e, ~2 V. ?. d$ |/ D
20180614更新:
* g2 s% h9 R% q$ v在校对界面中增加一列单词,即大词库表中 上页末单词和本页末单词 之间的所有单词。$ U% ]# ]/ Y4 E: S: e$ p$ f
单击则替换当前校对文本框中的文本!
" w) A( T" f' P- v' D/ j+ K6 `不同颜色提示,方便定位!) ~9 R$ r) I' `  ?: d* H- p

/ i( f% n" C: W8 U* g* e4 q3 t; l' h9 h9 h2 d$ L
3 E& T1 Q5 L* R
----------------------------0 H& }5 o& \# @" r, s1 a# }7 q
20170314更新2:/ ]: T  P* Z( F! w
校对界面修改如下,增添更多特殊字符(aeiou等),方便校对的时候直接复制粘贴:' `  d0 X+ N# x  t

% |$ e; n. M5 v) {6 B9 g
/ e# J% n+ U& e6 K20170314更新:
& q0 |) Q& P$ H- X* n起始页-->终止页
4 `- U; Z; w' L2 ?3 `# t7 Y+ E9 C[切图]-【词条整体切图】* }- p' P+ j, Y& _' B( P
---> 会直接把范围内的页面的所有单词切图导出(软件界面会有假死的状态,不用理会,导出结束就OK了)1 n, O" c: |( w  T
如果起始页和终止页为空,则导出当前页的词条切图
# A) u) i& E# u  `0 N
) E$ Y' Q& ?0 l在校对界面时,主界面【√隐藏线框】,那么此时就只有颜色框(平行线宽)
9 @; u1 d  D5 X; u* k3 ?  k当前词条亮黄色,其他还是红色9 Y0 O$ \/ n* R$ |$ b) }! e1 Y
这儿主要是考虑到有时候词条不只是单行,多行的时候可以方便查看。) ]6 B6 S, v: s! x* t# V9 R- ^$ u

; I2 w/ B! w0 |# ?----------------------------2 t! }- Y& O2 h+ p0 |0 ~: A4 N5 y8 \
20170313更新:; t/ b! n( q$ r+ v  d
1. 词条整体导出切图的判断逻辑的补充(3栏以上时,位于不同列的上下单词中间隔了空列。之前这个情况未考虑到)
( H8 `6 D: t: F2 L% `  【仅修改了:从PDIC整体导出切图的坐标数据的这部分补充内容】2 l. O5 n/ _* v4 e! L
----------------------------+ I: `. j+ I; ^
20170217更新:1 _$ @2 E0 x& k" c- l, r
1. 画线判断的方法改进(2种方法均改进)4 K5 u, x8 }+ t/ Y
----------------------------3 h# M; X! B3 e; H( d: s
20170115更新:
0 G  {. u9 N5 J# h( B( a1 S1. tessdata 的完整语言列表,具体语言移步【https://github.com/tesseract-ocr/tessdata】下载
  o4 V9 L5 ~& `" P( H2. 在图片文件名列表上方的文本框里输入“SMALL”,点击【校对】,每个词条行的缩略图切图(非原始图片上裁剪)$ |# N- z; I+ A% P
----------------------------
5 {. h# S1 T' S# S7 }$ h0 T8 c8 b20161119更新:; v8 `9 a/ X- q- w+ g2 [. y
1.修复保存坐标数据时的bug" e3 n6 t4 v9 O2 k
2.修复单词整体导出页面的一个bug4 _1 e0 t9 m$ G/ @- q
3.增加功能: 选定范围页面的批量导入词条
2 K1 y$ U; z7 T1 B  |% v. q4.增加功能: 快速查找定位索引
% [; U% ^* B2 U6 ]# k9 d, C; @9 f----------------------------- N6 s( n0 H$ B0 \& z  }
20161123更新:$ ~- N) Q( V7 p2 E) h
重写词条整体导出切图的判断逻辑,现在应该不会有切图坐标不一致、切图数目不一致的情况了。9 Q- z, S0 J; v0 J) j8 Y1 k
. l2 r, l" H1 @: Z9 j2 W
  1. 问题:页面是否有词条?
      W  Z# X$ }. i  x8 k6 h
  2. 1. NO --> 直接导出和栏数一致的大切图 (标记为上页末词条续)
    9 q6 V+ c1 H0 X3 n5 `
  3. 2. YES --> 7 f! i# n9 d0 w7 e' k5 P7 B
  4.  (1) 确定0号词条所在栏:" w: T& W! c2 l( ]
  5.   --> 0号词条所在栏之前的栏, 直接导出大切图 (标记为上页末词条续)
    ' }" `( c# r9 o. l  z
  6.   --> 0号词条所在栏上方若还有部分上页末词条接续, 则导出切图 (标记为上页末词条续)5 {( \: ~2 l( S$ ?; ]- L7 f+ q
  7.  (2) 次数为所有词条数目的循环:6 b' a! o% m0 _$ s1 f# B
  8.   A. 若: 当前为最后一个词条 --> 确定高度
    5 y4 u. m) B$ ]1 N, f3 q+ K$ Y
  9.   B. 否则:
    6 i' r+ V# [/ _' A5 [4 h
  10.    a. 下一个词条在下一栏 --> 确定高度" ~% I/ K/ G$ Q4 K$ Y7 `9 y
  11.      --> 如果当前词条在下一栏仍有接续 --> 导出切图 (标记为当前词条接续2)6 U. u1 D6 @% z# N- c4 T
  12.    b. 下一个词条在同一栏 --> 确定高度
    : x9 l3 N5 ]7 G; c) \8 D3 j
  13. / }8 R# H# o0 R8 L  x5 m+ Y  S) k0 p
  14.   --> 导出每个词条的切图1 [' b4 Z0 C6 `% q: J8 h5 f$ v

  15. 2 E1 k( r- ?" T# y& h) Y, q9 y
  16.  (3) 确定最后一个词条所在栏:
    * ^7 i+ j8 A! V& I  Z
  17.   --> 最后词条所在栏之后的栏, 直接导出大切图 (标记为本页末词条续)
复制代码
8 J! n; Z" Q/ B6 [$ O* U1 A

6 J5 _' J1 D: l8 M- F: `* E' W0 C重要更新:# d' ?/ e( v0 a$ L
1. 词条整体切图模块重写
& W& T8 m2 o) \- M2. 增加根据.pdic导出所有图片切图信息(+切图)--> 几十秒【如下面动图GIF】
! ~) o2 }9 ?6 L# A# u  @: ^- J: n

; {6 U- j$ K  E0 Q7 w; h1 U; U8 k: p& d
2016.11.28- _0 y0 }: t* Y
更新:一个小小的bug(跳过页首处下方如果单行接续,会因为判断的距离和行高过于接近造成缺漏 --> 修改了公式)# i7 d" [" n  t
& \" g+ f5 _+ D% }4 ?! k

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?免费注册

x

评分

1

查看全部评分

本帖被以下淘专辑推荐:

  • TA的每日心情
    奋斗
    2022-1-12 06:11
  • 签到天数: 118 天

    [LV.6]常住居民II

    发表于 2018-2-23 08:45:34 | 显示全部楼层
    请问大神,软件在哪儿有下载啊

    该用户从未签到

    发表于 2017-2-1 12:03:46 | 显示全部楼层
    本帖最后由 teresaiao 于 2017-2-10 13:47 编辑
    2 j6 L3 w3 e! k# Q3 M5 M3 A0 u3 H3 m4 n7 F# S! ^
    我在第一頁設置了參數和保存了, 第二頁的紅色豎線就移位了, 是不是參數有問題?

    该用户从未签到

     楼主| 发表于 2017-2-1 04:49:02 | 显示全部楼层
    teresaiao 发表于 2017-2-1 03:39+ |9 a) i2 M4 d: w! Q1 c) p5 z
    嗯,字典裏看得到了,真的快很多,基本上是要用photoshop和打詞條就好。 另外那個自動畫線,我在第一幅弄 ...
    ) z+ x& K( A3 E; J5 N6 U$ I7 m
    PS 模板 移动位置 让每一张图片位置都一样 这样在软件里你设置了的参数就会是全局通用的 之后便可以全自动全部页面划线 紧接着就可以OCR

    该用户从未签到

    发表于 2017-2-1 01:58:45 | 显示全部楼层
    本帖最后由 teresaiao 于 2017-2-10 13:46 编辑 % g0 f( G2 {; G- |) y
    , x, M% b9 N5 D7 u& w, j
    可是我想問用你那個軟件, 如果轉頁, 或解釋在第二欄, 要怎麼合併?

    该用户从未签到

    发表于 2016-11-26 13:05:03 | 显示全部楼层
    感谢chigre3,待我有空可以把汉语大字典图片版做一下了。

    该用户从未签到

     楼主| 发表于 2016-11-17 00:34:06 | 显示全部楼层
    group1234 发表于 2016-11-16 23:30
    1 c4 J! L! a3 B" x, E( g製作圖片辭典的福音,可以節省非常多的時間,期待軟件分享~~~
    & F+ T9 _9 l& [- U
    是的,这个软件确实极大提高效率,# b8 i9 I/ v' V3 j1 l! K* Q' p
    现在个人需要做的事情仅仅为:1 y0 ?2 ~7 g2 B: o
    1. 前期的图片处理:Abbyy Finereader(整体校直)、Photoshop(模板调位置, 统一)、ComicEnhancerPro(转换格式、大小) 等
    % ?' f4 c- M2 c& J- M2. 使用本软件进行:( Y! ^: l. Z( o+ x% c; ~( U
     (1) 全部页面的 自动划线-->自动OCR
    ; [" y0 t# T$ [0 n. `1 r (2) 逐页校对划线和文本(可删可增)
    8 D& A3 u) O0 Z; G3 B! m* r (3) A.合并.pdic (词条+坐标信息) --> Excel模板 --> 文本替换 --> 精确高亮定位 整页版 图片词典
    % N' C; t) o9 x    B.导出单词整体切图 --> 合并.PWWords (词条+图片名称) --> 文本替代 --> 切图版 图片词典+ \+ l( L4 ~2 H8 u! O

    该用户从未签到

    发表于 2016-11-15 22:50:35 | 显示全部楼层
    逆天还是吊炸天了。。。。。

    该用户从未签到

     楼主| 发表于 2016-11-16 02:11:49 | 显示全部楼层
    本帖最后由 chigre3 于 2016-11-16 02:22 编辑
    9 r/ T' Z; `( c$ \  H4 z+ z7 G$ {+ g! X  Y% g9 b$ V& A
    比如《现代汉语词典》也可以画线和OCR、切图等:" l) J1 z0 f3 L2 H; K0 [. J
    ----------------------------------------------------
    & c6 `, P& P4 Q7 H  p1 b; N" \画线时:5 C/ Q8 j4 g; }$ [2 d
    [行间距离]: 17
    8 T5 x/ w  f  L4 G[向右倍率]: 1/1.0: G4 z7 f/ r2 Z% G
    6 i$ L, ]/ ]4 l& e8 a
    OCR时:
    8 }' H1 x: S  Z# i! \[行间距离]: 10
    ; c3 Y! ?; v9 @* ^2 b[向右倍率]: 1/3.0. h5 d8 v: u5 ^1 s6 I7 Q. D4 D( u
    文本框匹配都是红色,因为没有加载中文的词条索引来进行匹配检查9 b9 z% X1 c8 }' }

    # d* H8 r; l, d- k2 g# T9 M* `$ ]0 R

    5 Y% i% R) j$ }

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

    发表于 2016-11-16 07:12:22 | 显示全部楼层
    几乎只剩下人工校对工作了

    该用户从未签到

    发表于 2016-11-16 08:09:02 | 显示全部楼层
    chigre3 发表于 2016-11-16 02:11
    1 m6 P+ f$ X3 H2 E9 x比如《现代汉语词典》也可以画线和OCR、切图等:! S8 d  C: k( x# v0 u
    ----------------------------------------------------
    ! r& f+ _9 k1 e ...
    ' e0 U  l: ?6 Y& B1 u0 l
    歪图问题,上下页不对齐,某些不是矩形栏的排版,3栏以及3栏以上,不知道能不能处理?

    该用户从未签到

    发表于 2016-11-16 08:46:56 | 显示全部楼层
    提示: 该帖被管理员或版主屏蔽

    该用户从未签到

     楼主| 发表于 2016-11-16 17:36:45 | 显示全部楼层
    644830104 发表于 2016-11-16 08:09" R* y' e$ z3 R9 {: d1 }
    歪图问题,上下页不对齐,某些不是矩形栏的排版,3栏以及3栏以上,不知道能不能处理?
    6 X- e. z8 {" s: F2 c* _( F
    所有图片统一修图 还有轻微歪斜能够画线
    ' x1 J1 L. Y6 O  v2 t. h图片不处理到一致规格 那最多用来划线切图OCR 每一页还要设置参数
    0 y- ~0 ~) `/ K; R) m不规则形状不考虑 : H$ U* R" Y( i! E" V. s5 B
    支持N栏
  • TA的每日心情
    开心
    2019-6-28 11:53
  • 签到天数: 28 天

    [LV.4]偶尔看看III

    发表于 2016-11-16 23:30:48 | 显示全部楼层
    製作圖片辭典的福音,可以節省非常多的時間,期待軟件分享~~~
    - Y1 t4 t& X: i/ n8 \2 k2 H5 V
  • TA的每日心情
    慵懒
    2023-2-4 11:26
  • 签到天数: 579 天

    [LV.9]以坛为家II

    发表于 2016-11-17 17:28:54 | 显示全部楼层
    这个绝对是神器
  • TA的每日心情
    开心
    2018-5-8 11:51
  • 签到天数: 18 天

    [LV.4]偶尔看看III

    发表于 2016-11-20 01:16:53 | 显示全部楼层
    激动不已!跃跃欲试

    该用户从未签到

    发表于 2016-11-20 09:18:39 来自手机 | 显示全部楼层
    哇,很牛的软件,期待chigre3的分享。
  • TA的每日心情
    开心
    2020-12-9 19:29
  • 签到天数: 27 天

    [LV.4]偶尔看看III

    发表于 2016-11-22 17:12:18 | 显示全部楼层
    这个软件太厉害了
  • TA的每日心情
    开心
    2020-12-9 19:29
  • 签到天数: 27 天

    [LV.4]偶尔看看III

    发表于 2016-11-22 17:13:11 | 显示全部楼层
    提示: 该帖被管理员或版主屏蔽

    该用户从未签到

     楼主| 发表于 2016-11-26 09:05:40 | 显示全部楼层
    【20161125更新】《葡汉词典》切图版
    2 e6 D' y7 K/ y0 i/ I( M, ]https://www.pdawiki.com/forum/fo ... &fromuid=174481
    4 m2 \+ W. V5 L6 s7 ^7 x- l(出处: 掌上百科)6 f5 z" L. G  N6 L

    该用户从未签到

    发表于 2016-11-27 08:21:42 | 显示全部楼层
    C大神器,谁与争锋?创意无限,匠心十足。佩服佩服。

    该用户从未签到

     楼主| 发表于 2016-11-27 20:23:37 | 显示全部楼层
    切图版后续:
    0 z, t5 H. H( j' N+ {  y& P% k$ H因为切出的图片数目极多,目前想法是:
    " s0 H( G. a) O$ a1 O+ \! H(1) 制作成MDX/MDD格式, CSS不内嵌入MDD, 外置CSS, 方便个人设置
    9 K: O# B9 V+ _) s, r0 [% T/ {4 I: q(2) 制作成DSL格式, 图片资源直接打包zip; b3 e) E8 T; n& C: q( x

    该用户从未签到

     楼主| 发表于 2017-2-1 02:01:35 | 显示全部楼层
    teresaiao 发表于 2017-2-1 01:581 |9 @& @. [" h6 x7 ]6 a
    終於都會做了, 可是我想問用你那個軟件, 如果轉頁, 或解釋在第二欄, 要怎麼合併?

    7 O9 X: d: d0 G" q+ S5 m所有位置的切图都是分离的,后期导出时同时导出对应信息! a- N! C6 x" V0 t5 U
    也就是:词条+页码+切图图片名(1~多个)

    该用户从未签到

     楼主| 发表于 2017-2-1 02:04:52 | 显示全部楼层
    teresaiao 发表于 2017-2-1 01:58/ m$ ~/ ?% r: I5 j, t0 O
    終於都會做了, 可是我想問用你那個軟件, 如果轉頁, 或解釋在第二欄, 要怎麼合併?
    4 d# T' T7 B/ \7 W3 `- E, s
    你下载了那个红葡汉词典 查一些释义特别长的单词 就可以了解到啦 DSL.dz 可以使用解压缩软件还原为.dsl 文本的 你打开就可看到词条结构

    该用户从未签到

    发表于 2017-2-1 03:39:23 | 显示全部楼层
    本帖最后由 teresaiao 于 2017-2-10 13:46 编辑
    2 z& x; T3 R" e1 m2 t8 g: S/ j( y3 i
    chigre3 发表于 2017-2-1 02:04
    * o# r2 T* D# L5 ^6 e$ F/ T你下载了那个红葡汉词典 查一些释义特别长的单词 就可以了解到啦 DSL.dz 可以使用解压缩软件还原为.dsl  ...
    & ~3 v" t) h4 R2 r2 }+ @
    : B- s. z4 G6 u3 b
    如何才能固定
    3 ^' [# f/ n$ r4 C( }# X  \7 V3 a2 R# o3 }
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2026-6-10 08:20 , Processed in 0.025890 second(s), 26 queries .

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表