掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 19224|回复: 77

[工具] 20181130更新_自动画线+OCR+切图+校对 软件

  [复制链接]

该用户从未签到

发表于 2016-11-15 20:14:56 | 显示全部楼层 |阅读模式
本帖最后由 chigre3 于 2018-11-30 08:14 编辑   K6 l+ D3 o) [
8 L9 N1 D0 a$ w9 w9 B0 q7 D
一、致谢:5 ^* g# j0 h" w/ }- k
  感谢 @vbnet 的自动画线测试版, 现在经过个人修改, 几乎完全删除了原先的内容, 软件名称仍为 Picture Capture2 c! G! t' P; G2 i; p
  感谢 @孤影 的自动划线软件, 给了很多界面上的参考
4 b. m" z/ z0 n/ W------------------------------------------------------------------------
8 r# F- E) K+ q) `3 I二、这个软件有什么用呢???* g% d2 ?' W% G2 V" P* g5 p
  极大地提高制作图片版词典的效率,现在个人需要做的事情仅仅为:
0 F( U' H3 N) l2 Z* M! q  1. 前期的图片处理:Abbyy Finereader(整体校直)、Photoshop(模板调位置, 统一)、ComicEnhancerPro(转换格式、大小) 等- r* ]2 n6 J9 E
  2. 使用本软件进行:
8 H" L1 N# \: f6 {! ]9 n   (1) 全部页面的 自动划线-->自动OCR
: R9 p7 G% r$ v8 {   (2) 逐页校对划线和文本(可删可增)
7 y1 _! k) D  Y8 Z4 m   (3) A.合并 .pdic (词条 + 坐标信息) --> Excel 模板 --> 文本替换 --> 精确高亮定位 整页版 图片词典
6 t! q8 L  I$ I9 b3 j# ?4 D      B.导出单词整体切图 --> 合并 .PWWords (词条+图片名称) --> 文本替代 --> 切图版 图片词典! y' d& T- l: d7 w; N1 n) r9 ?! y
------------------------------------------------------------------------
# Y  q9 z5 p! [6 p三、实现的功能:4 I. V; @- W0 B% O5 @. ~
  1. 画线:
( A6 W, |0 N1 R% \. j3 W   (1) 自动分析页面 + 自动画线* Y$ g7 z& w- p- B. Q. u! ^
   (2) 手动模式定义页面 + 自动划线
7 c- E! S; k( l; j3 z   (3) 鼠标右键单击修改单栏重新自动画线4 d5 b& Z* P5 h1 L( `# {4 u
   以上均 + 鼠标左键单击增加画线, 文本框内快捷键`删除划线
2 |) i& W# ~1 g- k1 F+ V" v' V( a- t  Z  V! l' a% Z
  2. OCR:
3 |" A1 h+ m5 v% |9 ], b3 h6 }$ Z2 h   采用Tesseract OCR, 具体语言文件 tessdata 可以到官网下载:https://github.com/tesseract-ocr/tessdata  s3 U" Y8 e8 R. J) n8 J9 o( i
   (1) 导出文本:可外部编辑后导入, 避免OCR单个切图的不足
7 a0 g0 w" k9 t* a& {: |   (2) 导入文本
3 q, Q# H4 f, }2 @- t+ ^& E   (3) 1 + 2:直接将OCR结果导入当前页面的文本框 --> 校对1 `2 d- ^5 _+ N; }; w
   外置批量替换表达式文本, 可自行创建和编辑, 适应各个词典不同OCR处理的场景
* D8 ]8 A3 f! [7 W% R; J
0 Y* h  J5 B8 R; ~  3. 切图:
4 V. L. s% N+ D: X   (1) 词条单行切图:也可以使用外部其他OCR软件处理,或者其他用途5 k: W* x  Z7 ?5 ^. p% |
   (2) 词条整体切图:实现切图版图片词典的制作(背景透明,不过目前需要其他PNG优化软件缩减大小:https://www.pdawiki.com/forum/thread-19157-1-1.html. x" n0 r( S2 ?! k
    (实例1:[英-汉] 20161113《英汉大词典(第2版)》10页单词 切图版  https://www.pdawiki.com/forum/thread-19015-1-1.html
1 d! U+ O% Y4 ?  h9 b$ |% x    (实例2:新西汉词典 切图版 https://www.pdawiki.com/forum/fo ... 6545&fromuid=174481
7 u! K# B+ W  M5 u7 j5 ~    
: `$ L3 [& L8 x' D, L   可实现仅导出切图坐标等信息,不导出切图,方便使用外部软件进行$ h+ l4 \2 C- y. L. v- r
    0 g9 F3 S& w4 F1 c$ g3 {
6 O' f. R: R7 \! ^1 R& X
  4. 校对:
6 f" u# m6 K+ q6 E   列表式样, 与主窗口同步更新文本框内容, 也高亮匹配提示& N6 i6 O3 L4 ~" [# A9 c$ k3 H7 F

# h2 I; c2 Z, G; }/ X  5. 其他:0 }# I9 j6 u9 K
   (1) 配置文件保存、导入
* h: w  D+ j+ a$ N* t) D   (2) 自动下一页+操作(定时):自动保存、自动画线、自动OCR、自动切图。方便无人值守完成相应任务
: g6 r2 a$ \8 u' ?   (3) 最重要的还是要人工校对!!!!
1 [7 W# @. n4 ^+ h2 P   (4) 高度自定义参数设置
; Z0 D8 h; P" p+ X4 o5 _------------------------------------------------------------------------* F) G$ B7 {7 X0 w* R& S6 v
如题,放个图:
3 F2 ^% v3 R$ p/ B6 C! z
0 j! L7 W4 P; I% K8 y" j6 K& r, D9 v0 Z
7 O+ R! y0 B$ F  o4 v) E. B
% P; c! s" P( O6 G7 \) O1 Z& @
截图内的词条文字为OCR结果
% w8 k# ~! P7 }. ]( n4 B, d# t# a0 U1 [7 T. }4 i" ~, ]4 c
6 O" f# j' o) j2 v5 h# b

; S* l; m1 Y# l8 G----------------------------20181130更新:
! s& D# a% a( Z$ v# K2 {/ G  N1 k校对窗口增加按当前提示索引(全部或部分)填充当前划线的文本框!
* M1 t9 p) h1 D) m% R- |----------------------------
, |1 H3 R; p3 t, A7 {20180809更新:/ [' n2 B* @( x- O+ Z( m
插图画区域由之前的矩形升级为任意多边形& d9 n* k) v4 T: e
1 L5 ~- E6 c8 R' W- m  _( P! \

& L. F7 B( k" V, O! I$ W) h5 o8 n----------------------------
! f; p+ p# V; D5 K- \4 l20180614更新:
) b3 c; S4 F; Q0 y/ s+ q在校对界面中增加一列单词,即大词库表中 上页末单词和本页末单词 之间的所有单词。
, L4 B" l. b4 D$ m! c# Y3 G* f/ p单击则替换当前校对文本框中的文本!1 z9 s$ H( ]+ z" R0 S: F9 y: ^
不同颜色提示,方便定位!
) ^7 D0 g* F3 O5 k/ x4 d5 u+ E$ p' K5 Y) |
% q* \) k7 f2 z) K) a; Z

  c& v4 y. `/ c" B' b3 ~----------------------------* A/ U2 M; x. f, f+ j7 }9 S8 k
20170314更新2:
- R- t# r  p; w校对界面修改如下,增添更多特殊字符(aeiou等),方便校对的时候直接复制粘贴:
% t0 F9 w% T0 E* l1 G  w
  ~1 o1 y5 _* Z& m/ i% o+ d& ~/ k( k% a/ p
20170314更新:& Q& [9 `  x2 Y
起始页-->终止页. |. t6 O; b2 w, `# N
[切图]-【词条整体切图】# L6 v) v( `! F5 T2 R& ]
---> 会直接把范围内的页面的所有单词切图导出(软件界面会有假死的状态,不用理会,导出结束就OK了)
% G! L  W% {, A8 r# ?如果起始页和终止页为空,则导出当前页的词条切图
% h7 j3 r- N, X: ]) _; E$ Z8 P0 X! \' x
在校对界面时,主界面【√隐藏线框】,那么此时就只有颜色框(平行线宽)
. z# g4 H2 n8 y+ R' c4 ~当前词条亮黄色,其他还是红色
4 \+ @6 f7 h- E8 h' h这儿主要是考虑到有时候词条不只是单行,多行的时候可以方便查看。) o, t6 k8 Z, [' |1 C5 u7 M! M. K, f
& V% d% n; Q( Y$ h
----------------------------
, [+ \4 j: S- K4 z5 X, R" G; p20170313更新:* ^5 M- Q  }4 T" ~
1. 词条整体导出切图的判断逻辑的补充(3栏以上时,位于不同列的上下单词中间隔了空列。之前这个情况未考虑到)/ O9 `, ]) a: [+ ~1 z+ \3 n6 Q
  【仅修改了:从PDIC整体导出切图的坐标数据的这部分补充内容】
) \( {; z7 H$ h* e1 O4 T----------------------------, j7 L! C$ q' ]! H
20170217更新:7 M3 U" l8 z( g8 }% F" m# v
1. 画线判断的方法改进(2种方法均改进)7 t. W' S2 f! h$ \
----------------------------+ y+ J: k* b' w7 C, L( W
20170115更新:/ L) y  o: k& H1 I% R. Q
1. tessdata 的完整语言列表,具体语言移步【https://github.com/tesseract-ocr/tessdata】下载
2 p8 Y8 ]3 j% L" c* E' |4 O5 v2. 在图片文件名列表上方的文本框里输入“SMALL”,点击【校对】,每个词条行的缩略图切图(非原始图片上裁剪)* ]" H- [( u, Y* [) v
----------------------------
" ]# c& X, ]' @) R20161119更新:
* c9 u" c2 ~: ?2 O/ B  d5 F1.修复保存坐标数据时的bug
3 y. j9 N9 _( R" W2.修复单词整体导出页面的一个bug7 M5 `/ J6 O, R& [5 V/ x
3.增加功能: 选定范围页面的批量导入词条
" K8 r6 o' _, g: y* e! j) W* j4.增加功能: 快速查找定位索引
4 ~3 i& L# X' M----------------------------) [# S( A4 A2 }0 \: }
20161123更新:. M8 T, W2 X! `/ j2 S, }
重写词条整体导出切图的判断逻辑,现在应该不会有切图坐标不一致、切图数目不一致的情况了。, ~+ f+ h6 }+ S2 d) e
" X8 `2 \& X" n7 h7 _
  1. 问题:页面是否有词条?
    ! L9 I8 C" n* l( ?
  2. 1. NO --> 直接导出和栏数一致的大切图 (标记为上页末词条续)4 V3 j) _5 j9 c. v: a
  3. 2. YES --> # n" {( w! {! ~3 V
  4.  (1) 确定0号词条所在栏:
    ; X& m+ G  @4 Z3 Y8 G( O6 J
  5.   --> 0号词条所在栏之前的栏, 直接导出大切图 (标记为上页末词条续)9 Z4 ]1 R! D4 f! U
  6.   --> 0号词条所在栏上方若还有部分上页末词条接续, 则导出切图 (标记为上页末词条续)
    + G# i! C/ ?$ I6 e
  7.  (2) 次数为所有词条数目的循环:
    & n9 [) U! F1 J+ Z9 D1 k$ F4 ]
  8.   A. 若: 当前为最后一个词条 --> 确定高度4 e* ^. j  O6 q$ K
  9.   B. 否则:
    / C3 T% y$ h/ o0 U2 C
  10.    a. 下一个词条在下一栏 --> 确定高度
    & D& k2 `! F* z) b$ @2 T; ~
  11.      --> 如果当前词条在下一栏仍有接续 --> 导出切图 (标记为当前词条接续2). x& V5 n7 m  t" n% }/ L
  12.    b. 下一个词条在同一栏 --> 确定高度
    ) Z! J& u3 Y  y  |$ P4 a. ?( [) E

  13. # S: y3 L* `; p/ m1 k+ `
  14.   --> 导出每个词条的切图
    ; l, v& k. ?8 A3 l/ f( ?( Z2 s' l
  15. 3 H1 W$ s, z, i5 W
  16.  (3) 确定最后一个词条所在栏:
    4 g7 O4 m/ @- G) W' G5 ^
  17.   --> 最后词条所在栏之后的栏, 直接导出大切图 (标记为本页末词条续)
复制代码
% ?1 v! p, y8 A3 ~. o
. b* ^' [, g( a9 v+ S% h: S7 n6 A" W  G
重要更新:
, d8 |: T0 l3 h" f- s& o7 m1. 词条整体切图模块重写
0 C3 K" e  p  L4 `' U: h0 \7 M2. 增加根据.pdic导出所有图片切图信息(+切图)--> 几十秒【如下面动图GIF】
4 v, ~% y5 s- i7 E- O
5 n& N7 O, z6 S" u; j1 N$ o( [2 H' }; f3 `2 Q6 t

9 y  n3 v/ v1 r$ B5 C& i  V9 }9 L# t4 I2016.11.28
/ Q( Q! X' u5 E% \) Y更新:一个小小的bug(跳过页首处下方如果单行接续,会因为判断的距离和行高过于接近造成缺漏 --> 修改了公式)
2 {1 B( w6 o4 [  Q! E8 @) k; D) q1 C

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?免费注册

x

评分

1

查看全部评分

本帖被以下淘专辑推荐:

  • TA的每日心情
    奋斗
    2022-1-12 06:11
  • 签到天数: 118 天

    [LV.6]常住居民II

    发表于 2018-2-23 08:45:34 | 显示全部楼层
    请问大神,软件在哪儿有下载啊

    该用户从未签到

    发表于 2017-2-1 12:03:46 | 显示全部楼层
    本帖最后由 teresaiao 于 2017-2-10 13:47 编辑
    $ Y3 }$ j! \/ T4 O1 ~, Z* f, N+ B$ n* t. |3 y/ Q$ N1 Z+ ^( c
    我在第一頁設置了參數和保存了, 第二頁的紅色豎線就移位了, 是不是參數有問題?

    该用户从未签到

     楼主| 发表于 2017-2-1 04:49:02 | 显示全部楼层
    teresaiao 发表于 2017-2-1 03:39
      T( A& O8 ^( w嗯,字典裏看得到了,真的快很多,基本上是要用photoshop和打詞條就好。 另外那個自動畫線,我在第一幅弄 ...
    . O* M! D4 d, \- M; @3 z( [
    PS 模板 移动位置 让每一张图片位置都一样 这样在软件里你设置了的参数就会是全局通用的 之后便可以全自动全部页面划线 紧接着就可以OCR

    该用户从未签到

    发表于 2017-2-1 01:58:45 | 显示全部楼层
    本帖最后由 teresaiao 于 2017-2-10 13:46 编辑
    4 X4 U% t. O& t6 q! t. y5 ~. m. U% |
    可是我想問用你那個軟件, 如果轉頁, 或解釋在第二欄, 要怎麼合併?

    该用户从未签到

    发表于 2016-11-26 13:05:03 | 显示全部楼层
    感谢chigre3,待我有空可以把汉语大字典图片版做一下了。

    该用户从未签到

     楼主| 发表于 2016-11-17 00:34:06 | 显示全部楼层
    group1234 发表于 2016-11-16 23:306 u0 y& i+ b- u* f
    製作圖片辭典的福音,可以節省非常多的時間,期待軟件分享~~~
    5 ^3 J, C1 j: C7 f$ s
    是的,这个软件确实极大提高效率,5 |$ M) n! C( m' c
    现在个人需要做的事情仅仅为:
    . X5 ]% S0 @/ h4 F8 b: e1. 前期的图片处理:Abbyy Finereader(整体校直)、Photoshop(模板调位置, 统一)、ComicEnhancerPro(转换格式、大小) 等
    2 B. Y. f0 A! M8 O) u2. 使用本软件进行:) Q. X, j  S. m
     (1) 全部页面的 自动划线-->自动OCR
    ( h/ @' [: f" W0 a+ a. j (2) 逐页校对划线和文本(可删可增)- k* |/ h/ }. c, g
     (3) A.合并.pdic (词条+坐标信息) --> Excel模板 --> 文本替换 --> 精确高亮定位 整页版 图片词典
    ' h( K5 y6 y; G. H: g& C    B.导出单词整体切图 --> 合并.PWWords (词条+图片名称) --> 文本替代 --> 切图版 图片词典( t9 \9 ^4 i. l. c& m

    该用户从未签到

    发表于 2016-11-15 22:50:35 | 显示全部楼层
    逆天还是吊炸天了。。。。。

    该用户从未签到

     楼主| 发表于 2016-11-16 02:11:49 | 显示全部楼层
    本帖最后由 chigre3 于 2016-11-16 02:22 编辑
    0 t2 T, ^, t! [$ l- y: p
    , Z) ?; {0 d( T比如《现代汉语词典》也可以画线和OCR、切图等:* p! Y" s5 y3 ]: `
    ----------------------------------------------------
    - p7 E; o6 X" q画线时:
    . E" S. m/ C% n1 V[行间距离]: 17- g2 A+ H* P7 t  N1 |0 [
    [向右倍率]: 1/1.0+ A% I* w" A9 |7 s4 V0 u1 v
    : f( V; a! C0 U# d3 F' t
    OCR时:
    " @- ?& T4 w0 a' [5 T1 a[行间距离]: 10  V" _8 W, l1 |. r! z
    [向右倍率]: 1/3.0
    , M* K3 P0 m( r& F- u! E文本框匹配都是红色,因为没有加载中文的词条索引来进行匹配检查" R# w* Q5 m; n9 g0 Q' ?: _

    " {4 _1 Q% G3 A5 L, B% j0 a5 e' T8 z
    5 `7 @# X/ @2 _+ d$ o' E

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

    发表于 2016-11-16 07:12:22 | 显示全部楼层
    几乎只剩下人工校对工作了

    该用户从未签到

    发表于 2016-11-16 08:09:02 | 显示全部楼层
    chigre3 发表于 2016-11-16 02:11  d6 c0 E' A) S3 ?; X
    比如《现代汉语词典》也可以画线和OCR、切图等:
    0 ?. [6 q, |" \: L  G, M& t& R* w; ]----------------------------------------------------. f' ~! O& w( |* T/ J4 O
    ...
    0 E6 \$ i9 @) q0 y5 [/ X
    歪图问题,上下页不对齐,某些不是矩形栏的排版,3栏以及3栏以上,不知道能不能处理?

    该用户从未签到

    发表于 2016-11-16 08:46:56 | 显示全部楼层
    提示: 该帖被管理员或版主屏蔽

    该用户从未签到

     楼主| 发表于 2016-11-16 17:36:45 | 显示全部楼层
    644830104 发表于 2016-11-16 08:09
    - ^. K. l  _6 p4 n" d: X歪图问题,上下页不对齐,某些不是矩形栏的排版,3栏以及3栏以上,不知道能不能处理?
    : x+ V$ z& p& \; ^% ~$ R/ \
    所有图片统一修图 还有轻微歪斜能够画线) _7 c9 r4 G, h6 m9 G2 x
    图片不处理到一致规格 那最多用来划线切图OCR 每一页还要设置参数 , g, M1 H; g0 j0 T% h7 \3 @( W
    不规则形状不考虑
      B' L# H- t, R& s$ |4 P( `支持N栏
  • TA的每日心情
    开心
    2019-6-28 11:53
  • 签到天数: 28 天

    [LV.4]偶尔看看III

    发表于 2016-11-16 23:30:48 | 显示全部楼层
    製作圖片辭典的福音,可以節省非常多的時間,期待軟件分享~~~# f; j' |9 R  [/ L4 h- m
  • TA的每日心情
    慵懒
    2023-2-4 11:26
  • 签到天数: 579 天

    [LV.9]以坛为家II

    发表于 2016-11-17 17:28:54 | 显示全部楼层
    这个绝对是神器
  • TA的每日心情
    开心
    2018-5-8 11:51
  • 签到天数: 18 天

    [LV.4]偶尔看看III

    发表于 2016-11-20 01:16:53 | 显示全部楼层
    激动不已!跃跃欲试

    该用户从未签到

    发表于 2016-11-20 09:18:39 来自手机 | 显示全部楼层
    哇,很牛的软件,期待chigre3的分享。
  • TA的每日心情
    开心
    2020-12-9 19:29
  • 签到天数: 27 天

    [LV.4]偶尔看看III

    发表于 2016-11-22 17:12:18 | 显示全部楼层
    这个软件太厉害了
  • TA的每日心情
    开心
    2020-12-9 19:29
  • 签到天数: 27 天

    [LV.4]偶尔看看III

    发表于 2016-11-22 17:13:11 | 显示全部楼层
    提示: 该帖被管理员或版主屏蔽

    该用户从未签到

     楼主| 发表于 2016-11-26 09:05:40 | 显示全部楼层
    【20161125更新】《葡汉词典》切图版* X' P2 Y/ V/ q0 k& l
    https://www.pdawiki.com/forum/fo ... &fromuid=174481
    ) ]# W8 Q5 N: r4 p. r3 W, n(出处: 掌上百科)
      P, F8 A5 u8 n1 ?, z

    该用户从未签到

    发表于 2016-11-27 08:21:42 | 显示全部楼层
    C大神器,谁与争锋?创意无限,匠心十足。佩服佩服。

    该用户从未签到

     楼主| 发表于 2016-11-27 20:23:37 | 显示全部楼层
    切图版后续:
    5 ~# y5 k  B1 b( \+ t) X+ B因为切出的图片数目极多,目前想法是:
    1 y- c6 P" K& d% k7 Q" ?& W(1) 制作成MDX/MDD格式, CSS不内嵌入MDD, 外置CSS, 方便个人设置
    ; C% ~, I% k0 R3 f5 ^9 D4 e, k# j(2) 制作成DSL格式, 图片资源直接打包zip
    1 Q! t$ C+ W0 q6 x  V. w

    该用户从未签到

     楼主| 发表于 2017-2-1 02:01:35 | 显示全部楼层
    teresaiao 发表于 2017-2-1 01:58
    5 I0 |0 g0 x- r: M終於都會做了, 可是我想問用你那個軟件, 如果轉頁, 或解釋在第二欄, 要怎麼合併?

    8 S6 X' _! K& \. t- c9 C所有位置的切图都是分离的,后期导出时同时导出对应信息! _0 N2 d" \4 j9 X- f, K
    也就是:词条+页码+切图图片名(1~多个)

    该用户从未签到

     楼主| 发表于 2017-2-1 02:04:52 | 显示全部楼层
    teresaiao 发表于 2017-2-1 01:58+ D' z2 \# W* ]3 R. T" R0 p! G$ f
    終於都會做了, 可是我想問用你那個軟件, 如果轉頁, 或解釋在第二欄, 要怎麼合併?
    ' ?, i" K5 o; q/ T+ y
    你下载了那个红葡汉词典 查一些释义特别长的单词 就可以了解到啦 DSL.dz 可以使用解压缩软件还原为.dsl 文本的 你打开就可看到词条结构

    该用户从未签到

    发表于 2017-2-1 03:39:23 | 显示全部楼层
    本帖最后由 teresaiao 于 2017-2-10 13:46 编辑 ! O! k) S8 z/ j+ G1 w4 f
    chigre3 发表于 2017-2-1 02:04
    * d+ M0 M$ q% j. _# n5 {; y你下载了那个红葡汉词典 查一些释义特别长的单词 就可以了解到啦 DSL.dz 可以使用解压缩软件还原为.dsl  ...
    " R- L! ?/ G3 M1 F
    + R$ V4 h4 U. l7 X4 L- o+ `
    如何才能固定3 N- Z  i4 A# X" b5 l2 s. a
    * K3 _! f4 V, ?3 L' m: m
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-11-6 20:30 , Processed in 0.077218 second(s), 11 queries , MemCache On.

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表