掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 17472|回复: 73

[工具] 20181130更新_自动画线+OCR+切图+校对 软件

  [复制链接]

该用户从未签到

发表于 2016-11-15 20:14:56 | 显示全部楼层 |阅读模式
本帖最后由 chigre3 于 2018-11-30 08:14 编辑
! K- h* O4 u4 l! k3 Q  P$ I) V! u' D/ F; d( O6 d
一、致谢:3 S: W" v& }3 K9 g! w
  感谢 @vbnet 的自动画线测试版, 现在经过个人修改, 几乎完全删除了原先的内容, 软件名称仍为 Picture Capture
/ a" x$ C* L0 ^* I/ E: e  感谢 @孤影 的自动划线软件, 给了很多界面上的参考& E1 _$ `9 L1 e) \) I* l9 o7 f- s: T! t
------------------------------------------------------------------------* k! E* c0 a3 y7 a! i$ b# `
二、这个软件有什么用呢???8 f! r2 f" U6 n2 A! M0 Y
  极大地提高制作图片版词典的效率,现在个人需要做的事情仅仅为:
8 x  `/ U& k  Q  1. 前期的图片处理:Abbyy Finereader(整体校直)、Photoshop(模板调位置, 统一)、ComicEnhancerPro(转换格式、大小) 等
. q. ?& e- h5 x7 E/ ]  2. 使用本软件进行:
- P2 B& f3 J& K% e. R: u4 k   (1) 全部页面的 自动划线-->自动OCR
) b3 V( w/ j# L3 X  `' n   (2) 逐页校对划线和文本(可删可增)
: j: Y1 Z: g  V# y" M7 H   (3) A.合并 .pdic (词条 + 坐标信息) --> Excel 模板 --> 文本替换 --> 精确高亮定位 整页版 图片词典
7 |" @0 }% [; B- J$ W4 b0 P2 I0 R" p      B.导出单词整体切图 --> 合并 .PWWords (词条+图片名称) --> 文本替代 --> 切图版 图片词典
! p7 |0 B  {6 E0 s  t+ _# V3 L------------------------------------------------------------------------  ^7 `& Y+ X/ A0 \; g
三、实现的功能:
7 s1 D" k% X  y5 w3 e4 [  1. 画线:
' _$ A7 x8 t: h9 d1 n* f, R   (1) 自动分析页面 + 自动画线
3 |9 a, c0 G  }9 _' r6 _0 u   (2) 手动模式定义页面 + 自动划线% ^( r% K/ _, Y' I0 I* i
   (3) 鼠标右键单击修改单栏重新自动画线) ]) _# e3 q  }+ p. n
   以上均 + 鼠标左键单击增加画线, 文本框内快捷键`删除划线# C6 q& d# s  t$ P$ ?# k) H
7 i' z" G1 Q* S# z5 X! q+ C# V/ b
  2. OCR:1 L) q* E- @0 H* o& J% {  M, z
   采用Tesseract OCR, 具体语言文件 tessdata 可以到官网下载:https://github.com/tesseract-ocr/tessdata( c4 H0 S/ x" f5 i
   (1) 导出文本:可外部编辑后导入, 避免OCR单个切图的不足
: T4 b% Y- D% d0 z   (2) 导入文本
3 Z1 i: B/ |! j) |+ c   (3) 1 + 2:直接将OCR结果导入当前页面的文本框 --> 校对
* A: ?  z! @6 q8 D   外置批量替换表达式文本, 可自行创建和编辑, 适应各个词典不同OCR处理的场景
5 L' H7 S/ x7 b0 d  \: }& s0 Q) w
  3. 切图:
9 a9 ]0 L) [% s$ l9 O# a& p4 {   (1) 词条单行切图:也可以使用外部其他OCR软件处理,或者其他用途) e' Y0 K+ {( w! m
   (2) 词条整体切图:实现切图版图片词典的制作(背景透明,不过目前需要其他PNG优化软件缩减大小:https://www.pdawiki.com/forum/thread-19157-1-1.html; I0 p! t/ s3 |/ ~+ r
    (实例1:[英-汉] 20161113《英汉大词典(第2版)》10页单词 切图版  https://www.pdawiki.com/forum/thread-19015-1-1.html
* M3 t; W( j6 v2 d2 N6 L    (实例2:新西汉词典 切图版 https://www.pdawiki.com/forum/fo ... 6545&fromuid=174481
) l6 Q3 D, ^2 I+ u    9 X( r: @, q7 _  ~. b0 S4 p
   可实现仅导出切图坐标等信息,不导出切图,方便使用外部软件进行0 f: ~4 _* Y" X
    
6 ^3 `2 M2 @+ @/ o& W1 \" B' ~' _( y: y' J9 G4 P2 s
  4. 校对:
2 q: d: K+ r, r+ @+ h" j   列表式样, 与主窗口同步更新文本框内容, 也高亮匹配提示9 F( D* C4 p+ |) T' K) p0 o. \

( ]6 y) Z: k7 S- I2 [# x* `' c  5. 其他:" O) F9 j0 v) E9 n
   (1) 配置文件保存、导入
# ]$ m5 O5 Z: v0 l" W# Q/ f+ D, G   (2) 自动下一页+操作(定时):自动保存、自动画线、自动OCR、自动切图。方便无人值守完成相应任务
- M; B4 E$ }; |7 j  m1 a( ]   (3) 最重要的还是要人工校对!!!!1 L- G3 x0 L% z, y* u2 `$ Q" Q
   (4) 高度自定义参数设置
( _' y; I+ r) G------------------------------------------------------------------------! E" E, v% n; @/ C
如题,放个图:$ f2 A2 r) I' l' e0 j

; e* S. }5 I' \; X; {5 Q) o/ y4 s. ~+ A1 }, Q( X! v

( H1 t" X# x8 d' F+ x6 J3 }; ]; ~( J$ w* }6 `6 M" S
截图内的词条文字为OCR结果
1 l: `8 ]! O& }2 v  A) l# g! X3 K+ q  k
0 Q8 I- I' S1 R- r" f: Y+ T
; l) }$ @5 I$ K% Q/ @6 B" C& v0 E: j* v, _5 G& f; X9 U
----------------------------20181130更新:( i* k' \6 P( U# W* h) D/ m
校对窗口增加按当前提示索引(全部或部分)填充当前划线的文本框!
3 Y1 e6 |9 J* a. l/ ?----------------------------+ L) C/ Q2 k: I5 X( A
20180809更新:
+ ?. J' d8 b1 M1 P' p; \7 u插图画区域由之前的矩形升级为任意多边形: ?" }; E+ F  g

% s2 ~7 T# M% c! f
5 x. y# X  [4 p) R' t, I* c; _) p* K6 Q----------------------------$ h% H5 K% P2 }9 H  Y% I  g
20180614更新:
( P5 x: T; c# _8 ^在校对界面中增加一列单词,即大词库表中 上页末单词和本页末单词 之间的所有单词。# X$ Z' W4 @8 e2 e; C9 ^2 u" h+ f# s
单击则替换当前校对文本框中的文本!: e; K1 R# r+ l+ D; b- k, f1 T. L4 b
不同颜色提示,方便定位!" W3 f: N( [* f9 ]  }
7 m+ I+ t8 t: i; I0 J

+ p7 q# _) G4 [& H' R- o
, G# c8 l& `  F( h  ?8 N. ]4 n( @  k( x----------------------------
8 r) p8 }% P) f# h20170314更新2:8 D7 v7 C* i2 s6 L0 p4 ?
校对界面修改如下,增添更多特殊字符(aeiou等),方便校对的时候直接复制粘贴:
3 W' A( Q* W% Z+ f
& I0 p: C; \7 i) h, D7 z  {1 \  }) P# L
20170314更新:
( F5 }/ q9 ]; ]: e起始页-->终止页
& Y7 d; u5 z; N1 ]- S) u+ O[切图]-【词条整体切图】& O# n1 _' P( Y+ ?' s5 ^# U4 U
---> 会直接把范围内的页面的所有单词切图导出(软件界面会有假死的状态,不用理会,导出结束就OK了)
  m. p& k8 K1 @" _  G如果起始页和终止页为空,则导出当前页的词条切图* h1 P, m$ |  l- V
8 w4 v* }9 q0 o* a2 s% Y
在校对界面时,主界面【√隐藏线框】,那么此时就只有颜色框(平行线宽)4 t, f) C, H0 K% k
当前词条亮黄色,其他还是红色
$ t+ E5 `" H9 r这儿主要是考虑到有时候词条不只是单行,多行的时候可以方便查看。
- P1 d4 r7 s8 W
, q1 [7 a4 s9 h: ]' W----------------------------
: Z6 K4 p. B* E/ d20170313更新:
! E8 c8 G9 D2 S) ^7 D7 B3 p% u1. 词条整体导出切图的判断逻辑的补充(3栏以上时,位于不同列的上下单词中间隔了空列。之前这个情况未考虑到)
  J  z8 z0 Q( u! I# q% y  【仅修改了:从PDIC整体导出切图的坐标数据的这部分补充内容】' h9 V% m$ Y) g# e
----------------------------
8 p, T5 ^8 l1 r; o& \- y20170217更新:8 o9 D7 L* _8 P9 P( t
1. 画线判断的方法改进(2种方法均改进)
' @/ Z7 M4 ?, m----------------------------
. f1 F# v8 v* R) b20170115更新:. m8 X6 v  c# ^3 e0 o
1. tessdata 的完整语言列表,具体语言移步【https://github.com/tesseract-ocr/tessdata】下载# x4 F4 b* q: \. ~- f3 f9 K& p: W+ y* J
2. 在图片文件名列表上方的文本框里输入“SMALL”,点击【校对】,每个词条行的缩略图切图(非原始图片上裁剪)$ D. Y' f+ t6 [5 U. N
----------------------------1 ~- O3 t) B$ y/ t3 i$ a( m) h
20161119更新:
* r* p$ ^4 s' b: W) m8 n6 g4 G1.修复保存坐标数据时的bug. K; e3 Y; W+ \7 Z9 [
2.修复单词整体导出页面的一个bug: i6 n, c5 z, h+ P
3.增加功能: 选定范围页面的批量导入词条0 P( j# o2 S7 J4 b
4.增加功能: 快速查找定位索引
* z+ J/ s, c5 g/ a8 K1 o) j9 ~! @) n----------------------------
4 \/ Q; A$ ?- d3 j( o) {20161123更新:
" g; {  n, B' E9 i. t/ d重写词条整体导出切图的判断逻辑,现在应该不会有切图坐标不一致、切图数目不一致的情况了。
+ Y; D" ]( u& o, h, |) X/ y/ [
  T5 P: x, \8 x6 s  x
  1. 问题:页面是否有词条?
    " n. k; @0 ~. t2 J/ r. G
  2. 1. NO --> 直接导出和栏数一致的大切图 (标记为上页末词条续)
    0 y' n4 d$ T; \8 }0 D3 a6 o& g
  3. 2. YES -->
      A5 S( Y8 f7 {1 Q" \5 _; a
  4.  (1) 确定0号词条所在栏:  O; O$ \; u$ ~
  5.   --> 0号词条所在栏之前的栏, 直接导出大切图 (标记为上页末词条续)
    ' h, ?9 S! A; B( i4 Q+ y! w( ^; h: \
  6.   --> 0号词条所在栏上方若还有部分上页末词条接续, 则导出切图 (标记为上页末词条续)
    ) d: r. d! A5 }4 o5 s: T9 ?
  7.  (2) 次数为所有词条数目的循环:
    + L) V+ M+ }9 ?& {6 T" l4 {; G/ M, f
  8.   A. 若: 当前为最后一个词条 --> 确定高度
    2 E' l6 i/ E" x" `
  9.   B. 否则:1 t# u) M4 f) }8 b
  10.    a. 下一个词条在下一栏 --> 确定高度
    5 H+ P* K! l8 d3 `5 S& i/ W
  11.      --> 如果当前词条在下一栏仍有接续 --> 导出切图 (标记为当前词条接续2)4 ]9 q* I! Z) n" U* ^
  12.    b. 下一个词条在同一栏 --> 确定高度
    . H' f6 I6 x! X* v% Y
  13. , ?& v5 k/ O% t) C+ S7 `
  14.   --> 导出每个词条的切图
    / B& p( h' ~1 C2 E

  15. 5 E3 V3 _- Q  O, X
  16.  (3) 确定最后一个词条所在栏:
    6 ^5 r& g2 x* z) s* a
  17.   --> 最后词条所在栏之后的栏, 直接导出大切图 (标记为本页末词条续)
复制代码

+ p9 o$ q& M# y+ N: I$ F0 U' R1 \3 F) @# g( b
重要更新:
1 E/ v( ?: t5 N1 q7 s9 Y1. 词条整体切图模块重写3 P' j) P0 s& [6 @& W) C$ c
2. 增加根据.pdic导出所有图片切图信息(+切图)--> 几十秒【如下面动图GIF】9 v: j2 n  D+ D% ?1 q
% g! A- a; J+ w; v6 I
0 m/ ]( a3 ~2 ~; D0 q7 S6 A2 R/ R
9 g4 `1 R9 O# Y  ]2 ^
2016.11.284 E7 W# u! L+ q8 g' V/ J
更新:一个小小的bug(跳过页首处下方如果单行接续,会因为判断的距离和行高过于接近造成缺漏 --> 修改了公式)$ d& v+ a+ @* ^6 G
2 p2 S. g9 H5 j* }( }- ]1 c7 N4 k

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?免费注册

x

评分

1

查看全部评分

本帖被以下淘专辑推荐:

  • TA的每日心情
    奋斗
    2022-1-12 06:11
  • 签到天数: 118 天

    [LV.6]常住居民II

    发表于 2018-2-23 08:45:34 | 显示全部楼层
    请问大神,软件在哪儿有下载啊

    该用户从未签到

    发表于 2017-2-1 12:03:46 | 显示全部楼层
    本帖最后由 teresaiao 于 2017-2-10 13:47 编辑 ) L9 }" z: n# R8 s9 d( P: ?0 m) T
    " ]0 p5 N0 t% o7 K, P4 P& n
    我在第一頁設置了參數和保存了, 第二頁的紅色豎線就移位了, 是不是參數有問題?

    该用户从未签到

     楼主| 发表于 2017-2-1 04:49:02 | 显示全部楼层
    teresaiao 发表于 2017-2-1 03:39
    9 h/ h- `& a7 B0 _嗯,字典裏看得到了,真的快很多,基本上是要用photoshop和打詞條就好。 另外那個自動畫線,我在第一幅弄 ...
    " O6 l& X* U1 D) H1 _. S0 T  X" b# z
    PS 模板 移动位置 让每一张图片位置都一样 这样在软件里你设置了的参数就会是全局通用的 之后便可以全自动全部页面划线 紧接着就可以OCR

    该用户从未签到

    发表于 2017-2-1 01:58:45 | 显示全部楼层
    本帖最后由 teresaiao 于 2017-2-10 13:46 编辑 " H; X0 J: j1 C, Z" X6 y9 V/ w0 A
    1 B+ ^; m1 {' j" N! r! f
    可是我想問用你那個軟件, 如果轉頁, 或解釋在第二欄, 要怎麼合併?

    该用户从未签到

    发表于 2016-11-26 13:05:03 | 显示全部楼层
    感谢chigre3,待我有空可以把汉语大字典图片版做一下了。

    该用户从未签到

     楼主| 发表于 2016-11-17 00:34:06 | 显示全部楼层
    group1234 发表于 2016-11-16 23:30
    " B* v7 R5 i( v: p製作圖片辭典的福音,可以節省非常多的時間,期待軟件分享~~~

    0 p9 z! G% P1 t( ?' J: {是的,这个软件确实极大提高效率,
    - g* |. q# V" k, S+ j" x现在个人需要做的事情仅仅为:( ?1 e. {* }# L5 z$ A" U" y
    1. 前期的图片处理:Abbyy Finereader(整体校直)、Photoshop(模板调位置, 统一)、ComicEnhancerPro(转换格式、大小) 等$ L5 [0 K. N( v; u' b
    2. 使用本软件进行:4 B# N' z) G. ]$ n
     (1) 全部页面的 自动划线-->自动OCR# l" L& [' \3 J" j6 Q, v% q. s% l
     (2) 逐页校对划线和文本(可删可增)
    ; y  P0 m8 Q$ ? (3) A.合并.pdic (词条+坐标信息) --> Excel模板 --> 文本替换 --> 精确高亮定位 整页版 图片词典
    9 C) {3 ], q& d9 x. N9 ~    B.导出单词整体切图 --> 合并.PWWords (词条+图片名称) --> 文本替代 --> 切图版 图片词典
    0 \6 x  t" d$ K/ ^' i" H) h

    该用户从未签到

    发表于 2016-11-15 22:50:35 | 显示全部楼层
    逆天还是吊炸天了。。。。。

    该用户从未签到

     楼主| 发表于 2016-11-16 02:11:49 | 显示全部楼层
    本帖最后由 chigre3 于 2016-11-16 02:22 编辑 4 M) W' `0 H; X0 N
    6 U! ?4 l7 O5 b6 d, i
    比如《现代汉语词典》也可以画线和OCR、切图等:& K9 c  n# @" s$ Y# b3 n
    ----------------------------------------------------
      U. b/ c: M$ S0 p$ ^7 T' B2 K8 P画线时:. t7 _2 E( ?* B
    [行间距离]: 17
    : ?" x6 U# J2 C4 K3 L$ G% x7 x! [& c[向右倍率]: 1/1.0# `* s- t/ K, ~7 y% t5 }

    + ~7 ~! z$ m! o& J- gOCR时:
    * }' K  z+ P8 d0 r2 F[行间距离]: 107 B% f. H  I: h. a- |
    [向右倍率]: 1/3.0" k* b: n! q( I% ?8 s
    文本框匹配都是红色,因为没有加载中文的词条索引来进行匹配检查
    % e: h- J7 N  y+ {+ K4 Y8 R+ L, K( a7 y. Z, u' y
    / Q8 ]6 G1 y5 [  o( Q1 K

    8 [7 e8 @6 d! j

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

    发表于 2016-11-16 07:12:22 | 显示全部楼层
    几乎只剩下人工校对工作了

    该用户从未签到

    发表于 2016-11-16 08:09:02 | 显示全部楼层
    chigre3 发表于 2016-11-16 02:11& r# [/ t( h- v- w
    比如《现代汉语词典》也可以画线和OCR、切图等:& c$ z4 m& G& q  Q4 N
    ----------------------------------------------------3 X) b0 W% U/ v- M4 T2 e5 E+ z, M
    ...

    , E4 p% k* [7 G( j9 h1 j2 y9 B歪图问题,上下页不对齐,某些不是矩形栏的排版,3栏以及3栏以上,不知道能不能处理?

    该用户从未签到

    发表于 2016-11-16 08:46:56 | 显示全部楼层
    提示: 该帖被管理员或版主屏蔽

    该用户从未签到

     楼主| 发表于 2016-11-16 17:36:45 | 显示全部楼层
    644830104 发表于 2016-11-16 08:097 R- G* T- V+ u
    歪图问题,上下页不对齐,某些不是矩形栏的排版,3栏以及3栏以上,不知道能不能处理?
    5 F) M# O( s2 L9 v( G# q
    所有图片统一修图 还有轻微歪斜能够画线
    * S5 {8 b, s) U& u图片不处理到一致规格 那最多用来划线切图OCR 每一页还要设置参数
    - c9 d! ?& |4 J/ A6 \不规则形状不考虑
    - b( K# V" \9 M2 v2 L支持N栏
  • TA的每日心情
    开心
    2019-6-28 11:53
  • 签到天数: 28 天

    [LV.4]偶尔看看III

    发表于 2016-11-16 23:30:48 | 显示全部楼层
    製作圖片辭典的福音,可以節省非常多的時間,期待軟件分享~~~" i: r+ {9 p, t7 y
  • TA的每日心情
    慵懒
    2023-2-4 11:26
  • 签到天数: 579 天

    [LV.9]以坛为家II

    发表于 2016-11-17 17:28:54 | 显示全部楼层
    这个绝对是神器
  • TA的每日心情
    开心
    2018-5-8 11:51
  • 签到天数: 18 天

    [LV.4]偶尔看看III

    发表于 2016-11-20 01:16:53 | 显示全部楼层
    激动不已!跃跃欲试

    该用户从未签到

    发表于 2016-11-20 09:18:39 来自手机 | 显示全部楼层
    哇,很牛的软件,期待chigre3的分享。
  • TA的每日心情
    开心
    2020-12-9 19:29
  • 签到天数: 27 天

    [LV.4]偶尔看看III

    发表于 2016-11-22 17:12:18 | 显示全部楼层
    这个软件太厉害了
  • TA的每日心情
    开心
    2020-12-9 19:29
  • 签到天数: 27 天

    [LV.4]偶尔看看III

    发表于 2016-11-22 17:13:11 | 显示全部楼层
    提示: 该帖被管理员或版主屏蔽

    该用户从未签到

     楼主| 发表于 2016-11-26 09:05:40 | 显示全部楼层
    【20161125更新】《葡汉词典》切图版
    7 c% q3 e8 X* N1 f( thttps://www.pdawiki.com/forum/fo ... &fromuid=174481
    . j' y' O0 Q4 I+ n1 y(出处: 掌上百科)3 h6 q4 Z/ M5 _3 X0 H

    该用户从未签到

    发表于 2016-11-27 08:21:42 | 显示全部楼层
    C大神器,谁与争锋?创意无限,匠心十足。佩服佩服。

    该用户从未签到

     楼主| 发表于 2016-11-27 20:23:37 | 显示全部楼层
    切图版后续:2 ~# `( u. b" _4 W4 L, m0 [: }9 k5 j
    因为切出的图片数目极多,目前想法是:; E! ~& Q- v4 G, S1 T
    (1) 制作成MDX/MDD格式, CSS不内嵌入MDD, 外置CSS, 方便个人设置
    ) v$ [* p& [! y: Q9 c" P( }- Y" ?) p(2) 制作成DSL格式, 图片资源直接打包zip/ [/ f9 x$ c/ Z  L( C# B

    该用户从未签到

     楼主| 发表于 2017-2-1 02:01:35 | 显示全部楼层
    teresaiao 发表于 2017-2-1 01:58
    - z. Y( ~& v+ F) {9 @& R終於都會做了, 可是我想問用你那個軟件, 如果轉頁, 或解釋在第二欄, 要怎麼合併?

    " w% H/ C) a, q所有位置的切图都是分离的,后期导出时同时导出对应信息
    $ w! B" u1 T& P9 C也就是:词条+页码+切图图片名(1~多个)

    该用户从未签到

     楼主| 发表于 2017-2-1 02:04:52 | 显示全部楼层
    teresaiao 发表于 2017-2-1 01:58
    - \$ t2 N: @0 Y2 z終於都會做了, 可是我想問用你那個軟件, 如果轉頁, 或解釋在第二欄, 要怎麼合併?

    ; e" j" K: L0 K8 C你下载了那个红葡汉词典 查一些释义特别长的单词 就可以了解到啦 DSL.dz 可以使用解压缩软件还原为.dsl 文本的 你打开就可看到词条结构

    该用户从未签到

    发表于 2017-2-1 03:39:23 | 显示全部楼层
    本帖最后由 teresaiao 于 2017-2-10 13:46 编辑
    : u7 m- X+ S& I  J3 ]! r
    chigre3 发表于 2017-2-1 02:04: ^. `+ t6 C) z7 K) \9 \8 J
    你下载了那个红葡汉词典 查一些释义特别长的单词 就可以了解到啦 DSL.dz 可以使用解压缩软件还原为.dsl  ...
    + S2 P; i0 h7 r
    . o) {/ g! X8 [6 h3 C  _1 `6 h( B
    如何才能固定
    - K+ E/ M' P0 [0 u! F! G0 q9 t' I: {
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-4-25 09:04 , Processed in 0.102030 second(s), 11 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表