掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 20515|回复: 77

[工具] 20181130更新_自动画线+OCR+切图+校对 软件

  [复制链接]

该用户从未签到

发表于 2016-11-15 20:14:56 | 显示全部楼层 |阅读模式
本帖最后由 chigre3 于 2018-11-30 08:14 编辑 ) o* K; v+ z7 \; G0 `0 d

( t' ~# C5 m. G, k- m$ Y; B一、致谢:3 W# ]1 L' O, `0 a1 x( M8 r: |
  感谢 @vbnet 的自动画线测试版, 现在经过个人修改, 几乎完全删除了原先的内容, 软件名称仍为 Picture Capture
$ q7 m. e0 f+ A/ Q) a  d5 J  感谢 @孤影 的自动划线软件, 给了很多界面上的参考; |$ I' S9 V' `# x7 r
------------------------------------------------------------------------1 v( y6 G) @0 }# N7 O0 C# V, R% `
二、这个软件有什么用呢???
- i: ~" Q3 R- d( w5 _& k; v  极大地提高制作图片版词典的效率,现在个人需要做的事情仅仅为:8 V& k: r3 z- U' Z6 K: K
  1. 前期的图片处理:Abbyy Finereader(整体校直)、Photoshop(模板调位置, 统一)、ComicEnhancerPro(转换格式、大小) 等; R8 \( _# T0 L, _! @' Q$ h7 E
  2. 使用本软件进行:
+ c4 l2 N: u3 |; V) P3 @% l; v   (1) 全部页面的 自动划线-->自动OCR9 i: X: {/ B5 P& v; r7 C
   (2) 逐页校对划线和文本(可删可增)/ i2 y9 `7 M2 J; e* ~' N
   (3) A.合并 .pdic (词条 + 坐标信息) --> Excel 模板 --> 文本替换 --> 精确高亮定位 整页版 图片词典
9 M! U! k, g! y8 ^0 {$ f      B.导出单词整体切图 --> 合并 .PWWords (词条+图片名称) --> 文本替代 --> 切图版 图片词典  ^; N; q& `9 z3 P7 g
------------------------------------------------------------------------
% V. z+ w2 ^# i) Y三、实现的功能:
9 s' y+ z6 L9 \& D* ?3 J7 |( q  1. 画线:; G" ?4 Z+ U, Y+ M' z& q
   (1) 自动分析页面 + 自动画线+ c3 s' p; ~9 @$ F. v# u
   (2) 手动模式定义页面 + 自动划线
. b" |( l9 o. \9 J   (3) 鼠标右键单击修改单栏重新自动画线
2 ^4 T) {" b  W& e/ h1 C1 B  V2 ]% e   以上均 + 鼠标左键单击增加画线, 文本框内快捷键`删除划线
# j6 N0 l: A) o+ h: B" x; C' U) p9 h! I) ~) X9 |  L
  2. OCR:5 i' u& z/ a" p& j( \1 y1 y
   采用Tesseract OCR, 具体语言文件 tessdata 可以到官网下载:https://github.com/tesseract-ocr/tessdata
, P( C5 {9 u& c3 q   (1) 导出文本:可外部编辑后导入, 避免OCR单个切图的不足( R. W( A: V. |; l' p# s/ B( ^2 k
   (2) 导入文本3 N) X* ?7 ^+ g! A4 V
   (3) 1 + 2:直接将OCR结果导入当前页面的文本框 --> 校对
( R- k5 }. \8 Q4 x8 p- v   外置批量替换表达式文本, 可自行创建和编辑, 适应各个词典不同OCR处理的场景
( k8 A, i2 l- c# H; G- _0 e- L' s
  3. 切图:+ G5 U2 C- {3 [8 ]+ z0 U: |+ O
   (1) 词条单行切图:也可以使用外部其他OCR软件处理,或者其他用途1 x* D4 U: o- g
   (2) 词条整体切图:实现切图版图片词典的制作(背景透明,不过目前需要其他PNG优化软件缩减大小:https://www.pdawiki.com/forum/thread-19157-1-1.html
7 N; C( O- D7 P/ _    (实例1:[英-汉] 20161113《英汉大词典(第2版)》10页单词 切图版  https://www.pdawiki.com/forum/thread-19015-1-1.html7 l6 U' I  o6 M: v; o
    (实例2:新西汉词典 切图版 https://www.pdawiki.com/forum/fo ... 6545&fromuid=174481
* I7 W* x4 D4 Y    2 R5 ]; Y  H) @: s6 E
   可实现仅导出切图坐标等信息,不导出切图,方便使用外部软件进行! r* z1 V: Z! ^) w9 j: s$ D
    0 \' u. J- N1 h9 Y# M0 N  n& i& L

! u1 H( e0 d& U( o  4. 校对:, E; l  m' g0 H0 d0 g
   列表式样, 与主窗口同步更新文本框内容, 也高亮匹配提示  g0 G8 D' ~0 r# t/ w6 D
6 o$ |$ D* ~$ c: }; Y
  5. 其他:
& `. Z+ x4 o( I1 D! q% C   (1) 配置文件保存、导入
# @( c3 m+ Y! f' e   (2) 自动下一页+操作(定时):自动保存、自动画线、自动OCR、自动切图。方便无人值守完成相应任务3 H1 C2 |! F2 f4 s4 B  q8 G  ~
   (3) 最重要的还是要人工校对!!!!
% z0 @3 E* n' @  r6 y  t% m- p; z   (4) 高度自定义参数设置
: }, K: G9 h7 V7 `% U------------------------------------------------------------------------( {+ G) B- ^2 I! A1 `) I; }5 s* P
如题,放个图:
0 z0 y9 k! a3 i% w% g$ a( N& H" ?* R7 i. T7 R5 a

% G' l# [  Q. @7 o2 _8 |0 \  H- Q

  l9 y- I% Z$ g6 x6 e# ^截图内的词条文字为OCR结果
2 M0 H. J7 Z0 G' g& P
$ @1 G. m  V! X3 Y) `' d
$ k: D1 {5 x' V  ^: t0 o& x/ |! U% L; X
----------------------------20181130更新:
* ]4 U- i8 F9 D% B7 _! }校对窗口增加按当前提示索引(全部或部分)填充当前划线的文本框!
$ z, c# G$ U' T+ ]0 L) b, c( Z----------------------------
# \9 c7 P7 y+ H# W20180809更新:$ ~) N) |/ {8 h8 d
插图画区域由之前的矩形升级为任意多边形
& X* L; {) K7 [) [- t2 _, k+ K* L! c% ^1 v
$ V" |6 b3 }/ u1 [
----------------------------
% Q0 u2 W& _3 W" {20180614更新:
. B" V# D7 f$ K( K* K; p: J& R* R  k- M在校对界面中增加一列单词,即大词库表中 上页末单词和本页末单词 之间的所有单词。
$ b) l1 t: {  k, C" ~' z; l0 [单击则替换当前校对文本框中的文本!+ v5 v# Z" b: F- [  N6 I
不同颜色提示,方便定位!; c. d7 \8 |* F/ {4 @
. S$ E: H+ o3 ~- x" [
4 d. Y" h) i. z0 A# ?

3 y8 ^( p5 k) l----------------------------
' h/ E$ w  _7 F2 C% s; h3 }20170314更新2:
/ L* K  c2 _# D3 \+ b校对界面修改如下,增添更多特殊字符(aeiou等),方便校对的时候直接复制粘贴:9 A% {( Y! R; ~8 a8 i; w4 ~3 C

8 e# t6 a, e' f- K, ~0 b  s1 j( u5 L$ k$ ~' s/ @' s& F
20170314更新:
- j7 g5 }$ m$ G: n" X- o6 B) u起始页-->终止页1 ~4 ~/ J+ i; Q
[切图]-【词条整体切图】, P" K; Y5 i& D+ r3 q2 z7 e& d4 Y
---> 会直接把范围内的页面的所有单词切图导出(软件界面会有假死的状态,不用理会,导出结束就OK了)
$ I' o1 K4 c" w" ^+ Q" G如果起始页和终止页为空,则导出当前页的词条切图+ T9 o# V' `' \
9 l7 p0 @. W+ f) P
在校对界面时,主界面【√隐藏线框】,那么此时就只有颜色框(平行线宽)
/ {2 \+ R# W5 M当前词条亮黄色,其他还是红色4 u& I( Q! l1 |; D, ~
这儿主要是考虑到有时候词条不只是单行,多行的时候可以方便查看。
) b+ u  s+ i- _& V1 ]0 r* m9 S* a( R# W3 F
----------------------------
1 ^( A, x. D7 C% p20170313更新:7 p5 N5 X* }# n& t
1. 词条整体导出切图的判断逻辑的补充(3栏以上时,位于不同列的上下单词中间隔了空列。之前这个情况未考虑到)
5 L6 Q: T; m0 k, M8 ~8 s  【仅修改了:从PDIC整体导出切图的坐标数据的这部分补充内容】
  }" F9 o% i- N0 ]7 e7 A  [----------------------------; v! Q5 j0 q( I3 I4 \  c. k
20170217更新:
3 S, ^- t% v7 g' N0 t# J1. 画线判断的方法改进(2种方法均改进)
. ?2 Y! @  X$ g7 \7 a- I7 b----------------------------
* ?! B( X( m( K% F: o20170115更新:
$ m1 Y6 g2 W! S6 n1 l& [% c, j1. tessdata 的完整语言列表,具体语言移步【https://github.com/tesseract-ocr/tessdata】下载4 T$ A( V9 A" Q3 l# i/ y0 j  z
2. 在图片文件名列表上方的文本框里输入“SMALL”,点击【校对】,每个词条行的缩略图切图(非原始图片上裁剪)5 d: n3 C4 {( H9 h5 u; `
----------------------------. w* r$ k: L) _
20161119更新:9 M) H7 [% T0 [- z7 {% `) Y' ^
1.修复保存坐标数据时的bug
8 [2 J, f% U4 A% W& `1 G7 j1 P2.修复单词整体导出页面的一个bug
: T. h* w4 s! c  p. `/ |' U0 ]! N3.增加功能: 选定范围页面的批量导入词条
1 O. [2 [" U( T, |# x" c/ [4.增加功能: 快速查找定位索引
; `6 H  g1 x/ W( p" s----------------------------, P( s; }& `! s2 s
20161123更新:
  v- c4 G* v3 f! u8 t  t重写词条整体导出切图的判断逻辑,现在应该不会有切图坐标不一致、切图数目不一致的情况了。: K: g- ]8 Z. R5 x$ W( y) F9 {

1 }" A& i4 @6 g
  1. 问题:页面是否有词条?# M5 J1 a4 d& w# w
  2. 1. NO --> 直接导出和栏数一致的大切图 (标记为上页末词条续)
    % L0 c) i9 n0 g  n  E4 J" M
  3. 2. YES --> % N- p. U/ E' n4 P6 ~% L
  4.  (1) 确定0号词条所在栏:- u; }3 B: N. h4 P6 X" O, [  a
  5.   --> 0号词条所在栏之前的栏, 直接导出大切图 (标记为上页末词条续)& n8 g4 H  j8 c5 d9 j7 [$ S
  6.   --> 0号词条所在栏上方若还有部分上页末词条接续, 则导出切图 (标记为上页末词条续)9 G. Y6 j1 R$ O6 I7 \/ p, \6 U
  7.  (2) 次数为所有词条数目的循环:
    " R5 F0 J6 Q6 r: {0 y( P
  8.   A. 若: 当前为最后一个词条 --> 确定高度; u  o* f* R) c) R8 C8 o# w) d2 ]
  9.   B. 否则:& C: @1 D2 R- W$ S- U. s
  10.    a. 下一个词条在下一栏 --> 确定高度# U" G# U0 {) ]6 @4 H2 b; ^2 `% N
  11.      --> 如果当前词条在下一栏仍有接续 --> 导出切图 (标记为当前词条接续2)
    2 L8 L0 D# t  ?& l6 s1 [8 c, @( F
  12.    b. 下一个词条在同一栏 --> 确定高度' V% k& y% z3 b! m2 X3 D, h
  13. 0 l6 F0 i  a/ q
  14.   --> 导出每个词条的切图
    " M- `4 p+ c: I6 T5 s
  15. 3 o5 l, e  ?  ~. I; O
  16.  (3) 确定最后一个词条所在栏:  C6 C1 o  {# a0 J
  17.   --> 最后词条所在栏之后的栏, 直接导出大切图 (标记为本页末词条续)
复制代码
; ~/ m: U# d) J8 N

4 x% A: R4 a: y, O# x  [- l0 V重要更新:
3 A) J. q; J; ]; `1. 词条整体切图模块重写
& C$ T( z3 R0 f* y; w- g2. 增加根据.pdic导出所有图片切图信息(+切图)--> 几十秒【如下面动图GIF】
8 @( R: b1 o: \& w, Z' w6 x
7 D- n! q/ N3 Q1 e4 y9 K, p. ~  h# w7 ~9 y+ g/ c* C

# M' Y, k" d7 t2016.11.28  c* D" I# o3 h* p6 L0 i" z: x
更新:一个小小的bug(跳过页首处下方如果单行接续,会因为判断的距离和行高过于接近造成缺漏 --> 修改了公式)
3 L* _. P) f3 y7 b& p- p. A
+ w! U. z3 f" n5 }

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?免费注册

x

评分

1

查看全部评分

本帖被以下淘专辑推荐:

  • TA的每日心情
    奋斗
    2022-1-12 06:11
  • 签到天数: 118 天

    [LV.6]常住居民II

    发表于 2018-2-23 08:45:34 | 显示全部楼层
    请问大神,软件在哪儿有下载啊

    该用户从未签到

    发表于 2017-2-1 12:03:46 | 显示全部楼层
    本帖最后由 teresaiao 于 2017-2-10 13:47 编辑
    * Q8 [) R$ ^5 i) w" u; U% J  {9 H  C9 O9 ], j0 z7 e" a$ ?
    我在第一頁設置了參數和保存了, 第二頁的紅色豎線就移位了, 是不是參數有問題?

    该用户从未签到

     楼主| 发表于 2017-2-1 04:49:02 | 显示全部楼层
    teresaiao 发表于 2017-2-1 03:39% {5 p; k2 L0 d, ~5 T( c; s
    嗯,字典裏看得到了,真的快很多,基本上是要用photoshop和打詞條就好。 另外那個自動畫線,我在第一幅弄 ...

    + Y! Y! N7 d; ^% m, qPS 模板 移动位置 让每一张图片位置都一样 这样在软件里你设置了的参数就会是全局通用的 之后便可以全自动全部页面划线 紧接着就可以OCR

    该用户从未签到

    发表于 2017-2-1 01:58:45 | 显示全部楼层
    本帖最后由 teresaiao 于 2017-2-10 13:46 编辑 , F0 F9 o+ A* s9 |# y
    $ W; Z. {$ ?, h7 C( z
    可是我想問用你那個軟件, 如果轉頁, 或解釋在第二欄, 要怎麼合併?

    该用户从未签到

    发表于 2016-11-26 13:05:03 | 显示全部楼层
    感谢chigre3,待我有空可以把汉语大字典图片版做一下了。

    该用户从未签到

     楼主| 发表于 2016-11-17 00:34:06 | 显示全部楼层
    group1234 发表于 2016-11-16 23:306 |+ Z( b8 {9 f3 V; I8 X
    製作圖片辭典的福音,可以節省非常多的時間,期待軟件分享~~~

    + ?, H. O( v4 o0 x; w& |' p$ A* }是的,这个软件确实极大提高效率,
      N4 q5 U9 x' w4 W/ t; J现在个人需要做的事情仅仅为:
    . S  C* I) \  |$ h4 I  O3 s  c1. 前期的图片处理:Abbyy Finereader(整体校直)、Photoshop(模板调位置, 统一)、ComicEnhancerPro(转换格式、大小) 等/ D  k; [) X" s1 Z# H
    2. 使用本软件进行:' d7 l$ k7 S9 C% X' x4 k2 ?! k
     (1) 全部页面的 自动划线-->自动OCR
    & @1 U. _4 `1 ^' k, j5 o9 i. \ (2) 逐页校对划线和文本(可删可增)/ k4 v& D" V: |: \9 U( V
     (3) A.合并.pdic (词条+坐标信息) --> Excel模板 --> 文本替换 --> 精确高亮定位 整页版 图片词典
    & B  H3 d( g3 O+ ~1 q    B.导出单词整体切图 --> 合并.PWWords (词条+图片名称) --> 文本替代 --> 切图版 图片词典
    # r, [0 t! [. N: n3 a  N5 q2 ~

    该用户从未签到

    发表于 2016-11-15 22:50:35 | 显示全部楼层
    逆天还是吊炸天了。。。。。

    该用户从未签到

     楼主| 发表于 2016-11-16 02:11:49 | 显示全部楼层
    本帖最后由 chigre3 于 2016-11-16 02:22 编辑
    5 O0 g# Y% y' `
    " F- ?' i# h, \1 N9 r比如《现代汉语词典》也可以画线和OCR、切图等:8 P% U, L* O, r& I; c# `6 V
    ----------------------------------------------------# ?. s' A$ K$ \2 c
    画线时:
    . l; y9 I" E5 _+ c: G, b[行间距离]: 17% P& x6 x/ f6 j* H! C# _
    [向右倍率]: 1/1.0
    + z( ]0 Z) k; V% U/ W) F. I# D, \4 A5 f/ T6 [
    OCR时:- k! c/ ?1 R' P% B
    [行间距离]: 10
    * m5 R" I9 W9 |  F) ^+ v[向右倍率]: 1/3.0
      t+ @1 K+ ^* w! V3 j+ y' v文本框匹配都是红色,因为没有加载中文的词条索引来进行匹配检查. J, ]" P+ Z2 F' Z9 `# s' @

    * B" i* j$ L& I0 Z
    4 x4 l# R8 C4 |+ D
    7 {, s8 |8 X, b( Z9 B& [+ M* e

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

    发表于 2016-11-16 07:12:22 | 显示全部楼层
    几乎只剩下人工校对工作了

    该用户从未签到

    发表于 2016-11-16 08:09:02 | 显示全部楼层
    chigre3 发表于 2016-11-16 02:11: n/ G2 a. V! B& T9 b* W0 N) s
    比如《现代汉语词典》也可以画线和OCR、切图等:* M  T) h2 z& H! F
    ----------------------------------------------------! a+ \, ~; l$ B% W$ |, ^
    ...

    1 G( `9 n. u* J) e# v! O# N歪图问题,上下页不对齐,某些不是矩形栏的排版,3栏以及3栏以上,不知道能不能处理?

    该用户从未签到

    发表于 2016-11-16 08:46:56 | 显示全部楼层
    提示: 该帖被管理员或版主屏蔽

    该用户从未签到

     楼主| 发表于 2016-11-16 17:36:45 | 显示全部楼层
    644830104 发表于 2016-11-16 08:09, _+ _8 R4 c' e4 L. t- ?
    歪图问题,上下页不对齐,某些不是矩形栏的排版,3栏以及3栏以上,不知道能不能处理?

    2 f! x4 x: \  ?* G: s+ {& h1 d所有图片统一修图 还有轻微歪斜能够画线
      z) _7 G9 m, k) l, E图片不处理到一致规格 那最多用来划线切图OCR 每一页还要设置参数   t/ S$ y% l# q- A% \
    不规则形状不考虑 , q/ v" w8 ~* f# d
    支持N栏
  • TA的每日心情
    开心
    2019-6-28 11:53
  • 签到天数: 28 天

    [LV.4]偶尔看看III

    发表于 2016-11-16 23:30:48 | 显示全部楼层
    製作圖片辭典的福音,可以節省非常多的時間,期待軟件分享~~~9 k# H% C* g; X7 S" I% u
  • TA的每日心情
    慵懒
    2023-2-4 11:26
  • 签到天数: 579 天

    [LV.9]以坛为家II

    发表于 2016-11-17 17:28:54 | 显示全部楼层
    这个绝对是神器
  • TA的每日心情
    开心
    2018-5-8 11:51
  • 签到天数: 18 天

    [LV.4]偶尔看看III

    发表于 2016-11-20 01:16:53 | 显示全部楼层
    激动不已!跃跃欲试

    该用户从未签到

    发表于 2016-11-20 09:18:39 来自手机 | 显示全部楼层
    哇,很牛的软件,期待chigre3的分享。
  • TA的每日心情
    开心
    2020-12-9 19:29
  • 签到天数: 27 天

    [LV.4]偶尔看看III

    发表于 2016-11-22 17:12:18 | 显示全部楼层
    这个软件太厉害了
  • TA的每日心情
    开心
    2020-12-9 19:29
  • 签到天数: 27 天

    [LV.4]偶尔看看III

    发表于 2016-11-22 17:13:11 | 显示全部楼层
    提示: 该帖被管理员或版主屏蔽

    该用户从未签到

     楼主| 发表于 2016-11-26 09:05:40 | 显示全部楼层
    【20161125更新】《葡汉词典》切图版" A  u/ o% t3 p% A7 @+ d
    https://www.pdawiki.com/forum/fo ... &fromuid=174481
    " s* M& U$ s2 }6 o(出处: 掌上百科)
    ! k* z! p% j9 {+ G

    该用户从未签到

    发表于 2016-11-27 08:21:42 | 显示全部楼层
    C大神器,谁与争锋?创意无限,匠心十足。佩服佩服。

    该用户从未签到

     楼主| 发表于 2016-11-27 20:23:37 | 显示全部楼层
    切图版后续:
    & o& j4 u8 V( t9 K1 W8 b因为切出的图片数目极多,目前想法是:
    / L: y' j8 S7 ~(1) 制作成MDX/MDD格式, CSS不内嵌入MDD, 外置CSS, 方便个人设置" P3 w5 F/ ~/ x* j
    (2) 制作成DSL格式, 图片资源直接打包zip2 C3 D) e3 i; ~( Q! J

    该用户从未签到

     楼主| 发表于 2017-2-1 02:01:35 | 显示全部楼层
    teresaiao 发表于 2017-2-1 01:58
    ; p- C6 Z5 D1 v# `: f' s% \終於都會做了, 可是我想問用你那個軟件, 如果轉頁, 或解釋在第二欄, 要怎麼合併?
    / f; [7 S7 |# F( [- p! B8 T; ?5 p. H
    所有位置的切图都是分离的,后期导出时同时导出对应信息
    # Y2 q  ^9 e$ Y# i8 j6 q- K也就是:词条+页码+切图图片名(1~多个)

    该用户从未签到

     楼主| 发表于 2017-2-1 02:04:52 | 显示全部楼层
    teresaiao 发表于 2017-2-1 01:58+ R* z/ r! v" I1 w( p
    終於都會做了, 可是我想問用你那個軟件, 如果轉頁, 或解釋在第二欄, 要怎麼合併?
    5 K: ?; i" i& a; S) T
    你下载了那个红葡汉词典 查一些释义特别长的单词 就可以了解到啦 DSL.dz 可以使用解压缩软件还原为.dsl 文本的 你打开就可看到词条结构

    该用户从未签到

    发表于 2017-2-1 03:39:23 | 显示全部楼层
    本帖最后由 teresaiao 于 2017-2-10 13:46 编辑   }* o; g9 `* k, T. b
    chigre3 发表于 2017-2-1 02:04
    7 K2 S- a5 X& y& e: v你下载了那个红葡汉词典 查一些释义特别长的单词 就可以了解到啦 DSL.dz 可以使用解压缩软件还原为.dsl  ...
    ) j  b1 G* S# }+ l! y
    / q4 v" h9 p6 Y" _, I
    如何才能固定
    - m. v6 |& [) x9 c4 {& ~9 h" o( h$ Y0 J5 J/ y( Y
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2025-5-21 14:20 , Processed in 0.027186 second(s), 26 queries .

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表