掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 17506|回复: 73

[工具] 20181130更新_自动画线+OCR+切图+校对 软件

  [复制链接]

该用户从未签到

发表于 2016-11-15 20:14:56 | 显示全部楼层 |阅读模式
本帖最后由 chigre3 于 2018-11-30 08:14 编辑
( ~7 ~* g: c) N: {. x
2 K, K' @2 ]% X一、致谢:
' L0 U" z& [$ A7 ]1 \. [+ t* h. ~  感谢 @vbnet 的自动画线测试版, 现在经过个人修改, 几乎完全删除了原先的内容, 软件名称仍为 Picture Capture( b# b9 X% ?# b! |* |
  感谢 @孤影 的自动划线软件, 给了很多界面上的参考
7 @, N4 {8 g: Q1 S  n- G5 q0 W------------------------------------------------------------------------6 r. o# N) t+ L. i7 q5 \
二、这个软件有什么用呢???
3 r6 p) p$ D9 z  极大地提高制作图片版词典的效率,现在个人需要做的事情仅仅为:
" w! e! y, [% f# v% P9 A  1. 前期的图片处理:Abbyy Finereader(整体校直)、Photoshop(模板调位置, 统一)、ComicEnhancerPro(转换格式、大小) 等- \4 o9 [4 l3 M/ s
  2. 使用本软件进行:6 w. |0 O  A. l4 o
   (1) 全部页面的 自动划线-->自动OCR0 B& ~6 X7 V4 L8 P! M5 q+ `! p
   (2) 逐页校对划线和文本(可删可增)
% M& e5 e4 b$ S* A   (3) A.合并 .pdic (词条 + 坐标信息) --> Excel 模板 --> 文本替换 --> 精确高亮定位 整页版 图片词典
' A7 p! Y! ], r2 w. v/ u' g+ M0 y      B.导出单词整体切图 --> 合并 .PWWords (词条+图片名称) --> 文本替代 --> 切图版 图片词典
" y* o, O& n3 I0 H; a) W( w------------------------------------------------------------------------
) V9 X1 t0 \* h三、实现的功能:
5 W1 M& X5 v' ], x8 F  1. 画线:; l. v2 Z7 v% L& `! B. [9 F0 v, Y
   (1) 自动分析页面 + 自动画线
- j% n( B  F# S( Q   (2) 手动模式定义页面 + 自动划线7 k, r& O5 A3 M% a# H. T+ J
   (3) 鼠标右键单击修改单栏重新自动画线/ n+ l; W5 X* I, o1 Z' P% E- h% J
   以上均 + 鼠标左键单击增加画线, 文本框内快捷键`删除划线
+ I+ ]% e/ h  K& r
! r) H0 I: U  j9 f3 Z; b! T  2. OCR:" |; T2 i( z/ t/ b( f
   采用Tesseract OCR, 具体语言文件 tessdata 可以到官网下载:https://github.com/tesseract-ocr/tessdata
7 k& ?8 D/ R2 h   (1) 导出文本:可外部编辑后导入, 避免OCR单个切图的不足
7 C% o. ~6 H$ w( I! M   (2) 导入文本
) _9 P! W+ d  O" B3 U   (3) 1 + 2:直接将OCR结果导入当前页面的文本框 --> 校对
& Y3 E$ J$ q( k) w   外置批量替换表达式文本, 可自行创建和编辑, 适应各个词典不同OCR处理的场景
- e" s/ r7 U( K$ H  r; W; P6 |3 s+ Y% X4 ^
  3. 切图:- G/ C; R- k* Y( u1 H
   (1) 词条单行切图:也可以使用外部其他OCR软件处理,或者其他用途. l3 @7 x" ?/ x6 c
   (2) 词条整体切图:实现切图版图片词典的制作(背景透明,不过目前需要其他PNG优化软件缩减大小:https://www.pdawiki.com/forum/thread-19157-1-1.html6 C3 v4 O+ s5 t. c
    (实例1:[英-汉] 20161113《英汉大词典(第2版)》10页单词 切图版  https://www.pdawiki.com/forum/thread-19015-1-1.html
  n) |5 T8 o7 q# b) z    (实例2:新西汉词典 切图版 https://www.pdawiki.com/forum/fo ... 6545&fromuid=174481
9 e3 G0 e9 \) \. Z4 D    + H" x6 }7 D, n
   可实现仅导出切图坐标等信息,不导出切图,方便使用外部软件进行3 A# s  O2 G: r- c4 O1 i+ x
    : L/ \! |" a" Q' S: G/ @6 R

$ `7 K9 X# {4 d6 L% l1 c" n8 j3 n  4. 校对:+ q' |* a0 O, \+ s
   列表式样, 与主窗口同步更新文本框内容, 也高亮匹配提示) L, i# e( @: H2 m3 C9 j1 d! K& D0 K5 I
' a, q$ G8 J  k. o
  5. 其他:
1 R+ U- V4 z  \# K) k# @   (1) 配置文件保存、导入# S& H' e8 D) ^3 [+ c- S
   (2) 自动下一页+操作(定时):自动保存、自动画线、自动OCR、自动切图。方便无人值守完成相应任务
9 @; c8 o8 T. d6 o  ?* s9 M   (3) 最重要的还是要人工校对!!!!* T2 u& t4 V' d( G+ e
   (4) 高度自定义参数设置1 P  H1 A+ A: d" \6 ^. r
------------------------------------------------------------------------
2 |7 J4 K- k" ^5 y& y如题,放个图:
2 ~3 ]6 q* X' \
3 K1 g2 E9 T$ z
2 d- G$ Q; Z" p2 r1 ^! {  d1 |& }
, |5 b4 N. y" N& }8 R% t
截图内的词条文字为OCR结果$ {- a" j- I+ k5 J# ^9 l

( k: [  }) V0 o
  j% n, I; I" y- ]4 `
& A" y% U$ c# e: i% p  }6 y: @----------------------------20181130更新:# p, U+ b) v0 H2 \
校对窗口增加按当前提示索引(全部或部分)填充当前划线的文本框!7 h- H, C# x3 N( c4 d6 @6 _
----------------------------
0 N' F/ H. Y1 I# x7 q20180809更新:' l% y" p5 k1 v
插图画区域由之前的矩形升级为任意多边形
3 c2 V2 ^) |/ F& b% A; U" y! y0 w5 m* N
& g' ^3 s" K/ d* i2 m
----------------------------2 Y6 N1 D( V6 U# o
20180614更新:' j2 O+ v( ~7 Z& A# J& u
在校对界面中增加一列单词,即大词库表中 上页末单词和本页末单词 之间的所有单词。
/ S( g1 \4 c# p1 o5 V- R% j  T单击则替换当前校对文本框中的文本!  ?3 i4 i% c, Y- ~
不同颜色提示,方便定位!! I4 H6 f6 x; H
1 Z4 O2 h" y# T$ y  j# a
) N4 c5 P! @8 ~$ A$ T" T

) E; B( y+ Q0 `----------------------------: \, S  t9 r, H; F( P
20170314更新2:8 X9 M2 b$ @5 f
校对界面修改如下,增添更多特殊字符(aeiou等),方便校对的时候直接复制粘贴:" h7 A; ^* r; ?
$ x5 o, A5 f4 X6 w7 s& |5 g6 p# q/ g
5 a2 [( d9 B+ d$ S- |
20170314更新:% a( {* W" m1 r/ W7 N
起始页-->终止页
: ]1 C& R! W3 R: A) q# Z4 H* X[切图]-【词条整体切图】
4 t2 G/ s* H( v9 U# L  L( J1 S  H---> 会直接把范围内的页面的所有单词切图导出(软件界面会有假死的状态,不用理会,导出结束就OK了)
9 K$ X% z+ k% P如果起始页和终止页为空,则导出当前页的词条切图4 Y' s+ y' A1 b  t. V

6 L0 Z5 i6 O0 ^5 R, h- {* N在校对界面时,主界面【√隐藏线框】,那么此时就只有颜色框(平行线宽)5 p/ j- S8 s# N- x
当前词条亮黄色,其他还是红色
; t, Y& a  G9 g! o0 J这儿主要是考虑到有时候词条不只是单行,多行的时候可以方便查看。" `4 \3 o$ J& S, q- r" H
* k0 Y% {' }# s
----------------------------
( u9 B: M7 O& W20170313更新:
9 ~1 a& `, {( ?& A! d1. 词条整体导出切图的判断逻辑的补充(3栏以上时,位于不同列的上下单词中间隔了空列。之前这个情况未考虑到)
. h: k. a5 N: o5 Z1 A  【仅修改了:从PDIC整体导出切图的坐标数据的这部分补充内容】. l# Y5 _" {  T) o$ I/ r% Z2 |
----------------------------; w4 r' ~9 x2 a# c8 e7 e
20170217更新:/ \1 Z9 J4 i4 \* d
1. 画线判断的方法改进(2种方法均改进)9 ]/ y% J" t# {) b# ^! E
----------------------------) j* M! |' t, {: _- ?& w. w
20170115更新:
+ W. Q& I4 r$ m9 m. }) y) S  _( z1. tessdata 的完整语言列表,具体语言移步【https://github.com/tesseract-ocr/tessdata】下载
( I3 r( G3 O3 W2. 在图片文件名列表上方的文本框里输入“SMALL”,点击【校对】,每个词条行的缩略图切图(非原始图片上裁剪)
7 F; R8 @  R4 C5 l6 U  G& k----------------------------7 Y5 f' Y8 h( K8 L
20161119更新:/ L+ Q$ w# M- T
1.修复保存坐标数据时的bug: p* N1 K( o, o; r# ~, \3 M' x/ m
2.修复单词整体导出页面的一个bug
1 c6 F4 J  s" j- |* c3.增加功能: 选定范围页面的批量导入词条0 [8 r; \/ ~4 r1 O
4.增加功能: 快速查找定位索引; v, z0 W% g4 f
----------------------------
6 X, b0 J) N5 K8 ^: H, H20161123更新:
4 ]3 b: a, H+ q& ?+ U! P重写词条整体导出切图的判断逻辑,现在应该不会有切图坐标不一致、切图数目不一致的情况了。
" `, c- e6 [& e7 f- I3 g+ V. [5 ]
  1. 问题:页面是否有词条?# Y: @7 y2 V$ o9 p
  2. 1. NO --> 直接导出和栏数一致的大切图 (标记为上页末词条续)7 n* o- ?3 P( H# L1 @9 y+ [
  3. 2. YES -->
      _' \" g  B$ j+ u" l
  4.  (1) 确定0号词条所在栏:3 {; b9 P& M* |% l! W. P
  5.   --> 0号词条所在栏之前的栏, 直接导出大切图 (标记为上页末词条续)
    ( a' E; x! S4 D" Y
  6.   --> 0号词条所在栏上方若还有部分上页末词条接续, 则导出切图 (标记为上页末词条续)
    ! {6 l* u  w) m
  7.  (2) 次数为所有词条数目的循环:( d3 K1 j$ g. x7 L% `
  8.   A. 若: 当前为最后一个词条 --> 确定高度8 b+ @4 t$ ?8 L
  9.   B. 否则:: R+ {0 e$ Z% ~, ~# f( L' U% D
  10.    a. 下一个词条在下一栏 --> 确定高度1 B1 M; \0 u' I( O
  11.      --> 如果当前词条在下一栏仍有接续 --> 导出切图 (标记为当前词条接续2)0 K0 x6 }; F$ q% U* C# H
  12.    b. 下一个词条在同一栏 --> 确定高度# `% }5 j% w/ J$ \0 g" g

  13. 7 T1 O0 u& |# p; z
  14.   --> 导出每个词条的切图0 m7 A$ W& j- k9 l% x: C
  15.   p- ^" o+ y, ]0 p# [/ n
  16.  (3) 确定最后一个词条所在栏:
    : Z( C$ s$ k/ ^9 i3 y
  17.   --> 最后词条所在栏之后的栏, 直接导出大切图 (标记为本页末词条续)
复制代码
/ x; H# }% C3 O
" P% ~+ ]7 ?! y# ]! U3 x
重要更新:  w0 j: Y8 ]6 D2 m( k
1. 词条整体切图模块重写: K! P, q; q3 b" m# K
2. 增加根据.pdic导出所有图片切图信息(+切图)--> 几十秒【如下面动图GIF】0 d- K" ~: C  [/ a
# X( G' E2 ]4 r
3 Y, n; ^3 R. O" Z6 Q: v
! Y* i1 m+ W; D- C6 W8 ~
2016.11.28
4 o  K. d+ W# _9 j0 M% Y/ h更新:一个小小的bug(跳过页首处下方如果单行接续,会因为判断的距离和行高过于接近造成缺漏 --> 修改了公式); F/ z& l0 M( }

0 H* c6 }, r, C2 O

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?免费注册

x

评分

1

查看全部评分

本帖被以下淘专辑推荐:

  • TA的每日心情
    奋斗
    2022-1-12 06:11
  • 签到天数: 118 天

    [LV.6]常住居民II

    发表于 2018-2-23 08:45:34 | 显示全部楼层
    请问大神,软件在哪儿有下载啊

    该用户从未签到

    发表于 2017-2-1 12:03:46 | 显示全部楼层
    本帖最后由 teresaiao 于 2017-2-10 13:47 编辑 % g: l" s) U% t# u- G; Q
    & w9 }( a2 h& z8 U' ]% `
    我在第一頁設置了參數和保存了, 第二頁的紅色豎線就移位了, 是不是參數有問題?

    该用户从未签到

     楼主| 发表于 2017-2-1 04:49:02 | 显示全部楼层
    teresaiao 发表于 2017-2-1 03:39
    " B0 M7 D/ g/ X- n! p6 H嗯,字典裏看得到了,真的快很多,基本上是要用photoshop和打詞條就好。 另外那個自動畫線,我在第一幅弄 ...

    & T- O' ~- l: k; K* tPS 模板 移动位置 让每一张图片位置都一样 这样在软件里你设置了的参数就会是全局通用的 之后便可以全自动全部页面划线 紧接着就可以OCR

    该用户从未签到

    发表于 2017-2-1 01:58:45 | 显示全部楼层
    本帖最后由 teresaiao 于 2017-2-10 13:46 编辑
    2 D" n$ M! U1 |$ K7 H6 e" |3 E6 B8 K* L0 C& a, y) k
    可是我想問用你那個軟件, 如果轉頁, 或解釋在第二欄, 要怎麼合併?

    该用户从未签到

    发表于 2016-11-26 13:05:03 | 显示全部楼层
    感谢chigre3,待我有空可以把汉语大字典图片版做一下了。

    该用户从未签到

     楼主| 发表于 2016-11-17 00:34:06 | 显示全部楼层
    group1234 发表于 2016-11-16 23:305 i  y% F! W' i3 q# P
    製作圖片辭典的福音,可以節省非常多的時間,期待軟件分享~~~

    + p" D# h, p6 [2 N- }8 R是的,这个软件确实极大提高效率,
    & S# W0 E/ H2 T$ ?现在个人需要做的事情仅仅为:
    8 W) }1 J: ~& y9 Y! r1. 前期的图片处理:Abbyy Finereader(整体校直)、Photoshop(模板调位置, 统一)、ComicEnhancerPro(转换格式、大小) 等
    7 ?* M1 v# I- P" L# w. q9 z2. 使用本软件进行:
    " x  o. E/ h. ` (1) 全部页面的 自动划线-->自动OCR" V, |" {3 Q; ~- w3 z% E: U- U
     (2) 逐页校对划线和文本(可删可增)
    ! `7 _8 V( C  `- \& W4 b  c (3) A.合并.pdic (词条+坐标信息) --> Excel模板 --> 文本替换 --> 精确高亮定位 整页版 图片词典- Y3 |2 n' D" o. Y; y9 r; T
        B.导出单词整体切图 --> 合并.PWWords (词条+图片名称) --> 文本替代 --> 切图版 图片词典
    : U- q+ c, n) b. _

    该用户从未签到

    发表于 2016-11-15 22:50:35 | 显示全部楼层
    逆天还是吊炸天了。。。。。

    该用户从未签到

     楼主| 发表于 2016-11-16 02:11:49 | 显示全部楼层
    本帖最后由 chigre3 于 2016-11-16 02:22 编辑 , x+ `+ d. H2 U  D7 h+ f+ O

    & S" X9 d9 y) t( H4 T1 J  r. A比如《现代汉语词典》也可以画线和OCR、切图等:
    $ V6 V0 ^. Q+ L( t/ j/ }+ S----------------------------------------------------" c) C4 H; J$ Y
    画线时:6 s& Y* r# C, v
    [行间距离]: 17; [0 J2 w" H6 B% @# q
    [向右倍率]: 1/1.0
    7 |  I* U' b3 y% K$ Q; y  x# o- k$ p. l. W# U
    OCR时:
    # ]7 S, a. w) w; b) h+ l/ n% L: w9 G7 r[行间距离]: 10
    $ Y; Y  g/ c3 H( |7 V8 U[向右倍率]: 1/3.03 \# {5 L% t" t% j  Y7 t
    文本框匹配都是红色,因为没有加载中文的词条索引来进行匹配检查# m: E( Q" Z' O/ [( a" k' T3 e) c

    # P4 x  W' P' s* O
    1 S  O7 \: ]+ @% A+ j: }4 o( P% A3 X* m

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

    发表于 2016-11-16 07:12:22 | 显示全部楼层
    几乎只剩下人工校对工作了

    该用户从未签到

    发表于 2016-11-16 08:09:02 | 显示全部楼层
    chigre3 发表于 2016-11-16 02:113 `" w9 ^9 o) D& B1 q
    比如《现代汉语词典》也可以画线和OCR、切图等:
    ' |1 v: U0 a) V----------------------------------------------------
    , A. A  e3 ^0 Q/ K! u3 H3 q ...

    , o+ x9 @) d  f: a2 u$ G歪图问题,上下页不对齐,某些不是矩形栏的排版,3栏以及3栏以上,不知道能不能处理?

    该用户从未签到

    发表于 2016-11-16 08:46:56 | 显示全部楼层
    提示: 该帖被管理员或版主屏蔽

    该用户从未签到

     楼主| 发表于 2016-11-16 17:36:45 | 显示全部楼层
    644830104 发表于 2016-11-16 08:09
    ) s" j4 t; D/ |& s歪图问题,上下页不对齐,某些不是矩形栏的排版,3栏以及3栏以上,不知道能不能处理?
    & ?2 e0 C6 l  l, [5 J
    所有图片统一修图 还有轻微歪斜能够画线
    ! J+ M9 V; c* `9 G# a图片不处理到一致规格 那最多用来划线切图OCR 每一页还要设置参数
    5 V8 Y: w- J" q" w3 g不规则形状不考虑
    ' n' {% D, S! f* ~4 A' z支持N栏
  • TA的每日心情
    开心
    2019-6-28 11:53
  • 签到天数: 28 天

    [LV.4]偶尔看看III

    发表于 2016-11-16 23:30:48 | 显示全部楼层
    製作圖片辭典的福音,可以節省非常多的時間,期待軟件分享~~~. }5 G/ H- P/ V# s8 `4 h
  • TA的每日心情
    慵懒
    2023-2-4 11:26
  • 签到天数: 579 天

    [LV.9]以坛为家II

    发表于 2016-11-17 17:28:54 | 显示全部楼层
    这个绝对是神器
  • TA的每日心情
    开心
    2018-5-8 11:51
  • 签到天数: 18 天

    [LV.4]偶尔看看III

    发表于 2016-11-20 01:16:53 | 显示全部楼层
    激动不已!跃跃欲试

    该用户从未签到

    发表于 2016-11-20 09:18:39 来自手机 | 显示全部楼层
    哇,很牛的软件,期待chigre3的分享。
  • TA的每日心情
    开心
    2020-12-9 19:29
  • 签到天数: 27 天

    [LV.4]偶尔看看III

    发表于 2016-11-22 17:12:18 | 显示全部楼层
    这个软件太厉害了
  • TA的每日心情
    开心
    2020-12-9 19:29
  • 签到天数: 27 天

    [LV.4]偶尔看看III

    发表于 2016-11-22 17:13:11 | 显示全部楼层
    提示: 该帖被管理员或版主屏蔽

    该用户从未签到

     楼主| 发表于 2016-11-26 09:05:40 | 显示全部楼层
    【20161125更新】《葡汉词典》切图版$ }" q& ~6 Y2 \" F8 r, L2 W  Q- z
    https://www.pdawiki.com/forum/fo ... &fromuid=174481* p: ?4 A' C9 h5 z' H
    (出处: 掌上百科)4 b- @4 D# X- o1 c

    该用户从未签到

    发表于 2016-11-27 08:21:42 | 显示全部楼层
    C大神器,谁与争锋?创意无限,匠心十足。佩服佩服。

    该用户从未签到

     楼主| 发表于 2016-11-27 20:23:37 | 显示全部楼层
    切图版后续:
    ) R: ]' |! N/ h因为切出的图片数目极多,目前想法是:* z! e) W) n2 _; |1 ]2 k: I
    (1) 制作成MDX/MDD格式, CSS不内嵌入MDD, 外置CSS, 方便个人设置7 U; O9 S/ T# X0 V, _1 h# x
    (2) 制作成DSL格式, 图片资源直接打包zip
    $ z0 M9 |2 C$ O. }1 i

    该用户从未签到

     楼主| 发表于 2017-2-1 02:01:35 | 显示全部楼层
    teresaiao 发表于 2017-2-1 01:585 m, a# I. [7 Y1 {% d
    終於都會做了, 可是我想問用你那個軟件, 如果轉頁, 或解釋在第二欄, 要怎麼合併?
    ' W. y* w, {* n# S2 t1 g5 f7 }, ~% Z
    所有位置的切图都是分离的,后期导出时同时导出对应信息
    0 k6 O: q$ Z* Q* \也就是:词条+页码+切图图片名(1~多个)

    该用户从未签到

     楼主| 发表于 2017-2-1 02:04:52 | 显示全部楼层
    teresaiao 发表于 2017-2-1 01:58
    ' Y! J- q3 s4 h4 L終於都會做了, 可是我想問用你那個軟件, 如果轉頁, 或解釋在第二欄, 要怎麼合併?

    $ e( u4 e6 U3 x- f你下载了那个红葡汉词典 查一些释义特别长的单词 就可以了解到啦 DSL.dz 可以使用解压缩软件还原为.dsl 文本的 你打开就可看到词条结构

    该用户从未签到

    发表于 2017-2-1 03:39:23 | 显示全部楼层
    本帖最后由 teresaiao 于 2017-2-10 13:46 编辑 4 V0 b  s8 b7 Z. [1 c; O5 A
    chigre3 发表于 2017-2-1 02:04
    8 j! Y2 j4 |. Z+ n5 k! y. Y你下载了那个红葡汉词典 查一些释义特别长的单词 就可以了解到啦 DSL.dz 可以使用解压缩软件还原为.dsl  ...
    ; h; k' `2 G* l8 p( e9 Q
    . Z. L6 E4 G8 X% B2 \
    如何才能固定6 I# P! W- [% a' z7 p

    3 G- N3 q1 R. b) N! d0 d7 Q
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-4-29 04:50 , Processed in 0.057682 second(s), 12 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表