掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 17513|回复: 73

[工具] 20181130更新_自动画线+OCR+切图+校对 软件

  [复制链接]

该用户从未签到

发表于 2016-11-15 20:14:56 | 显示全部楼层 |阅读模式
本帖最后由 chigre3 于 2018-11-30 08:14 编辑
9 w1 {. a: m+ w0 d
1 e/ ^4 y# U4 R3 E$ k" B一、致谢:
$ \" D6 X1 ^7 q( M6 @; m  感谢 @vbnet 的自动画线测试版, 现在经过个人修改, 几乎完全删除了原先的内容, 软件名称仍为 Picture Capture8 a( D7 A  X5 o) G2 }
  感谢 @孤影 的自动划线软件, 给了很多界面上的参考
5 V9 H# f' t% i: ~- r8 c5 j4 q- x  A------------------------------------------------------------------------. s' C) d5 H/ n
二、这个软件有什么用呢???5 x0 J0 B" b: x
  极大地提高制作图片版词典的效率,现在个人需要做的事情仅仅为:
, u$ |9 ?+ Q" q4 W9 o  1. 前期的图片处理:Abbyy Finereader(整体校直)、Photoshop(模板调位置, 统一)、ComicEnhancerPro(转换格式、大小) 等0 M  Q6 f  j4 c( M6 q
  2. 使用本软件进行:$ y/ p: S) M4 \1 W
   (1) 全部页面的 自动划线-->自动OCR
$ C/ k; s. j7 b8 V& V% J+ v/ @   (2) 逐页校对划线和文本(可删可增)
4 k% H' N0 t/ J- K1 O8 V3 _# v   (3) A.合并 .pdic (词条 + 坐标信息) --> Excel 模板 --> 文本替换 --> 精确高亮定位 整页版 图片词典; J* n: D: P$ s+ g0 H8 r
      B.导出单词整体切图 --> 合并 .PWWords (词条+图片名称) --> 文本替代 --> 切图版 图片词典4 S* n' d; |* E. u- J
------------------------------------------------------------------------
, m0 f& A. X( B5 Z/ ]' {三、实现的功能:: }6 Z! i$ R- Q' g
  1. 画线:
) [4 K# r1 J8 _: z4 Y   (1) 自动分析页面 + 自动画线& z( U9 @2 O  W4 o' ~% U
   (2) 手动模式定义页面 + 自动划线
, O  N& H, g+ G+ t   (3) 鼠标右键单击修改单栏重新自动画线1 N% }3 f5 T0 M8 m8 _
   以上均 + 鼠标左键单击增加画线, 文本框内快捷键`删除划线
0 _+ \7 {4 T, C' ~, L$ V2 [8 K. w" L9 L& g( S6 ~
  2. OCR:
) [  w, m: m/ B/ {$ W, Q/ i   采用Tesseract OCR, 具体语言文件 tessdata 可以到官网下载:https://github.com/tesseract-ocr/tessdata
. d/ e1 }, _9 @   (1) 导出文本:可外部编辑后导入, 避免OCR单个切图的不足, R9 J% D/ `) Q. l  T8 u. E
   (2) 导入文本
& ^+ I# Z5 m! M2 c   (3) 1 + 2:直接将OCR结果导入当前页面的文本框 --> 校对
: I4 _. j$ ]: J8 S. X   外置批量替换表达式文本, 可自行创建和编辑, 适应各个词典不同OCR处理的场景& b7 D: ]" f' I, H: ^7 I

) ]0 h; z& p& m3 F$ I  3. 切图:, h5 j7 \' P5 d' q  F6 X
   (1) 词条单行切图:也可以使用外部其他OCR软件处理,或者其他用途
3 i) ]. o, W- w8 `, M* @1 L0 Y   (2) 词条整体切图:实现切图版图片词典的制作(背景透明,不过目前需要其他PNG优化软件缩减大小:https://www.pdawiki.com/forum/thread-19157-1-1.html
; s) ~0 M6 m2 H3 m" ]' L7 M1 l    (实例1:[英-汉] 20161113《英汉大词典(第2版)》10页单词 切图版  https://www.pdawiki.com/forum/thread-19015-1-1.html
4 O+ z7 @3 _: o2 E0 r/ H6 [$ g    (实例2:新西汉词典 切图版 https://www.pdawiki.com/forum/fo ... 6545&fromuid=174481
) Z" X* U' ~( t    ( b+ _  S, W' N6 d$ o4 u; F. _3 v
   可实现仅导出切图坐标等信息,不导出切图,方便使用外部软件进行
% T3 m! }" K3 q; H, m    / Y9 N4 ~. L, [2 }' z; F6 B
! {- N  u) {6 G9 H) l0 o
  4. 校对:
" _, V. H3 a% A* _' `' A, ~   列表式样, 与主窗口同步更新文本框内容, 也高亮匹配提示
7 R' F/ g0 x3 [+ q: Q1 }$ w
4 z& t. c. M8 M2 k3 b5 ~/ X% \  5. 其他:6 f1 Z$ y5 t# F, ~% k( O3 v5 P# w
   (1) 配置文件保存、导入
+ \5 y. O% \8 O) z   (2) 自动下一页+操作(定时):自动保存、自动画线、自动OCR、自动切图。方便无人值守完成相应任务
5 D4 A9 d! P3 t4 ~  {' d   (3) 最重要的还是要人工校对!!!!
" y3 v. M- h7 y' z: x' L   (4) 高度自定义参数设置
1 D( K7 C) |1 `. O8 |$ j) T, a------------------------------------------------------------------------6 i! R/ R3 Y* X2 g4 _3 X9 g
如题,放个图:
+ B4 S  h$ p, D7 ?: x% E! t" b8 e8 s+ c) I1 D$ R
' a( k$ \& [) A5 i. {6 B

' U; e# F: j8 S& S& f, W
$ X4 C; H  F! A: D' r+ o截图内的词条文字为OCR结果
# X9 n& |5 J5 _! J1 z; T1 b$ z4 N$ D+ p9 V
0 Z4 |3 y: j/ Y4 H# Q$ x3 {
9 V1 j' \, X* v2 d6 n
----------------------------20181130更新:* T3 @& \4 h3 e9 `
校对窗口增加按当前提示索引(全部或部分)填充当前划线的文本框!' s* N5 A6 I  @# A- _
----------------------------
7 q' H/ x: T, u% j20180809更新:$ ?. g7 \8 m' w- h4 v9 h
插图画区域由之前的矩形升级为任意多边形
& v# y4 X4 y6 W4 G- {8 b: @7 W/ H6 r, R* E

5 I3 m* x# q: J6 H3 d& ^8 I, c----------------------------, C9 B3 R/ w# P/ `- E% Y
20180614更新:5 K+ {5 V! q6 g' e. [  o% a
在校对界面中增加一列单词,即大词库表中 上页末单词和本页末单词 之间的所有单词。
( C! X3 X1 B5 @1 h& U+ j单击则替换当前校对文本框中的文本!
% {& `& x8 n/ t; _不同颜色提示,方便定位!; r2 R6 B8 h5 s
* V! O& x% O* R* W8 l9 ~0 E* j% ?
4 K" `* S8 Y9 Q; B

: s9 G9 d1 n, f8 V----------------------------
6 `: m: U% g  U" ~$ T1 J6 z" `; S20170314更新2:6 u7 U6 k" s1 ?; A
校对界面修改如下,增添更多特殊字符(aeiou等),方便校对的时候直接复制粘贴:
/ @& ]) c- z) h5 `+ ]3 \* c' a1 ^0 a

0 e7 D6 |! O% c$ u5 a+ P20170314更新:. Q8 K& B9 D: J" T$ K
起始页-->终止页
9 W: |  K5 k' i8 b7 B1 q* _/ D0 n[切图]-【词条整体切图】5 ], E/ ]4 ]* f% D- w
---> 会直接把范围内的页面的所有单词切图导出(软件界面会有假死的状态,不用理会,导出结束就OK了)# ]' \( ~6 L/ b
如果起始页和终止页为空,则导出当前页的词条切图/ N! m- L. d& C& c. H* g

7 h( I0 u* U, e在校对界面时,主界面【√隐藏线框】,那么此时就只有颜色框(平行线宽)* M* d% ~7 [9 @1 n) }* N
当前词条亮黄色,其他还是红色
) _/ z' L# N, v  y7 b这儿主要是考虑到有时候词条不只是单行,多行的时候可以方便查看。, S' ?; A! z) e( e- `4 |

, r* f6 ~# `0 V----------------------------8 M4 a- E1 w/ U! L9 h* R8 P; q
20170313更新:
# Q' ^! x% a2 N6 B3 H3 F1. 词条整体导出切图的判断逻辑的补充(3栏以上时,位于不同列的上下单词中间隔了空列。之前这个情况未考虑到)
, H* [) d* f: |) m  【仅修改了:从PDIC整体导出切图的坐标数据的这部分补充内容】, _2 J8 D0 ]: G6 P$ b
----------------------------
9 O! y% f2 }. J  h1 k; L7 }% w/ c20170217更新:
4 C( V8 t" f  R* f1. 画线判断的方法改进(2种方法均改进)/ U* b  Q4 Y6 ^- j6 _* q
----------------------------
8 c% `7 I" @$ L+ ^20170115更新:- Z( n% ]: M3 O
1. tessdata 的完整语言列表,具体语言移步【https://github.com/tesseract-ocr/tessdata】下载! a. l& K% @& @  `( W
2. 在图片文件名列表上方的文本框里输入“SMALL”,点击【校对】,每个词条行的缩略图切图(非原始图片上裁剪)
5 a4 B! A( O7 W* _- I----------------------------/ e) g& i* I8 D9 c; `  \& e9 K
20161119更新:
3 v8 |4 x6 R' d1.修复保存坐标数据时的bug& T6 G3 @5 x3 b0 S/ `/ t
2.修复单词整体导出页面的一个bug
* ^* S! M. l+ H7 h3 D/ f& P3.增加功能: 选定范围页面的批量导入词条# [9 h3 ^& m; U* W) v3 H6 q5 m) r
4.增加功能: 快速查找定位索引
% n8 r  M! Z/ J0 d1 m# V' R! l1 Y----------------------------* Y0 x1 r7 Q) l# \
20161123更新:8 x3 j% o3 R$ f$ y4 I5 v
重写词条整体导出切图的判断逻辑,现在应该不会有切图坐标不一致、切图数目不一致的情况了。% }, O4 N# E" K( H
0 {) s# L% [/ y( @- G' S
  1. 问题:页面是否有词条?* C" S" T' p7 g; Y' d  ?# ~0 q
  2. 1. NO --> 直接导出和栏数一致的大切图 (标记为上页末词条续)' S4 d+ A5 c2 U/ {, w
  3. 2. YES --> , J5 {  O& c5 V6 L
  4.  (1) 确定0号词条所在栏:+ t: N# T& H4 k  @
  5.   --> 0号词条所在栏之前的栏, 直接导出大切图 (标记为上页末词条续)/ y$ y0 z9 w& w# ~5 P
  6.   --> 0号词条所在栏上方若还有部分上页末词条接续, 则导出切图 (标记为上页末词条续)9 }( A2 a# Q3 @# j, O; P
  7.  (2) 次数为所有词条数目的循环:
    ; o7 w( z7 i' X) a* @
  8.   A. 若: 当前为最后一个词条 --> 确定高度* V6 d# W5 K+ a  {+ `& ]+ X- _
  9.   B. 否则:
    & V& M* l. T" ?7 u
  10.    a. 下一个词条在下一栏 --> 确定高度
    6 l% m* S% R8 ]0 H1 O8 X4 t
  11.      --> 如果当前词条在下一栏仍有接续 --> 导出切图 (标记为当前词条接续2)
    7 X# D4 h- ~  K& ]) z3 b
  12.    b. 下一个词条在同一栏 --> 确定高度
    + W7 l9 j4 G/ R' ^

  13. % {" i3 E% V* R6 T% T+ Y* J
  14.   --> 导出每个词条的切图7 j* T( n0 N  Y( u- Z3 i% r
  15. + a1 M" c7 @$ U
  16.  (3) 确定最后一个词条所在栏:
    3 ~, ^. j6 D8 {' u: b. D
  17.   --> 最后词条所在栏之后的栏, 直接导出大切图 (标记为本页末词条续)
复制代码

; @: J& z. x/ y3 _, ^2 x
4 p& S+ p# H5 p2 o8 i  j重要更新:
: Z8 ^9 o7 m% c6 Z1. 词条整体切图模块重写+ A0 e8 D6 x6 W* t
2. 增加根据.pdic导出所有图片切图信息(+切图)--> 几十秒【如下面动图GIF】
, j7 R) a/ r# ?6 [' M# H" K5 \2 q: S4 a; \6 U$ |

( F" Z7 y& H6 b
) Q, ^( u+ t+ \" l# F2016.11.28
- ^" R4 W/ B; U$ l* O; w更新:一个小小的bug(跳过页首处下方如果单行接续,会因为判断的距离和行高过于接近造成缺漏 --> 修改了公式)( g/ j7 F1 E3 Y: R$ P8 G# z, p- x

9 B, Q" |9 g+ L1 i- H

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?免费注册

x

评分

1

查看全部评分

本帖被以下淘专辑推荐:

  • TA的每日心情
    奋斗
    2022-1-12 06:11
  • 签到天数: 118 天

    [LV.6]常住居民II

    发表于 2018-2-23 08:45:34 | 显示全部楼层
    请问大神,软件在哪儿有下载啊

    该用户从未签到

    发表于 2017-2-1 12:03:46 | 显示全部楼层
    本帖最后由 teresaiao 于 2017-2-10 13:47 编辑
    & t9 ~7 i. V- N( ?$ e+ f1 I0 v  e) p. E& t
    我在第一頁設置了參數和保存了, 第二頁的紅色豎線就移位了, 是不是參數有問題?

    该用户从未签到

     楼主| 发表于 2017-2-1 04:49:02 | 显示全部楼层
    teresaiao 发表于 2017-2-1 03:39
    5 U2 H  q3 t. Q- D嗯,字典裏看得到了,真的快很多,基本上是要用photoshop和打詞條就好。 另外那個自動畫線,我在第一幅弄 ...

    + u  v6 a. r& B  w" HPS 模板 移动位置 让每一张图片位置都一样 这样在软件里你设置了的参数就会是全局通用的 之后便可以全自动全部页面划线 紧接着就可以OCR

    该用户从未签到

    发表于 2017-2-1 01:58:45 | 显示全部楼层
    本帖最后由 teresaiao 于 2017-2-10 13:46 编辑
    3 Q" x) c# F# p4 K: L6 f9 `1 A/ N" u# _& N) W
    可是我想問用你那個軟件, 如果轉頁, 或解釋在第二欄, 要怎麼合併?

    该用户从未签到

    发表于 2016-11-26 13:05:03 | 显示全部楼层
    感谢chigre3,待我有空可以把汉语大字典图片版做一下了。

    该用户从未签到

     楼主| 发表于 2016-11-17 00:34:06 | 显示全部楼层
    group1234 发表于 2016-11-16 23:30
    , e7 `0 o  ]8 c( h, L4 s- @製作圖片辭典的福音,可以節省非常多的時間,期待軟件分享~~~
    # w, m! N8 x! Q( I7 \; _
    是的,这个软件确实极大提高效率,
    3 L4 u7 ~8 {5 F/ o5 H6 a现在个人需要做的事情仅仅为:
    & |. h9 c% w; b% @1. 前期的图片处理:Abbyy Finereader(整体校直)、Photoshop(模板调位置, 统一)、ComicEnhancerPro(转换格式、大小) 等4 a1 d) Y# o, Z4 v
    2. 使用本软件进行:1 M1 H; X% S/ [+ `1 ~
     (1) 全部页面的 自动划线-->自动OCR
    7 z) E5 H  S6 i( _4 f (2) 逐页校对划线和文本(可删可增)
    3 r8 H" H+ Q1 k& ~ (3) A.合并.pdic (词条+坐标信息) --> Excel模板 --> 文本替换 --> 精确高亮定位 整页版 图片词典
    . v6 e' w* E" Q7 P    B.导出单词整体切图 --> 合并.PWWords (词条+图片名称) --> 文本替代 --> 切图版 图片词典+ T  N# \/ C( M! v

    该用户从未签到

    发表于 2016-11-15 22:50:35 | 显示全部楼层
    逆天还是吊炸天了。。。。。

    该用户从未签到

     楼主| 发表于 2016-11-16 02:11:49 | 显示全部楼层
    本帖最后由 chigre3 于 2016-11-16 02:22 编辑
    8 [9 S. {) \; t* E3 f
    * |0 a+ Q' j- S6 Y( `+ m* n比如《现代汉语词典》也可以画线和OCR、切图等:
    / C+ F4 |) R* ?6 u# G2 R----------------------------------------------------
    . l* e" P# r) o" ~% q' p; O( H画线时:7 F0 ]9 u" ]6 Z/ L
    [行间距离]: 17/ M9 T! d2 L9 R" u3 a8 y: I) b) H( ?" q
    [向右倍率]: 1/1.0: d7 i  p" r! U* p6 m
    & D; U5 O  D: K& g: r
    OCR时:/ W; Z" J# M, {0 ~9 T
    [行间距离]: 103 I/ B6 J& I* ?0 Y' T
    [向右倍率]: 1/3.0
    6 W2 F( w; w+ \文本框匹配都是红色,因为没有加载中文的词条索引来进行匹配检查4 A0 ~' B( V$ s& q

    ) d; I' N+ A9 K0 y  k
    : K0 R4 L. a4 @6 v6 }6 c7 `# T4 F) r  c9 N5 K4 U9 b/ U5 f

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

    发表于 2016-11-16 07:12:22 | 显示全部楼层
    几乎只剩下人工校对工作了

    该用户从未签到

    发表于 2016-11-16 08:09:02 | 显示全部楼层
    chigre3 发表于 2016-11-16 02:11
    8 k& d: G" N) V7 c7 ?比如《现代汉语词典》也可以画线和OCR、切图等:
    5 _  e  N* O% @----------------------------------------------------: H7 ~! n; G4 P, [  h* e% I
    ...
    + v  L2 K6 y9 D" z+ @% J
    歪图问题,上下页不对齐,某些不是矩形栏的排版,3栏以及3栏以上,不知道能不能处理?

    该用户从未签到

    发表于 2016-11-16 08:46:56 | 显示全部楼层
    提示: 该帖被管理员或版主屏蔽

    该用户从未签到

     楼主| 发表于 2016-11-16 17:36:45 | 显示全部楼层
    644830104 发表于 2016-11-16 08:09
    1 t# z( K4 p  |% h3 L歪图问题,上下页不对齐,某些不是矩形栏的排版,3栏以及3栏以上,不知道能不能处理?

    / i) ?+ ~6 {, a8 s' u) x所有图片统一修图 还有轻微歪斜能够画线; D9 R7 ^  I$ N9 p3 u3 L6 x) t" h
    图片不处理到一致规格 那最多用来划线切图OCR 每一页还要设置参数
    ! W9 c6 d8 x3 F不规则形状不考虑
    2 ?/ D9 J3 _- y' B% {  S8 D& G支持N栏
  • TA的每日心情
    开心
    2019-6-28 11:53
  • 签到天数: 28 天

    [LV.4]偶尔看看III

    发表于 2016-11-16 23:30:48 | 显示全部楼层
    製作圖片辭典的福音,可以節省非常多的時間,期待軟件分享~~~
    1 \5 ^" L5 ~+ P* [
  • TA的每日心情
    慵懒
    2023-2-4 11:26
  • 签到天数: 579 天

    [LV.9]以坛为家II

    发表于 2016-11-17 17:28:54 | 显示全部楼层
    这个绝对是神器
  • TA的每日心情
    开心
    2018-5-8 11:51
  • 签到天数: 18 天

    [LV.4]偶尔看看III

    发表于 2016-11-20 01:16:53 | 显示全部楼层
    激动不已!跃跃欲试

    该用户从未签到

    发表于 2016-11-20 09:18:39 来自手机 | 显示全部楼层
    哇,很牛的软件,期待chigre3的分享。
  • TA的每日心情
    开心
    2020-12-9 19:29
  • 签到天数: 27 天

    [LV.4]偶尔看看III

    发表于 2016-11-22 17:12:18 | 显示全部楼层
    这个软件太厉害了
  • TA的每日心情
    开心
    2020-12-9 19:29
  • 签到天数: 27 天

    [LV.4]偶尔看看III

    发表于 2016-11-22 17:13:11 | 显示全部楼层
    提示: 该帖被管理员或版主屏蔽

    该用户从未签到

     楼主| 发表于 2016-11-26 09:05:40 | 显示全部楼层
    【20161125更新】《葡汉词典》切图版
    0 A/ K; x* S1 U1 o0 \) `https://www.pdawiki.com/forum/fo ... &fromuid=1744814 {4 d4 p9 W# B, o9 F: h$ \
    (出处: 掌上百科)
    0 F" H$ h9 g3 d& F( ?

    该用户从未签到

    发表于 2016-11-27 08:21:42 | 显示全部楼层
    C大神器,谁与争锋?创意无限,匠心十足。佩服佩服。

    该用户从未签到

     楼主| 发表于 2016-11-27 20:23:37 | 显示全部楼层
    切图版后续:
    . U; v$ i2 {: S2 r! @. \! \  h4 `因为切出的图片数目极多,目前想法是:6 X% s* R+ ]& O% }# e
    (1) 制作成MDX/MDD格式, CSS不内嵌入MDD, 外置CSS, 方便个人设置
    ( U6 }/ Y6 a; N4 E(2) 制作成DSL格式, 图片资源直接打包zip2 s+ O+ P  ~5 V: R  _, n

    该用户从未签到

     楼主| 发表于 2017-2-1 02:01:35 | 显示全部楼层
    teresaiao 发表于 2017-2-1 01:58) @, ~: C9 l# S5 v, g
    終於都會做了, 可是我想問用你那個軟件, 如果轉頁, 或解釋在第二欄, 要怎麼合併?
    ) c' c3 Z% J( t8 }/ ?
    所有位置的切图都是分离的,后期导出时同时导出对应信息
    . f3 @* G% I4 e, g也就是:词条+页码+切图图片名(1~多个)

    该用户从未签到

     楼主| 发表于 2017-2-1 02:04:52 | 显示全部楼层
    teresaiao 发表于 2017-2-1 01:58
    ) Q3 C: u  ?; I+ M終於都會做了, 可是我想問用你那個軟件, 如果轉頁, 或解釋在第二欄, 要怎麼合併?

    4 B% h/ m1 |5 Z" y; L7 R4 V你下载了那个红葡汉词典 查一些释义特别长的单词 就可以了解到啦 DSL.dz 可以使用解压缩软件还原为.dsl 文本的 你打开就可看到词条结构

    该用户从未签到

    发表于 2017-2-1 03:39:23 | 显示全部楼层
    本帖最后由 teresaiao 于 2017-2-10 13:46 编辑
    + F. K2 R5 F0 G4 G- x8 \: Y
    chigre3 发表于 2017-2-1 02:04
    : r% W" I5 q6 K你下载了那个红葡汉词典 查一些释义特别长的单词 就可以了解到啦 DSL.dz 可以使用解压缩软件还原为.dsl  ...
    % l5 O9 ]/ d  Y. S' O0 y5 Q" c
    7 q4 H* ^4 [3 q" ^5 O+ r! x
    如何才能固定% [" a6 a' _  K: s0 a8 T- O
    ! I2 N* P2 U9 U1 D# t' q. j! P9 {
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-4-29 14:40 , Processed in 0.094844 second(s), 11 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表