掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 20509|回复: 77

[工具] 20181130更新_自动画线+OCR+切图+校对 软件

  [复制链接]

该用户从未签到

发表于 2016-11-15 20:14:56 | 显示全部楼层 |阅读模式
本帖最后由 chigre3 于 2018-11-30 08:14 编辑
" n1 w  ~' ^2 A+ Z/ e. h6 c9 ^+ r5 ]2 J4 f; C
一、致谢:, x: Y( s" [, K0 [- w# Z
  感谢 @vbnet 的自动画线测试版, 现在经过个人修改, 几乎完全删除了原先的内容, 软件名称仍为 Picture Capture* d7 T" f7 y2 X+ h
  感谢 @孤影 的自动划线软件, 给了很多界面上的参考
4 e) x* r- T& n; m------------------------------------------------------------------------
' b! ]5 M6 U: w. F- s1 G5 Z) k9 S二、这个软件有什么用呢???" Q4 V: V- t- V' @' ^
  极大地提高制作图片版词典的效率,现在个人需要做的事情仅仅为:
7 A3 Q+ p2 m9 x3 S9 N/ b  1. 前期的图片处理:Abbyy Finereader(整体校直)、Photoshop(模板调位置, 统一)、ComicEnhancerPro(转换格式、大小) 等- o0 @. }- P* S7 \1 ?9 C
  2. 使用本软件进行:
7 {0 L* y8 C, [1 |& P/ T# a   (1) 全部页面的 自动划线-->自动OCR
: q! ~' d; t/ Q" B: ^$ K1 N   (2) 逐页校对划线和文本(可删可增)9 v. W# {3 `1 ^
   (3) A.合并 .pdic (词条 + 坐标信息) --> Excel 模板 --> 文本替换 --> 精确高亮定位 整页版 图片词典
* p/ Z) L1 Z8 _3 Q3 f      B.导出单词整体切图 --> 合并 .PWWords (词条+图片名称) --> 文本替代 --> 切图版 图片词典
, _) o9 T+ n; e------------------------------------------------------------------------4 ]/ a1 W& w. t: B$ H6 y3 B( M
三、实现的功能:+ Q) x4 o6 G9 A* a; k9 P
  1. 画线:( D$ k! J  Y2 {1 M$ c
   (1) 自动分析页面 + 自动画线3 Y2 I% N8 y4 t) |" ~; Q4 Y
   (2) 手动模式定义页面 + 自动划线
, V# Y; O' ~, W* S, i4 b   (3) 鼠标右键单击修改单栏重新自动画线
) v' {" r6 g' S2 w: U   以上均 + 鼠标左键单击增加画线, 文本框内快捷键`删除划线
$ s" W- A0 C9 T3 {/ t5 c
6 S8 ~+ U' \: c' ], Z  2. OCR:
2 i  Q5 I, s$ O. v# W& A3 I   采用Tesseract OCR, 具体语言文件 tessdata 可以到官网下载:https://github.com/tesseract-ocr/tessdata
4 S/ P4 c5 q- `8 Y- G4 u4 r) j   (1) 导出文本:可外部编辑后导入, 避免OCR单个切图的不足+ X& L, G, F: t, r7 ^* S
   (2) 导入文本
. O: f8 B7 F; q3 C: a   (3) 1 + 2:直接将OCR结果导入当前页面的文本框 --> 校对/ Q8 M) E7 l- B/ e5 @' A
   外置批量替换表达式文本, 可自行创建和编辑, 适应各个词典不同OCR处理的场景* D2 o9 K$ {4 a. m' V$ [

( P* H/ Z; O, W  3. 切图:$ V- {+ S: g  y5 g$ I* a/ ]! k
   (1) 词条单行切图:也可以使用外部其他OCR软件处理,或者其他用途3 h' N, o+ s( c# j" P' s+ `
   (2) 词条整体切图:实现切图版图片词典的制作(背景透明,不过目前需要其他PNG优化软件缩减大小:https://www.pdawiki.com/forum/thread-19157-1-1.html; R' g/ U  A( @6 K/ Y
    (实例1:[英-汉] 20161113《英汉大词典(第2版)》10页单词 切图版  https://www.pdawiki.com/forum/thread-19015-1-1.html7 `  l; J5 i( q! [- ^
    (实例2:新西汉词典 切图版 https://www.pdawiki.com/forum/fo ... 6545&fromuid=1744813 f; u/ {# [7 n$ u" Y
    
8 O" c/ }, k1 U5 ~7 }% ^4 ]. q$ f   可实现仅导出切图坐标等信息,不导出切图,方便使用外部软件进行8 f* @$ b) R6 b2 Q, n$ n3 K
    , A) ?+ z1 p' P2 b+ P: g

6 r+ J1 c4 ]( C( R$ Y* p, T7 R  4. 校对:
, G& L  W! x5 S/ J! r3 \   列表式样, 与主窗口同步更新文本框内容, 也高亮匹配提示  ~2 f8 g* S+ p
9 m+ Q! n' V/ y, j
  5. 其他:, L" C5 n$ P* M1 Y  u% Q  R: L- [
   (1) 配置文件保存、导入
" \% j. [1 f5 }2 n0 C3 Z+ @3 U   (2) 自动下一页+操作(定时):自动保存、自动画线、自动OCR、自动切图。方便无人值守完成相应任务
2 K# v) {% B* r& @   (3) 最重要的还是要人工校对!!!!
# P) p: I$ ^/ `4 c1 B( V- Z6 r* s# a! x   (4) 高度自定义参数设置
, `% [6 G$ k4 W$ _. k------------------------------------------------------------------------" q  n5 N( q- B! X8 J
如题,放个图:
; [- L9 P6 [, n* k- m) X, [6 ^5 N' U9 ?

  @" K" ?; L1 _* R. g" T! r; {- x1 R/ c0 w
( E1 z* |' t% n8 I& z, I! c3 K! O/ g
截图内的词条文字为OCR结果
* Y' F/ m9 L9 u. I% M9 P  }6 \7 J/ i) @! f9 k
  k" V2 t8 G+ ^% [0 s- R
* Y: L5 _% _) o4 H' i& b# D
----------------------------20181130更新:
  t  ~( F9 U+ M4 d校对窗口增加按当前提示索引(全部或部分)填充当前划线的文本框!: l1 Q; U! F2 Q# X: t
----------------------------6 p9 ^0 R; n* ^" f3 u' S. E# P
20180809更新:
6 G  L' Z" U5 R, z插图画区域由之前的矩形升级为任意多边形$ ?! n0 T! p7 T0 L

; Z! x( M* U' z( }
6 y1 B8 [" I9 w5 Z0 W0 V- l----------------------------
: [1 T. K, k& W6 H# [20180614更新:
( t: T) d& g% l在校对界面中增加一列单词,即大词库表中 上页末单词和本页末单词 之间的所有单词。0 G* |( u8 H. x6 Z+ V' u% k
单击则替换当前校对文本框中的文本!
9 I$ C5 K0 w7 k# b! Q9 I不同颜色提示,方便定位!4 x  [, L5 }8 `( ?0 ^2 M

  }- p; z+ P  `7 h# e# j+ Y! z% N3 ?( v  C  V$ m

7 E% g6 T' i3 \! K----------------------------
5 i8 t4 S  j* V% j  N( j( H0 `/ E20170314更新2:: _2 d% s( B% D" |3 o
校对界面修改如下,增添更多特殊字符(aeiou等),方便校对的时候直接复制粘贴:% R. Q$ d' b% r. _
. u. i8 Y1 T/ u9 X% E/ h
- V, v) ~, g2 Y' r
20170314更新:
) g( s4 X  `) z8 ]- ^2 q起始页-->终止页
$ D+ ^! v  n6 s3 p; I[切图]-【词条整体切图】+ X- h& ^+ a9 q9 k# r  Y; m
---> 会直接把范围内的页面的所有单词切图导出(软件界面会有假死的状态,不用理会,导出结束就OK了)
6 W. Z, ?# J1 _! l如果起始页和终止页为空,则导出当前页的词条切图' U" b! A' X& ?5 `9 c2 X! Y, m, C

- n' q) b0 U" \! M在校对界面时,主界面【√隐藏线框】,那么此时就只有颜色框(平行线宽)
/ F5 z- x2 W& E' p* e当前词条亮黄色,其他还是红色- m9 W+ G! {' a0 B; B6 Q
这儿主要是考虑到有时候词条不只是单行,多行的时候可以方便查看。
( B( g, h, f  W: ^7 m" Q1 ]) V7 P) z; x
2 ?( C( X# ^  m! r# x# W----------------------------
. }* Q& _6 \& m& f: C20170313更新:" B% |3 c6 Q* W" q
1. 词条整体导出切图的判断逻辑的补充(3栏以上时,位于不同列的上下单词中间隔了空列。之前这个情况未考虑到)$ _0 O* P+ K: p: B6 k& L
  【仅修改了:从PDIC整体导出切图的坐标数据的这部分补充内容】4 }$ j/ Z( z/ H+ D" ~
----------------------------
1 \/ u0 s9 r: }9 [/ S20170217更新:
. E# R; P6 D, `! e) y' x' g6 g$ ^: P1. 画线判断的方法改进(2种方法均改进)1 F& N( L1 Z* o0 f4 P& F
----------------------------
$ w& N7 U9 y7 _! }3 D20170115更新:( t1 \: |, Y# B+ w
1. tessdata 的完整语言列表,具体语言移步【https://github.com/tesseract-ocr/tessdata】下载
$ j8 D) j" u8 b/ P/ v; g3 d) |: Y2. 在图片文件名列表上方的文本框里输入“SMALL”,点击【校对】,每个词条行的缩略图切图(非原始图片上裁剪)
8 |! F" v- }* H% U----------------------------
) F6 d, K, h% ~5 C- ?20161119更新:% j3 R( }5 O/ Z% ]/ s
1.修复保存坐标数据时的bug& R7 E- O3 _0 d
2.修复单词整体导出页面的一个bug$ _% m9 R; Y5 @( L$ l7 k
3.增加功能: 选定范围页面的批量导入词条, _! V4 o7 a; ?+ |& q) K
4.增加功能: 快速查找定位索引6 i$ y  J0 x, E% y
----------------------------% f( Y5 R$ I9 i2 l% ^
20161123更新:
6 b/ D7 I! P8 M$ \, _; ?, n重写词条整体导出切图的判断逻辑,现在应该不会有切图坐标不一致、切图数目不一致的情况了。8 s# A7 D; p4 R9 m
) J* i: x8 Y2 Z2 v4 Y) Z
  1. 问题:页面是否有词条?
    ) R1 [4 }  L- J- y3 e! h; j
  2. 1. NO --> 直接导出和栏数一致的大切图 (标记为上页末词条续)! |' f5 j( h! F, z; y, x
  3. 2. YES --> ' x, x/ h1 T" y0 g) B
  4.  (1) 确定0号词条所在栏:+ ]% S9 W+ U& ^5 Z# r, k# x
  5.   --> 0号词条所在栏之前的栏, 直接导出大切图 (标记为上页末词条续)4 H$ s6 h: [- n, m6 L
  6.   --> 0号词条所在栏上方若还有部分上页末词条接续, 则导出切图 (标记为上页末词条续)
    8 _6 V1 |6 F" X+ C: U8 S' F# V
  7.  (2) 次数为所有词条数目的循环:/ E3 O. @) Y+ W& v4 Y* q' ?
  8.   A. 若: 当前为最后一个词条 --> 确定高度- E! R# P- l4 e
  9.   B. 否则:
    1 i  G) T* s. {# q; A$ Q
  10.    a. 下一个词条在下一栏 --> 确定高度8 L4 G9 w% I6 }& e! o
  11.      --> 如果当前词条在下一栏仍有接续 --> 导出切图 (标记为当前词条接续2)& M7 Y* W! e! u% D8 M
  12.    b. 下一个词条在同一栏 --> 确定高度3 Q: m" C8 z, l7 r! \* L2 D" w

  13. / o5 O0 W6 G: f
  14.   --> 导出每个词条的切图
    1 J7 t! R* J" }: L6 i4 e# M1 W
  15. , ^6 h8 I1 H7 l3 z! K
  16.  (3) 确定最后一个词条所在栏:1 X+ n/ v, S& x3 u8 V
  17.   --> 最后词条所在栏之后的栏, 直接导出大切图 (标记为本页末词条续)
复制代码

% V; f1 C$ G( v9 I" i4 x' H/ i" Q1 s
重要更新:
  f# R# I) |6 q1. 词条整体切图模块重写
8 ^6 a5 v& k; d% }1 x$ p7 q# d3 u& N2. 增加根据.pdic导出所有图片切图信息(+切图)--> 几十秒【如下面动图GIF】
; v/ Z& o- R6 U; ?' ~- b0 k& }0 N* r/ J8 j- {& \
5 w4 v4 {7 L0 j! I2 n  }; X
/ n  u1 ]: ~9 p& V6 W- l) x
2016.11.28
/ F0 A8 m& k' w% I6 v" N  m" g  H更新:一个小小的bug(跳过页首处下方如果单行接续,会因为判断的距离和行高过于接近造成缺漏 --> 修改了公式)
; a7 i6 F- l4 x2 o- ]7 X' M
) g5 N' L9 C8 s( D7 N% ~4 V

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?免费注册

x

评分

1

查看全部评分

本帖被以下淘专辑推荐:

  • TA的每日心情
    奋斗
    2022-1-12 06:11
  • 签到天数: 118 天

    [LV.6]常住居民II

    发表于 2018-2-23 08:45:34 | 显示全部楼层
    请问大神,软件在哪儿有下载啊

    该用户从未签到

    发表于 2017-2-1 12:03:46 | 显示全部楼层
    本帖最后由 teresaiao 于 2017-2-10 13:47 编辑 - F! K# M9 x9 F

    2 S' [1 y1 T% \  `7 D我在第一頁設置了參數和保存了, 第二頁的紅色豎線就移位了, 是不是參數有問題?

    该用户从未签到

     楼主| 发表于 2017-2-1 04:49:02 | 显示全部楼层
    teresaiao 发表于 2017-2-1 03:39- _/ k4 O/ t4 F& k' ^" l- }
    嗯,字典裏看得到了,真的快很多,基本上是要用photoshop和打詞條就好。 另外那個自動畫線,我在第一幅弄 ...

    # Z- `' Y- b0 l2 q6 SPS 模板 移动位置 让每一张图片位置都一样 这样在软件里你设置了的参数就会是全局通用的 之后便可以全自动全部页面划线 紧接着就可以OCR

    该用户从未签到

    发表于 2017-2-1 01:58:45 | 显示全部楼层
    本帖最后由 teresaiao 于 2017-2-10 13:46 编辑   O6 e! Y: s' b' S/ h" W
    5 Y. ~7 B) e! e8 ?' T
    可是我想問用你那個軟件, 如果轉頁, 或解釋在第二欄, 要怎麼合併?

    该用户从未签到

    发表于 2016-11-26 13:05:03 | 显示全部楼层
    感谢chigre3,待我有空可以把汉语大字典图片版做一下了。

    该用户从未签到

     楼主| 发表于 2016-11-17 00:34:06 | 显示全部楼层
    group1234 发表于 2016-11-16 23:30
      u7 z8 W% g* T! p9 ]- h+ N) J- Y製作圖片辭典的福音,可以節省非常多的時間,期待軟件分享~~~

    . f' h' L$ v# k" e6 g! C4 H是的,这个软件确实极大提高效率,1 S4 ]9 _  L- i) e5 _% p3 e
    现在个人需要做的事情仅仅为:% P/ x# N. Q9 F0 G
    1. 前期的图片处理:Abbyy Finereader(整体校直)、Photoshop(模板调位置, 统一)、ComicEnhancerPro(转换格式、大小) 等
    * V1 M& f3 u+ ~0 m  G2. 使用本软件进行:( n) }( R! i* q, D- l
     (1) 全部页面的 自动划线-->自动OCR
      C! p, G; \9 @( y" ~ (2) 逐页校对划线和文本(可删可增)0 N7 x. _$ y; `
     (3) A.合并.pdic (词条+坐标信息) --> Excel模板 --> 文本替换 --> 精确高亮定位 整页版 图片词典
    . i, x) N/ ?# z( k6 D7 n1 N2 d- k6 R9 r    B.导出单词整体切图 --> 合并.PWWords (词条+图片名称) --> 文本替代 --> 切图版 图片词典
    . ^  |1 q4 b. R" d

    该用户从未签到

    发表于 2016-11-15 22:50:35 | 显示全部楼层
    逆天还是吊炸天了。。。。。

    该用户从未签到

     楼主| 发表于 2016-11-16 02:11:49 | 显示全部楼层
    本帖最后由 chigre3 于 2016-11-16 02:22 编辑
    0 S7 X3 ~" W# v9 Z$ ?  J) @$ }' r" ^; X; X; W8 c- }
    比如《现代汉语词典》也可以画线和OCR、切图等:' ~6 H1 T8 e3 [4 f& g; ~: e' O; L
    ----------------------------------------------------* U( L; R7 b' f9 l) Z6 Z+ d5 t
    画线时:
    : P9 t1 {/ t9 Z9 Y# \[行间距离]: 17
    0 r( M( _8 i8 y+ i, \" y/ s0 k6 J# a4 }[向右倍率]: 1/1.0
    8 J( k8 z/ Z: U+ ]# ^' @2 n# t$ w/ }3 X7 z" q
    OCR时:
    - Q+ a' R( n* y+ m) [! G+ y[行间距离]: 10
    ' T# q1 I  ]" N[向右倍率]: 1/3.0* K4 u( ]' `9 [
    文本框匹配都是红色,因为没有加载中文的词条索引来进行匹配检查
      s# q0 d( h1 _# m1 k
    , p* W7 l( ]' @
    4 S. z' u9 k& A1 o! l
    ' Z3 }4 a% s* I. V: Y$ ]

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

    发表于 2016-11-16 07:12:22 | 显示全部楼层
    几乎只剩下人工校对工作了

    该用户从未签到

    发表于 2016-11-16 08:09:02 | 显示全部楼层
    chigre3 发表于 2016-11-16 02:11+ f( k9 M) j; W1 q) b3 E! \
    比如《现代汉语词典》也可以画线和OCR、切图等:
    ; y8 X& v9 |9 Y: Q% r----------------------------------------------------' e1 p) f' K& s! M2 O* w: Q, I
    ...
    9 F) S" m1 l1 t* C
    歪图问题,上下页不对齐,某些不是矩形栏的排版,3栏以及3栏以上,不知道能不能处理?

    该用户从未签到

    发表于 2016-11-16 08:46:56 | 显示全部楼层
    提示: 该帖被管理员或版主屏蔽

    该用户从未签到

     楼主| 发表于 2016-11-16 17:36:45 | 显示全部楼层
    644830104 发表于 2016-11-16 08:09
    / R( a: r: e# z' _3 _! m+ Z歪图问题,上下页不对齐,某些不是矩形栏的排版,3栏以及3栏以上,不知道能不能处理?

    4 W% p% t- {! [# k1 \所有图片统一修图 还有轻微歪斜能够画线
    8 _& h) y7 U* U/ H0 j图片不处理到一致规格 那最多用来划线切图OCR 每一页还要设置参数 # p6 e1 Y' `/ I& R- Y1 ]8 i& J
    不规则形状不考虑 7 s' [1 z( \8 q2 Q& u! W8 C4 y
    支持N栏
  • TA的每日心情
    开心
    2019-6-28 11:53
  • 签到天数: 28 天

    [LV.4]偶尔看看III

    发表于 2016-11-16 23:30:48 | 显示全部楼层
    製作圖片辭典的福音,可以節省非常多的時間,期待軟件分享~~~, u) g; ~8 _( w# U+ n
  • TA的每日心情
    慵懒
    2023-2-4 11:26
  • 签到天数: 579 天

    [LV.9]以坛为家II

    发表于 2016-11-17 17:28:54 | 显示全部楼层
    这个绝对是神器
  • TA的每日心情
    开心
    2018-5-8 11:51
  • 签到天数: 18 天

    [LV.4]偶尔看看III

    发表于 2016-11-20 01:16:53 | 显示全部楼层
    激动不已!跃跃欲试

    该用户从未签到

    发表于 2016-11-20 09:18:39 来自手机 | 显示全部楼层
    哇,很牛的软件,期待chigre3的分享。
  • TA的每日心情
    开心
    2020-12-9 19:29
  • 签到天数: 27 天

    [LV.4]偶尔看看III

    发表于 2016-11-22 17:12:18 | 显示全部楼层
    这个软件太厉害了
  • TA的每日心情
    开心
    2020-12-9 19:29
  • 签到天数: 27 天

    [LV.4]偶尔看看III

    发表于 2016-11-22 17:13:11 | 显示全部楼层
    提示: 该帖被管理员或版主屏蔽

    该用户从未签到

     楼主| 发表于 2016-11-26 09:05:40 | 显示全部楼层
    【20161125更新】《葡汉词典》切图版) ]+ C' B% v/ V; W, t  F& y* Z' {
    https://www.pdawiki.com/forum/fo ... &fromuid=174481
    $ N3 o5 o/ f+ Y- ~# V$ k(出处: 掌上百科)
    & {" S% w% r# C2 y: ]

    该用户从未签到

    发表于 2016-11-27 08:21:42 | 显示全部楼层
    C大神器,谁与争锋?创意无限,匠心十足。佩服佩服。

    该用户从未签到

     楼主| 发表于 2016-11-27 20:23:37 | 显示全部楼层
    切图版后续:0 j5 p) B/ P$ s# h: }" B3 i
    因为切出的图片数目极多,目前想法是:
    1 v4 P8 G/ K3 [; j! V% Y(1) 制作成MDX/MDD格式, CSS不内嵌入MDD, 外置CSS, 方便个人设置3 W# s$ W9 w5 \
    (2) 制作成DSL格式, 图片资源直接打包zip" J0 K( E$ k9 |2 m& a8 L. w- Z% v

    该用户从未签到

     楼主| 发表于 2017-2-1 02:01:35 | 显示全部楼层
    teresaiao 发表于 2017-2-1 01:588 V1 Q3 V  u' e: s! t
    終於都會做了, 可是我想問用你那個軟件, 如果轉頁, 或解釋在第二欄, 要怎麼合併?
    8 O( r  g7 M  N$ ^* h6 z( X0 f
    所有位置的切图都是分离的,后期导出时同时导出对应信息
    ( K/ C2 x5 u, |- y也就是:词条+页码+切图图片名(1~多个)

    该用户从未签到

     楼主| 发表于 2017-2-1 02:04:52 | 显示全部楼层
    teresaiao 发表于 2017-2-1 01:58$ _) y# L* O, F
    終於都會做了, 可是我想問用你那個軟件, 如果轉頁, 或解釋在第二欄, 要怎麼合併?
    $ H: I# F$ Q- t! N( U
    你下载了那个红葡汉词典 查一些释义特别长的单词 就可以了解到啦 DSL.dz 可以使用解压缩软件还原为.dsl 文本的 你打开就可看到词条结构

    该用户从未签到

    发表于 2017-2-1 03:39:23 | 显示全部楼层
    本帖最后由 teresaiao 于 2017-2-10 13:46 编辑 $ {5 |! q- X- d) v8 c
    chigre3 发表于 2017-2-1 02:047 R# R) P; L8 |7 p
    你下载了那个红葡汉词典 查一些释义特别长的单词 就可以了解到啦 DSL.dz 可以使用解压缩软件还原为.dsl  ...

    ) D1 k1 Q7 S0 R# Z( \5 b2 V6 R
    6 q' j5 [8 u/ I如何才能固定- _" W" p% {8 A
    4 a* Z2 {. R8 S% e+ X2 b
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2025-5-21 04:39 , Processed in 0.024799 second(s), 26 queries .

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表