掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 23405|回复: 77

[工具] 20181130更新_自动画线+OCR+切图+校对 软件

  [复制链接]

该用户从未签到

发表于 2016-11-15 20:14:56 | 显示全部楼层 |阅读模式
本帖最后由 chigre3 于 2018-11-30 08:14 编辑
; s) v: r5 U4 f2 k" W1 f, i& H* q& ~' B9 Q* S6 u
一、致谢:0 g# A/ g# |3 q; l2 B
  感谢 @vbnet 的自动画线测试版, 现在经过个人修改, 几乎完全删除了原先的内容, 软件名称仍为 Picture Capture
1 b4 d& q2 `  f, i* I; e6 B& c  感谢 @孤影 的自动划线软件, 给了很多界面上的参考
7 L8 p  u' j# Y/ u: D9 W2 @------------------------------------------------------------------------
# x" Q% c9 t' h! U- I* ?. a% R5 x  h二、这个软件有什么用呢???
0 a/ j2 s7 ?3 ?9 V9 E  极大地提高制作图片版词典的效率,现在个人需要做的事情仅仅为:: \9 `+ {, U1 Y
  1. 前期的图片处理:Abbyy Finereader(整体校直)、Photoshop(模板调位置, 统一)、ComicEnhancerPro(转换格式、大小) 等
/ @# _! m' i$ c  A* C6 s# `( E  2. 使用本软件进行:8 t" \& O! g( c9 o! ~; z3 ^' ?. o
   (1) 全部页面的 自动划线-->自动OCR# o9 Y% f# M7 L( A
   (2) 逐页校对划线和文本(可删可增)
0 E  O, n) U: H1 Z) \   (3) A.合并 .pdic (词条 + 坐标信息) --> Excel 模板 --> 文本替换 --> 精确高亮定位 整页版 图片词典# d. a8 `( K( G" p( S3 w% ?5 }
      B.导出单词整体切图 --> 合并 .PWWords (词条+图片名称) --> 文本替代 --> 切图版 图片词典
' R2 |; R0 ?' ~: ]+ a, _9 X------------------------------------------------------------------------
" @0 a9 X7 f  U( m2 N3 J三、实现的功能:: h4 L3 E  c: C" |  x
  1. 画线:5 _0 T+ p' S& v! O* P
   (1) 自动分析页面 + 自动画线7 M6 N# Q, ?' A
   (2) 手动模式定义页面 + 自动划线
" y9 y! a% \9 U( e( S4 R   (3) 鼠标右键单击修改单栏重新自动画线( w6 u6 s/ M  v+ @3 ?
   以上均 + 鼠标左键单击增加画线, 文本框内快捷键`删除划线
. y  J- C8 g- |, M, e$ c
+ h, p$ `5 J" g6 H  2. OCR:
; I# s- t6 Y' \0 g; D& E0 p   采用Tesseract OCR, 具体语言文件 tessdata 可以到官网下载:https://github.com/tesseract-ocr/tessdata
! O' {' L) F0 ]4 Z6 a/ x! a6 V   (1) 导出文本:可外部编辑后导入, 避免OCR单个切图的不足
' b; |/ ^2 d5 k& k) t; Z& E   (2) 导入文本/ }* a: T: \  R1 T5 Q
   (3) 1 + 2:直接将OCR结果导入当前页面的文本框 --> 校对
3 w+ Y) {% `/ m( M* C$ X! h$ i& X' p   外置批量替换表达式文本, 可自行创建和编辑, 适应各个词典不同OCR处理的场景& R$ x& b, L% x$ _& j4 d  M
: D, N8 ^" Z; A8 |1 X
  3. 切图:4 Z) I4 r3 u: A. O
   (1) 词条单行切图:也可以使用外部其他OCR软件处理,或者其他用途
3 c+ O" @/ H" l   (2) 词条整体切图:实现切图版图片词典的制作(背景透明,不过目前需要其他PNG优化软件缩减大小:https://www.pdawiki.com/forum/thread-19157-1-1.html! Y: l9 P+ w3 ^' g1 N0 y
    (实例1:[英-汉] 20161113《英汉大词典(第2版)》10页单词 切图版  https://www.pdawiki.com/forum/thread-19015-1-1.html& f) i, K0 E# S# O  v6 n
    (实例2:新西汉词典 切图版 https://www.pdawiki.com/forum/fo ... 6545&fromuid=174481
! T& G9 d; D0 Z) \( P& f& B* D, g    " q6 k  U- a- G$ ?9 a5 a/ P7 c- K" v
   可实现仅导出切图坐标等信息,不导出切图,方便使用外部软件进行
+ e  X) D! q' t, J5 z( h" i, D$ n      e( E# S4 H8 A/ Y  P
, Y1 \- p8 I" w. P& O3 [
  4. 校对:5 Y7 _: `7 }" |' v; h
   列表式样, 与主窗口同步更新文本框内容, 也高亮匹配提示+ D2 _" A# ~! X

' o6 S* m- `4 w7 V  5. 其他:+ S4 s+ ]  v% J
   (1) 配置文件保存、导入3 C& |1 ?1 D6 ]+ |6 }
   (2) 自动下一页+操作(定时):自动保存、自动画线、自动OCR、自动切图。方便无人值守完成相应任务
, {$ P  L- e; k5 g# `   (3) 最重要的还是要人工校对!!!!
& u/ ^: ^0 ]5 X& Q- V0 j% s) _   (4) 高度自定义参数设置# w5 s1 k% ]. q9 S6 l3 `) v. X
------------------------------------------------------------------------
6 U3 v' R( Z$ \如题,放个图:. ]: e  |. D4 {) W# _# o& p6 d7 P

0 [8 y6 v: ?4 B; _" @
4 H9 ~( z0 I! I7 u" {( f( n/ e# ~  c1 K) C3 z3 C
. G  I+ ^" E. C( R2 J: l. p/ s" k
截图内的词条文字为OCR结果' S) e7 _9 h3 C# f8 F

7 H: B9 k. B) K& w: o& v. x( e8 C! O
3 H2 i; X6 u1 r& p+ o9 `* r7 a
----------------------------20181130更新:/ o+ @, K" U3 x% a8 X% t
校对窗口增加按当前提示索引(全部或部分)填充当前划线的文本框!
* R, t+ f: w( G----------------------------9 {* g1 V; w! m7 H
20180809更新:  Y$ e& A6 z1 i  L* \
插图画区域由之前的矩形升级为任意多边形( T9 x; g" I+ O. l/ T( m, V- k
1 H4 l4 v' b$ p! g

4 G( W9 I/ _# y1 n6 S7 o% f----------------------------
* p, J! _$ e9 q; C- l3 U; ]4 N% D1 F20180614更新:
$ o+ h% R% l8 I1 L* q在校对界面中增加一列单词,即大词库表中 上页末单词和本页末单词 之间的所有单词。" R, v9 f4 _1 K/ x' z
单击则替换当前校对文本框中的文本!- O, v  K/ ]1 r  Z) O! d  Q6 T
不同颜色提示,方便定位!& `/ J/ U2 ~/ r' W+ z2 `
) ^8 M! y& z, f! F7 ~* Z5 f/ |! A" f
% d7 X! h7 G) E
- H1 O( r# N# N) E: ^) m
----------------------------# c: [7 Q# }: w0 I  Y! B
20170314更新2:: t: L% |6 B8 B) O$ G
校对界面修改如下,增添更多特殊字符(aeiou等),方便校对的时候直接复制粘贴:% C7 `$ k: q, t# s2 Z
1 A  T" a3 L0 E4 k+ E
! N9 m! z1 b7 D5 _9 _3 F2 Z' A
20170314更新:( K# u7 {/ b; q+ v
起始页-->终止页6 L! O/ Y/ w2 G8 c$ v; ?
[切图]-【词条整体切图】
3 d3 s7 n% Y4 j+ }& o# e---> 会直接把范围内的页面的所有单词切图导出(软件界面会有假死的状态,不用理会,导出结束就OK了)
3 |2 p8 r; e- j( w如果起始页和终止页为空,则导出当前页的词条切图
2 _0 ~0 @( g, C- ~6 i+ q* G
' ]1 i" O# _2 p; S# N* c  d在校对界面时,主界面【√隐藏线框】,那么此时就只有颜色框(平行线宽)
8 ]+ ^& z7 X  {5 B% t当前词条亮黄色,其他还是红色
' }5 D8 Q& Y# d% m- k. K1 T这儿主要是考虑到有时候词条不只是单行,多行的时候可以方便查看。6 H( U/ E3 o* i. t8 y

& W  {7 [: I+ t; x" F3 ]----------------------------
; c6 |- c0 Y7 q* f6 v3 c" w20170313更新:) V3 K& X0 T1 i
1. 词条整体导出切图的判断逻辑的补充(3栏以上时,位于不同列的上下单词中间隔了空列。之前这个情况未考虑到)+ K$ z, c, o9 D) M; E, [/ e! l0 A
  【仅修改了:从PDIC整体导出切图的坐标数据的这部分补充内容】) u2 M% \$ z" f1 b' f: K9 p) y# B% x
----------------------------# @, f  X% q  {9 `
20170217更新:
! M! E9 n- f" l6 }1. 画线判断的方法改进(2种方法均改进)
0 H; J4 o9 ]( H, ~7 t4 ]8 C----------------------------+ D) E4 ?$ j6 {) \' L
20170115更新:
; W' i2 E3 e- f9 l! c% T1. tessdata 的完整语言列表,具体语言移步【https://github.com/tesseract-ocr/tessdata】下载
# Y2 k6 L% J: O* w5 n2. 在图片文件名列表上方的文本框里输入“SMALL”,点击【校对】,每个词条行的缩略图切图(非原始图片上裁剪)
. A1 h# V' R  }----------------------------6 {$ C2 V" t  `  b8 ?6 h
20161119更新:
6 F7 {3 u5 ^# H# ^. }1.修复保存坐标数据时的bug/ Y1 p4 m; L) S9 M0 r. b
2.修复单词整体导出页面的一个bug' _) A' {8 |' W* W+ G7 }5 T
3.增加功能: 选定范围页面的批量导入词条
1 T  B, `( m, u/ G6 @$ X, g4.增加功能: 快速查找定位索引0 K. v) z" a( C2 x* k' S" S/ M8 G
----------------------------* v  n/ O/ v% }7 ?% w. C3 i* S
20161123更新:
+ n9 a, k1 h/ m! r) E重写词条整体导出切图的判断逻辑,现在应该不会有切图坐标不一致、切图数目不一致的情况了。
! ?( E' h7 ]4 o* |# |" @  h2 V5 |* C$ ]+ X/ `! A- l! c
  1. 问题:页面是否有词条?/ ?6 |7 u0 n9 |; {
  2. 1. NO --> 直接导出和栏数一致的大切图 (标记为上页末词条续)( y/ e9 p6 \  D
  3. 2. YES --> 9 _" W) b& H7 ^0 l. r
  4.  (1) 确定0号词条所在栏:
    ; k3 l& f# m( D' D* D
  5.   --> 0号词条所在栏之前的栏, 直接导出大切图 (标记为上页末词条续)( o+ k4 Z, m; S  G& ?) S
  6.   --> 0号词条所在栏上方若还有部分上页末词条接续, 则导出切图 (标记为上页末词条续)
    % ?& Y6 r3 H, G  G0 S6 D
  7.  (2) 次数为所有词条数目的循环:
    & T8 J" f8 {7 q- e) R
  8.   A. 若: 当前为最后一个词条 --> 确定高度
    ; g! F% G2 N2 V# m
  9.   B. 否则:
    7 x6 B  D* ~9 c  `+ n3 |: ~% G
  10.    a. 下一个词条在下一栏 --> 确定高度) C6 S  R9 T+ u7 B8 C' J
  11.      --> 如果当前词条在下一栏仍有接续 --> 导出切图 (标记为当前词条接续2)
    / i. R3 u6 Z% }5 Z* n: y: {
  12.    b. 下一个词条在同一栏 --> 确定高度
    3 Q4 {4 x) G5 w5 Y+ `* T/ J
  13. ! y  T: G* ^1 G, `' r
  14.   --> 导出每个词条的切图
    : b/ h2 S' L( ?+ d0 f1 K& [6 d
  15. ' }/ s) s+ _) {8 b6 b- g1 \" i' [
  16.  (3) 确定最后一个词条所在栏:( u' g0 m0 Q2 S5 z( k$ \- c
  17.   --> 最后词条所在栏之后的栏, 直接导出大切图 (标记为本页末词条续)
复制代码

; |0 f3 U' i: k: B2 {9 @0 d: W* N( N5 d: h3 `1 b& F
重要更新:
! m+ q* q& C2 y5 d4 u8 n* ?4 w& P% n5 X1. 词条整体切图模块重写5 v! T2 U, P" E7 r3 ~/ G
2. 增加根据.pdic导出所有图片切图信息(+切图)--> 几十秒【如下面动图GIF】# S: _  W: u. g$ N" {9 r+ V2 E# _$ ~
( y! C9 x; j" l; q* F4 b
) u+ F. f# |' k5 {0 O; E% @/ d

8 T. E# z' Z6 p* g: r( i5 y2016.11.28& ^7 y- G: p+ v: y0 Q2 {
更新:一个小小的bug(跳过页首处下方如果单行接续,会因为判断的距离和行高过于接近造成缺漏 --> 修改了公式)
- z$ V  }1 J( A% b6 P8 A5 \- ^, g/ N8 X# x$ B

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?免费注册

x

评分

1

查看全部评分

本帖被以下淘专辑推荐:

  • TA的每日心情
    奋斗
    2022-1-12 06:11
  • 签到天数: 118 天

    [LV.6]常住居民II

    发表于 2018-2-23 08:45:34 | 显示全部楼层
    请问大神,软件在哪儿有下载啊

    该用户从未签到

    发表于 2017-2-1 12:03:46 | 显示全部楼层
    本帖最后由 teresaiao 于 2017-2-10 13:47 编辑 7 K3 h( M3 u" F  u( z5 ^" ^6 C
    : q, A6 ]0 Y9 }4 Y
    我在第一頁設置了參數和保存了, 第二頁的紅色豎線就移位了, 是不是參數有問題?

    该用户从未签到

     楼主| 发表于 2017-2-1 04:49:02 | 显示全部楼层
    teresaiao 发表于 2017-2-1 03:399 c! R0 c* d  t4 j) ^) x
    嗯,字典裏看得到了,真的快很多,基本上是要用photoshop和打詞條就好。 另外那個自動畫線,我在第一幅弄 ...
    # T, P5 r7 j3 y- i  z  u" O
    PS 模板 移动位置 让每一张图片位置都一样 这样在软件里你设置了的参数就会是全局通用的 之后便可以全自动全部页面划线 紧接着就可以OCR

    该用户从未签到

    发表于 2017-2-1 01:58:45 | 显示全部楼层
    本帖最后由 teresaiao 于 2017-2-10 13:46 编辑
    ( f6 \) L7 T1 Z  t- X1 s) n4 j8 O  I
    可是我想問用你那個軟件, 如果轉頁, 或解釋在第二欄, 要怎麼合併?

    该用户从未签到

    发表于 2016-11-26 13:05:03 | 显示全部楼层
    感谢chigre3,待我有空可以把汉语大字典图片版做一下了。

    该用户从未签到

     楼主| 发表于 2016-11-17 00:34:06 | 显示全部楼层
    group1234 发表于 2016-11-16 23:30
    % @. e! X: B& A7 `) `2 O製作圖片辭典的福音,可以節省非常多的時間,期待軟件分享~~~
    1 F) X* C6 O* U, z9 r/ S1 J1 w% T4 u
    是的,这个软件确实极大提高效率,
    , A1 q% t3 \' b- L5 b. {现在个人需要做的事情仅仅为:
    # r) G5 l7 V$ B* J1. 前期的图片处理:Abbyy Finereader(整体校直)、Photoshop(模板调位置, 统一)、ComicEnhancerPro(转换格式、大小) 等
    ! B0 u* `. c2 }% \2 c# a2. 使用本软件进行:# u# j$ x  d7 C* }" u4 E
     (1) 全部页面的 自动划线-->自动OCR
    ! e! c1 Q6 K7 z8 x, l; I: S: H: r* J (2) 逐页校对划线和文本(可删可增)" @+ z8 f  T" A
     (3) A.合并.pdic (词条+坐标信息) --> Excel模板 --> 文本替换 --> 精确高亮定位 整页版 图片词典1 F/ u8 W4 t" D/ X/ Y
        B.导出单词整体切图 --> 合并.PWWords (词条+图片名称) --> 文本替代 --> 切图版 图片词典( |: g* O0 m* T$ G& X7 x1 e

    该用户从未签到

    发表于 2016-11-15 22:50:35 | 显示全部楼层
    逆天还是吊炸天了。。。。。

    该用户从未签到

     楼主| 发表于 2016-11-16 02:11:49 | 显示全部楼层
    本帖最后由 chigre3 于 2016-11-16 02:22 编辑 & L+ `. c5 x8 Q  S: c
    + D) Z% _3 w: P+ }
    比如《现代汉语词典》也可以画线和OCR、切图等:
    7 A2 E3 C. @$ a$ p# }/ V3 t# p----------------------------------------------------
    / K" s) X5 n+ Y. ?) {7 d+ |5 ~- `画线时:  b8 ~  \+ F+ J* _8 u. G# b0 r; V4 W
    [行间距离]: 17  y7 D* s8 g: ~- s
    [向右倍率]: 1/1.0( w) l1 M) }( X/ E' F

    # [1 l3 ~7 k3 a- B1 p: n6 }8 `OCR时:, A+ w* _) u9 ^0 G; i8 V
    [行间距离]: 10
    ! S- r5 I# l( d, [: u  d! a+ c% `[向右倍率]: 1/3.07 b: B9 O% X2 s
    文本框匹配都是红色,因为没有加载中文的词条索引来进行匹配检查
    + M( X; P' U* N
    : A1 v) W. _/ h7 A6 n! ?8 R- o/ g% c( S, q5 D

    + t4 g8 z+ y  h" D

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

    发表于 2016-11-16 07:12:22 | 显示全部楼层
    几乎只剩下人工校对工作了

    该用户从未签到

    发表于 2016-11-16 08:09:02 | 显示全部楼层
    chigre3 发表于 2016-11-16 02:11( H& h7 |) E0 ^- x2 @% K
    比如《现代汉语词典》也可以画线和OCR、切图等:
    6 O7 `2 T& k; B" J* X. a4 d----------------------------------------------------) ?2 n# u: z( L- x
    ...

    2 W5 C9 L- Z7 z& W/ w1 @歪图问题,上下页不对齐,某些不是矩形栏的排版,3栏以及3栏以上,不知道能不能处理?

    该用户从未签到

    发表于 2016-11-16 08:46:56 | 显示全部楼层
    提示: 该帖被管理员或版主屏蔽

    该用户从未签到

     楼主| 发表于 2016-11-16 17:36:45 | 显示全部楼层
    644830104 发表于 2016-11-16 08:09
    5 ^6 M/ [% |7 \, _1 `$ d' _3 _. k歪图问题,上下页不对齐,某些不是矩形栏的排版,3栏以及3栏以上,不知道能不能处理?
    3 G* f/ [- ]3 W  J* I& W% d3 G$ v
    所有图片统一修图 还有轻微歪斜能够画线3 v0 N0 ]  E& ]- @8 c
    图片不处理到一致规格 那最多用来划线切图OCR 每一页还要设置参数 " z3 H. @. q7 M* N
    不规则形状不考虑
    9 D: V( |: x6 y1 S  o* Z) q支持N栏
  • TA的每日心情
    开心
    2019-6-28 11:53
  • 签到天数: 28 天

    [LV.4]偶尔看看III

    发表于 2016-11-16 23:30:48 | 显示全部楼层
    製作圖片辭典的福音,可以節省非常多的時間,期待軟件分享~~~% R5 u" f& d- t( H- K& l, I2 D
  • TA的每日心情
    慵懒
    2023-2-4 11:26
  • 签到天数: 579 天

    [LV.9]以坛为家II

    发表于 2016-11-17 17:28:54 | 显示全部楼层
    这个绝对是神器
  • TA的每日心情
    开心
    2018-5-8 11:51
  • 签到天数: 18 天

    [LV.4]偶尔看看III

    发表于 2016-11-20 01:16:53 | 显示全部楼层
    激动不已!跃跃欲试

    该用户从未签到

    发表于 2016-11-20 09:18:39 来自手机 | 显示全部楼层
    哇,很牛的软件,期待chigre3的分享。
  • TA的每日心情
    开心
    2020-12-9 19:29
  • 签到天数: 27 天

    [LV.4]偶尔看看III

    发表于 2016-11-22 17:12:18 | 显示全部楼层
    这个软件太厉害了
  • TA的每日心情
    开心
    2020-12-9 19:29
  • 签到天数: 27 天

    [LV.4]偶尔看看III

    发表于 2016-11-22 17:13:11 | 显示全部楼层
    提示: 该帖被管理员或版主屏蔽

    该用户从未签到

     楼主| 发表于 2016-11-26 09:05:40 | 显示全部楼层
    【20161125更新】《葡汉词典》切图版- u7 L) ]1 L% c" ^+ a2 ?! I
    https://www.pdawiki.com/forum/fo ... &fromuid=174481' R+ Y: @/ T% U) Z6 C) X: ^
    (出处: 掌上百科), h: t( ?) P- M& W! n

    该用户从未签到

    发表于 2016-11-27 08:21:42 | 显示全部楼层
    C大神器,谁与争锋?创意无限,匠心十足。佩服佩服。

    该用户从未签到

     楼主| 发表于 2016-11-27 20:23:37 | 显示全部楼层
    切图版后续:
    / `& }$ |) M* M4 T" y因为切出的图片数目极多,目前想法是:
    # {- ~0 o, }, e- ]# S* h& D(1) 制作成MDX/MDD格式, CSS不内嵌入MDD, 外置CSS, 方便个人设置
    5 q2 X* E0 _; P(2) 制作成DSL格式, 图片资源直接打包zip  C# l! X% \- L* O4 S

    该用户从未签到

     楼主| 发表于 2017-2-1 02:01:35 | 显示全部楼层
    teresaiao 发表于 2017-2-1 01:58
    5 E# g/ V: m( ~* P終於都會做了, 可是我想問用你那個軟件, 如果轉頁, 或解釋在第二欄, 要怎麼合併?
    - I! G5 R% q1 K/ m
    所有位置的切图都是分离的,后期导出时同时导出对应信息
    ' H8 i( S" {: @: s% v0 ]5 R也就是:词条+页码+切图图片名(1~多个)

    该用户从未签到

     楼主| 发表于 2017-2-1 02:04:52 | 显示全部楼层
    teresaiao 发表于 2017-2-1 01:58
    6 q% x8 S2 M& I/ A$ o終於都會做了, 可是我想問用你那個軟件, 如果轉頁, 或解釋在第二欄, 要怎麼合併?
    ; ~# E! A4 A: b) M- r0 Z. f* Z
    你下载了那个红葡汉词典 查一些释义特别长的单词 就可以了解到啦 DSL.dz 可以使用解压缩软件还原为.dsl 文本的 你打开就可看到词条结构

    该用户从未签到

    发表于 2017-2-1 03:39:23 | 显示全部楼层
    本帖最后由 teresaiao 于 2017-2-10 13:46 编辑 8 p6 q( B" }6 A
    chigre3 发表于 2017-2-1 02:04
    # h1 _! K; b! a. k2 Q你下载了那个红葡汉词典 查一些释义特别长的单词 就可以了解到啦 DSL.dz 可以使用解压缩软件还原为.dsl  ...

    1 {) x1 c1 h) d6 b1 J! w" Q4 B3 p" A) L1 y$ x- M
    如何才能固定
    ; R8 @# k0 w/ b& u
    ' {: ~) X' N' t( F8 ]
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2026-6-10 07:08 , Processed in 0.025477 second(s), 26 queries .

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表