掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 17480|回复: 73

[工具] 20181130更新_自动画线+OCR+切图+校对 软件

  [复制链接]

该用户从未签到

发表于 2016-11-15 20:14:56 | 显示全部楼层 |阅读模式
本帖最后由 chigre3 于 2018-11-30 08:14 编辑
9 i- f9 U! u8 {4 a4 V
- x* \/ Z! I; r* \; b5 E2 {  Q: ^一、致谢:
. T# e; o; E1 [$ h& y  感谢 @vbnet 的自动画线测试版, 现在经过个人修改, 几乎完全删除了原先的内容, 软件名称仍为 Picture Capture
8 s8 m" T6 f3 u' {6 A" J  感谢 @孤影 的自动划线软件, 给了很多界面上的参考# E' p& _) x4 q7 B+ L: b  g
------------------------------------------------------------------------* |7 d  R% R" k6 Q3 C2 G/ w* R- }
二、这个软件有什么用呢???
# ~% B- A- v- E4 L  极大地提高制作图片版词典的效率,现在个人需要做的事情仅仅为:6 _- `, f, P+ ]& C
  1. 前期的图片处理:Abbyy Finereader(整体校直)、Photoshop(模板调位置, 统一)、ComicEnhancerPro(转换格式、大小) 等
% l5 Z8 C2 n! l2 r  2. 使用本软件进行:
5 N7 [# |3 t' o   (1) 全部页面的 自动划线-->自动OCR
) F  K$ f2 j' h/ b# S* \  N7 Q   (2) 逐页校对划线和文本(可删可增)
' q3 K# c4 B9 y9 T, b% s- {" d   (3) A.合并 .pdic (词条 + 坐标信息) --> Excel 模板 --> 文本替换 --> 精确高亮定位 整页版 图片词典" W, u; l' J2 @
      B.导出单词整体切图 --> 合并 .PWWords (词条+图片名称) --> 文本替代 --> 切图版 图片词典
4 a8 z/ [7 h" \& _2 m------------------------------------------------------------------------
( I! ~' h% n# g三、实现的功能:- X  P/ v! b" ]1 v9 z
  1. 画线:
) M; u9 o' n# q" o   (1) 自动分析页面 + 自动画线
' ?+ e* ?1 Z1 C* g$ M( z   (2) 手动模式定义页面 + 自动划线
2 B8 P, _8 Y! ~1 @. H! A2 x0 W2 p   (3) 鼠标右键单击修改单栏重新自动画线! x  \8 g' v. y- V1 ]/ f
   以上均 + 鼠标左键单击增加画线, 文本框内快捷键`删除划线
4 U$ N- v1 {' l* P& h4 n) P% W* Q- g. G" m# I  S- \# G
  2. OCR:
( q0 Q0 |2 W- x$ q6 J   采用Tesseract OCR, 具体语言文件 tessdata 可以到官网下载:https://github.com/tesseract-ocr/tessdata/ J1 O" ~; S+ [& t( d1 e2 y# z
   (1) 导出文本:可外部编辑后导入, 避免OCR单个切图的不足6 L) r) K( f/ c
   (2) 导入文本
9 x9 D! p$ k+ f+ |7 C   (3) 1 + 2:直接将OCR结果导入当前页面的文本框 --> 校对) m, Q7 L" p" Z
   外置批量替换表达式文本, 可自行创建和编辑, 适应各个词典不同OCR处理的场景
) _6 @( a3 h8 m0 e" a
2 b  K. K) E% Q' j  3. 切图:: B3 R! o" w% g* Q+ k( G
   (1) 词条单行切图:也可以使用外部其他OCR软件处理,或者其他用途7 {' I0 j! ~' S4 y0 o) d
   (2) 词条整体切图:实现切图版图片词典的制作(背景透明,不过目前需要其他PNG优化软件缩减大小:https://www.pdawiki.com/forum/thread-19157-1-1.html
+ X2 y" |8 j) a0 _8 C    (实例1:[英-汉] 20161113《英汉大词典(第2版)》10页单词 切图版  https://www.pdawiki.com/forum/thread-19015-1-1.html, G: A! W/ Z4 t, S( }" g
    (实例2:新西汉词典 切图版 https://www.pdawiki.com/forum/fo ... 6545&fromuid=174481
5 B8 ~  C8 @/ a% X: t    " V# T) R. U( z" d+ ^' |
   可实现仅导出切图坐标等信息,不导出切图,方便使用外部软件进行
5 \* G8 Z  W: y0 U7 L# c  i$ K    
9 _- N- ^( N' ~2 |! |7 G/ K6 n
2 I7 ]& ?0 ^$ L1 e9 ]( W9 o  4. 校对:% P3 w  y" g6 O% e5 k* X
   列表式样, 与主窗口同步更新文本框内容, 也高亮匹配提示* P$ S' A) J% R# ~# a2 O. H

4 F) L, K& G3 D4 n# `2 B+ {  5. 其他:
1 G9 {9 \. w4 H4 A6 K  C   (1) 配置文件保存、导入
0 H4 |' V, V8 k* L' k& {( \9 ^   (2) 自动下一页+操作(定时):自动保存、自动画线、自动OCR、自动切图。方便无人值守完成相应任务2 |8 S  ?5 `" p7 J" a0 w* n
   (3) 最重要的还是要人工校对!!!!
' t' v. _+ j& P+ J1 D   (4) 高度自定义参数设置" n& \6 _8 [2 t' m, h4 B* M
------------------------------------------------------------------------
2 D3 y" w, s  l5 l+ o0 M如题,放个图:
% V8 f3 v, n0 ^% }  s6 q% G/ r
( c  T1 |5 W% U0 w" ]: z
' U; a. \5 H: w7 }, I+ e
3 X0 @9 u1 G0 e0 m1 T) h- ~
# t3 z0 V6 u2 E* |5 l& @0 J截图内的词条文字为OCR结果
8 @1 P9 K* f  V; H3 Q- b; f8 J: x3 V+ [* x6 C0 w% _
! U2 C" a. ~9 C, c4 F1 B; r9 D

& U7 o/ j6 V, m----------------------------20181130更新:
/ `  i8 j1 C- A( F1 I6 w. P校对窗口增加按当前提示索引(全部或部分)填充当前划线的文本框!5 Z. P2 i  K# D
----------------------------
3 ]/ @2 n  E% x" W$ d: ^20180809更新:1 T0 D% p% A7 a$ @
插图画区域由之前的矩形升级为任意多边形2 {+ y# E  u/ m

' N- x7 n; N8 T4 C5 n& Q
6 F* q; W" H" y! G' d6 n----------------------------; Q7 d4 g1 X6 P& {# J
20180614更新:
- E9 `7 R" b: m3 I- Q( J在校对界面中增加一列单词,即大词库表中 上页末单词和本页末单词 之间的所有单词。& h) L- j5 p3 u3 ?$ N
单击则替换当前校对文本框中的文本!
/ B" o" e% c0 u8 z+ S不同颜色提示,方便定位!5 P5 R( d+ {. L! B  o

7 O3 O+ u# g4 d& D6 M" J: o: f4 L+ R5 f% s7 H# S+ ~+ e
% I: Y' D# v# |
----------------------------
1 M& r/ z/ s4 f# r' S' Y20170314更新2:$ x" _. t4 j4 O- }7 }3 ^
校对界面修改如下,增添更多特殊字符(aeiou等),方便校对的时候直接复制粘贴:
" e: F* L. `7 y" @  \3 X, Z* I& B% g, H/ ?* k
- P( m7 P9 x( @5 v/ ?) E% K3 w' U
20170314更新:" y' F. B# {8 ]7 [4 m9 ]7 q
起始页-->终止页6 w7 x4 y, h9 Z
[切图]-【词条整体切图】; c8 Z. `& l- v* h+ f& y/ G
---> 会直接把范围内的页面的所有单词切图导出(软件界面会有假死的状态,不用理会,导出结束就OK了), ~5 D3 c/ Y3 y- f( w; e9 k1 E
如果起始页和终止页为空,则导出当前页的词条切图
5 |* _9 O, }4 _- z  z1 u8 W3 A$ y
/ h; K3 H0 h" v在校对界面时,主界面【√隐藏线框】,那么此时就只有颜色框(平行线宽)
3 j4 ]$ h1 Z2 s当前词条亮黄色,其他还是红色" ]/ a5 J6 n4 R/ n$ T& o/ Y
这儿主要是考虑到有时候词条不只是单行,多行的时候可以方便查看。" J  b" c. {8 r3 I3 r7 |( t6 q

4 Y% c" i! C0 B----------------------------
6 ]/ y/ _9 d4 z: c" h6 {) h20170313更新:
$ s/ A- S) @1 B( N, Z9 o/ L1. 词条整体导出切图的判断逻辑的补充(3栏以上时,位于不同列的上下单词中间隔了空列。之前这个情况未考虑到)& ^" l7 {$ _- z5 M  U0 y
  【仅修改了:从PDIC整体导出切图的坐标数据的这部分补充内容】/ i9 ~0 ^8 T" p) k7 y
----------------------------: Q; U0 w) i" A; J/ V4 ~
20170217更新:3 E  y* ?6 p1 C4 x- k' R
1. 画线判断的方法改进(2种方法均改进)  r; q" Q4 h! w: l; K
----------------------------
: G4 Q- i. Q" k! J1 Q20170115更新:/ N) u& t9 h1 M4 m
1. tessdata 的完整语言列表,具体语言移步【https://github.com/tesseract-ocr/tessdata】下载, h. Y2 W- X# k7 e# W4 q3 _5 v
2. 在图片文件名列表上方的文本框里输入“SMALL”,点击【校对】,每个词条行的缩略图切图(非原始图片上裁剪)
" @$ [4 P" `4 R% G# s$ R----------------------------# k2 `7 _& H! U. E, R8 w
20161119更新:( L' D# ~# D2 |3 P+ `
1.修复保存坐标数据时的bug8 E0 s5 j+ ~# M1 l  @8 D+ ]
2.修复单词整体导出页面的一个bug& N& M# k# E2 I4 o# @9 N+ Z
3.增加功能: 选定范围页面的批量导入词条$ n7 ^5 R) p& {' Y
4.增加功能: 快速查找定位索引: X. n! @- t' D8 T2 c! W
----------------------------) D0 ~4 \& T/ a; q! J
20161123更新:
' f$ a0 q5 ^5 I0 z重写词条整体导出切图的判断逻辑,现在应该不会有切图坐标不一致、切图数目不一致的情况了。) A3 D9 P  i+ b

! q7 I8 A+ y( \7 v/ B! N# B4 b7 y6 I
  1. 问题:页面是否有词条?* M+ b' H7 A3 o. A  o
  2. 1. NO --> 直接导出和栏数一致的大切图 (标记为上页末词条续)# r: X, E' s( j+ b  G! s
  3. 2. YES -->
    8 S0 m5 [* L% M
  4.  (1) 确定0号词条所在栏:
    $ \4 a/ l& X# p
  5.   --> 0号词条所在栏之前的栏, 直接导出大切图 (标记为上页末词条续)/ A# Y9 F& z! J8 _0 L6 k
  6.   --> 0号词条所在栏上方若还有部分上页末词条接续, 则导出切图 (标记为上页末词条续)
    / @+ h# V% `, {% e/ P
  7.  (2) 次数为所有词条数目的循环:
    % [& I$ s9 K2 f7 B2 M
  8.   A. 若: 当前为最后一个词条 --> 确定高度
    2 i" c) `6 e. F/ @7 x
  9.   B. 否则:
    $ ~; K6 U0 z9 x! b
  10.    a. 下一个词条在下一栏 --> 确定高度9 ~, V& f% H% l# e) \% Z
  11.      --> 如果当前词条在下一栏仍有接续 --> 导出切图 (标记为当前词条接续2)
    0 [; k# M; R7 Z( m; o, _3 ]- q: g" j
  12.    b. 下一个词条在同一栏 --> 确定高度( ]. h* N. u; b# ^) u# |; l6 t

  13. # U! w# B  E7 h) H* m+ k9 z
  14.   --> 导出每个词条的切图
    ; w2 v. m- n" b$ c) U7 d) F1 ]5 k

  15. 9 t2 Z; D* ^0 x# _
  16.  (3) 确定最后一个词条所在栏:
    2 m/ }. j) K4 T' N" e, u
  17.   --> 最后词条所在栏之后的栏, 直接导出大切图 (标记为本页末词条续)
复制代码

) H3 Y: h9 J. c: r
+ k" {. n- B# r重要更新:: f9 N" U5 x& a1 i
1. 词条整体切图模块重写5 V# P6 g8 z$ Y/ H7 `
2. 增加根据.pdic导出所有图片切图信息(+切图)--> 几十秒【如下面动图GIF】
/ l7 N7 _2 \/ J9 B1 Z! i' K5 J. ^
+ B5 n5 p8 o# o. F6 @6 ?* n1 F3 q8 F2 Y, G3 W

8 A! l9 h2 h$ x( F. m9 P9 c7 G6 E2016.11.289 ?( `. J" K- g& S# c: |0 w. `
更新:一个小小的bug(跳过页首处下方如果单行接续,会因为判断的距离和行高过于接近造成缺漏 --> 修改了公式)
# M9 a  ]/ u$ j
, z# s* m% }( Q. k

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?免费注册

x

评分

1

查看全部评分

本帖被以下淘专辑推荐:

  • TA的每日心情
    奋斗
    2022-1-12 06:11
  • 签到天数: 118 天

    [LV.6]常住居民II

    发表于 2018-2-23 08:45:34 | 显示全部楼层
    请问大神,软件在哪儿有下载啊

    该用户从未签到

    发表于 2017-2-1 12:03:46 | 显示全部楼层
    本帖最后由 teresaiao 于 2017-2-10 13:47 编辑
    1 _' e) }! N9 P! }4 J3 X( [8 N! g* G. \' B8 ]% W  f. b  R6 R+ M: B
    我在第一頁設置了參數和保存了, 第二頁的紅色豎線就移位了, 是不是參數有問題?

    该用户从未签到

     楼主| 发表于 2017-2-1 04:49:02 | 显示全部楼层
    teresaiao 发表于 2017-2-1 03:39
      z; e7 E' H& l嗯,字典裏看得到了,真的快很多,基本上是要用photoshop和打詞條就好。 另外那個自動畫線,我在第一幅弄 ...

    4 B. k# k! E3 }3 L6 t* K% l+ [PS 模板 移动位置 让每一张图片位置都一样 这样在软件里你设置了的参数就会是全局通用的 之后便可以全自动全部页面划线 紧接着就可以OCR

    该用户从未签到

    发表于 2017-2-1 01:58:45 | 显示全部楼层
    本帖最后由 teresaiao 于 2017-2-10 13:46 编辑
    ; e7 d) k1 O3 }$ o6 @2 J$ v- H  ]: I8 M4 n; f* N
    可是我想問用你那個軟件, 如果轉頁, 或解釋在第二欄, 要怎麼合併?

    该用户从未签到

    发表于 2016-11-26 13:05:03 | 显示全部楼层
    感谢chigre3,待我有空可以把汉语大字典图片版做一下了。

    该用户从未签到

     楼主| 发表于 2016-11-17 00:34:06 | 显示全部楼层
    group1234 发表于 2016-11-16 23:30
    / P2 Y% O9 O/ a* o# C; }製作圖片辭典的福音,可以節省非常多的時間,期待軟件分享~~~

    5 ?0 |+ |+ e3 z) {是的,这个软件确实极大提高效率,: e" m) Z0 Z, a  b7 S! |6 r
    现在个人需要做的事情仅仅为:, Q' x9 E9 k  E+ h5 q! e
    1. 前期的图片处理:Abbyy Finereader(整体校直)、Photoshop(模板调位置, 统一)、ComicEnhancerPro(转换格式、大小) 等
    ( f8 ]! G1 L0 w3 @  s, H1 u2. 使用本软件进行:. R) a1 L: H; n7 N6 P- w
     (1) 全部页面的 自动划线-->自动OCR/ S0 X8 J0 M2 H* J6 p
     (2) 逐页校对划线和文本(可删可增)" Z+ q5 z2 k" y$ p
     (3) A.合并.pdic (词条+坐标信息) --> Excel模板 --> 文本替换 --> 精确高亮定位 整页版 图片词典  ?5 a. P- {9 N4 Z$ f9 G+ N
        B.导出单词整体切图 --> 合并.PWWords (词条+图片名称) --> 文本替代 --> 切图版 图片词典% e( P; c, [+ h, a* M7 p

    该用户从未签到

    发表于 2016-11-15 22:50:35 | 显示全部楼层
    逆天还是吊炸天了。。。。。

    该用户从未签到

     楼主| 发表于 2016-11-16 02:11:49 | 显示全部楼层
    本帖最后由 chigre3 于 2016-11-16 02:22 编辑 ) G1 p& ?- b( I! }+ W

    $ L' }0 W4 e/ b4 z比如《现代汉语词典》也可以画线和OCR、切图等:0 x* ]  {, o/ u8 G; f* z+ ?" {( l
    ----------------------------------------------------4 V  o. x- f' a3 c& h/ I, Y# D& S$ g5 j
    画线时:
      h9 p* @9 G6 A/ }[行间距离]: 17
    ' F% h- l' E& P  _( Z3 s[向右倍率]: 1/1.0
    & w7 M; ?5 }4 [2 M+ n) ^+ C: T& d3 a
    6 P$ @$ ?* e: h! W! xOCR时:; n7 S" q% e/ r2 L
    [行间距离]: 10
    ( P/ K# O( M, _. c# N[向右倍率]: 1/3.0
    0 W. Z, e! n+ B' c文本框匹配都是红色,因为没有加载中文的词条索引来进行匹配检查% Q& w( b" g* q0 M
    8 q) u5 s& |; ?9 L3 \: `
    1 R" k# Y, f! [- B, G

    1 {! i3 N6 w- E. E" n

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

    发表于 2016-11-16 07:12:22 | 显示全部楼层
    几乎只剩下人工校对工作了

    该用户从未签到

    发表于 2016-11-16 08:09:02 | 显示全部楼层
    chigre3 发表于 2016-11-16 02:11
    8 i& Z# ?5 k* i8 g* C; v: |比如《现代汉语词典》也可以画线和OCR、切图等:$ Z6 d! X: z- z, S
    ----------------------------------------------------
    " [2 r% r9 C1 Z8 r: r( }3 e; M ...

    " v, V7 A, l- Y+ S+ ]7 Q9 d歪图问题,上下页不对齐,某些不是矩形栏的排版,3栏以及3栏以上,不知道能不能处理?

    该用户从未签到

    发表于 2016-11-16 08:46:56 | 显示全部楼层
    提示: 该帖被管理员或版主屏蔽

    该用户从未签到

     楼主| 发表于 2016-11-16 17:36:45 | 显示全部楼层
    644830104 发表于 2016-11-16 08:09# `, L( l6 F1 h- i& o
    歪图问题,上下页不对齐,某些不是矩形栏的排版,3栏以及3栏以上,不知道能不能处理?
    % J4 P! _, F, c) ?# A* i
    所有图片统一修图 还有轻微歪斜能够画线
    8 }" \1 m- ?! ]7 U" d图片不处理到一致规格 那最多用来划线切图OCR 每一页还要设置参数
    ) k8 p' J; w1 X4 d* V( q  D不规则形状不考虑
    . R$ N8 Z) a! h4 K8 G3 b) x支持N栏
  • TA的每日心情
    开心
    2019-6-28 11:53
  • 签到天数: 28 天

    [LV.4]偶尔看看III

    发表于 2016-11-16 23:30:48 | 显示全部楼层
    製作圖片辭典的福音,可以節省非常多的時間,期待軟件分享~~~) W' c" P0 F2 {
  • TA的每日心情
    慵懒
    2023-2-4 11:26
  • 签到天数: 579 天

    [LV.9]以坛为家II

    发表于 2016-11-17 17:28:54 | 显示全部楼层
    这个绝对是神器
  • TA的每日心情
    开心
    2018-5-8 11:51
  • 签到天数: 18 天

    [LV.4]偶尔看看III

    发表于 2016-11-20 01:16:53 | 显示全部楼层
    激动不已!跃跃欲试

    该用户从未签到

    发表于 2016-11-20 09:18:39 来自手机 | 显示全部楼层
    哇,很牛的软件,期待chigre3的分享。
  • TA的每日心情
    开心
    2020-12-9 19:29
  • 签到天数: 27 天

    [LV.4]偶尔看看III

    发表于 2016-11-22 17:12:18 | 显示全部楼层
    这个软件太厉害了
  • TA的每日心情
    开心
    2020-12-9 19:29
  • 签到天数: 27 天

    [LV.4]偶尔看看III

    发表于 2016-11-22 17:13:11 | 显示全部楼层
    提示: 该帖被管理员或版主屏蔽

    该用户从未签到

     楼主| 发表于 2016-11-26 09:05:40 | 显示全部楼层
    【20161125更新】《葡汉词典》切图版
    ' d" J$ A+ }' K! ?9 @https://www.pdawiki.com/forum/fo ... &fromuid=1744811 p+ C& T0 Q' R/ M# Q% b. a# h
    (出处: 掌上百科)+ ^! t& a# g& ^

    该用户从未签到

    发表于 2016-11-27 08:21:42 | 显示全部楼层
    C大神器,谁与争锋?创意无限,匠心十足。佩服佩服。

    该用户从未签到

     楼主| 发表于 2016-11-27 20:23:37 | 显示全部楼层
    切图版后续:
    6 b' ?) y* X+ o  }3 H+ |" A因为切出的图片数目极多,目前想法是:$ i2 m3 d  u6 E' G% H. G
    (1) 制作成MDX/MDD格式, CSS不内嵌入MDD, 外置CSS, 方便个人设置6 m  j" @" ?8 y  q# H& s
    (2) 制作成DSL格式, 图片资源直接打包zip
    7 Y4 s2 \% S: }! Y% Z0 |9 {4 H

    该用户从未签到

     楼主| 发表于 2017-2-1 02:01:35 | 显示全部楼层
    teresaiao 发表于 2017-2-1 01:58
    - `; S9 H  W5 Z: @% Y1 u終於都會做了, 可是我想問用你那個軟件, 如果轉頁, 或解釋在第二欄, 要怎麼合併?
    , c- Y5 `- n+ ?4 }
    所有位置的切图都是分离的,后期导出时同时导出对应信息
    2 ~" C! ]- r6 }) }+ M也就是:词条+页码+切图图片名(1~多个)

    该用户从未签到

     楼主| 发表于 2017-2-1 02:04:52 | 显示全部楼层
    teresaiao 发表于 2017-2-1 01:58
    % t: G+ z: z2 _4 z) [4 A2 K終於都會做了, 可是我想問用你那個軟件, 如果轉頁, 或解釋在第二欄, 要怎麼合併?
    " n% h  {  ^# A1 A) Q9 X% Y) K  h
    你下载了那个红葡汉词典 查一些释义特别长的单词 就可以了解到啦 DSL.dz 可以使用解压缩软件还原为.dsl 文本的 你打开就可看到词条结构

    该用户从未签到

    发表于 2017-2-1 03:39:23 | 显示全部楼层
    本帖最后由 teresaiao 于 2017-2-10 13:46 编辑
    6 {4 u" R# y4 N% M, ]
    chigre3 发表于 2017-2-1 02:04
    + E" D9 N9 m# {! I你下载了那个红葡汉词典 查一些释义特别长的单词 就可以了解到啦 DSL.dz 可以使用解压缩软件还原为.dsl  ...
      r% k* W9 [/ G* S: g2 o& m; r% D

    - I% P9 m$ Z: m3 E3 |$ O如何才能固定
    / ~3 @) j8 x% R- ~8 p# y' y: y2 C% T. B9 m2 H
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-4-26 00:15 , Processed in 0.083723 second(s), 11 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表