掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 17414|回复: 73

[工具] 20181130更新_自动画线+OCR+切图+校对 软件

  [复制链接]

该用户从未签到

发表于 2016-11-15 20:14:56 | 显示全部楼层 |阅读模式
本帖最后由 chigre3 于 2018-11-30 08:14 编辑
% p, q% m3 x9 h& ~0 H" k* q. V3 g6 u
一、致谢:" n6 u! n5 n% Y
  感谢 @vbnet 的自动画线测试版, 现在经过个人修改, 几乎完全删除了原先的内容, 软件名称仍为 Picture Capture9 n. A% @8 C1 ]6 ~
  感谢 @孤影 的自动划线软件, 给了很多界面上的参考
1 j' T  A- g" H3 B  o  k------------------------------------------------------------------------4 M. a0 Q) A2 [) Q7 U: U% ?6 H
二、这个软件有什么用呢???
1 s9 V3 {4 u* t; R# W/ Y4 t: w  极大地提高制作图片版词典的效率,现在个人需要做的事情仅仅为:6 G5 H, ^$ w& H: i2 P
  1. 前期的图片处理:Abbyy Finereader(整体校直)、Photoshop(模板调位置, 统一)、ComicEnhancerPro(转换格式、大小) 等
( q! i  a+ x4 {+ @3 C' E  2. 使用本软件进行:
: ^% c; V; w) w  X   (1) 全部页面的 自动划线-->自动OCR4 ?( J# F7 ~, i& b6 g$ e4 f
   (2) 逐页校对划线和文本(可删可增)$ z! M9 l, S) M) G7 ^  b- S
   (3) A.合并 .pdic (词条 + 坐标信息) --> Excel 模板 --> 文本替换 --> 精确高亮定位 整页版 图片词典
8 K. }' ^4 w7 e, |" b, p      B.导出单词整体切图 --> 合并 .PWWords (词条+图片名称) --> 文本替代 --> 切图版 图片词典( d' J0 S2 s; U: {2 i! o+ T  l% @
------------------------------------------------------------------------3 t2 F, A. ?% \& r
三、实现的功能:( K, `- k5 Q1 {, V$ e; a! A
  1. 画线:2 O; l  V8 h- V% h
   (1) 自动分析页面 + 自动画线3 e# K3 p' R& u8 _& O
   (2) 手动模式定义页面 + 自动划线: G1 e- ?/ T8 i* w; f' v: t0 J0 G
   (3) 鼠标右键单击修改单栏重新自动画线
9 z8 y0 Z: ]% c, y2 N. V   以上均 + 鼠标左键单击增加画线, 文本框内快捷键`删除划线  E+ q- H# {. L' m9 ~  T

) O2 P8 y  a( N6 C; ^- ]/ k! M  2. OCR:# M* H. d! |: O+ ?9 s
   采用Tesseract OCR, 具体语言文件 tessdata 可以到官网下载:https://github.com/tesseract-ocr/tessdata4 z0 i. E0 J0 g- H9 b1 P- j
   (1) 导出文本:可外部编辑后导入, 避免OCR单个切图的不足
& h6 A7 L/ C- A( s   (2) 导入文本
2 |5 q# s* |; }   (3) 1 + 2:直接将OCR结果导入当前页面的文本框 --> 校对
  N+ h& m# }6 {0 X& |   外置批量替换表达式文本, 可自行创建和编辑, 适应各个词典不同OCR处理的场景( f  R8 Y4 w7 ]  H$ `' U0 _2 m

7 _; x6 @9 a' x" `0 t; G  3. 切图:
( b& t! F+ _) ?# p3 B& K   (1) 词条单行切图:也可以使用外部其他OCR软件处理,或者其他用途) l8 @% j; o) i3 N, Q! D7 @  N
   (2) 词条整体切图:实现切图版图片词典的制作(背景透明,不过目前需要其他PNG优化软件缩减大小:https://www.pdawiki.com/forum/thread-19157-1-1.html6 j0 w" ^' ^' j$ N" L
    (实例1:[英-汉] 20161113《英汉大词典(第2版)》10页单词 切图版  https://www.pdawiki.com/forum/thread-19015-1-1.html
8 H1 ~2 a" X2 m) h0 _$ g2 ~. O    (实例2:新西汉词典 切图版 https://www.pdawiki.com/forum/fo ... 6545&fromuid=1744811 e, J9 y' e$ x) K. g! |  z
    1 }5 ~* Q- I' g5 g$ H% @
   可实现仅导出切图坐标等信息,不导出切图,方便使用外部软件进行
% P) \" {! c6 E4 H$ f" u" \/ L    / m, u: E) N$ T) a  b1 }7 \! f
* M% R) f; R3 G, t+ ?; F9 b+ n
  4. 校对:
+ n& d9 B$ |0 W3 a6 I" R: b! J   列表式样, 与主窗口同步更新文本框内容, 也高亮匹配提示9 u! D; {) r- r! c6 i4 W
6 d6 }; m' |8 q) Q* [/ y
  5. 其他:
. Q- U: s' ~$ w# i, X$ P8 ]5 e0 a   (1) 配置文件保存、导入' H. v: y4 X7 U. P% E& G" L( b
   (2) 自动下一页+操作(定时):自动保存、自动画线、自动OCR、自动切图。方便无人值守完成相应任务4 c+ U" P2 k' Z* l% n9 M! Z  Y7 U
   (3) 最重要的还是要人工校对!!!!! u$ J2 b6 a* w# i& f4 Q2 `) I
   (4) 高度自定义参数设置3 A! b  y9 l4 ?3 R9 K+ T
------------------------------------------------------------------------) w2 |+ U, N, K1 w( k
如题,放个图:
$ D3 r: }5 `# c/ B6 H: U* V: U: Y7 `
# O% r8 c4 K, w) j) f6 b
3 w! B' l$ B. a& z( r: ]7 `
; G3 d8 d9 \5 U3 f6 L6 D4 a
% v0 ^2 ?. s, X截图内的词条文字为OCR结果5 b7 P' _5 s  ?# C- X. \
! o9 l& A+ p' Q7 k% X( Y
. ]8 ]; y. K! P6 X" s) N/ i! S0 s

6 P% Q& U2 e2 F" d" V, g& z$ P# h----------------------------20181130更新:
& o% E( Z1 }# {校对窗口增加按当前提示索引(全部或部分)填充当前划线的文本框!
" T$ p8 B* @8 J' v+ e7 U----------------------------
. ~3 S* ^8 k, K20180809更新:
( W+ ~. y3 l5 k2 I& t插图画区域由之前的矩形升级为任意多边形, Q! O6 S: X( F

2 I# h/ E. m6 o4 [; M# I% P' P8 p8 h$ a0 J) I
----------------------------2 G1 E4 i7 O1 w
20180614更新:
9 G& |8 z8 A( b6 B% c5 l1 C在校对界面中增加一列单词,即大词库表中 上页末单词和本页末单词 之间的所有单词。, m% d& P+ c1 v# `3 G6 L
单击则替换当前校对文本框中的文本!- ?0 t: O6 R2 ?2 H; O
不同颜色提示,方便定位!
3 Z* O# W. R7 w* R0 Z: d
) U9 T. Z2 N, w* Y5 W$ l. k7 W2 ~, S! a* v; T( r. g
+ d- [* U3 u3 w3 d8 A; J* m, L
----------------------------
6 M. {6 x5 l6 o) I. v, `20170314更新2:
! D$ p- s& F: ^# C校对界面修改如下,增添更多特殊字符(aeiou等),方便校对的时候直接复制粘贴:
2 e% k. i; u! ~& d: G3 E3 l, ~2 o2 _

& z' G. I# w) ~20170314更新:
4 y3 V7 i7 x; s3 W& ]3 h: o起始页-->终止页
" c! X4 ?2 ~1 E& K, E9 c3 g; b' I8 d& _[切图]-【词条整体切图】5 ]/ K. Y! ]) v, [- L" G
---> 会直接把范围内的页面的所有单词切图导出(软件界面会有假死的状态,不用理会,导出结束就OK了)
6 n6 ~) |3 J8 ?如果起始页和终止页为空,则导出当前页的词条切图
) H; i+ Q3 b: W/ ]* v: {; }, S: y4 y% F7 S
在校对界面时,主界面【√隐藏线框】,那么此时就只有颜色框(平行线宽). |0 u; _. S" Z2 o/ t" h1 \3 @2 N) V
当前词条亮黄色,其他还是红色
# W2 x$ m& ~: C$ Y% l  e) o( L% y" }这儿主要是考虑到有时候词条不只是单行,多行的时候可以方便查看。% j" y* Y: M+ N# v' u" G

& t3 x" ^4 M8 O4 H7 M* i----------------------------
$ ?8 q( O% N) s" A2 `2 A7 M20170313更新:! S+ q! J7 |$ u( v& `+ f1 D2 T
1. 词条整体导出切图的判断逻辑的补充(3栏以上时,位于不同列的上下单词中间隔了空列。之前这个情况未考虑到)
: R+ V0 ^2 G3 y* l5 a3 J! R$ q1 f  【仅修改了:从PDIC整体导出切图的坐标数据的这部分补充内容】
# \8 S7 {- T0 }& S8 _----------------------------8 M) f9 ~5 {0 f* S! x" M2 G
20170217更新:
. `: n0 ^# u3 F8 x+ k, Q! Q$ z1. 画线判断的方法改进(2种方法均改进)& x7 p; D3 ]+ C2 |# H! K
----------------------------
/ D% g8 N# t3 w: _20170115更新:
+ S2 p2 ]  s0 A1. tessdata 的完整语言列表,具体语言移步【https://github.com/tesseract-ocr/tessdata】下载" B" V- W0 H$ E$ ]6 i4 V
2. 在图片文件名列表上方的文本框里输入“SMALL”,点击【校对】,每个词条行的缩略图切图(非原始图片上裁剪)& T  H5 T$ W* F& e5 N
----------------------------& w) B" c4 J. R  x2 F! y
20161119更新:6 O3 }5 T' t: g8 I; P- n
1.修复保存坐标数据时的bug
3 I' z) K' R3 O" _5 Z6 N2.修复单词整体导出页面的一个bug* U1 d% h8 r3 |: O+ S# P* d8 O9 s
3.增加功能: 选定范围页面的批量导入词条/ u$ k& [7 \7 n1 K0 o$ I
4.增加功能: 快速查找定位索引
% T, K3 {* h' b) S) q----------------------------
; v+ b( ]8 [/ f6 P' J' o' l. f20161123更新:
7 ?1 U3 S/ g& ?! D* ?  {* S+ ^重写词条整体导出切图的判断逻辑,现在应该不会有切图坐标不一致、切图数目不一致的情况了。5 o0 v2 y  f# m+ m
  z7 }* b+ a" }4 Y
  1. 问题:页面是否有词条?2 V1 x8 N# u& _2 {' D
  2. 1. NO --> 直接导出和栏数一致的大切图 (标记为上页末词条续)$ v( O7 x( X" b7 d' U& B
  3. 2. YES --> 2 ?* ~! R9 q0 h4 h/ a1 F" Y
  4.  (1) 确定0号词条所在栏:2 o# g6 Z& Y/ a6 l* x0 t- ~
  5.   --> 0号词条所在栏之前的栏, 直接导出大切图 (标记为上页末词条续)
    9 u& E+ N& z+ R2 T7 x
  6.   --> 0号词条所在栏上方若还有部分上页末词条接续, 则导出切图 (标记为上页末词条续)
    ' g% ]  M4 I" B6 t" A3 x
  7.  (2) 次数为所有词条数目的循环:
    3 F3 D2 d3 s. j# r& x/ m+ }& j
  8.   A. 若: 当前为最后一个词条 --> 确定高度
    7 n$ x2 P5 v' l( D' v. k$ |
  9.   B. 否则:- }& `6 R' p& z! c7 o5 U
  10.    a. 下一个词条在下一栏 --> 确定高度
    5 g' h, z/ J& F. J7 |
  11.      --> 如果当前词条在下一栏仍有接续 --> 导出切图 (标记为当前词条接续2)
    - [/ n9 f* E+ {! O! O7 ?4 {9 F
  12.    b. 下一个词条在同一栏 --> 确定高度
    * N+ w$ n: d3 H7 z0 a. @5 Y- A
  13. ; r, y& f: ?4 M/ D0 m
  14.   --> 导出每个词条的切图* K7 O& U. B5 O" U- D" }
  15. ( C8 b% S1 Y4 l7 T
  16.  (3) 确定最后一个词条所在栏:$ ~* |5 U1 e8 q- V3 ?/ c- x7 e
  17.   --> 最后词条所在栏之后的栏, 直接导出大切图 (标记为本页末词条续)
复制代码

: u/ ?$ q% L/ i" K9 V
& j# i+ F+ S( D& \重要更新:9 Z( D9 z5 H" {0 e& [
1. 词条整体切图模块重写
, C* W+ f% Y( X5 O" ?' f2. 增加根据.pdic导出所有图片切图信息(+切图)--> 几十秒【如下面动图GIF】' r) D* _( z9 `! B! I
9 {$ j6 Z1 {) Y: a) |! ?% a3 k- k
% P- ^* w; Y! I6 b: Z2 u: n6 k

+ ?' a* ~, z7 R! R  K4 Z# B2016.11.28( x8 i0 y7 j2 ~7 c' Q, h
更新:一个小小的bug(跳过页首处下方如果单行接续,会因为判断的距离和行高过于接近造成缺漏 --> 修改了公式)) m: l, j6 [  j# P. n
' S; {; m6 _2 M, o1 U: I2 [

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?免费注册

x

评分

1

查看全部评分

本帖被以下淘专辑推荐:

  • TA的每日心情
    奋斗
    2022-1-12 06:11
  • 签到天数: 118 天

    [LV.6]常住居民II

    发表于 2018-2-23 08:45:34 | 显示全部楼层
    请问大神,软件在哪儿有下载啊

    该用户从未签到

    发表于 2017-2-1 12:03:46 | 显示全部楼层
    本帖最后由 teresaiao 于 2017-2-10 13:47 编辑   U+ m5 t* S4 c: D2 |

    7 v! a7 y( @1 R2 s: V2 `我在第一頁設置了參數和保存了, 第二頁的紅色豎線就移位了, 是不是參數有問題?

    该用户从未签到

     楼主| 发表于 2017-2-1 04:49:02 | 显示全部楼层
    teresaiao 发表于 2017-2-1 03:39& ?- T  l5 W/ F9 y+ `
    嗯,字典裏看得到了,真的快很多,基本上是要用photoshop和打詞條就好。 另外那個自動畫線,我在第一幅弄 ...

    2 ?" N- p* q9 y9 ^& R. lPS 模板 移动位置 让每一张图片位置都一样 这样在软件里你设置了的参数就会是全局通用的 之后便可以全自动全部页面划线 紧接着就可以OCR

    该用户从未签到

    发表于 2017-2-1 01:58:45 | 显示全部楼层
    本帖最后由 teresaiao 于 2017-2-10 13:46 编辑 9 y2 [+ e9 t' L4 ]* l) c

    ' Q& ?7 k  Y" v5 o可是我想問用你那個軟件, 如果轉頁, 或解釋在第二欄, 要怎麼合併?

    该用户从未签到

    发表于 2016-11-26 13:05:03 | 显示全部楼层
    感谢chigre3,待我有空可以把汉语大字典图片版做一下了。

    该用户从未签到

     楼主| 发表于 2016-11-17 00:34:06 | 显示全部楼层
    group1234 发表于 2016-11-16 23:304 t- j+ _: o6 o7 }# ~9 x
    製作圖片辭典的福音,可以節省非常多的時間,期待軟件分享~~~

    4 l8 |" r- H% G& {. l+ z0 q是的,这个软件确实极大提高效率,
    ( U1 A1 E  n  i" {现在个人需要做的事情仅仅为:
    6 h" Y$ Z  S! f8 g8 Z1. 前期的图片处理:Abbyy Finereader(整体校直)、Photoshop(模板调位置, 统一)、ComicEnhancerPro(转换格式、大小) 等
    ; I$ n: K" z; X$ ]: g9 O" w: J2. 使用本软件进行:
    0 {& Y5 _& S1 j# U' ^! f (1) 全部页面的 自动划线-->自动OCR
    - p/ z6 X5 i  m: a+ ` (2) 逐页校对划线和文本(可删可增)
    - @5 b" e& a6 r9 F7 I/ W (3) A.合并.pdic (词条+坐标信息) --> Excel模板 --> 文本替换 --> 精确高亮定位 整页版 图片词典
    $ {! k! L: Q- S( N! _# F  `    B.导出单词整体切图 --> 合并.PWWords (词条+图片名称) --> 文本替代 --> 切图版 图片词典! j/ X( R3 {5 _: r/ {4 y1 ~( z

    该用户从未签到

    发表于 2016-11-15 22:50:35 | 显示全部楼层
    逆天还是吊炸天了。。。。。

    该用户从未签到

     楼主| 发表于 2016-11-16 02:11:49 | 显示全部楼层
    本帖最后由 chigre3 于 2016-11-16 02:22 编辑 8 |' `  \- x7 ]8 q8 l9 y1 \2 I0 z5 \
    5 E+ {$ K, q& I; H8 c9 e5 A2 \; k
    比如《现代汉语词典》也可以画线和OCR、切图等:) m# O0 S5 ?( e# E, g* x# H  a8 C
    ----------------------------------------------------
    # E1 t  k( c( p6 N画线时:/ V: J7 z; l) W; R! _2 s
    [行间距离]: 17
    ! X2 B  S6 b% i9 ~! X[向右倍率]: 1/1.09 u1 H3 L; }% e' J: T
      x! h$ q9 d1 k: o' m
    OCR时:
    1 o, r; R' F$ E- t9 W, m[行间距离]: 10# `/ N. p+ ^4 t
    [向右倍率]: 1/3.0
    $ z& g) e+ Z+ m6 q文本框匹配都是红色,因为没有加载中文的词条索引来进行匹配检查
    % h: Y, ?4 B3 V. K% N: J
    ! |5 G" F0 w& ]( e/ \
    : G2 H) f% R! m! R% v% ?/ I7 g" ~* X

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

    发表于 2016-11-16 07:12:22 | 显示全部楼层
    几乎只剩下人工校对工作了

    该用户从未签到

    发表于 2016-11-16 08:09:02 | 显示全部楼层
    chigre3 发表于 2016-11-16 02:11
    ( v3 a3 O; E& |: r/ O# i比如《现代汉语词典》也可以画线和OCR、切图等:1 A; C( R# O& s. Y) P8 z
    ----------------------------------------------------2 ]; V" f* d' M7 E; O+ L4 P. H
    ...

    1 O$ m/ x" b, B0 @歪图问题,上下页不对齐,某些不是矩形栏的排版,3栏以及3栏以上,不知道能不能处理?

    该用户从未签到

    发表于 2016-11-16 08:46:56 | 显示全部楼层
    提示: 该帖被管理员或版主屏蔽

    该用户从未签到

     楼主| 发表于 2016-11-16 17:36:45 | 显示全部楼层
    644830104 发表于 2016-11-16 08:098 x: M8 P$ A4 T
    歪图问题,上下页不对齐,某些不是矩形栏的排版,3栏以及3栏以上,不知道能不能处理?
    5 s* h9 h- P+ z% |
    所有图片统一修图 还有轻微歪斜能够画线
    - V6 z% _$ {1 j( ]图片不处理到一致规格 那最多用来划线切图OCR 每一页还要设置参数 " f; j* @! Z" s
    不规则形状不考虑 - ]- X+ Y9 R/ [, s
    支持N栏
  • TA的每日心情
    开心
    2019-6-28 11:53
  • 签到天数: 28 天

    [LV.4]偶尔看看III

    发表于 2016-11-16 23:30:48 | 显示全部楼层
    製作圖片辭典的福音,可以節省非常多的時間,期待軟件分享~~~1 z7 ^/ h& U  k8 \
  • TA的每日心情
    慵懒
    2023-2-4 11:26
  • 签到天数: 579 天

    [LV.9]以坛为家II

    发表于 2016-11-17 17:28:54 | 显示全部楼层
    这个绝对是神器
  • TA的每日心情
    开心
    2018-5-8 11:51
  • 签到天数: 18 天

    [LV.4]偶尔看看III

    发表于 2016-11-20 01:16:53 | 显示全部楼层
    激动不已!跃跃欲试

    该用户从未签到

    发表于 2016-11-20 09:18:39 来自手机 | 显示全部楼层
    哇,很牛的软件,期待chigre3的分享。
  • TA的每日心情
    开心
    2020-12-9 19:29
  • 签到天数: 27 天

    [LV.4]偶尔看看III

    发表于 2016-11-22 17:12:18 | 显示全部楼层
    这个软件太厉害了
  • TA的每日心情
    开心
    2020-12-9 19:29
  • 签到天数: 27 天

    [LV.4]偶尔看看III

    发表于 2016-11-22 17:13:11 | 显示全部楼层
    提示: 该帖被管理员或版主屏蔽

    该用户从未签到

     楼主| 发表于 2016-11-26 09:05:40 | 显示全部楼层
    【20161125更新】《葡汉词典》切图版8 r- A; G, [6 U0 W* _$ h" C2 B9 o& e
    https://www.pdawiki.com/forum/fo ... &fromuid=174481' u) M+ @" e8 _" q' w% ?
    (出处: 掌上百科)$ u# h0 S* e9 o6 V2 t

    该用户从未签到

    发表于 2016-11-27 08:21:42 | 显示全部楼层
    C大神器,谁与争锋?创意无限,匠心十足。佩服佩服。

    该用户从未签到

     楼主| 发表于 2016-11-27 20:23:37 | 显示全部楼层
    切图版后续:
    4 ]0 h; O2 A/ k因为切出的图片数目极多,目前想法是:, m; C% R9 b, U1 h
    (1) 制作成MDX/MDD格式, CSS不内嵌入MDD, 外置CSS, 方便个人设置
    ) K) ]7 ]# S( H(2) 制作成DSL格式, 图片资源直接打包zip
    / C0 T/ j+ u7 `! n/ ~, _

    该用户从未签到

     楼主| 发表于 2017-2-1 02:01:35 | 显示全部楼层
    teresaiao 发表于 2017-2-1 01:581 M0 ?. D: F! P2 }' Y3 p# l
    終於都會做了, 可是我想問用你那個軟件, 如果轉頁, 或解釋在第二欄, 要怎麼合併?
    3 F8 g1 y" t) D! G7 |- S. O( n
    所有位置的切图都是分离的,后期导出时同时导出对应信息
    6 C% j7 b+ {6 j8 u- ~  D% J! b也就是:词条+页码+切图图片名(1~多个)

    该用户从未签到

     楼主| 发表于 2017-2-1 02:04:52 | 显示全部楼层
    teresaiao 发表于 2017-2-1 01:585 C8 h3 |! H" e' R7 v7 N
    終於都會做了, 可是我想問用你那個軟件, 如果轉頁, 或解釋在第二欄, 要怎麼合併?
    + i# U' }; X) }/ S2 k
    你下载了那个红葡汉词典 查一些释义特别长的单词 就可以了解到啦 DSL.dz 可以使用解压缩软件还原为.dsl 文本的 你打开就可看到词条结构

    该用户从未签到

    发表于 2017-2-1 03:39:23 | 显示全部楼层
    本帖最后由 teresaiao 于 2017-2-10 13:46 编辑 9 q- p/ U" ]5 ]. @8 p
    chigre3 发表于 2017-2-1 02:04
    1 h( O+ h- ~. x9 I你下载了那个红葡汉词典 查一些释义特别长的单词 就可以了解到啦 DSL.dz 可以使用解压缩软件还原为.dsl  ...

    7 S6 U0 K; P6 v6 E3 y  m- H% t$ H0 u% P/ Z* I
    如何才能固定- J5 C' D4 \8 N' W. ^& b

    ! v) b' o" ]; e4 F
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-4-19 13:43 , Processed in 0.082335 second(s), 11 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表