掌上百科 - PDAWIKI

 找回密码
 免费注册
查看: 10115|回复: 56

[工具] 20181130更新_自动画线+OCR+切图+校对 软件

  [复制链接]

该用户从未签到

发表于 2016-11-15 20:14:56 | 显示全部楼层 |阅读模式
本帖最后由 chigre3 于 2018-11-30 08:14 编辑
/ a; \% ~: @; o! b6 O/ y
0 G, v' b$ R( s5 X! X' F, Q/ ?4 d一、致谢:
! v1 P0 R* o3 x9 M  m  感谢 @vbnet 的自动画线测试版, 现在经过个人修改, 几乎完全删除了原先的内容, 软件名称仍为 Picture Capture
- j8 \. t+ _3 t0 O  感谢 @孤影 的自动划线软件, 给了很多界面上的参考
$ N  x& U& F; t7 E------------------------------------------------------------------------9 j. [+ M$ d$ k' Q2 w; D' I
二、这个软件有什么用呢???
8 ~+ q4 t' M% n' Q% Z  极大地提高制作图片版词典的效率,现在个人需要做的事情仅仅为:" l1 I0 `) q2 S+ r
  1. 前期的图片处理:Abbyy Finereader(整体校直)、Photoshop(模板调位置, 统一)、ComicEnhancerPro(转换格式、大小) 等
1 [* Q) b# N7 |  2. 使用本软件进行:
  I$ N2 \: u1 ?; U& v3 B4 `3 }   (1) 全部页面的 自动划线-->自动OCR
  m% {9 f; H! x/ }& A   (2) 逐页校对划线和文本(可删可增)
! N( ^1 h0 K8 }% K" f2 g   (3) A.合并 .pdic (词条 + 坐标信息) --> Excel 模板 --> 文本替换 --> 精确高亮定位 整页版 图片词典0 _; c# P+ C' a  D
      B.导出单词整体切图 --> 合并 .PWWords (词条+图片名称) --> 文本替代 --> 切图版 图片词典
  |, a. O. F* C" W------------------------------------------------------------------------% }: O3 ~% E7 e6 ~# u3 J! }2 `0 I$ V
三、实现的功能:
8 g0 X0 G( }, `9 ~' [$ Y  1. 画线:
' ?- H& e5 ]8 V1 _! h. K% q! x* Y! o   (1) 自动分析页面 + 自动画线: I8 W/ Y) W4 [1 X. e, a
   (2) 手动模式定义页面 + 自动划线* ~1 I+ A2 Z' ^! R9 ]
   (3) 鼠标右键单击修改单栏重新自动画线
6 v9 q  B# v5 k) I) x   以上均 + 鼠标左键单击增加画线, 文本框内快捷键`删除划线1 e5 j7 B( @  ?, _' V
& S  L6 B, r4 d% o, s9 o
  2. OCR:
; d9 E+ v* C1 N, q, _9 q, c   采用Tesseract OCR, 具体语言文件 tessdata 可以到官网下载:https://github.com/tesseract-ocr/tessdata
$ Y9 f$ w. r  n. G" @% K, E   (1) 导出文本:可外部编辑后导入, 避免OCR单个切图的不足- K. U) T- s9 v7 H0 ?4 F
   (2) 导入文本4 ^( h& k5 Z# |) o$ b3 D3 s; M% E
   (3) 1 + 2:直接将OCR结果导入当前页面的文本框 --> 校对# X, T. p7 J2 ~, I- l
   外置批量替换表达式文本, 可自行创建和编辑, 适应各个词典不同OCR处理的场景- w# K% ~0 w7 g& a' w! R

& X( w; A2 c% p' J6 K$ W# w9 S% T  3. 切图:& Q  u4 I; H- U6 f. ?
   (1) 词条单行切图:也可以使用外部其他OCR软件处理,或者其他用途
7 {* z8 e' [) s" @; s& \   (2) 词条整体切图:实现切图版图片词典的制作(背景透明,不过目前需要其他PNG优化软件缩减大小:https://www.pdawiki.com/forum/thread-19157-1-1.html: V& L. n( J+ v. a# d2 R" q8 _
    (实例1:[英-汉] 20161113《英汉大词典(第2版)》10页单词 切图版  https://www.pdawiki.com/forum/thread-19015-1-1.html
3 H8 f' z; r/ u+ |) B2 ?4 k. b    (实例2:新西汉词典 切图版 https://www.pdawiki.com/forum/fo ... 6545&fromuid=1744818 f/ g' [& e6 W. [& d
    
* w/ N* l/ H: d. p& X  k0 V2 [8 C5 ^   可实现仅导出切图坐标等信息,不导出切图,方便使用外部软件进行
+ B! y3 ~5 i3 m    ; r! a9 Y$ K# b( Z! z* H

8 @. m; y* l; g) \  4. 校对:
' g5 d# F' O7 ^) {% e7 p: Y0 u* @   列表式样, 与主窗口同步更新文本框内容, 也高亮匹配提示3 w% g$ K- `$ _+ A" G
/ ?, }" j+ D, m+ R0 {
  5. 其他:2 ?" x$ s5 `) X7 [8 `* p
   (1) 配置文件保存、导入
5 Z3 l8 L, g, R* A: k% w! [+ A   (2) 自动下一页+操作(定时):自动保存、自动画线、自动OCR、自动切图。方便无人值守完成相应任务
1 L# n' @/ ~# a# f" T6 ]   (3) 最重要的还是要人工校对!!!!% Q: N$ q1 {! p4 ]
   (4) 高度自定义参数设置
) i  f* A* `/ R  o------------------------------------------------------------------------
0 W! s8 k6 p/ t# ]! j4 P; k如题,放个图:
" A  W8 _& [* [4 D7 U% X" f+ _. ^) I9 r( W3 j- b* w; }- B5 A

- `" i) i; t5 X7 e& l, n4 r  o$ B# O" V0 P& a4 H

8 {9 @+ D/ ?& d# V0 Z7 l! w截图内的词条文字为OCR结果
" r+ L6 g) P6 a6 o5 J, G  f* d
/ r: u  t  x4 v# K
6 Q1 L2 @5 E7 p7 B% b7 D1 M$ g9 f* c7 D
----------------------------20181130更新:. J4 X/ B4 o+ [" T* P, R
校对窗口增加按当前提示索引(全部或部分)填充当前划线的文本框!
$ Q' m% K* H; h2 @) p$ Z; B' Q. W! O----------------------------
3 |# i- {) \5 t( ~' A9 F4 `" h20180809更新:
  O* C1 _! o/ O0 o插图画区域由之前的矩形升级为任意多边形
6 |8 P* x, v( w! \9 I3 H, c' M1 a) {, A' S5 `; \. ^. ^+ j( \

" X1 X" q8 Z# X6 Q% r" Q. ^----------------------------
: ^. ^$ T& y& Z4 ?$ m+ q20180614更新:/ X; [" f* L3 I: z5 }
在校对界面中增加一列单词,即大词库表中 上页末单词和本页末单词 之间的所有单词。" C4 N9 A' h+ Z4 X$ m/ a
单击则替换当前校对文本框中的文本!
. S. P+ r, y' q0 b不同颜色提示,方便定位!# d; @# F) P8 k; a6 [& P

; P, }8 G( c) I) F; Z8 {! e2 \
7 q3 J) m. E# f+ E' F; x/ K. r& n* \! X' N$ A' ^( R$ W
----------------------------
) m/ {* h) M1 Z; N( `, \" C1 u8 j20170314更新2:
0 Q0 X. z& Y8 n2 o校对界面修改如下,增添更多特殊字符(aeiou等),方便校对的时候直接复制粘贴:
2 @( l5 ]: o) ~" L! m% {& d/ y6 i) E9 j- W  y' H; g

5 p1 m& M4 Z# d0 u+ i' d20170314更新:
8 `; ^1 q  b! @" ?/ J: [0 O起始页-->终止页' o8 _* x# P  v) q2 r. V
[切图]-【词条整体切图】- B* x. L, _, m; i6 z
---> 会直接把范围内的页面的所有单词切图导出(软件界面会有假死的状态,不用理会,导出结束就OK了)9 d9 O/ G1 _, y% }) k1 ]9 {! o
如果起始页和终止页为空,则导出当前页的词条切图1 \) e1 F4 P" |, k8 q! }

& M# i' C2 G  h# I& T8 Y5 g6 Y0 ?5 ], W2 J在校对界面时,主界面【√隐藏线框】,那么此时就只有颜色框(平行线宽)
- b( k$ Z7 W" v* @' _当前词条亮黄色,其他还是红色
6 o( Q. x2 Y& U- ~- a' [这儿主要是考虑到有时候词条不只是单行,多行的时候可以方便查看。# x& B& Y7 K' r$ w/ |7 l

  T- T2 t6 U3 O( e7 c! F----------------------------( b$ a0 F0 b2 Y; P
20170313更新:! r' ^9 p0 W9 Z" w/ s% O
1. 词条整体导出切图的判断逻辑的补充(3栏以上时,位于不同列的上下单词中间隔了空列。之前这个情况未考虑到)6 K' s. G9 [2 i  \# d* Z5 F
  【仅修改了:从PDIC整体导出切图的坐标数据的这部分补充内容】
+ c6 C% s9 v5 g* \: n( W+ [----------------------------
% j9 a# @! F9 p" a# u+ m  `' _20170217更新:
2 q: w0 {" W- y9 U1. 画线判断的方法改进(2种方法均改进)
! z5 s( J$ Z0 I  \/ k; Z6 U2 I----------------------------- f+ L6 x% X, E$ s
20170115更新:
6 E" r$ L2 z" K1. tessdata 的完整语言列表,具体语言移步【https://github.com/tesseract-ocr/tessdata】下载, j6 k7 r: f8 H! G: D5 Y
2. 在图片文件名列表上方的文本框里输入“SMALL”,点击【校对】,每个词条行的缩略图切图(非原始图片上裁剪)# L* Z  b+ k( G0 g
----------------------------5 V$ V. g: d0 v/ ]
20161119更新:% N% ~; V  m* V. n: g
1.修复保存坐标数据时的bug) y( P* [, k! G3 ~% C
2.修复单词整体导出页面的一个bug
) Y6 ?, X; o- p: K- q0 V4 m( N, M! a3.增加功能: 选定范围页面的批量导入词条
9 c* c% x6 F) ^4.增加功能: 快速查找定位索引
; ?4 }- ]7 q2 o! J9 y----------------------------* ^$ y; s6 B) g+ }  V5 j+ `7 M, v
20161123更新:
+ w% j1 _. U3 F" M5 ?* C* y重写词条整体导出切图的判断逻辑,现在应该不会有切图坐标不一致、切图数目不一致的情况了。
5 u# w8 N5 ^: m% E; M8 i; B
" q1 \9 v' P9 M$ W
  1. 问题:页面是否有词条?. ^# I+ a, X; Q7 H+ \9 P8 d) }' \
  2. 1. NO --> 直接导出和栏数一致的大切图 (标记为上页末词条续)
    + o4 J4 n4 ?! C6 X( _/ s( i* N
  3. 2. YES -->
      n0 g- l, p5 x; _, u* N. @
  4.  (1) 确定0号词条所在栏:
    ! O; t; q3 E( v
  5.   --> 0号词条所在栏之前的栏, 直接导出大切图 (标记为上页末词条续)
    7 r- h* {+ v9 p+ K, @# U/ s
  6.   --> 0号词条所在栏上方若还有部分上页末词条接续, 则导出切图 (标记为上页末词条续)& ?/ z; ?! y- ^, N8 L+ X) o6 ~
  7.  (2) 次数为所有词条数目的循环:
    4 e4 r- {: k, G- j
  8.   A. 若: 当前为最后一个词条 --> 确定高度
    ' R* ^6 C/ a& U, W! x, R
  9.   B. 否则:
    1 S% _+ j" f+ ~
  10.    a. 下一个词条在下一栏 --> 确定高度5 g. C$ n) x8 t% @8 I
  11.      --> 如果当前词条在下一栏仍有接续 --> 导出切图 (标记为当前词条接续2)$ e$ L- D5 ^; C; h3 z1 U- S' Y6 I
  12.    b. 下一个词条在同一栏 --> 确定高度9 \5 m  ]( t3 m

  13. , |: [0 g9 E0 U0 z1 j4 R
  14.   --> 导出每个词条的切图  B. v6 C" f. j- W  U7 V* \
  15. 1 [7 @+ A, A8 p( D6 ?8 N
  16.  (3) 确定最后一个词条所在栏:
    % i% m% C' M! V* K5 U, l
  17.   --> 最后词条所在栏之后的栏, 直接导出大切图 (标记为本页末词条续)
复制代码
/ K% F9 i/ i/ h  a3 `' F
& I* R0 b2 U2 F1 {+ q, X  F
重要更新:9 w. |0 j- d# s1 v6 Y3 f  S
1. 词条整体切图模块重写1 A3 d2 z$ v$ y% P) p" q7 x5 L
2. 增加根据.pdic导出所有图片切图信息(+切图)--> 几十秒【如下面动图GIF】
+ z  R. J& a: u3 r" l/ n
* m7 x# x0 ]! }) ?  A3 K8 b$ J% ?
# d/ ~# G# o/ q/ I  p' Y, O" Z! o' u/ D
2016.11.28/ c2 S) \5 d0 {9 F( w- a
更新:一个小小的bug(跳过页首处下方如果单行接续,会因为判断的距离和行高过于接近造成缺漏 --> 修改了公式)8 J1 O: M# t) R

* `' W* P- M; y2 D, G" f

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?免费注册

x

评分

1

查看全部评分

本帖被以下淘专辑推荐:

  • TA的每日心情
    擦汗
    2021-3-7 08:25
  • 签到天数: 116 天

    [LV.6]常住居民II

    发表于 2018-2-23 08:45:34 | 显示全部楼层
    请问大神,软件在哪儿有下载啊

    该用户从未签到

    发表于 2017-2-1 12:03:46 | 显示全部楼层
    本帖最后由 teresaiao 于 2017-2-10 13:47 编辑 6 S" n2 l- W0 F* w) e6 n4 S

    # w1 O* [+ i% O我在第一頁設置了參數和保存了, 第二頁的紅色豎線就移位了, 是不是參數有問題?

    该用户从未签到

     楼主| 发表于 2017-2-1 04:49:02 | 显示全部楼层
    teresaiao 发表于 2017-2-1 03:39
    ( r1 D! a1 l$ j& _& k嗯,字典裏看得到了,真的快很多,基本上是要用photoshop和打詞條就好。 另外那個自動畫線,我在第一幅弄 ...

    8 x$ D2 y9 @; EPS 模板 移动位置 让每一张图片位置都一样 这样在软件里你设置了的参数就会是全局通用的 之后便可以全自动全部页面划线 紧接着就可以OCR

    该用户从未签到

    发表于 2017-2-1 01:58:45 | 显示全部楼层
    本帖最后由 teresaiao 于 2017-2-10 13:46 编辑 ( ]5 u% X% n! y+ P6 j
    : B9 ^9 B$ n" x0 }% b- y
    可是我想問用你那個軟件, 如果轉頁, 或解釋在第二欄, 要怎麼合併?

    该用户从未签到

    发表于 2016-11-26 13:05:03 | 显示全部楼层
    感谢chigre3,待我有空可以把汉语大字典图片版做一下了。

    该用户从未签到

    发表于 2016-11-15 22:50:35 | 显示全部楼层
    逆天还是吊炸天了。。。。。

    该用户从未签到

     楼主| 发表于 2016-11-16 02:11:49 | 显示全部楼层
    本帖最后由 chigre3 于 2016-11-16 02:22 编辑
      t% T; N, q& T* k8 y1 @
    - _1 V1 l( P4 ^, q& Q比如《现代汉语词典》也可以画线和OCR、切图等:
    ! [) o9 }6 t+ B; `----------------------------------------------------" w9 F; T) F! i) P7 A1 [2 g$ k: ]
    画线时:3 ^9 [$ Z4 q/ {: C
    [行间距离]: 17/ `3 Q5 e$ d9 v$ |6 M8 N
    [向右倍率]: 1/1.0
    5 E& u  v$ ]/ E- `0 ~" p( y2 o; w% T1 T) n; e
    OCR时:
    : Y& h; @1 H" c+ l2 Z5 h1 B[行间距离]: 10
    # x4 R; W; D+ V( I5 i- Z  |8 `[向右倍率]: 1/3.0
    " M# x% t+ I$ ^1 X' T1 P/ V' q文本框匹配都是红色,因为没有加载中文的词条索引来进行匹配检查3 P0 U$ |6 g/ _( E6 F
    ' E$ ?3 f- D' j3 P6 Z  X

    ) {: e: w; P# y, d& A1 s, a, D
    ! X9 b  V/ Y% E* p- r

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有帐号?免费注册

    x

    该用户从未签到

    发表于 2016-11-16 07:12:22 | 显示全部楼层
    几乎只剩下人工校对工作了

    该用户从未签到

    发表于 2016-11-16 08:09:02 | 显示全部楼层
    chigre3 发表于 2016-11-16 02:11
    / H" N! E) ~! |比如《现代汉语词典》也可以画线和OCR、切图等:
    + K% T- Z. ?, x; {$ @----------------------------------------------------: v+ i9 Z* u' Y1 |1 Z# H1 V6 k) x" T( c
    ...
    - y$ r3 ^$ P: ?7 o3 U7 Q/ C- B
    歪图问题,上下页不对齐,某些不是矩形栏的排版,3栏以及3栏以上,不知道能不能处理?

    该用户从未签到

    发表于 2016-11-16 08:46:56 | 显示全部楼层
    提示: 该帖被管理员或版主屏蔽

    该用户从未签到

     楼主| 发表于 2016-11-16 17:36:45 | 显示全部楼层
    644830104 发表于 2016-11-16 08:09
    ) \# r! S1 ]* [) H" b歪图问题,上下页不对齐,某些不是矩形栏的排版,3栏以及3栏以上,不知道能不能处理?

    , C6 @# S4 }: q0 v, |9 q" x所有图片统一修图 还有轻微歪斜能够画线
    / _! `) B, g& N) s5 S图片不处理到一致规格 那最多用来划线切图OCR 每一页还要设置参数
    / A3 ~! J7 E) i, L1 i不规则形状不考虑   h& z: I/ `4 T6 l' g' d
    支持N栏
  • TA的每日心情
    开心
    2019-6-28 11:53
  • 签到天数: 28 天

    [LV.4]偶尔看看III

    发表于 2016-11-16 23:30:48 | 显示全部楼层
    製作圖片辭典的福音,可以節省非常多的時間,期待軟件分享~~~
    3 y' p* G/ K3 g7 U  H

    该用户从未签到

     楼主| 发表于 2016-11-17 00:34:06 | 显示全部楼层
    group1234 发表于 2016-11-16 23:308 b7 o: ?& S4 J. h+ G
    製作圖片辭典的福音,可以節省非常多的時間,期待軟件分享~~~

    + v8 w5 \% V$ }是的,这个软件确实极大提高效率,
    % N6 y# R/ f/ w9 e现在个人需要做的事情仅仅为:, i& b+ V: n9 M3 ]. r% h2 Z
    1. 前期的图片处理:Abbyy Finereader(整体校直)、Photoshop(模板调位置, 统一)、ComicEnhancerPro(转换格式、大小) 等
    6 p6 x/ `0 w4 c' p/ |3 p' Z1 t2. 使用本软件进行:
    6 y: E" S5 `: l- U9 K" k (1) 全部页面的 自动划线-->自动OCR. R' X3 x+ S& b
     (2) 逐页校对划线和文本(可删可增)
    ! w/ b: x7 d+ Y9 `4 S (3) A.合并.pdic (词条+坐标信息) --> Excel模板 --> 文本替换 --> 精确高亮定位 整页版 图片词典" \9 ]8 F8 v9 f
        B.导出单词整体切图 --> 合并.PWWords (词条+图片名称) --> 文本替代 --> 切图版 图片词典
    4 F6 ?7 H. g- m3 V$ W% C: H! S
  • TA的每日心情
    擦汗
    2021-4-30 20:11
  • 签到天数: 565 天

    [LV.9]以坛为家II

    发表于 2016-11-17 17:28:54 | 显示全部楼层
    这个绝对是神器
  • TA的每日心情
    开心
    2018-5-8 11:51
  • 签到天数: 18 天

    [LV.4]偶尔看看III

    发表于 2016-11-20 01:16:53 | 显示全部楼层
    激动不已!跃跃欲试

    该用户从未签到

    发表于 2016-11-20 09:18:39 来自手机 | 显示全部楼层
    哇,很牛的软件,期待chigre3的分享。
  • TA的每日心情
    开心
    2020-12-9 19:29
  • 签到天数: 27 天

    [LV.4]偶尔看看III

    发表于 2016-11-22 17:12:18 | 显示全部楼层
    这个软件太厉害了
  • TA的每日心情
    开心
    2020-12-9 19:29
  • 签到天数: 27 天

    [LV.4]偶尔看看III

    发表于 2016-11-22 17:13:11 | 显示全部楼层
    提示: 该帖被管理员或版主屏蔽

    该用户从未签到

     楼主| 发表于 2016-11-26 09:05:40 | 显示全部楼层
    【20161125更新】《葡汉词典》切图版
    ; {3 [3 \7 I9 Z, U# `https://www.pdawiki.com/forum/fo ... &fromuid=174481
    2 _3 t) D0 k) c" Z(出处: 掌上百科)3 j: p! l! F. d" z, C, k3 Y

    该用户从未签到

    发表于 2016-11-27 08:21:42 | 显示全部楼层
    C大神器,谁与争锋?创意无限,匠心十足。佩服佩服。

    该用户从未签到

     楼主| 发表于 2016-11-27 20:23:37 | 显示全部楼层
    切图版后续:2 a! K" W: T; a8 y
    因为切出的图片数目极多,目前想法是:
    & w- |  b) N; C3 g' r(1) 制作成MDX/MDD格式, CSS不内嵌入MDD, 外置CSS, 方便个人设置
    4 f& u* m# C3 k( L( {(2) 制作成DSL格式, 图片资源直接打包zip; i& V6 G2 l: g

    该用户从未签到

     楼主| 发表于 2017-2-1 02:01:35 | 显示全部楼层
    teresaiao 发表于 2017-2-1 01:58
    " \2 f6 o* M9 E- C/ S- L' E終於都會做了, 可是我想問用你那個軟件, 如果轉頁, 或解釋在第二欄, 要怎麼合併?

    1 Q4 X. x1 k* q: v所有位置的切图都是分离的,后期导出时同时导出对应信息
    4 P/ \' s% g- q+ b$ e  W( j2 r7 N也就是:词条+页码+切图图片名(1~多个)

    该用户从未签到

     楼主| 发表于 2017-2-1 02:04:52 | 显示全部楼层
    teresaiao 发表于 2017-2-1 01:587 S3 W- J% W8 D. V- {
    終於都會做了, 可是我想問用你那個軟件, 如果轉頁, 或解釋在第二欄, 要怎麼合併?
    3 I+ w! U' g! R. V1 o
    你下载了那个红葡汉词典 查一些释义特别长的单词 就可以了解到啦 DSL.dz 可以使用解压缩软件还原为.dsl 文本的 你打开就可看到词条结构

    该用户从未签到

    发表于 2017-2-1 03:39:23 | 显示全部楼层
    本帖最后由 teresaiao 于 2017-2-10 13:46 编辑
    7 R* Y2 F- z+ D" a
    chigre3 发表于 2017-2-1 02:04
    / ?4 o7 ]: ?4 A; {! D你下载了那个红葡汉词典 查一些释义特别长的单词 就可以了解到啦 DSL.dz 可以使用解压缩软件还原为.dsl  ...
    & N9 ?0 R: c  ?( A; h

    ! I+ A/ b7 J1 C7 N  n如何才能固定* f+ O1 b5 Q# b6 d

    8 o' S1 _) y# b! ^
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    顶部qrcode底部
    关注掌上百科官方微信公众号送积分
    关注掌上百科官方微信公众号
    关注微信公众号 pdawiki,获取邀请码,看文抢积分,抽奖得浮云! Follow our Wechat official account "pdawiki", get invitation codes, and play the lottery to earn points (积分)!

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2021-5-12 04:51 , Processed in 0.211509 second(s), 12 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2020, Tencent Cloud.

    快速回复 返回顶部 返回列表