掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 17469|回复: 73

[工具] 20181130更新_自动画线+OCR+切图+校对 软件

  [复制链接]

该用户从未签到

发表于 2016-11-15 20:14:56 | 显示全部楼层 |阅读模式
本帖最后由 chigre3 于 2018-11-30 08:14 编辑 6 S% n! a2 J1 ]( q

9 A: o$ ~- q. l5 ^! I5 _一、致谢:- |$ G; D" {6 B. m
  感谢 @vbnet 的自动画线测试版, 现在经过个人修改, 几乎完全删除了原先的内容, 软件名称仍为 Picture Capture9 w" X3 Y/ }8 T$ O  y9 b& C. H- A
  感谢 @孤影 的自动划线软件, 给了很多界面上的参考- t3 \9 }9 z. G9 ?( B
------------------------------------------------------------------------
& @! G8 Y" l& `& ^8 r1 @% V二、这个软件有什么用呢???+ Q' t$ @6 j# l
  极大地提高制作图片版词典的效率,现在个人需要做的事情仅仅为:
$ D) v7 S5 R/ ~# F  1. 前期的图片处理:Abbyy Finereader(整体校直)、Photoshop(模板调位置, 统一)、ComicEnhancerPro(转换格式、大小) 等' C+ v3 b9 Y5 f& o) U1 h# A, R
  2. 使用本软件进行:
6 `- |  T5 e) N/ ]5 V  L( b4 J   (1) 全部页面的 自动划线-->自动OCR/ ~- B3 |+ J$ I
   (2) 逐页校对划线和文本(可删可增)" J9 \6 F7 b& w
   (3) A.合并 .pdic (词条 + 坐标信息) --> Excel 模板 --> 文本替换 --> 精确高亮定位 整页版 图片词典: T- L8 O( E" N( R" Z
      B.导出单词整体切图 --> 合并 .PWWords (词条+图片名称) --> 文本替代 --> 切图版 图片词典) ^( C/ I3 D6 W. V6 y
------------------------------------------------------------------------  d4 _8 x, L7 H6 D
三、实现的功能:# |& M2 F- Q+ ?9 W' q9 V
  1. 画线:- c: v9 P% |" C
   (1) 自动分析页面 + 自动画线8 {5 ]! ]; h' ], N+ W* G$ |* q
   (2) 手动模式定义页面 + 自动划线
8 ]0 X+ y/ {8 I   (3) 鼠标右键单击修改单栏重新自动画线
, c; I) u+ k. v! h   以上均 + 鼠标左键单击增加画线, 文本框内快捷键`删除划线4 @, g  d8 j4 _% h  Z  n2 A
" D' g/ f) @3 r% G/ }6 O% o
  2. OCR:6 A, t% M: n" S; B
   采用Tesseract OCR, 具体语言文件 tessdata 可以到官网下载:https://github.com/tesseract-ocr/tessdata
' K" b! O9 A, b, i. R+ J: k   (1) 导出文本:可外部编辑后导入, 避免OCR单个切图的不足
* E1 R$ f) J% d. Y& X8 u* c   (2) 导入文本
7 d9 ^: N) j7 }! W   (3) 1 + 2:直接将OCR结果导入当前页面的文本框 --> 校对" X! f0 ~& w6 H4 B1 h
   外置批量替换表达式文本, 可自行创建和编辑, 适应各个词典不同OCR处理的场景
$ w: ]5 o- E% V9 L( `- \
9 F8 }8 _7 u0 k2 t) q5 R5 |5 A2 Q  3. 切图:" c* w% l: N0 n% l
   (1) 词条单行切图:也可以使用外部其他OCR软件处理,或者其他用途
# _) i, H$ ]4 m% [- E   (2) 词条整体切图:实现切图版图片词典的制作(背景透明,不过目前需要其他PNG优化软件缩减大小:https://www.pdawiki.com/forum/thread-19157-1-1.html
# N& }% t! p$ g0 R: L) A* m    (实例1:[英-汉] 20161113《英汉大词典(第2版)》10页单词 切图版  https://www.pdawiki.com/forum/thread-19015-1-1.html9 A7 R5 T# b, n
    (实例2:新西汉词典 切图版 https://www.pdawiki.com/forum/fo ... 6545&fromuid=174481
6 K* ^9 I$ n6 j3 k% {: {9 \  A    ' z0 Y0 @! b/ `0 j6 X
   可实现仅导出切图坐标等信息,不导出切图,方便使用外部软件进行
2 O! a" Z. c% v    
5 _, S1 `( I. Y1 Y/ G( \* ~; B/ o$ j4 _' S
  4. 校对:8 ^* @; p! N* ^/ B/ r
   列表式样, 与主窗口同步更新文本框内容, 也高亮匹配提示
# M; f% K6 c+ h) `9 I& R6 y5 f, {8 v5 L8 _' v. J3 N. a: O% Z
  5. 其他:
8 C- [0 E# q5 R( d# `   (1) 配置文件保存、导入) t% q' x! M, ]8 K3 ]
   (2) 自动下一页+操作(定时):自动保存、自动画线、自动OCR、自动切图。方便无人值守完成相应任务
1 ~" `; \+ X( L   (3) 最重要的还是要人工校对!!!!( f6 c' H% ^% `- C' ]& n9 y
   (4) 高度自定义参数设置8 m* O$ u, A* i" e/ S6 `: l
------------------------------------------------------------------------
8 x: p, D% x! c6 |, K; q2 F. b0 Z: }如题,放个图:
) }# D! d% |9 a1 u* H, z; w5 h
& _$ `4 Z3 e6 L$ P
7 F6 }" ]* z  q! K# ^2 x* E% ]1 a( D" h/ Z7 e  H+ c9 Z
+ A/ |4 Y, U  e
截图内的词条文字为OCR结果
; I3 r4 j. S' R7 [
+ n8 r, P, }, u2 y  z5 y7 ~" {* j8 h, _! w- Q( l
6 }  ^; V# E  y! G- X+ i
----------------------------20181130更新:0 Q2 C, B- [/ @7 v  I8 @. ~% H
校对窗口增加按当前提示索引(全部或部分)填充当前划线的文本框!2 `* u' r( ^1 n* q7 K8 F3 u5 ~
----------------------------
& G+ C1 b8 O1 e2 q6 U20180809更新:3 n! n3 N2 d; Q+ k9 ^: w+ Q: b- w
插图画区域由之前的矩形升级为任意多边形8 d7 [  }$ c5 z% J2 m, Y; u- R

# \3 W1 j5 c+ h! u5 e) n' r1 {; O2 g% ]3 K" j1 h% z
----------------------------
" m- o" j0 b9 K20180614更新:
; B- S5 k! U8 A# m( n" V4 B在校对界面中增加一列单词,即大词库表中 上页末单词和本页末单词 之间的所有单词。5 r( g5 Q, s+ M) K$ |' B
单击则替换当前校对文本框中的文本!
! @8 a/ }, ]# K5 i不同颜色提示,方便定位!
; n+ X4 p0 d1 u0 n% e; g0 T& s+ N/ V; |

; F2 j1 K, \6 C' q' I$ C
" y9 Z# e. R) ]) G. ]----------------------------. U! s1 B% `+ P  {+ K
20170314更新2:' P! d' p, Q, k% U) n
校对界面修改如下,增添更多特殊字符(aeiou等),方便校对的时候直接复制粘贴:7 _$ l+ {$ ?! v$ l/ d2 |1 G1 U( B/ r
4 @& F' n/ m8 @- ?

& x- r0 ^: @0 p; V2 r/ n20170314更新:
2 l* \0 q" t( ^" R7 |起始页-->终止页- ?) z# A7 P4 i8 \8 m& o; H
[切图]-【词条整体切图】
( S6 T  `( s7 E& V) Z* j5 S---> 会直接把范围内的页面的所有单词切图导出(软件界面会有假死的状态,不用理会,导出结束就OK了)
# x' r9 b! {$ g2 k  Z* p如果起始页和终止页为空,则导出当前页的词条切图
: d' P3 L6 z+ f; j0 G$ L
( ]" ^6 X+ w. i$ L2 ~9 s) _在校对界面时,主界面【√隐藏线框】,那么此时就只有颜色框(平行线宽)
  F: O" u; ]4 l$ }7 x; p当前词条亮黄色,其他还是红色0 n8 y) X. H  }7 ]& [) q! n4 [
这儿主要是考虑到有时候词条不只是单行,多行的时候可以方便查看。
! H) p& |9 e6 X/ b) ]) q" k7 s9 V9 J) }# I6 c. A+ e
----------------------------
4 a4 Z2 X0 I- }/ }; `" Q20170313更新:
$ F  x- x9 }& \. \5 t0 T1. 词条整体导出切图的判断逻辑的补充(3栏以上时,位于不同列的上下单词中间隔了空列。之前这个情况未考虑到)" A) U* u/ w! Y) s/ N) d
  【仅修改了:从PDIC整体导出切图的坐标数据的这部分补充内容】
; }3 u9 G) g3 L3 M, c# }" e% t----------------------------; ?- q! c6 s. l3 Y) C  M' ]" i
20170217更新:
0 F$ n- B7 m- O1 f7 a8 t( A! a6 O1. 画线判断的方法改进(2种方法均改进)" E# B4 D: p  Y, f  |' Q$ Q
----------------------------
1 u3 z+ o. C( R3 u* U8 ?20170115更新:
0 t* \$ d! a0 u5 j5 ]: z1. tessdata 的完整语言列表,具体语言移步【https://github.com/tesseract-ocr/tessdata】下载
* ?' m  g! o7 `9 C; X1 N, p2. 在图片文件名列表上方的文本框里输入“SMALL”,点击【校对】,每个词条行的缩略图切图(非原始图片上裁剪)
  D2 J3 P7 Z% N9 M$ S----------------------------# N; p2 ~0 r- m$ H
20161119更新:
" s5 o% R- W+ a( I+ {# L1.修复保存坐标数据时的bug/ ]6 ^) |5 c/ r- u
2.修复单词整体导出页面的一个bug
' p& L* }0 @1 V2 d* j% x4 Y3.增加功能: 选定范围页面的批量导入词条
$ O# u8 n1 {" F5 [5 t* L4.增加功能: 快速查找定位索引) J9 G  m# }0 u& X% _
----------------------------
8 r  C+ j6 M( L) B2 P7 \20161123更新:+ r  `/ r; P" a# C5 P
重写词条整体导出切图的判断逻辑,现在应该不会有切图坐标不一致、切图数目不一致的情况了。
) Q# Q! M$ r4 K
5 }- f' ]. y: O. e8 I
  1. 问题:页面是否有词条?$ W( J' J, f; S" H7 d, N+ |% b% E
  2. 1. NO --> 直接导出和栏数一致的大切图 (标记为上页末词条续)4 h# G9 c! \. ~- G8 L  |
  3. 2. YES --> 4 [# K. [, d! X+ V. w/ c
  4.  (1) 确定0号词条所在栏:
    8 |. I- B: H2 k  [- u- c; F
  5.   --> 0号词条所在栏之前的栏, 直接导出大切图 (标记为上页末词条续)7 Y9 D& N6 W% D! X% r) Q
  6.   --> 0号词条所在栏上方若还有部分上页末词条接续, 则导出切图 (标记为上页末词条续)5 r) J# \9 U1 Z1 Z
  7.  (2) 次数为所有词条数目的循环:$ t! |  l$ e7 A) o
  8.   A. 若: 当前为最后一个词条 --> 确定高度
    , @4 P% a$ t, S  ~: K
  9.   B. 否则:
    1 X8 i' o7 @+ D+ g4 ?* p  _
  10.    a. 下一个词条在下一栏 --> 确定高度
    8 @! w3 T. A7 R4 a$ ~  R3 X
  11.      --> 如果当前词条在下一栏仍有接续 --> 导出切图 (标记为当前词条接续2)8 E( Y* r4 F9 @( p& T
  12.    b. 下一个词条在同一栏 --> 确定高度
    6 K( g* e* s6 n* p
  13. # A/ G' x9 Y; S0 R: O
  14.   --> 导出每个词条的切图
    ! w2 S8 G- Q! k; S3 r0 U5 T
  15. 6 f3 d1 y* F  w8 i/ G
  16.  (3) 确定最后一个词条所在栏:6 a+ _1 l/ X/ A: y
  17.   --> 最后词条所在栏之后的栏, 直接导出大切图 (标记为本页末词条续)
复制代码

: X8 g" Z8 h$ h7 h6 ]1 E, E" |
% n  M* D% w; n1 w. ]重要更新:
: G4 e' Q0 {# ^  c1. 词条整体切图模块重写
! w# M6 c# _; W' O# x" L2. 增加根据.pdic导出所有图片切图信息(+切图)--> 几十秒【如下面动图GIF】" \1 g4 Q+ \4 f" b
$ \# H* X7 N, E9 s, [  X

" p  O. O3 [3 d: M
$ O0 H/ U! S- e& n! O2016.11.28
8 y; _) ^- H) e8 R6 {. p更新:一个小小的bug(跳过页首处下方如果单行接续,会因为判断的距离和行高过于接近造成缺漏 --> 修改了公式)8 E% x, T) }% c4 g6 Y% y: Z

) r% B0 B; {( ~6 @5 T" W2 ?7 Z$ z

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?免费注册

x

评分

1

查看全部评分

本帖被以下淘专辑推荐:

  • TA的每日心情
    奋斗
    2022-1-12 06:11
  • 签到天数: 118 天

    [LV.6]常住居民II

    发表于 2018-2-23 08:45:34 | 显示全部楼层
    请问大神,软件在哪儿有下载啊

    该用户从未签到

    发表于 2017-2-1 12:03:46 | 显示全部楼层
    本帖最后由 teresaiao 于 2017-2-10 13:47 编辑 ; J! z8 ]( l. z5 _2 b# V

    " n( ?! u9 L$ _我在第一頁設置了參數和保存了, 第二頁的紅色豎線就移位了, 是不是參數有問題?

    该用户从未签到

     楼主| 发表于 2017-2-1 04:49:02 | 显示全部楼层
    teresaiao 发表于 2017-2-1 03:39" m5 b6 B9 {  k
    嗯,字典裏看得到了,真的快很多,基本上是要用photoshop和打詞條就好。 另外那個自動畫線,我在第一幅弄 ...

    $ G3 e' g# @" {4 J1 a3 h6 vPS 模板 移动位置 让每一张图片位置都一样 这样在软件里你设置了的参数就会是全局通用的 之后便可以全自动全部页面划线 紧接着就可以OCR

    该用户从未签到

    发表于 2017-2-1 01:58:45 | 显示全部楼层
    本帖最后由 teresaiao 于 2017-2-10 13:46 编辑 1 Y; Q7 I) o0 [4 w* g

    ! ?1 C) ~1 ^" D; F5 a可是我想問用你那個軟件, 如果轉頁, 或解釋在第二欄, 要怎麼合併?

    该用户从未签到

    发表于 2016-11-26 13:05:03 | 显示全部楼层
    感谢chigre3,待我有空可以把汉语大字典图片版做一下了。

    该用户从未签到

     楼主| 发表于 2016-11-17 00:34:06 | 显示全部楼层
    group1234 发表于 2016-11-16 23:30
    5 b% A2 d# ?5 D/ T+ ]' [  K製作圖片辭典的福音,可以節省非常多的時間,期待軟件分享~~~
    " Q" J; E! D* f: I& Y0 H7 h: ?5 _. V
    是的,这个软件确实极大提高效率,
    ) \$ [  B9 I- z' F- E9 N9 M现在个人需要做的事情仅仅为:
    # J# V9 }8 g, V- d( o1 q1. 前期的图片处理:Abbyy Finereader(整体校直)、Photoshop(模板调位置, 统一)、ComicEnhancerPro(转换格式、大小) 等
    ) R. x7 N+ _: K: u2. 使用本软件进行:9 {9 D  a8 F+ A) f) m8 c
     (1) 全部页面的 自动划线-->自动OCR
    ' ~' e2 e0 y8 T* r9 O$ { (2) 逐页校对划线和文本(可删可增)9 p9 C1 a, f0 X* J( c* O) y
     (3) A.合并.pdic (词条+坐标信息) --> Excel模板 --> 文本替换 --> 精确高亮定位 整页版 图片词典1 w$ d: q4 G6 E" Z6 H
        B.导出单词整体切图 --> 合并.PWWords (词条+图片名称) --> 文本替代 --> 切图版 图片词典
    ) `+ T: \2 f/ z$ U

    该用户从未签到

    发表于 2016-11-15 22:50:35 | 显示全部楼层
    逆天还是吊炸天了。。。。。

    该用户从未签到

     楼主| 发表于 2016-11-16 02:11:49 | 显示全部楼层
    本帖最后由 chigre3 于 2016-11-16 02:22 编辑 , S' q1 [9 d/ i$ ]* y

    % l2 c( F! m$ A7 W- S比如《现代汉语词典》也可以画线和OCR、切图等:; O# e% l+ M3 p  S% g- W
    ----------------------------------------------------
    - o3 r  _% X$ V0 @4 z+ C( {画线时:4 z$ b3 U7 F  S: C8 e# a
    [行间距离]: 17
    9 Z) B; f; q$ n[向右倍率]: 1/1.0) c- F% r, G7 H5 j. }1 V( \

    , B2 U0 ~: n( Q7 FOCR时:
    6 t; ^; i9 m' r3 ]' u9 m: Q[行间距离]: 10
    * g, M; P1 ]# g' X[向右倍率]: 1/3.0
      r- v7 {3 f" b; p8 _文本框匹配都是红色,因为没有加载中文的词条索引来进行匹配检查
    ' m* W8 ], W% B8 d8 i& a1 A' E4 `5 I) ~8 x1 }% w
    5 n0 m4 b2 z$ y4 M% {/ o/ J2 F

    % ^( k, x$ j9 p; S/ x

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

    发表于 2016-11-16 07:12:22 | 显示全部楼层
    几乎只剩下人工校对工作了

    该用户从未签到

    发表于 2016-11-16 08:09:02 | 显示全部楼层
    chigre3 发表于 2016-11-16 02:11
    4 E% c0 K- G% N比如《现代汉语词典》也可以画线和OCR、切图等:
    3 F& e: z& [" z& U% A2 W  s----------------------------------------------------
    7 \# s) o/ G/ { ...

    # @* e5 f' F/ Q歪图问题,上下页不对齐,某些不是矩形栏的排版,3栏以及3栏以上,不知道能不能处理?

    该用户从未签到

    发表于 2016-11-16 08:46:56 | 显示全部楼层
    提示: 该帖被管理员或版主屏蔽

    该用户从未签到

     楼主| 发表于 2016-11-16 17:36:45 | 显示全部楼层
    644830104 发表于 2016-11-16 08:09
    ) u) a5 ?, K& G/ L  m% Y7 o6 l歪图问题,上下页不对齐,某些不是矩形栏的排版,3栏以及3栏以上,不知道能不能处理?

    % ~/ g, d) g6 n0 f) X$ J5 S5 F所有图片统一修图 还有轻微歪斜能够画线
    2 r3 t# u3 \% s$ D3 ~" f图片不处理到一致规格 那最多用来划线切图OCR 每一页还要设置参数
    7 r; T9 @. R$ H0 n+ x不规则形状不考虑 . |) m& Q; v/ j" @0 c/ D
    支持N栏
  • TA的每日心情
    开心
    2019-6-28 11:53
  • 签到天数: 28 天

    [LV.4]偶尔看看III

    发表于 2016-11-16 23:30:48 | 显示全部楼层
    製作圖片辭典的福音,可以節省非常多的時間,期待軟件分享~~~
    9 r  c/ A7 q& C" x" A# w
  • TA的每日心情
    慵懒
    2023-2-4 11:26
  • 签到天数: 579 天

    [LV.9]以坛为家II

    发表于 2016-11-17 17:28:54 | 显示全部楼层
    这个绝对是神器
  • TA的每日心情
    开心
    2018-5-8 11:51
  • 签到天数: 18 天

    [LV.4]偶尔看看III

    发表于 2016-11-20 01:16:53 | 显示全部楼层
    激动不已!跃跃欲试

    该用户从未签到

    发表于 2016-11-20 09:18:39 来自手机 | 显示全部楼层
    哇,很牛的软件,期待chigre3的分享。
  • TA的每日心情
    开心
    2020-12-9 19:29
  • 签到天数: 27 天

    [LV.4]偶尔看看III

    发表于 2016-11-22 17:12:18 | 显示全部楼层
    这个软件太厉害了
  • TA的每日心情
    开心
    2020-12-9 19:29
  • 签到天数: 27 天

    [LV.4]偶尔看看III

    发表于 2016-11-22 17:13:11 | 显示全部楼层
    提示: 该帖被管理员或版主屏蔽

    该用户从未签到

     楼主| 发表于 2016-11-26 09:05:40 | 显示全部楼层
    【20161125更新】《葡汉词典》切图版1 M, ]" l8 Q+ J6 S+ [: \
    https://www.pdawiki.com/forum/fo ... &fromuid=174481
    + y* x1 {" G6 p0 Y( C0 E(出处: 掌上百科)
    # ]) B# E" D) V, F7 W) s& B1 G: e

    该用户从未签到

    发表于 2016-11-27 08:21:42 | 显示全部楼层
    C大神器,谁与争锋?创意无限,匠心十足。佩服佩服。

    该用户从未签到

     楼主| 发表于 2016-11-27 20:23:37 | 显示全部楼层
    切图版后续:* K0 i( V& m+ U" o, V1 f2 {# y
    因为切出的图片数目极多,目前想法是:
    3 h6 N, u# e% R& b# X(1) 制作成MDX/MDD格式, CSS不内嵌入MDD, 外置CSS, 方便个人设置
    ; o8 p9 r+ g$ ?3 z6 `(2) 制作成DSL格式, 图片资源直接打包zip
    4 p+ }1 Y( ^. E2 F

    该用户从未签到

     楼主| 发表于 2017-2-1 02:01:35 | 显示全部楼层
    teresaiao 发表于 2017-2-1 01:586 g0 `  d2 O$ F2 L: U% Y+ F
    終於都會做了, 可是我想問用你那個軟件, 如果轉頁, 或解釋在第二欄, 要怎麼合併?

    " ~3 t0 q6 j9 y! b5 x1 w: H所有位置的切图都是分离的,后期导出时同时导出对应信息
    # P4 g: l4 w: Q0 w; h7 f, G也就是:词条+页码+切图图片名(1~多个)

    该用户从未签到

     楼主| 发表于 2017-2-1 02:04:52 | 显示全部楼层
    teresaiao 发表于 2017-2-1 01:58$ g% ~& h* N% X+ z8 e
    終於都會做了, 可是我想問用你那個軟件, 如果轉頁, 或解釋在第二欄, 要怎麼合併?

    , w! l' i5 Y3 x% f你下载了那个红葡汉词典 查一些释义特别长的单词 就可以了解到啦 DSL.dz 可以使用解压缩软件还原为.dsl 文本的 你打开就可看到词条结构

    该用户从未签到

    发表于 2017-2-1 03:39:23 | 显示全部楼层
    本帖最后由 teresaiao 于 2017-2-10 13:46 编辑
    ! m; s7 y% f, l! ^, a+ f  f$ U: o8 o
    chigre3 发表于 2017-2-1 02:04' k* Z, O# ~/ s; z8 ?$ G9 s( H9 Z/ @
    你下载了那个红葡汉词典 查一些释义特别长的单词 就可以了解到啦 DSL.dz 可以使用解压缩软件还原为.dsl  ...

    ! R* S/ \& q* R3 F+ r, u, |$ o2 K; I# c
    如何才能固定
      X! Q$ z2 v9 i5 C3 {/ J6 _) c3 {9 i( B
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-4-25 06:06 , Processed in 0.071552 second(s), 14 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表