掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 17428|回复: 73

[工具] 20181130更新_自动画线+OCR+切图+校对 软件

  [复制链接]

该用户从未签到

发表于 2016-11-15 20:14:56 | 显示全部楼层 |阅读模式
本帖最后由 chigre3 于 2018-11-30 08:14 编辑 ! j& i1 q+ g- n, x1 w. A7 o( A6 B

. u5 H' e  v) W) i( ]6 T) G4 ~一、致谢:
' K& s0 P1 W6 z  e  感谢 @vbnet 的自动画线测试版, 现在经过个人修改, 几乎完全删除了原先的内容, 软件名称仍为 Picture Capture
/ r, D2 o3 I; U" Y" Z; P  感谢 @孤影 的自动划线软件, 给了很多界面上的参考
' }2 `, h1 B5 p8 ~, {------------------------------------------------------------------------9 P# z. o* W( Y% f* P
二、这个软件有什么用呢???
# Q7 [1 O5 H% l9 q, \4 g' X  极大地提高制作图片版词典的效率,现在个人需要做的事情仅仅为:- R; s9 W% D- U4 p7 ~7 o
  1. 前期的图片处理:Abbyy Finereader(整体校直)、Photoshop(模板调位置, 统一)、ComicEnhancerPro(转换格式、大小) 等$ z# ]. R* O6 |8 F
  2. 使用本软件进行:
# I% z5 [; ?- L   (1) 全部页面的 自动划线-->自动OCR# G" X9 w( O. D# I% c& R8 y
   (2) 逐页校对划线和文本(可删可增)" M- v  p0 m0 H* N$ b2 C' m
   (3) A.合并 .pdic (词条 + 坐标信息) --> Excel 模板 --> 文本替换 --> 精确高亮定位 整页版 图片词典9 q- q7 S! J- m. q5 j4 C9 D  E  Q
      B.导出单词整体切图 --> 合并 .PWWords (词条+图片名称) --> 文本替代 --> 切图版 图片词典
( u9 y+ P1 y+ l/ X3 [+ A" y------------------------------------------------------------------------
4 y- F" D6 L* g' C. K9 Z& W三、实现的功能:
7 Q3 \5 l% a( _9 S$ {+ u7 d/ F3 _  1. 画线:
# j" ~, \3 R$ q+ j* t   (1) 自动分析页面 + 自动画线
+ R4 c- i$ N1 b   (2) 手动模式定义页面 + 自动划线
+ q0 Q/ g3 N; ~4 L   (3) 鼠标右键单击修改单栏重新自动画线
* Q2 q9 |; h6 e' S% Z; b   以上均 + 鼠标左键单击增加画线, 文本框内快捷键`删除划线
. l6 C) s3 D: t0 N) w. f& N3 P+ K
; u6 T$ ~, u- A% @7 j/ V  2. OCR:
4 u0 W7 X" U! f6 }* C' \% J! v9 Q   采用Tesseract OCR, 具体语言文件 tessdata 可以到官网下载:https://github.com/tesseract-ocr/tessdata8 Q! U' {) Y+ O9 m  h4 f& G1 N
   (1) 导出文本:可外部编辑后导入, 避免OCR单个切图的不足, P: F6 [9 d+ T/ X+ D6 T" b, t
   (2) 导入文本
" W7 j4 K1 k% X   (3) 1 + 2:直接将OCR结果导入当前页面的文本框 --> 校对) y8 n# z5 c2 u* ?" f3 V5 n& j. u
   外置批量替换表达式文本, 可自行创建和编辑, 适应各个词典不同OCR处理的场景3 M( o/ b/ L8 |" }. q( n* K
* X5 ~% C! r& L( _
  3. 切图:$ g$ l3 Z! t6 C  s+ D
   (1) 词条单行切图:也可以使用外部其他OCR软件处理,或者其他用途
" n! K$ ~; m  G   (2) 词条整体切图:实现切图版图片词典的制作(背景透明,不过目前需要其他PNG优化软件缩减大小:https://www.pdawiki.com/forum/thread-19157-1-1.html8 m. b# G2 P; V7 m3 X6 ?
    (实例1:[英-汉] 20161113《英汉大词典(第2版)》10页单词 切图版  https://www.pdawiki.com/forum/thread-19015-1-1.html2 c9 ?, N/ I2 |$ n0 J. x, q
    (实例2:新西汉词典 切图版 https://www.pdawiki.com/forum/fo ... 6545&fromuid=174481
& X; L% V* B* u; N  d    
" W: N* D5 C; w0 d; J+ N   可实现仅导出切图坐标等信息,不导出切图,方便使用外部软件进行. V. Y0 t/ h/ R# b2 U
    0 I9 |, y% w1 g- v; C

, `7 D: g% @" V# S( |" v) k  4. 校对:* b& a0 K/ m2 P
   列表式样, 与主窗口同步更新文本框内容, 也高亮匹配提示
  ?; G4 n. `0 a  k! A% [
# H3 b) D0 Y9 W4 ^" }1 ?7 a9 Y  5. 其他:
& k- r9 a8 P+ B( B, T5 F! l   (1) 配置文件保存、导入
8 V2 s  U8 _) H: I* `$ u9 Z! T/ ^   (2) 自动下一页+操作(定时):自动保存、自动画线、自动OCR、自动切图。方便无人值守完成相应任务( n3 [+ X" g1 R0 J! Z7 L! ^+ z
   (3) 最重要的还是要人工校对!!!!
7 U; A3 u5 `$ k   (4) 高度自定义参数设置
( A/ L8 v4 I, b' A, i4 l4 x------------------------------------------------------------------------, [2 X# }# D/ p  e
如题,放个图:! q- B1 y1 b4 R2 Z% x
- e* w* e% ?+ ?( Q
  J3 r) M* w6 b6 e& @
0 K5 }2 h. H- [
9 @6 Q( g: H# `- \! [) b# I
截图内的词条文字为OCR结果- e. {: f" }# m* e- k
' s8 j, ~0 A* h8 N0 T& C

# @$ b* o7 s6 G, }& Q2 R0 v1 p; i( w* E, y; `2 v/ S/ R
----------------------------20181130更新:
' z$ w7 L& r/ _1 I* h校对窗口增加按当前提示索引(全部或部分)填充当前划线的文本框!
( X1 S! Z8 |1 z  x1 v/ q/ ~----------------------------
! d% C- L+ u. ]* w20180809更新:
+ o5 `( e# y) G1 J9 ^: U插图画区域由之前的矩形升级为任意多边形6 |/ a5 x0 z# i0 z
/ P! j; W4 G) w, H9 C
) B  D- n( ^3 a" u" ^* a& ]$ y7 r
----------------------------- P. Q& D  D$ T( L4 G/ o; @
20180614更新:* i* _1 B) R& T' e
在校对界面中增加一列单词,即大词库表中 上页末单词和本页末单词 之间的所有单词。+ _3 [* w! g6 v* z; ]' Y8 ]5 k* ~( `
单击则替换当前校对文本框中的文本!
8 L$ K- u4 k7 o8 R* j# M0 M不同颜色提示,方便定位!
+ ~. u$ f0 {2 v+ D+ i# T7 f
- Y. c5 A( g9 C+ ^8 F( @' X' d1 L/ \
* ~4 A* W/ j+ R  ]4 r6 ?. j6 F
----------------------------
, b) T; C8 N% }, t20170314更新2:; e# `7 F3 C8 K* L6 U; w
校对界面修改如下,增添更多特殊字符(aeiou等),方便校对的时候直接复制粘贴:
# C4 x5 W/ \# i7 t# N
: |% D: n7 r) H: B2 x1 W6 J8 y2 L
: S% u* P) ~' z7 w; Q+ T20170314更新:; _$ X; V' Y$ l& I% W; N% }
起始页-->终止页' w9 A4 ~6 y1 m# m
[切图]-【词条整体切图】0 X2 H! ?9 q% w6 R# Z
---> 会直接把范围内的页面的所有单词切图导出(软件界面会有假死的状态,不用理会,导出结束就OK了)8 Y0 H3 D& O: [. t2 U) g
如果起始页和终止页为空,则导出当前页的词条切图+ t! x2 n2 k9 M" i* b9 z
2 ~0 `; L# l5 |: [" o
在校对界面时,主界面【√隐藏线框】,那么此时就只有颜色框(平行线宽)5 S& ]0 V  K- o& B5 Y% b
当前词条亮黄色,其他还是红色% A; ]( j' x  W- q* w. H$ \1 y
这儿主要是考虑到有时候词条不只是单行,多行的时候可以方便查看。
* }9 w" H! O% v- ]: G  h, `
1 d* m+ _( ^& C8 k6 G5 J% b----------------------------
9 B6 M+ C0 ~, F0 m0 ~9 ~20170313更新:& r# g8 y+ d% H; O0 j1 W
1. 词条整体导出切图的判断逻辑的补充(3栏以上时,位于不同列的上下单词中间隔了空列。之前这个情况未考虑到), J# H5 o% ]' l: U
  【仅修改了:从PDIC整体导出切图的坐标数据的这部分补充内容】! U# ~1 t9 S% ^2 a* `
----------------------------
0 J1 L% a: o# n9 `4 S20170217更新:
. q( I6 F2 y' Z# ~1. 画线判断的方法改进(2种方法均改进)' m: m& S% y% q) U, `" b4 ]
----------------------------% `( Z% s5 {5 K3 Y% j
20170115更新:
& g& L* }. X9 U" U1 p5 n1. tessdata 的完整语言列表,具体语言移步【https://github.com/tesseract-ocr/tessdata】下载
5 H) P+ F0 K6 e, v0 T; C! Y) B2. 在图片文件名列表上方的文本框里输入“SMALL”,点击【校对】,每个词条行的缩略图切图(非原始图片上裁剪)% E8 X+ }* R5 _& x5 ?" w
----------------------------. S' x3 d6 f9 ^+ t
20161119更新:$ e& @2 g1 u/ e9 g0 a' R# V% _& t+ }
1.修复保存坐标数据时的bug
& ^4 L0 [% p  B1 o5 k2.修复单词整体导出页面的一个bug
5 Q+ C+ m- V3 A8 G$ G8 ~3.增加功能: 选定范围页面的批量导入词条
. n5 @! M' g& {& Y  c4.增加功能: 快速查找定位索引3 w# B  p/ m/ o
----------------------------
' n0 F" d" W3 J/ Q4 r% w7 e20161123更新:' S& F/ c2 ^+ n$ W) ?7 }; j7 ^
重写词条整体导出切图的判断逻辑,现在应该不会有切图坐标不一致、切图数目不一致的情况了。
& z1 R$ l% ]0 Y) s7 s4 A" ~3 A6 |* V, [$ u5 }
  1. 问题:页面是否有词条?8 E1 I* ^7 x  T# }
  2. 1. NO --> 直接导出和栏数一致的大切图 (标记为上页末词条续)7 t9 d% p. {8 s+ i
  3. 2. YES -->
    % g4 c6 h1 z7 b) h( P& \, A2 n
  4.  (1) 确定0号词条所在栏:
    3 ]5 x( y3 _; `  W" y
  5.   --> 0号词条所在栏之前的栏, 直接导出大切图 (标记为上页末词条续)
    $ q$ `8 b: I* b4 X0 B9 f% j5 H- ]
  6.   --> 0号词条所在栏上方若还有部分上页末词条接续, 则导出切图 (标记为上页末词条续): c5 |: G* _- h8 k
  7.  (2) 次数为所有词条数目的循环:
    $ O; v: M" d, b; Y6 |0 W& l
  8.   A. 若: 当前为最后一个词条 --> 确定高度0 g; }3 F, A8 c# K5 [
  9.   B. 否则:
    9 w0 A0 x5 S% F1 [
  10.    a. 下一个词条在下一栏 --> 确定高度& \) \. @8 Y6 w" J% o  d2 {
  11.      --> 如果当前词条在下一栏仍有接续 --> 导出切图 (标记为当前词条接续2)
    1 B6 M( w; k: \! E8 y( s, y
  12.    b. 下一个词条在同一栏 --> 确定高度& s7 A$ U% I7 j9 I# u1 _) a# n
  13. # E4 F4 M' I; N) s  P' C
  14.   --> 导出每个词条的切图
    9 c3 i  r" f: g
  15. # |8 j% J% G4 }  e# h- }
  16.  (3) 确定最后一个词条所在栏:# A7 [% W: |1 q& V4 M
  17.   --> 最后词条所在栏之后的栏, 直接导出大切图 (标记为本页末词条续)
复制代码

4 g  V: W& M. L/ y
! r$ Z( H: j6 p' b' k; I重要更新:
  G+ R  R0 K$ \9 a1. 词条整体切图模块重写2 x8 @  e6 N+ s
2. 增加根据.pdic导出所有图片切图信息(+切图)--> 几十秒【如下面动图GIF】
# O' O' f5 W: k3 {! v7 D" `# p
( ?- t' |+ u  L
+ [- f' N* t# h. p; R9 Q  u; S! \1 V) B9 h
2016.11.28
" R( E( d# W8 N5 L  v更新:一个小小的bug(跳过页首处下方如果单行接续,会因为判断的距离和行高过于接近造成缺漏 --> 修改了公式)! }: p3 y& f# R  B5 J+ `8 I  {

9 a$ K9 d9 m  e  D

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?免费注册

x

评分

1

查看全部评分

本帖被以下淘专辑推荐:

  • TA的每日心情
    奋斗
    2022-1-12 06:11
  • 签到天数: 118 天

    [LV.6]常住居民II

    发表于 2018-2-23 08:45:34 | 显示全部楼层
    请问大神,软件在哪儿有下载啊

    该用户从未签到

    发表于 2017-2-1 12:03:46 | 显示全部楼层
    本帖最后由 teresaiao 于 2017-2-10 13:47 编辑
    + G7 d$ T$ K: e5 p3 R$ @. K: Z; s8 d4 V( h% O0 \
    我在第一頁設置了參數和保存了, 第二頁的紅色豎線就移位了, 是不是參數有問題?

    该用户从未签到

     楼主| 发表于 2017-2-1 04:49:02 | 显示全部楼层
    teresaiao 发表于 2017-2-1 03:393 r7 {5 @1 ^2 s' s4 p
    嗯,字典裏看得到了,真的快很多,基本上是要用photoshop和打詞條就好。 另外那個自動畫線,我在第一幅弄 ...
    0 P$ l) ?* v8 [) F. ?$ Y8 n/ J+ j* @
    PS 模板 移动位置 让每一张图片位置都一样 这样在软件里你设置了的参数就会是全局通用的 之后便可以全自动全部页面划线 紧接着就可以OCR

    该用户从未签到

    发表于 2017-2-1 01:58:45 | 显示全部楼层
    本帖最后由 teresaiao 于 2017-2-10 13:46 编辑 5 h7 f" H# b: I2 O; C9 \

    & o4 H$ j3 t) @& i" F6 s7 a可是我想問用你那個軟件, 如果轉頁, 或解釋在第二欄, 要怎麼合併?

    该用户从未签到

    发表于 2016-11-26 13:05:03 | 显示全部楼层
    感谢chigre3,待我有空可以把汉语大字典图片版做一下了。

    该用户从未签到

     楼主| 发表于 2016-11-17 00:34:06 | 显示全部楼层
    group1234 发表于 2016-11-16 23:30
    7 b, @# U$ @  l2 W8 K製作圖片辭典的福音,可以節省非常多的時間,期待軟件分享~~~
    : C; L( A6 q6 j3 |& Y
    是的,这个软件确实极大提高效率,
      O1 R: P3 f) |$ a" d现在个人需要做的事情仅仅为:
    " K$ Z2 a- a4 U! M1. 前期的图片处理:Abbyy Finereader(整体校直)、Photoshop(模板调位置, 统一)、ComicEnhancerPro(转换格式、大小) 等* Z; Z" f7 F" p' _# J- j+ A* X
    2. 使用本软件进行:
    & D" u6 i: L: f (1) 全部页面的 自动划线-->自动OCR3 L# [! Q1 s# j$ d8 X3 C
     (2) 逐页校对划线和文本(可删可增)/ I' w1 S; V( L6 T- ^
     (3) A.合并.pdic (词条+坐标信息) --> Excel模板 --> 文本替换 --> 精确高亮定位 整页版 图片词典
    6 A; v: Y0 r4 j    B.导出单词整体切图 --> 合并.PWWords (词条+图片名称) --> 文本替代 --> 切图版 图片词典# D5 \/ k5 p6 F: E# W9 g) d7 }2 A

    该用户从未签到

    发表于 2016-11-15 22:50:35 | 显示全部楼层
    逆天还是吊炸天了。。。。。

    该用户从未签到

     楼主| 发表于 2016-11-16 02:11:49 | 显示全部楼层
    本帖最后由 chigre3 于 2016-11-16 02:22 编辑 % N7 O+ P: _# w# N8 i2 o7 j4 u2 K

    6 h7 K5 {" z7 E. y" P; N比如《现代汉语词典》也可以画线和OCR、切图等:& U5 T# j4 C$ O* G* T% l( f' H
    ----------------------------------------------------
    - x7 K3 Q. v+ s- \画线时:1 y0 }( V' X, z. N
    [行间距离]: 17' v3 |1 ^7 H7 C; U- w! G
    [向右倍率]: 1/1.0
    - j' |3 m% I! k- h2 q
    ( i; x% V8 K9 }" f6 {2 D% j+ NOCR时:$ q2 S5 A7 S# k
    [行间距离]: 10" J4 B+ |! ~# ?/ }% Q( L& V
    [向右倍率]: 1/3.0
    2 ~+ z) g/ f! I文本框匹配都是红色,因为没有加载中文的词条索引来进行匹配检查
    ( F& t) r' w7 G( p. [% O/ O6 u0 Q' H- q' j  N- P1 S' E

    3 Y/ ~$ u! p( W/ r$ {, O) R  o, W1 R

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

    发表于 2016-11-16 07:12:22 | 显示全部楼层
    几乎只剩下人工校对工作了

    该用户从未签到

    发表于 2016-11-16 08:09:02 | 显示全部楼层
    chigre3 发表于 2016-11-16 02:11
    8 U* R$ d5 \/ [; J比如《现代汉语词典》也可以画线和OCR、切图等:
      z3 A. y: f. L' E& Y" \----------------------------------------------------
    3 t1 i5 ], m6 t, b2 c/ f" k ...

    $ z2 W" _# ]! a4 N; s0 z歪图问题,上下页不对齐,某些不是矩形栏的排版,3栏以及3栏以上,不知道能不能处理?

    该用户从未签到

    发表于 2016-11-16 08:46:56 | 显示全部楼层
    提示: 该帖被管理员或版主屏蔽

    该用户从未签到

     楼主| 发表于 2016-11-16 17:36:45 | 显示全部楼层
    644830104 发表于 2016-11-16 08:09
    + _" y! h- ?$ H7 ], t0 ^歪图问题,上下页不对齐,某些不是矩形栏的排版,3栏以及3栏以上,不知道能不能处理?

    " M; w3 J0 j* C5 F) l* d所有图片统一修图 还有轻微歪斜能够画线
    . L7 @& N: i. P! I8 u图片不处理到一致规格 那最多用来划线切图OCR 每一页还要设置参数 7 T7 R0 h' X8 p8 K8 ~
    不规则形状不考虑
    % m- R0 n9 }2 G  a! s+ c* N4 h& F支持N栏
  • TA的每日心情
    开心
    2019-6-28 11:53
  • 签到天数: 28 天

    [LV.4]偶尔看看III

    发表于 2016-11-16 23:30:48 | 显示全部楼层
    製作圖片辭典的福音,可以節省非常多的時間,期待軟件分享~~~* }& r5 p0 y) ?( T% f4 l
  • TA的每日心情
    慵懒
    2023-2-4 11:26
  • 签到天数: 579 天

    [LV.9]以坛为家II

    发表于 2016-11-17 17:28:54 | 显示全部楼层
    这个绝对是神器
  • TA的每日心情
    开心
    2018-5-8 11:51
  • 签到天数: 18 天

    [LV.4]偶尔看看III

    发表于 2016-11-20 01:16:53 | 显示全部楼层
    激动不已!跃跃欲试

    该用户从未签到

    发表于 2016-11-20 09:18:39 来自手机 | 显示全部楼层
    哇,很牛的软件,期待chigre3的分享。
  • TA的每日心情
    开心
    2020-12-9 19:29
  • 签到天数: 27 天

    [LV.4]偶尔看看III

    发表于 2016-11-22 17:12:18 | 显示全部楼层
    这个软件太厉害了
  • TA的每日心情
    开心
    2020-12-9 19:29
  • 签到天数: 27 天

    [LV.4]偶尔看看III

    发表于 2016-11-22 17:13:11 | 显示全部楼层
    提示: 该帖被管理员或版主屏蔽

    该用户从未签到

     楼主| 发表于 2016-11-26 09:05:40 | 显示全部楼层
    【20161125更新】《葡汉词典》切图版
    6 v/ p/ O1 i' W6 ~https://www.pdawiki.com/forum/fo ... &fromuid=174481
    $ q. f- P7 m+ P; Z$ C" Z( ?2 l0 r8 Q(出处: 掌上百科)
    : U. Z% d7 ~) l1 [( g4 Q

    该用户从未签到

    发表于 2016-11-27 08:21:42 | 显示全部楼层
    C大神器,谁与争锋?创意无限,匠心十足。佩服佩服。

    该用户从未签到

     楼主| 发表于 2016-11-27 20:23:37 | 显示全部楼层
    切图版后续:9 Q' t; \; ]# R2 N/ e5 N, V" d5 u
    因为切出的图片数目极多,目前想法是:
    1 w: p' W. ?! Q  ?# ~3 B9 P. S(1) 制作成MDX/MDD格式, CSS不内嵌入MDD, 外置CSS, 方便个人设置/ m6 w/ h% s7 [' W9 X8 u- e
    (2) 制作成DSL格式, 图片资源直接打包zip
    6 H9 i1 V& d$ B4 e+ p( W

    该用户从未签到

     楼主| 发表于 2017-2-1 02:01:35 | 显示全部楼层
    teresaiao 发表于 2017-2-1 01:587 W: x' d9 D3 B. O
    終於都會做了, 可是我想問用你那個軟件, 如果轉頁, 或解釋在第二欄, 要怎麼合併?

    " U4 e) T2 [6 y所有位置的切图都是分离的,后期导出时同时导出对应信息
    - T- i# m2 D' A+ H' a" m也就是:词条+页码+切图图片名(1~多个)

    该用户从未签到

     楼主| 发表于 2017-2-1 02:04:52 | 显示全部楼层
    teresaiao 发表于 2017-2-1 01:58( W+ i5 A7 w5 S( \2 D
    終於都會做了, 可是我想問用你那個軟件, 如果轉頁, 或解釋在第二欄, 要怎麼合併?

    / g- o$ Y2 R4 H8 w3 @3 c你下载了那个红葡汉词典 查一些释义特别长的单词 就可以了解到啦 DSL.dz 可以使用解压缩软件还原为.dsl 文本的 你打开就可看到词条结构

    该用户从未签到

    发表于 2017-2-1 03:39:23 | 显示全部楼层
    本帖最后由 teresaiao 于 2017-2-10 13:46 编辑 6 I8 ?" P% o5 j0 \# Q$ c& W4 N
    chigre3 发表于 2017-2-1 02:040 D9 o. o) y1 v2 a. n
    你下载了那个红葡汉词典 查一些释义特别长的单词 就可以了解到啦 DSL.dz 可以使用解压缩软件还原为.dsl  ...

    ( N' ]3 |! I9 s; {2 M! W$ X* W
    9 E3 _" n! @2 ?/ Y. O# p  U如何才能固定) n( \# K" Z" G3 e0 B; b( M9 ?; |/ s6 ?
    # F" d- q# m9 }/ @3 @5 b$ Y
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-4-20 18:09 , Processed in 0.065848 second(s), 11 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表