掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 15602|回复: 67

[工具] 20181130更新_自动画线+OCR+切图+校对 软件

  [复制链接]

该用户从未签到

发表于 2016-11-15 20:14:56 | 显示全部楼层 |阅读模式
本帖最后由 chigre3 于 2018-11-30 08:14 编辑
+ a5 l6 _) _6 m" l, s6 H; F/ q1 `! a0 p
8 W- F+ s8 D& f8 o2 f/ F一、致谢:: N# b, q, M; x
  感谢 @vbnet 的自动画线测试版, 现在经过个人修改, 几乎完全删除了原先的内容, 软件名称仍为 Picture Capture
! x3 |) t0 X$ t, m* U& z  感谢 @孤影 的自动划线软件, 给了很多界面上的参考
3 @' d6 Q4 {! G------------------------------------------------------------------------
1 t5 b! e9 w' Z2 D: s3 T二、这个软件有什么用呢???
( T% D8 T2 b, D! s. {4 l  极大地提高制作图片版词典的效率,现在个人需要做的事情仅仅为:0 c( ~" ~6 E2 \: ]# P$ Q9 j
  1. 前期的图片处理:Abbyy Finereader(整体校直)、Photoshop(模板调位置, 统一)、ComicEnhancerPro(转换格式、大小) 等( O) O+ G5 k- o$ o
  2. 使用本软件进行:
% P/ y7 N& m, ?   (1) 全部页面的 自动划线-->自动OCR1 _" a; o: p( u8 ]
   (2) 逐页校对划线和文本(可删可增)
" b# v( G* E, v/ c   (3) A.合并 .pdic (词条 + 坐标信息) --> Excel 模板 --> 文本替换 --> 精确高亮定位 整页版 图片词典0 O' Y* S, e0 [3 T7 ?5 g
      B.导出单词整体切图 --> 合并 .PWWords (词条+图片名称) --> 文本替代 --> 切图版 图片词典
# K. x1 Z# t8 b1 G+ l: |------------------------------------------------------------------------% @+ a( a. M# E' n
三、实现的功能:/ v8 Z! j+ @6 i( r
  1. 画线:7 T, Y1 o% b; H& Z
   (1) 自动分析页面 + 自动画线6 I* f! }) ?1 _* [! r
   (2) 手动模式定义页面 + 自动划线6 a; [* n$ t, _: d' t# p; d8 s7 G  Y
   (3) 鼠标右键单击修改单栏重新自动画线; {1 j% Y8 m$ n, n
   以上均 + 鼠标左键单击增加画线, 文本框内快捷键`删除划线$ w- @8 O, f( S- ]# \

) B" H/ c3 m" }2 g* ?$ ~  2. OCR:
' ^: n) ?7 W$ @8 [   采用Tesseract OCR, 具体语言文件 tessdata 可以到官网下载:https://github.com/tesseract-ocr/tessdata
* i5 y9 U8 |( h6 D   (1) 导出文本:可外部编辑后导入, 避免OCR单个切图的不足
3 T" u6 N2 q3 S   (2) 导入文本% o0 h( y9 O. H9 c7 i6 i
   (3) 1 + 2:直接将OCR结果导入当前页面的文本框 --> 校对
0 C$ S# ~- n3 G6 I6 a- s! }/ a9 k   外置批量替换表达式文本, 可自行创建和编辑, 适应各个词典不同OCR处理的场景& f4 S' M# i6 b. M' M" a7 P
; N/ |% \% }- T4 m3 ^3 P9 O
  3. 切图:2 E7 Z! T0 x: T! C( f1 l4 W4 Z
   (1) 词条单行切图:也可以使用外部其他OCR软件处理,或者其他用途
! z- i4 @; v6 R: m% N( N0 T   (2) 词条整体切图:实现切图版图片词典的制作(背景透明,不过目前需要其他PNG优化软件缩减大小:https://www.pdawiki.com/forum/thread-19157-1-1.html1 d- X9 r$ ]8 s( n. n
    (实例1:[英-汉] 20161113《英汉大词典(第2版)》10页单词 切图版  https://www.pdawiki.com/forum/thread-19015-1-1.html9 G6 ^' B8 \( v6 v: y$ y/ |
    (实例2:新西汉词典 切图版 https://www.pdawiki.com/forum/fo ... 6545&fromuid=174481
% Y" N% g3 x9 T0 j6 H    # U4 r  O6 L+ j: R( w
   可实现仅导出切图坐标等信息,不导出切图,方便使用外部软件进行8 X4 R3 D2 D- h7 \. Z6 c
    $ O. g4 ~7 i. m

3 e- k# x! l& o/ d6 t  4. 校对:! ]/ W6 E- R: ~2 y% J
   列表式样, 与主窗口同步更新文本框内容, 也高亮匹配提示
+ |& A# |7 N& {6 v8 t0 Z. F, l$ p: m0 t6 `& H) P
  5. 其他:6 W, [& R  B. t4 |& t  t5 w
   (1) 配置文件保存、导入
1 i, r- {& _6 I  ^- R( C   (2) 自动下一页+操作(定时):自动保存、自动画线、自动OCR、自动切图。方便无人值守完成相应任务
5 @: r- L& y% N* E   (3) 最重要的还是要人工校对!!!!: l% M9 u3 n) s# L2 A' G5 l; F2 d
   (4) 高度自定义参数设置
5 X. ^: q, m$ s9 h! S- S2 p------------------------------------------------------------------------
; j) C* F% ?6 Q# R如题,放个图:
& e) n, e/ R2 @7 S8 I% t# ~1 J1 r' ^8 V0 l" p/ c

! X2 w5 [% g% w  ]. y, @
" E0 U1 {. [, N% U* V9 q' h, v
: V* W& V2 j4 a& g5 E$ M截图内的词条文字为OCR结果
0 s" B4 C$ e! h' O6 J! C1 V# x% N1 ]5 r0 @4 ?
# `( `/ A, X3 E. f
* d' m6 }+ ^0 m6 i/ C& [
----------------------------20181130更新:
! m, J' g6 W: g2 B  ]3 C& P校对窗口增加按当前提示索引(全部或部分)填充当前划线的文本框!
9 z; M! K1 V# Q. A* r- N----------------------------/ l0 O* z0 D( Y
20180809更新:7 R7 f# E5 V1 Y6 S& X
插图画区域由之前的矩形升级为任意多边形- r% f) w! j" [7 M, _2 k

( Z( h% D! Q( `; l/ N$ [. H! f
7 ~% A3 W; p; u% G+ N- `2 ?; S# {----------------------------
4 k) C5 t1 X8 N! G+ Q20180614更新:
! i6 m1 |& P, _在校对界面中增加一列单词,即大词库表中 上页末单词和本页末单词 之间的所有单词。
. e" n7 ^6 [; B单击则替换当前校对文本框中的文本!
/ C) X5 r/ _. B' a不同颜色提示,方便定位!
- l. x- k; O6 O$ b: B, g% Q8 l9 ~: O! d+ }# i

( g0 @+ `& P% u* g1 |/ L5 e
& P$ T- n0 t8 q7 R+ A7 {  _----------------------------( q5 R% X: F( N$ Z4 k# q, q* a
20170314更新2:0 k' v3 v, P  n* e; _; e
校对界面修改如下,增添更多特殊字符(aeiou等),方便校对的时候直接复制粘贴:& e& J6 V; S& H. i
  d% f0 O6 r* H1 A8 u. [7 r4 g
( J4 V$ _5 G$ G1 B; b( B* ^. h
20170314更新:
( y9 E3 J/ ^& U$ {" O: u- g起始页-->终止页
- O& I% [7 z' i[切图]-【词条整体切图】
' P( w0 S/ T, z2 }6 Q8 C6 ~) \# U---> 会直接把范围内的页面的所有单词切图导出(软件界面会有假死的状态,不用理会,导出结束就OK了)3 B" d' i7 \' v" v1 K7 E
如果起始页和终止页为空,则导出当前页的词条切图4 ^; ]- n/ x$ v+ o, X6 L

" Z! g  p# O; z在校对界面时,主界面【√隐藏线框】,那么此时就只有颜色框(平行线宽)
" F' g! j( M; z' y6 N0 q: n; F当前词条亮黄色,其他还是红色
: m7 Q- Q; R2 J5 e3 G. t# P这儿主要是考虑到有时候词条不只是单行,多行的时候可以方便查看。
6 Y8 t# s- [4 r) Z" D5 k
0 @9 V2 ?- N- s3 z& U' L* I' I----------------------------1 N* }4 B7 S0 S
20170313更新:
: _" D" A2 `" V7 o+ W+ Y7 e1. 词条整体导出切图的判断逻辑的补充(3栏以上时,位于不同列的上下单词中间隔了空列。之前这个情况未考虑到)& n. S* I) ^+ X  A
  【仅修改了:从PDIC整体导出切图的坐标数据的这部分补充内容】
8 y! }0 l* c/ o/ U----------------------------( a- p9 D- n# p  z  W5 L  ?
20170217更新:0 K6 a# g+ V# @+ f9 l% P
1. 画线判断的方法改进(2种方法均改进)7 n3 N! f+ h  x4 B2 L
----------------------------
2 G0 R: U- z+ e: S7 q2 W5 C20170115更新:
' p+ }" L6 K9 m1. tessdata 的完整语言列表,具体语言移步【https://github.com/tesseract-ocr/tessdata】下载
, K) O5 M$ S. b& ]$ i, d" z+ s3 d2. 在图片文件名列表上方的文本框里输入“SMALL”,点击【校对】,每个词条行的缩略图切图(非原始图片上裁剪)1 {/ t/ P' i7 V
----------------------------$ K0 s8 f$ r5 W+ R5 n' O
20161119更新:$ y$ B4 v; d1 d
1.修复保存坐标数据时的bug  G8 q! t" T+ N2 c! v  B. \9 q
2.修复单词整体导出页面的一个bug; V) O# `" I- r  d
3.增加功能: 选定范围页面的批量导入词条# a* q0 P3 i, J) |0 t
4.增加功能: 快速查找定位索引5 R( h4 L, q7 z/ S, {' x5 Y) Y
----------------------------. I& s# t4 A6 a
20161123更新:
) `- Y/ i& M! X% a; A重写词条整体导出切图的判断逻辑,现在应该不会有切图坐标不一致、切图数目不一致的情况了。
* H, d4 w. h; R$ W5 g  S  W0 X! {  V
  1. 问题:页面是否有词条?
    ' i' y- Z  `  C0 j
  2. 1. NO --> 直接导出和栏数一致的大切图 (标记为上页末词条续)1 d3 V& H! y: i8 P: Q2 T4 O# D
  3. 2. YES --> . M+ J* |& }2 ]. V; w: p- C  l
  4.  (1) 确定0号词条所在栏:
    ' z" k2 B+ M$ E- V6 ^4 r; }
  5.   --> 0号词条所在栏之前的栏, 直接导出大切图 (标记为上页末词条续)
    " k1 y- c7 A/ H. W2 ^- J
  6.   --> 0号词条所在栏上方若还有部分上页末词条接续, 则导出切图 (标记为上页末词条续)4 \8 O6 I' p2 V9 w
  7.  (2) 次数为所有词条数目的循环:. o- k! X$ X; o& K
  8.   A. 若: 当前为最后一个词条 --> 确定高度
    2 c: X, u6 ]4 g1 J% U8 P
  9.   B. 否则:; {! w3 ]" f8 Z6 X6 f- u
  10.    a. 下一个词条在下一栏 --> 确定高度2 p  H- j$ `# \6 p, o
  11.      --> 如果当前词条在下一栏仍有接续 --> 导出切图 (标记为当前词条接续2)+ f; X+ I- E" B, `  W' A- }/ M0 S
  12.    b. 下一个词条在同一栏 --> 确定高度4 N) b+ K1 ]* l( i
  13. 6 u" _0 a' |4 m8 b; K+ b
  14.   --> 导出每个词条的切图) n  h2 n" L8 z$ X3 c3 |

  15. ( |4 v' t* \5 }& t5 E% g; |
  16.  (3) 确定最后一个词条所在栏:
    . w* Y# d2 Y( M' j! u( ^) T' _
  17.   --> 最后词条所在栏之后的栏, 直接导出大切图 (标记为本页末词条续)
复制代码
+ Y7 o- l  g6 K" f5 i

6 J+ l6 s+ F: M- P重要更新:
$ A: Y7 I8 o! r& t; A% s1 L1. 词条整体切图模块重写8 j9 C7 S  y& k5 M8 L$ p3 u0 o) S
2. 增加根据.pdic导出所有图片切图信息(+切图)--> 几十秒【如下面动图GIF】
% A( t/ e) z2 `
& I. R* [4 x3 a6 p- H- A* ]. l- M  h+ H+ {; I6 }. D
% Q6 f: o7 J" b( u% l; p; [0 Z/ i
2016.11.28  J. M/ S" c& G4 V- w
更新:一个小小的bug(跳过页首处下方如果单行接续,会因为判断的距离和行高过于接近造成缺漏 --> 修改了公式)% u$ R2 d' g3 F5 F' ^

* `+ ]+ }% h1 Z9 b

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?免费注册

x

评分

1

查看全部评分

本帖被以下淘专辑推荐:

  • TA的每日心情
    奋斗
    2022-1-12 06:11
  • 签到天数: 118 天

    [LV.6]常住居民II

    发表于 2018-2-23 08:45:34 | 显示全部楼层
    请问大神,软件在哪儿有下载啊

    该用户从未签到

    发表于 2017-2-1 12:03:46 | 显示全部楼层
    本帖最后由 teresaiao 于 2017-2-10 13:47 编辑
    , e. E5 P5 B0 j
    6 x6 I; U8 Z3 ]* u我在第一頁設置了參數和保存了, 第二頁的紅色豎線就移位了, 是不是參數有問題?

    该用户从未签到

     楼主| 发表于 2017-2-1 04:49:02 | 显示全部楼层
    teresaiao 发表于 2017-2-1 03:39
    7 B& b: _( S, t+ S0 c嗯,字典裏看得到了,真的快很多,基本上是要用photoshop和打詞條就好。 另外那個自動畫線,我在第一幅弄 ...

    ! ^: @" I2 j4 J; hPS 模板 移动位置 让每一张图片位置都一样 这样在软件里你设置了的参数就会是全局通用的 之后便可以全自动全部页面划线 紧接着就可以OCR

    该用户从未签到

    发表于 2017-2-1 01:58:45 | 显示全部楼层
    本帖最后由 teresaiao 于 2017-2-10 13:46 编辑
    % w6 c  [+ R" a# h- t3 l: C7 F
    % S# ]8 g# L& E* b3 ~3 ]1 b可是我想問用你那個軟件, 如果轉頁, 或解釋在第二欄, 要怎麼合併?

    该用户从未签到

    发表于 2016-11-26 13:05:03 | 显示全部楼层
    感谢chigre3,待我有空可以把汉语大字典图片版做一下了。

    该用户从未签到

     楼主| 发表于 2016-11-17 00:34:06 | 显示全部楼层
    group1234 发表于 2016-11-16 23:30; \6 q$ Z' ]4 L3 s5 l' Y$ Q
    製作圖片辭典的福音,可以節省非常多的時間,期待軟件分享~~~
    6 U! f% k+ Z, F8 e
    是的,这个软件确实极大提高效率,
    % y& Q: A8 q% A现在个人需要做的事情仅仅为:
    0 E- j8 t0 i' ^# w6 P1. 前期的图片处理:Abbyy Finereader(整体校直)、Photoshop(模板调位置, 统一)、ComicEnhancerPro(转换格式、大小) 等
    6 ^6 ?; _' }/ m6 e: B) }2 [2. 使用本软件进行:
    5 q  X& U5 n( l: Y% I (1) 全部页面的 自动划线-->自动OCR
    9 K7 d% L8 a3 t7 c (2) 逐页校对划线和文本(可删可增)( b, j7 q% q; V9 b  W9 _
     (3) A.合并.pdic (词条+坐标信息) --> Excel模板 --> 文本替换 --> 精确高亮定位 整页版 图片词典6 O. b7 O- y3 t) x1 s
        B.导出单词整体切图 --> 合并.PWWords (词条+图片名称) --> 文本替代 --> 切图版 图片词典: A7 z3 G6 C/ t6 U& C( x  q

    该用户从未签到

    发表于 2016-11-15 22:50:35 | 显示全部楼层
    逆天还是吊炸天了。。。。。

    该用户从未签到

     楼主| 发表于 2016-11-16 02:11:49 | 显示全部楼层
    本帖最后由 chigre3 于 2016-11-16 02:22 编辑 : D! z* S- F& ]: f$ ~
    1 Q  h+ |5 F+ F2 {1 t6 x
    比如《现代汉语词典》也可以画线和OCR、切图等:. M' y# E) B9 X1 O1 r; \9 ?' r
    ----------------------------------------------------
    5 C6 _; d% z2 m6 q/ y画线时:8 C) B8 D+ M) ^8 F
    [行间距离]: 17" C+ K4 M9 N" G
    [向右倍率]: 1/1.08 K* c8 t1 a& w( O2 J
    ; O) |; v7 J( f# k
    OCR时:* j" z( P. O( T: q2 u
    [行间距离]: 102 w5 g6 o$ ~5 A* }$ v: J
    [向右倍率]: 1/3.0
    - r% F/ H7 G% Y  t文本框匹配都是红色,因为没有加载中文的词条索引来进行匹配检查( ?' F) q- A9 z0 u

    , X! K) w" U1 w" }% m
    " M) T  S+ r: d/ T& q; R. n6 W) z" B% R4 E* X3 l$ d

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

    发表于 2016-11-16 07:12:22 | 显示全部楼层
    几乎只剩下人工校对工作了

    该用户从未签到

    发表于 2016-11-16 08:09:02 | 显示全部楼层
    chigre3 发表于 2016-11-16 02:11% }" A6 x% q4 _3 H
    比如《现代汉语词典》也可以画线和OCR、切图等:
    1 W9 A0 s# k' r----------------------------------------------------! V8 m) S8 L7 k  K  X8 s* ~
    ...

    $ M+ W" y2 W+ n  w7 K$ U7 Z歪图问题,上下页不对齐,某些不是矩形栏的排版,3栏以及3栏以上,不知道能不能处理?

    该用户从未签到

    发表于 2016-11-16 08:46:56 | 显示全部楼层
    提示: 该帖被管理员或版主屏蔽

    该用户从未签到

     楼主| 发表于 2016-11-16 17:36:45 | 显示全部楼层
    644830104 发表于 2016-11-16 08:09; \/ z) g- @; \" o1 J
    歪图问题,上下页不对齐,某些不是矩形栏的排版,3栏以及3栏以上,不知道能不能处理?

    - _  v. t( d1 V  l0 d8 w所有图片统一修图 还有轻微歪斜能够画线
    0 h3 C" j! j  l) P2 O图片不处理到一致规格 那最多用来划线切图OCR 每一页还要设置参数
    , r, C: U- Y' ~2 h& d不规则形状不考虑 & t. D# H( }$ x8 z. I4 Q! p' L
    支持N栏
  • TA的每日心情
    开心
    2019-6-28 11:53
  • 签到天数: 28 天

    [LV.4]偶尔看看III

    发表于 2016-11-16 23:30:48 | 显示全部楼层
    製作圖片辭典的福音,可以節省非常多的時間,期待軟件分享~~~8 Z. }7 C. n( p* z
  • TA的每日心情
    慵懒
    2023-2-4 11:26
  • 签到天数: 579 天

    [LV.9]以坛为家II

    发表于 2016-11-17 17:28:54 | 显示全部楼层
    这个绝对是神器
  • TA的每日心情
    开心
    2018-5-8 11:51
  • 签到天数: 18 天

    [LV.4]偶尔看看III

    发表于 2016-11-20 01:16:53 | 显示全部楼层
    激动不已!跃跃欲试

    该用户从未签到

    发表于 2016-11-20 09:18:39 来自手机 | 显示全部楼层
    哇,很牛的软件,期待chigre3的分享。
  • TA的每日心情
    开心
    2020-12-9 19:29
  • 签到天数: 27 天

    [LV.4]偶尔看看III

    发表于 2016-11-22 17:12:18 | 显示全部楼层
    这个软件太厉害了
  • TA的每日心情
    开心
    2020-12-9 19:29
  • 签到天数: 27 天

    [LV.4]偶尔看看III

    发表于 2016-11-22 17:13:11 | 显示全部楼层
    提示: 该帖被管理员或版主屏蔽

    该用户从未签到

     楼主| 发表于 2016-11-26 09:05:40 | 显示全部楼层
    【20161125更新】《葡汉词典》切图版# V/ @4 Z0 l- |* {
    https://www.pdawiki.com/forum/fo ... &fromuid=174481- ~/ h; _5 M/ W/ r7 n, R; _
    (出处: 掌上百科)* M  y8 C" M% ~7 y& e: B

    该用户从未签到

    发表于 2016-11-27 08:21:42 | 显示全部楼层
    C大神器,谁与争锋?创意无限,匠心十足。佩服佩服。

    该用户从未签到

     楼主| 发表于 2016-11-27 20:23:37 | 显示全部楼层
    切图版后续:1 W' V% V6 G# W3 u! `
    因为切出的图片数目极多,目前想法是:
    0 x; C4 I% j6 c4 A$ j& l(1) 制作成MDX/MDD格式, CSS不内嵌入MDD, 外置CSS, 方便个人设置
    6 O% q& l- e5 S- \  W(2) 制作成DSL格式, 图片资源直接打包zip# s0 J$ X; ~. |

    该用户从未签到

     楼主| 发表于 2017-2-1 02:01:35 | 显示全部楼层
    teresaiao 发表于 2017-2-1 01:58
    ) a" [! p+ u2 g# j' U終於都會做了, 可是我想問用你那個軟件, 如果轉頁, 或解釋在第二欄, 要怎麼合併?

    4 o2 o! i; a; U/ m" |所有位置的切图都是分离的,后期导出时同时导出对应信息( N* Q/ C* i5 a- g
    也就是:词条+页码+切图图片名(1~多个)

    该用户从未签到

     楼主| 发表于 2017-2-1 02:04:52 | 显示全部楼层
    teresaiao 发表于 2017-2-1 01:588 |9 `7 }8 P6 i3 W( N8 Y( M
    終於都會做了, 可是我想問用你那個軟件, 如果轉頁, 或解釋在第二欄, 要怎麼合併?

    6 v6 Y9 B/ A* q1 w& s你下载了那个红葡汉词典 查一些释义特别长的单词 就可以了解到啦 DSL.dz 可以使用解压缩软件还原为.dsl 文本的 你打开就可看到词条结构

    该用户从未签到

    发表于 2017-2-1 03:39:23 | 显示全部楼层
    本帖最后由 teresaiao 于 2017-2-10 13:46 编辑 7 O3 u! y* E. E1 q7 W
    chigre3 发表于 2017-2-1 02:04
    0 Z! T; i% N# X0 P/ J" ~; [( g你下载了那个红葡汉词典 查一些释义特别长的单词 就可以了解到啦 DSL.dz 可以使用解压缩软件还原为.dsl  ...

    ( z) C3 W2 G" _5 L' `* R
    : J  X, F5 q5 K* ~1 N如何才能固定# L8 q$ ~% P- x  g9 f4 H
    5 k4 [* a" j3 v6 D9 ]# r
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2023-12-10 03:20 , Processed in 0.052393 second(s), 11 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表