掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 20390|回复: 77

[工具] 20181130更新_自动画线+OCR+切图+校对 软件

  [复制链接]

该用户从未签到

发表于 2016-11-15 20:14:56 | 显示全部楼层 |阅读模式
本帖最后由 chigre3 于 2018-11-30 08:14 编辑 3 a. [2 M# f5 O/ y
! v4 ~" _5 I$ G: ]( m' f: b4 f8 w
一、致谢:
" D$ v  ^  K, P  D4 m, k! z  感谢 @vbnet 的自动画线测试版, 现在经过个人修改, 几乎完全删除了原先的内容, 软件名称仍为 Picture Capture+ s4 Q6 V6 U8 D' f" _/ {
  感谢 @孤影 的自动划线软件, 给了很多界面上的参考
! m5 A( W% h  d------------------------------------------------------------------------6 j, o6 P- b% w& `7 |
二、这个软件有什么用呢???
9 _8 D9 }2 x5 Z/ Z" ^) W  极大地提高制作图片版词典的效率,现在个人需要做的事情仅仅为:) x0 C) @. ]# o8 U. A
  1. 前期的图片处理:Abbyy Finereader(整体校直)、Photoshop(模板调位置, 统一)、ComicEnhancerPro(转换格式、大小) 等% B, g* n* ?; L* u+ B/ n" {
  2. 使用本软件进行:! C$ Q$ M. \1 P& Z2 Q5 Z
   (1) 全部页面的 自动划线-->自动OCR6 n# |4 O3 G( ?# ]
   (2) 逐页校对划线和文本(可删可增)
% t" `/ m5 F- U( F& ?   (3) A.合并 .pdic (词条 + 坐标信息) --> Excel 模板 --> 文本替换 --> 精确高亮定位 整页版 图片词典0 {4 i  j  @* I$ ~9 a  v
      B.导出单词整体切图 --> 合并 .PWWords (词条+图片名称) --> 文本替代 --> 切图版 图片词典
  C8 E2 }3 j3 J  [4 R------------------------------------------------------------------------
! p( T5 \7 Z# t, Q% ~+ V" R三、实现的功能:
  _/ W$ E8 [/ K. Q; F! [" P! B0 F  1. 画线:. M; e( y5 p1 F
   (1) 自动分析页面 + 自动画线
1 g0 N$ k7 \! ?1 d2 G! s   (2) 手动模式定义页面 + 自动划线
5 s6 n1 X- E0 s2 D* Q! \   (3) 鼠标右键单击修改单栏重新自动画线4 T4 x5 s9 w1 G" r
   以上均 + 鼠标左键单击增加画线, 文本框内快捷键`删除划线4 V3 x1 c1 x! v  [# A
2 r) A  m$ I! X" n, C* j% W4 A
  2. OCR:
/ {# q7 c/ W# K9 `' R7 t   采用Tesseract OCR, 具体语言文件 tessdata 可以到官网下载:https://github.com/tesseract-ocr/tessdata
) w' `8 h. c, o   (1) 导出文本:可外部编辑后导入, 避免OCR单个切图的不足+ }2 ]2 _+ c( ?' C& A
   (2) 导入文本
2 H, J7 A6 d; K; E8 i5 E1 p- Q6 @   (3) 1 + 2:直接将OCR结果导入当前页面的文本框 --> 校对% Y+ Z# Q- U6 b6 q5 r" g5 ]
   外置批量替换表达式文本, 可自行创建和编辑, 适应各个词典不同OCR处理的场景
5 g/ |8 F3 C9 ~- Y( A, Y, l4 F% I# O7 x/ i, E) w- G8 y
  3. 切图:
! l2 e- ~2 U$ B; e# d( n2 j   (1) 词条单行切图:也可以使用外部其他OCR软件处理,或者其他用途
2 ?# A- H* S7 l   (2) 词条整体切图:实现切图版图片词典的制作(背景透明,不过目前需要其他PNG优化软件缩减大小:https://www.pdawiki.com/forum/thread-19157-1-1.html% @. ^# d% g" V. X& U
    (实例1:[英-汉] 20161113《英汉大词典(第2版)》10页单词 切图版  https://www.pdawiki.com/forum/thread-19015-1-1.html
$ a5 z, v3 H! q' m! S  ~    (实例2:新西汉词典 切图版 https://www.pdawiki.com/forum/fo ... 6545&fromuid=174481
: n. j; O) u( T    
: j) Z$ E& J5 `  d- y; B   可实现仅导出切图坐标等信息,不导出切图,方便使用外部软件进行
+ R! K# b/ j  n( @6 J    5 @) k; j% Y: [( ]
* s  G" O4 M8 l# P1 I
  4. 校对:
" z: a8 u, I4 v7 M   列表式样, 与主窗口同步更新文本框内容, 也高亮匹配提示
1 _, P! c+ \8 V$ l5 R0 U! N, ?# N' E8 f1 {2 x% w9 o7 l0 u% y
  5. 其他:
7 n2 ?5 D$ P3 d8 [5 D   (1) 配置文件保存、导入, y5 L- M* \: ^$ C
   (2) 自动下一页+操作(定时):自动保存、自动画线、自动OCR、自动切图。方便无人值守完成相应任务" f& N# r9 e0 T7 Q0 r
   (3) 最重要的还是要人工校对!!!!$ E4 ?1 W  r, a$ b; Y
   (4) 高度自定义参数设置
; `9 H- P9 c: M& P$ @( n2 \; D% L, x" Y------------------------------------------------------------------------% ]0 b! A6 _6 J* l" }
如题,放个图:
" u3 D# ]0 B* a0 y1 B' ?, {
6 I7 `. x/ A) O5 a
, t  W* ?: I8 [0 r+ q  V! @: Z% S  Y) S& Q* c2 K* M' N
- F' r( R7 b$ x& i
截图内的词条文字为OCR结果
8 d$ G) ?, Y/ p/ G1 F5 u
8 o( {; o% b9 t! w0 h/ `
2 t" [/ W& h2 g
, p/ {5 D, a: k0 |----------------------------20181130更新:
8 U/ u7 p  s9 z8 R校对窗口增加按当前提示索引(全部或部分)填充当前划线的文本框!7 }/ S4 S5 `1 y4 ]& c% Q' j: B1 b
----------------------------3 I' g( n9 b; s1 a
20180809更新:
8 ^& w" k% @# C  s4 Q. J- d$ r插图画区域由之前的矩形升级为任意多边形- s2 q0 M; l6 F- Q2 I
; n. ?/ ]- d6 |9 |* l

' L; \" V& A* p  H6 ^; u. [5 V----------------------------' R- P' E0 q* A* R/ \
20180614更新:
, X2 Y9 a& Q  r7 o% U# ^# {在校对界面中增加一列单词,即大词库表中 上页末单词和本页末单词 之间的所有单词。( N0 U) i1 ~7 u8 O8 N. w
单击则替换当前校对文本框中的文本!
6 Z$ |/ N  o. q' ?& }不同颜色提示,方便定位!6 ]* u# a, \& O+ L
' r3 o. {# l9 C- [4 R' a; c
" ?$ d& W) c1 Y5 x' x
6 {' t+ ?) T6 c
----------------------------
# v6 u! Y- X8 O% ?0 \; L20170314更新2:
$ h5 d( S4 ~0 Q0 c; a校对界面修改如下,增添更多特殊字符(aeiou等),方便校对的时候直接复制粘贴:
  [$ {& D! J# F6 q% i7 r9 k  g" w) \! f. r% u6 A8 j4 {

1 {. j! r( E" y- @) T; L1 t20170314更新:# k7 q4 r) i7 u" m
起始页-->终止页9 I: `2 X- R! ~# n
[切图]-【词条整体切图】: Y1 l" H% U/ q" n4 G
---> 会直接把范围内的页面的所有单词切图导出(软件界面会有假死的状态,不用理会,导出结束就OK了)
& z9 F- [/ k0 ^# U. l6 k如果起始页和终止页为空,则导出当前页的词条切图2 {1 e2 y; g# B2 R$ R! Y
4 g( P' V+ T2 a, O: q. V
在校对界面时,主界面【√隐藏线框】,那么此时就只有颜色框(平行线宽)
7 R( R* C- r. y当前词条亮黄色,其他还是红色* k" j, W2 k! r. A
这儿主要是考虑到有时候词条不只是单行,多行的时候可以方便查看。( J  S/ w2 i3 s6 b' U

$ q3 T' I. H) K8 _/ {! f5 B0 h----------------------------
, t* l  f* Q- m' E* `/ O( F20170313更新:0 \/ E* e* A4 F- `* d1 X
1. 词条整体导出切图的判断逻辑的补充(3栏以上时,位于不同列的上下单词中间隔了空列。之前这个情况未考虑到)
: W4 z$ O" j+ \0 D! z  【仅修改了:从PDIC整体导出切图的坐标数据的这部分补充内容】
8 f3 ?6 P1 c5 w' j; X9 O----------------------------
! P7 C- a8 B" z' p% _20170217更新:+ u: ~' _" v  `% v7 J
1. 画线判断的方法改进(2种方法均改进)8 L3 S. {( D$ Q0 X: J2 L2 m: j
----------------------------  {$ D/ g5 w5 s/ i( O4 D2 G5 h
20170115更新:
0 w6 P( j% u) Q7 l0 |' X. `1. tessdata 的完整语言列表,具体语言移步【https://github.com/tesseract-ocr/tessdata】下载
, e. [. W" `5 ?$ A( Q7 O3 r' V+ U2. 在图片文件名列表上方的文本框里输入“SMALL”,点击【校对】,每个词条行的缩略图切图(非原始图片上裁剪)
9 G' j! m$ g, W. l( o----------------------------
; [+ t* D* D" K* t& J3 k2 z) c20161119更新:
9 s; E" i6 Z9 [) }2 \2 v% S( [1.修复保存坐标数据时的bug
5 s# w  B5 G$ T" K2.修复单词整体导出页面的一个bug! p2 i6 S0 {9 F1 h
3.增加功能: 选定范围页面的批量导入词条6 p  |% y' f$ m- N2 P1 d
4.增加功能: 快速查找定位索引
- D: O! Q( R1 \( L9 [+ \& ]----------------------------
$ O" t+ ~0 |; X( I20161123更新:* z: c; J' t& D* Q$ ?; k
重写词条整体导出切图的判断逻辑,现在应该不会有切图坐标不一致、切图数目不一致的情况了。
7 s7 ~! ?. F9 L7 V7 [8 ]" d
9 ?  ~% Q# B+ X- w: c8 V
  1. 问题:页面是否有词条?" ~7 Z+ {* G: e4 P& X1 _
  2. 1. NO --> 直接导出和栏数一致的大切图 (标记为上页末词条续)
    / _$ |, n! a; r  }) f0 V
  3. 2. YES --> ) w* |# K- S8 Q: p% F3 X
  4.  (1) 确定0号词条所在栏:9 m3 A; f- }: i+ n6 }4 b& s5 C
  5.   --> 0号词条所在栏之前的栏, 直接导出大切图 (标记为上页末词条续)
    / N+ p: G0 _# B1 r$ ]* n2 ~
  6.   --> 0号词条所在栏上方若还有部分上页末词条接续, 则导出切图 (标记为上页末词条续)
    5 `- \; J7 G% [" [. u
  7.  (2) 次数为所有词条数目的循环:
    ) t/ e1 e2 `5 W4 G
  8.   A. 若: 当前为最后一个词条 --> 确定高度4 j' c% |1 x0 T: N% R
  9.   B. 否则:6 x8 @6 V6 s3 T; G- y6 J; u: S1 [
  10.    a. 下一个词条在下一栏 --> 确定高度
    5 }- _, W3 O2 b. o# D/ E" R
  11.      --> 如果当前词条在下一栏仍有接续 --> 导出切图 (标记为当前词条接续2)
    3 L6 G2 Q, f( X
  12.    b. 下一个词条在同一栏 --> 确定高度
    - U8 C; ]3 |" Z& p( e; @: Z' R
  13. % M. |% j6 [, }. j6 y7 Q
  14.   --> 导出每个词条的切图
    3 w2 n2 Q" D- B

  15. & _' U! a; f9 \+ ~+ T
  16.  (3) 确定最后一个词条所在栏:
    + Q* X+ u- C5 [+ q
  17.   --> 最后词条所在栏之后的栏, 直接导出大切图 (标记为本页末词条续)
复制代码
' g) |3 A+ o$ r/ u/ ^

; S7 L+ ^& R9 u8 U. S9 C  v+ Z: K重要更新:
5 M4 I* ^  H% ~. S1. 词条整体切图模块重写. b3 j3 o; k4 p- K+ K9 u
2. 增加根据.pdic导出所有图片切图信息(+切图)--> 几十秒【如下面动图GIF】
6 I- Z% v/ B. @2 ^4 Q
% U( T7 O, r) T+ S. U
; m1 u3 n$ o: g! B8 z! Z" ?, W+ Y- T/ {* c5 P1 @5 d
2016.11.28
9 |1 C. F+ [5 q( w1 H更新:一个小小的bug(跳过页首处下方如果单行接续,会因为判断的距离和行高过于接近造成缺漏 --> 修改了公式)% U7 d% `2 d) ~3 M

. x( I0 R; {- R0 T& k" r2 [6 F( G. {/ e

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?免费注册

x

评分

1

查看全部评分

本帖被以下淘专辑推荐:

  • TA的每日心情
    奋斗
    2022-1-12 06:11
  • 签到天数: 118 天

    [LV.6]常住居民II

    发表于 2018-2-23 08:45:34 | 显示全部楼层
    请问大神,软件在哪儿有下载啊

    该用户从未签到

    发表于 2017-2-1 12:03:46 | 显示全部楼层
    本帖最后由 teresaiao 于 2017-2-10 13:47 编辑   \; X7 z! V$ N: F' G
    & Y6 E1 E) |: E
    我在第一頁設置了參數和保存了, 第二頁的紅色豎線就移位了, 是不是參數有問題?

    该用户从未签到

     楼主| 发表于 2017-2-1 04:49:02 | 显示全部楼层
    teresaiao 发表于 2017-2-1 03:39
    0 J$ }1 w$ z9 R$ a4 ~" e& }) j/ m嗯,字典裏看得到了,真的快很多,基本上是要用photoshop和打詞條就好。 另外那個自動畫線,我在第一幅弄 ...
    9 D7 J2 U. Q% I" n, x4 Z1 @
    PS 模板 移动位置 让每一张图片位置都一样 这样在软件里你设置了的参数就会是全局通用的 之后便可以全自动全部页面划线 紧接着就可以OCR

    该用户从未签到

    发表于 2017-2-1 01:58:45 | 显示全部楼层
    本帖最后由 teresaiao 于 2017-2-10 13:46 编辑
    1 q8 B& V5 z# ]+ L. i% A' H+ e9 ?, p, M
    可是我想問用你那個軟件, 如果轉頁, 或解釋在第二欄, 要怎麼合併?

    该用户从未签到

    发表于 2016-11-26 13:05:03 | 显示全部楼层
    感谢chigre3,待我有空可以把汉语大字典图片版做一下了。

    该用户从未签到

     楼主| 发表于 2016-11-17 00:34:06 | 显示全部楼层
    group1234 发表于 2016-11-16 23:30
    ) V; C/ F- a: i. t5 A製作圖片辭典的福音,可以節省非常多的時間,期待軟件分享~~~

    , M! y& U1 O  }6 N+ d% p/ ~. v是的,这个软件确实极大提高效率,
    0 |! O2 G7 j1 t1 E6 D现在个人需要做的事情仅仅为:% l. L3 |# E7 C. E% [* c
    1. 前期的图片处理:Abbyy Finereader(整体校直)、Photoshop(模板调位置, 统一)、ComicEnhancerPro(转换格式、大小) 等
    & J$ ^- T2 g7 N2. 使用本软件进行:/ r, _7 A# j4 G4 b2 b3 ?
     (1) 全部页面的 自动划线-->自动OCR2 `( K* S  E$ X6 v2 S5 q+ u5 I$ R
     (2) 逐页校对划线和文本(可删可增)8 G$ u" C- H0 P: d  o/ W& d
     (3) A.合并.pdic (词条+坐标信息) --> Excel模板 --> 文本替换 --> 精确高亮定位 整页版 图片词典
    3 c: z: z: d/ |! A& ^    B.导出单词整体切图 --> 合并.PWWords (词条+图片名称) --> 文本替代 --> 切图版 图片词典" Y3 f  R% J, {$ [# I) m$ G9 N

    该用户从未签到

    发表于 2016-11-15 22:50:35 | 显示全部楼层
    逆天还是吊炸天了。。。。。

    该用户从未签到

     楼主| 发表于 2016-11-16 02:11:49 | 显示全部楼层
    本帖最后由 chigre3 于 2016-11-16 02:22 编辑 / u1 Y; @+ _0 G: {* m1 n! \+ a
    ! c9 \* _# v. b, B; W* S, G% Z9 I
    比如《现代汉语词典》也可以画线和OCR、切图等:: i, k0 H7 g3 K/ u0 u
    ----------------------------------------------------  t- V; n' m( H0 Z* i3 p
    画线时:
    4 D4 i6 N- p+ j9 j[行间距离]: 17
    - Q9 y$ A+ e2 ~: s[向右倍率]: 1/1.0% y6 N/ R1 }  Z

    * V- `- B, @) M, C, X  f  j  `! ?OCR时:/ c* K( ]8 c$ s1 [; o; |
    [行间距离]: 10- Z" i- J% \2 `: k5 o1 d
    [向右倍率]: 1/3.0
    ! X0 z0 Q$ D7 J# ]' z( Y& T3 ?* g文本框匹配都是红色,因为没有加载中文的词条索引来进行匹配检查
    7 P( \; ~$ a6 A+ M4 f7 M7 m& s8 s6 F

    7 f# ?: E. G/ k+ z  x  \% b  U) R# v4 e3 b8 c; Q3 g

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

    发表于 2016-11-16 07:12:22 | 显示全部楼层
    几乎只剩下人工校对工作了

    该用户从未签到

    发表于 2016-11-16 08:09:02 | 显示全部楼层
    chigre3 发表于 2016-11-16 02:11
    ; F9 K( w7 f* P: {2 ^  z比如《现代汉语词典》也可以画线和OCR、切图等:
    8 ?: i! P6 i5 V; ?0 I9 q----------------------------------------------------
    4 m" a& [3 Z4 a" n) @) } ...
    ' U/ ?( x" W8 n" J8 a1 \7 \
    歪图问题,上下页不对齐,某些不是矩形栏的排版,3栏以及3栏以上,不知道能不能处理?

    该用户从未签到

    发表于 2016-11-16 08:46:56 | 显示全部楼层
    提示: 该帖被管理员或版主屏蔽

    该用户从未签到

     楼主| 发表于 2016-11-16 17:36:45 | 显示全部楼层
    644830104 发表于 2016-11-16 08:09
    1 W3 C4 H6 x( ~0 }歪图问题,上下页不对齐,某些不是矩形栏的排版,3栏以及3栏以上,不知道能不能处理?

    , _. q; ^2 @3 e6 s0 ~! q! J所有图片统一修图 还有轻微歪斜能够画线
    * N* [( i3 ]0 a2 p, o, E图片不处理到一致规格 那最多用来划线切图OCR 每一页还要设置参数   a* r) S+ `0 f' h* J6 h9 ?/ w8 \
    不规则形状不考虑
    7 N; c9 R- n7 [/ I. T& A支持N栏
  • TA的每日心情
    开心
    2019-6-28 11:53
  • 签到天数: 28 天

    [LV.4]偶尔看看III

    发表于 2016-11-16 23:30:48 | 显示全部楼层
    製作圖片辭典的福音,可以節省非常多的時間,期待軟件分享~~~
    # Q( B3 {$ ?& w# u
  • TA的每日心情
    慵懒
    2023-2-4 11:26
  • 签到天数: 579 天

    [LV.9]以坛为家II

    发表于 2016-11-17 17:28:54 | 显示全部楼层
    这个绝对是神器
  • TA的每日心情
    开心
    2018-5-8 11:51
  • 签到天数: 18 天

    [LV.4]偶尔看看III

    发表于 2016-11-20 01:16:53 | 显示全部楼层
    激动不已!跃跃欲试

    该用户从未签到

    发表于 2016-11-20 09:18:39 来自手机 | 显示全部楼层
    哇,很牛的软件,期待chigre3的分享。
  • TA的每日心情
    开心
    2020-12-9 19:29
  • 签到天数: 27 天

    [LV.4]偶尔看看III

    发表于 2016-11-22 17:12:18 | 显示全部楼层
    这个软件太厉害了
  • TA的每日心情
    开心
    2020-12-9 19:29
  • 签到天数: 27 天

    [LV.4]偶尔看看III

    发表于 2016-11-22 17:13:11 | 显示全部楼层
    提示: 该帖被管理员或版主屏蔽

    该用户从未签到

     楼主| 发表于 2016-11-26 09:05:40 | 显示全部楼层
    【20161125更新】《葡汉词典》切图版
    $ ~* o% G* `, s8 Ghttps://www.pdawiki.com/forum/fo ... &fromuid=174481" I; X, F" O) @0 T; a
    (出处: 掌上百科)+ q4 G- Y( g7 u+ ~

    该用户从未签到

    发表于 2016-11-27 08:21:42 | 显示全部楼层
    C大神器,谁与争锋?创意无限,匠心十足。佩服佩服。

    该用户从未签到

     楼主| 发表于 2016-11-27 20:23:37 | 显示全部楼层
    切图版后续:% l! |% b4 }2 V: z. Z- g: y
    因为切出的图片数目极多,目前想法是:
    - ]) ]$ g7 ~' M* K& Y% L6 `2 k- T0 o(1) 制作成MDX/MDD格式, CSS不内嵌入MDD, 外置CSS, 方便个人设置
    9 G5 e# G4 n5 i9 Q8 _(2) 制作成DSL格式, 图片资源直接打包zip
    1 y8 ^7 m6 Q- \5 E

    该用户从未签到

     楼主| 发表于 2017-2-1 02:01:35 | 显示全部楼层
    teresaiao 发表于 2017-2-1 01:582 ?, @  t# E" V2 m# J! z
    終於都會做了, 可是我想問用你那個軟件, 如果轉頁, 或解釋在第二欄, 要怎麼合併?
    ( W1 i) o. ~/ G  i
    所有位置的切图都是分离的,后期导出时同时导出对应信息  ?2 V1 ^: ^; U4 ~+ f# X$ c
    也就是:词条+页码+切图图片名(1~多个)

    该用户从未签到

     楼主| 发表于 2017-2-1 02:04:52 | 显示全部楼层
    teresaiao 发表于 2017-2-1 01:588 u1 t: u4 X7 i8 \
    終於都會做了, 可是我想問用你那個軟件, 如果轉頁, 或解釋在第二欄, 要怎麼合併?
    4 K/ }2 i" C# r+ `1 Y
    你下载了那个红葡汉词典 查一些释义特别长的单词 就可以了解到啦 DSL.dz 可以使用解压缩软件还原为.dsl 文本的 你打开就可看到词条结构

    该用户从未签到

    发表于 2017-2-1 03:39:23 | 显示全部楼层
    本帖最后由 teresaiao 于 2017-2-10 13:46 编辑 5 B) N% N+ D! |/ q' n5 P* ]' o3 _
    chigre3 发表于 2017-2-1 02:04
    - {  ^0 f& {; f你下载了那个红葡汉词典 查一些释义特别长的单词 就可以了解到啦 DSL.dz 可以使用解压缩软件还原为.dsl  ...

    ( Y) _2 a. G, v# u% e( ]$ ?; u7 h$ \7 b: N0 X5 R
    如何才能固定
    7 e9 E/ T" s$ Y8 s* ^0 R0 n# m- [5 t( h0 \4 s# V  K) v& f
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2025-5-5 04:23 , Processed in 0.026492 second(s), 26 queries .

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表