掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 17919|回复: 73

[工具] 20181130更新_自动画线+OCR+切图+校对 软件

  [复制链接]

该用户从未签到

发表于 2016-11-15 20:14:56 | 显示全部楼层 |阅读模式
本帖最后由 chigre3 于 2018-11-30 08:14 编辑
4 h' y: i. B% q0 H# m  \4 L. y5 e0 c5 o
一、致谢:6 y2 O4 U( n  ]
  感谢 @vbnet 的自动画线测试版, 现在经过个人修改, 几乎完全删除了原先的内容, 软件名称仍为 Picture Capture, x& ~: \( Q: p5 {  _, a
  感谢 @孤影 的自动划线软件, 给了很多界面上的参考$ N( U( @5 a. S# U) r# Y
------------------------------------------------------------------------# Z% t/ u* `/ a+ ~) _: |  c
二、这个软件有什么用呢???
- \0 w, Y4 V. e9 X  极大地提高制作图片版词典的效率,现在个人需要做的事情仅仅为:" _3 B8 F( ^% Q$ O* r0 g
  1. 前期的图片处理:Abbyy Finereader(整体校直)、Photoshop(模板调位置, 统一)、ComicEnhancerPro(转换格式、大小) 等
3 h) }4 z6 C; s7 V6 F; j  2. 使用本软件进行:3 @8 I) |/ \+ B( d! w4 }
   (1) 全部页面的 自动划线-->自动OCR/ ~, @( K. g9 h- ~3 k; e( A
   (2) 逐页校对划线和文本(可删可增)
# Z! K0 D3 z& x3 X7 u   (3) A.合并 .pdic (词条 + 坐标信息) --> Excel 模板 --> 文本替换 --> 精确高亮定位 整页版 图片词典
; O% o1 I$ z' Y7 Y6 x      B.导出单词整体切图 --> 合并 .PWWords (词条+图片名称) --> 文本替代 --> 切图版 图片词典
+ o4 T- c# j3 u# u0 s1 |/ N7 @( |------------------------------------------------------------------------2 j; v1 u! y% F$ M' R
三、实现的功能:2 o5 u1 ]9 u; m
  1. 画线:
( |. S1 w, c/ f( W   (1) 自动分析页面 + 自动画线- B( i& P9 q3 X2 w( |; A1 q8 |
   (2) 手动模式定义页面 + 自动划线2 Q8 ]; k5 m5 e7 G
   (3) 鼠标右键单击修改单栏重新自动画线- D" m5 f, o: ]
   以上均 + 鼠标左键单击增加画线, 文本框内快捷键`删除划线* h1 @* Q% J5 X- n4 q2 z
, r% Z* ~! ~3 I) g' d8 P; P0 _: T
  2. OCR:9 p2 T0 c3 l, b4 _) R
   采用Tesseract OCR, 具体语言文件 tessdata 可以到官网下载:https://github.com/tesseract-ocr/tessdata: |0 r: J, M7 j3 d
   (1) 导出文本:可外部编辑后导入, 避免OCR单个切图的不足' b7 p0 b' a6 I4 }, \( B( y0 h
   (2) 导入文本  I7 Y9 L! c0 M, k7 o/ F- u
   (3) 1 + 2:直接将OCR结果导入当前页面的文本框 --> 校对
" a' q2 ?' z5 W  I  H( e# m, ]" K7 A   外置批量替换表达式文本, 可自行创建和编辑, 适应各个词典不同OCR处理的场景
/ N0 B% p9 ]) q' \3 o
4 V7 J" q2 g& F* C  3. 切图:. a$ ]) K! h6 f. D
   (1) 词条单行切图:也可以使用外部其他OCR软件处理,或者其他用途
" {; X  r* T/ x0 W# p  \* ^   (2) 词条整体切图:实现切图版图片词典的制作(背景透明,不过目前需要其他PNG优化软件缩减大小:https://www.pdawiki.com/forum/thread-19157-1-1.html% ^& V. l  q) j5 q
    (实例1:[英-汉] 20161113《英汉大词典(第2版)》10页单词 切图版  https://www.pdawiki.com/forum/thread-19015-1-1.html* O7 D! g7 J5 M8 F% X7 D6 p* j
    (实例2:新西汉词典 切图版 https://www.pdawiki.com/forum/fo ... 6545&fromuid=174481
- R" `8 T6 Z, r( ^7 ]    
4 V7 W4 _8 q* a. s5 Q5 F# C   可实现仅导出切图坐标等信息,不导出切图,方便使用外部软件进行0 r6 b7 o, O+ |( K: L
    ! b+ u# @/ b# N$ h( u7 c
: Q! a  e8 L0 j
  4. 校对:
, e5 I3 W4 V/ T2 E, [# a5 i  Z9 F   列表式样, 与主窗口同步更新文本框内容, 也高亮匹配提示8 ]. L3 M* H! Z6 U
' E# `3 `0 o3 I- M8 M8 N7 m& M2 s
  5. 其他:& U- y: e, j% S
   (1) 配置文件保存、导入
7 d' [  p6 r- ~   (2) 自动下一页+操作(定时):自动保存、自动画线、自动OCR、自动切图。方便无人值守完成相应任务9 d6 G0 l. {+ e2 z  S
   (3) 最重要的还是要人工校对!!!!
7 t6 e* r) O: a7 p' N; x4 ?* b* \   (4) 高度自定义参数设置
. b7 l' S0 B- \/ w4 J  |------------------------------------------------------------------------
* Z& r5 W: a/ ^: j1 r如题,放个图:
2 a3 p0 A% T2 O" @' S  G# @0 G! b4 q* M& i+ P* A& {2 k) l
* b  U0 @: p6 y1 u
0 S& Z1 C; W3 [/ ?, F4 ?2 M

+ L0 [& h8 n4 q& n) p3 j, F截图内的词条文字为OCR结果
7 H  L+ C0 N& Z! k
  J7 o: H5 Q# J* u9 ], A  D7 `5 V
) N6 r, Z  i  j! J% Q) O) M) \% f7 S0 H4 i7 Y
----------------------------20181130更新:
- G& [1 j; e# r, G6 J$ P9 u校对窗口增加按当前提示索引(全部或部分)填充当前划线的文本框!( U) `8 O2 C6 R0 D/ R6 E
----------------------------
9 A; v- |! T& ^/ m" L" C) W20180809更新:, t+ S6 _8 K6 v% J6 g
插图画区域由之前的矩形升级为任意多边形4 W$ n' U- x; i) a& C) R7 u; P5 h

- X3 _" `; j$ E! R* @* x8 N# U) w! @
----------------------------! F/ j3 ~; u6 e& K  \# @0 w
20180614更新:' H2 t6 F6 O; c$ @
在校对界面中增加一列单词,即大词库表中 上页末单词和本页末单词 之间的所有单词。
8 T- `4 ^8 V7 }% c+ J4 x; N- L单击则替换当前校对文本框中的文本!
: b5 @0 E9 C! ?2 W) O) F5 z' B不同颜色提示,方便定位!
! R8 ?2 k9 u. @: W
! ]  L0 o, V) I+ X
# K& p3 s0 V1 C2 t$ K8 M, }' L: K# N% j5 ]9 y# F
----------------------------& ]  [# s- P; F& y
20170314更新2:7 W7 K( r. y6 v1 N+ E5 G
校对界面修改如下,增添更多特殊字符(aeiou等),方便校对的时候直接复制粘贴:  x7 Z0 \" f% I  o+ w
' r+ V; z( T8 W) [, j

: s$ N, i1 [2 X6 ?& ~' y# N20170314更新:
/ g4 r; l2 F& i9 h; D8 B起始页-->终止页$ }) L+ C; \. o
[切图]-【词条整体切图】
( H7 {, J  J1 z# B" G% }---> 会直接把范围内的页面的所有单词切图导出(软件界面会有假死的状态,不用理会,导出结束就OK了)
% E  K2 N2 c# K$ }" A( V如果起始页和终止页为空,则导出当前页的词条切图
, M2 W+ w# J; w" i7 Y! Z+ f3 B+ A) e( \+ ~7 V
在校对界面时,主界面【√隐藏线框】,那么此时就只有颜色框(平行线宽)
7 w! G1 k, N5 v* G& f) e当前词条亮黄色,其他还是红色
! g- P: B) M* W9 q% m这儿主要是考虑到有时候词条不只是单行,多行的时候可以方便查看。
/ i9 b( ~4 r* t3 j
% a+ t: ?) K- \- Y8 I5 B  K----------------------------
+ F! _3 B' S  F, F20170313更新:
1 X5 |; Q- j" U8 |1 g3 F6 I9 j1. 词条整体导出切图的判断逻辑的补充(3栏以上时,位于不同列的上下单词中间隔了空列。之前这个情况未考虑到)
( ?4 o& L. A; }" r4 j5 t% Q1 u  【仅修改了:从PDIC整体导出切图的坐标数据的这部分补充内容】$ F" \2 U' z/ o
----------------------------5 t/ U2 c* Q; I* w% z
20170217更新:
5 Y3 h+ c7 q5 O. w$ H2 J. X7 I1. 画线判断的方法改进(2种方法均改进)
# y- e3 }" Q0 Z----------------------------
' ~8 a  D9 L7 V8 C20170115更新:
+ M0 k1 |$ l4 h1. tessdata 的完整语言列表,具体语言移步【https://github.com/tesseract-ocr/tessdata】下载2 @+ j6 y/ g1 `; t
2. 在图片文件名列表上方的文本框里输入“SMALL”,点击【校对】,每个词条行的缩略图切图(非原始图片上裁剪)! N! Z4 c1 P& [: |' J4 @5 A* m
----------------------------; w, d0 [4 K8 p; C6 D& X
20161119更新:4 k: {. v/ t$ m
1.修复保存坐标数据时的bug
* ~3 }) g$ k3 Z4 o( ^2 C' N# C2.修复单词整体导出页面的一个bug
% S) M  {+ c5 v* A7 h3.增加功能: 选定范围页面的批量导入词条
/ w6 o+ F) t0 v+ K+ c! A  K6 s+ N4.增加功能: 快速查找定位索引
% w! T7 U+ M' n. a----------------------------* T* f8 `4 ^0 b- }
20161123更新:
* B+ R. P7 [: A6 l  J, [( p重写词条整体导出切图的判断逻辑,现在应该不会有切图坐标不一致、切图数目不一致的情况了。1 ^9 x/ M" A3 b

' r* q; F" _! r( P0 L( G! b) n
  1. 问题:页面是否有词条?
    1 ?6 q3 Z# k4 \3 k6 D, X# H' z
  2. 1. NO --> 直接导出和栏数一致的大切图 (标记为上页末词条续)
    4 g/ n# g0 {1 d$ ?/ U3 s
  3. 2. YES -->
    2 L( p7 j$ U- D  H/ `
  4.  (1) 确定0号词条所在栏:# ?) F2 U$ {# R6 q
  5.   --> 0号词条所在栏之前的栏, 直接导出大切图 (标记为上页末词条续)
    ; g* H7 i; @, P3 b; a
  6.   --> 0号词条所在栏上方若还有部分上页末词条接续, 则导出切图 (标记为上页末词条续)4 [! n* g. V" l$ T
  7.  (2) 次数为所有词条数目的循环:
    7 J2 r6 j" G, M5 C
  8.   A. 若: 当前为最后一个词条 --> 确定高度5 N. j" a6 \# [& J! Z# b5 U
  9.   B. 否则:0 M- i' _, s5 P% u4 Y" S6 t
  10.    a. 下一个词条在下一栏 --> 确定高度
    7 h) y0 Q+ l4 s1 [7 J( }8 N" V
  11.      --> 如果当前词条在下一栏仍有接续 --> 导出切图 (标记为当前词条接续2)) e% Y4 i  n2 G- Y* t* _4 R
  12.    b. 下一个词条在同一栏 --> 确定高度/ s. f' q  b# v4 W6 F7 m5 v9 U7 i

  13. # j" [! r/ E- ]" ^/ L( q
  14.   --> 导出每个词条的切图* T8 D- Q5 z. l# b

  15. ' G$ {# U8 a; o! t; H
  16.  (3) 确定最后一个词条所在栏:
    0 ?! t9 G2 |( I; ]- U
  17.   --> 最后词条所在栏之后的栏, 直接导出大切图 (标记为本页末词条续)
复制代码

$ |& l: V" m; T9 R* A. b6 F
% }; O! P2 m( u' W' c重要更新:5 n' v5 c+ ]8 J- Q  Y) q
1. 词条整体切图模块重写7 U" I3 t1 Z) e+ |/ X8 {' L
2. 增加根据.pdic导出所有图片切图信息(+切图)--> 几十秒【如下面动图GIF】
  t( @8 k  I4 M8 l+ A
9 H/ `  J) w2 o- k4 ]& E/ I3 R: a; F. ?- q, ^% C8 G
$ I, z7 J3 z3 i6 w) Y$ M
2016.11.28
: l3 h% Z9 \% b8 H/ f* [更新:一个小小的bug(跳过页首处下方如果单行接续,会因为判断的距离和行高过于接近造成缺漏 --> 修改了公式)
+ }- \5 T1 C; v9 o7 {' D4 J
0 y3 R8 m' v0 t3 A; t; M

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?免费注册

x

评分

1

查看全部评分

本帖被以下淘专辑推荐:

  • TA的每日心情
    奋斗
    2022-1-12 06:11
  • 签到天数: 118 天

    [LV.6]常住居民II

    发表于 2018-2-23 08:45:34 | 显示全部楼层
    请问大神,软件在哪儿有下载啊

    该用户从未签到

    发表于 2017-2-1 12:03:46 | 显示全部楼层
    本帖最后由 teresaiao 于 2017-2-10 13:47 编辑 2 h% x6 k3 I# w& u. d9 j. V

    - I' t, g& k) q9 O6 K我在第一頁設置了參數和保存了, 第二頁的紅色豎線就移位了, 是不是參數有問題?

    该用户从未签到

     楼主| 发表于 2017-2-1 04:49:02 | 显示全部楼层
    teresaiao 发表于 2017-2-1 03:39. k4 X( `9 c  {, p; I8 d2 j; l
    嗯,字典裏看得到了,真的快很多,基本上是要用photoshop和打詞條就好。 另外那個自動畫線,我在第一幅弄 ...

    9 Z2 l2 k+ z  U$ h4 f6 mPS 模板 移动位置 让每一张图片位置都一样 这样在软件里你设置了的参数就会是全局通用的 之后便可以全自动全部页面划线 紧接着就可以OCR

    该用户从未签到

    发表于 2017-2-1 01:58:45 | 显示全部楼层
    本帖最后由 teresaiao 于 2017-2-10 13:46 编辑 & S# F* d: W- t% X. t

    + \8 |' ]3 k3 U- p0 |" X可是我想問用你那個軟件, 如果轉頁, 或解釋在第二欄, 要怎麼合併?

    该用户从未签到

    发表于 2016-11-26 13:05:03 | 显示全部楼层
    感谢chigre3,待我有空可以把汉语大字典图片版做一下了。

    该用户从未签到

     楼主| 发表于 2016-11-17 00:34:06 | 显示全部楼层
    group1234 发表于 2016-11-16 23:30* p+ D8 b% T2 @
    製作圖片辭典的福音,可以節省非常多的時間,期待軟件分享~~~
    & F% w% c0 v. Y' ^# K8 D
    是的,这个软件确实极大提高效率,
    ( \0 Q8 q9 S4 l! F* L现在个人需要做的事情仅仅为:
    ; P, ^6 s1 z/ m1. 前期的图片处理:Abbyy Finereader(整体校直)、Photoshop(模板调位置, 统一)、ComicEnhancerPro(转换格式、大小) 等
    7 T4 D: z/ ]) m6 C& Z2. 使用本软件进行:: D& E! D) d- U9 T
     (1) 全部页面的 自动划线-->自动OCR9 N: r/ U* T: e! K6 [  V
     (2) 逐页校对划线和文本(可删可增)' O+ x+ y( W* F) ?7 R
     (3) A.合并.pdic (词条+坐标信息) --> Excel模板 --> 文本替换 --> 精确高亮定位 整页版 图片词典
    - B6 X( d- G) T7 ~! j- r8 _. W    B.导出单词整体切图 --> 合并.PWWords (词条+图片名称) --> 文本替代 --> 切图版 图片词典
    ' W1 I' a, J( j. @! R, n2 ?2 I

    该用户从未签到

    发表于 2016-11-15 22:50:35 | 显示全部楼层
    逆天还是吊炸天了。。。。。

    该用户从未签到

     楼主| 发表于 2016-11-16 02:11:49 | 显示全部楼层
    本帖最后由 chigre3 于 2016-11-16 02:22 编辑
    7 T/ v8 }* b/ r" u$ _; O0 ~7 ?7 n" ^" f7 @9 u
    比如《现代汉语词典》也可以画线和OCR、切图等:
    & A$ O( `1 _* H/ p* ~2 d) D----------------------------------------------------8 i% X0 B, H( @# r( X
    画线时:
    , F8 l, J. k0 D( i2 w[行间距离]: 17$ |' p9 x' ]% T) E2 P' ?! r6 E, O  K
    [向右倍率]: 1/1.0
    6 h/ Y1 N: E' s/ b7 c$ X' q
    ; l1 k: |1 x: q+ `OCR时:
      P8 V) a( [( k* x, v2 Z[行间距离]: 10; I, [4 l: Z, H/ W
    [向右倍率]: 1/3.0, y/ j& g2 k, g" u" H: o/ _
    文本框匹配都是红色,因为没有加载中文的词条索引来进行匹配检查
    & z& E4 s% j" Y6 D
    & m& S0 t  i" v! s$ P( N( P) `: J9 R3 l

    - o5 E  c  N+ D3 `0 q$ K9 R& m

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

    发表于 2016-11-16 07:12:22 | 显示全部楼层
    几乎只剩下人工校对工作了

    该用户从未签到

    发表于 2016-11-16 08:09:02 | 显示全部楼层
    chigre3 发表于 2016-11-16 02:11
    9 E6 M7 ?" P* L; p" G! ]比如《现代汉语词典》也可以画线和OCR、切图等:
    " o' t/ ]+ m; U----------------------------------------------------
    ' J0 ^- ?9 ~! P ...

    / E" ]1 t+ Z3 \1 ]. A歪图问题,上下页不对齐,某些不是矩形栏的排版,3栏以及3栏以上,不知道能不能处理?

    该用户从未签到

    发表于 2016-11-16 08:46:56 | 显示全部楼层
    提示: 该帖被管理员或版主屏蔽

    该用户从未签到

     楼主| 发表于 2016-11-16 17:36:45 | 显示全部楼层
    644830104 发表于 2016-11-16 08:097 T- L+ K# W* D5 G
    歪图问题,上下页不对齐,某些不是矩形栏的排版,3栏以及3栏以上,不知道能不能处理?

    - ~' ~. R# P. o+ R6 f4 j0 u所有图片统一修图 还有轻微歪斜能够画线2 X7 D/ p# T- T  y, d7 a
    图片不处理到一致规格 那最多用来划线切图OCR 每一页还要设置参数
    3 `( k% g0 l- t9 f4 c& E不规则形状不考虑
    3 }( N% n) B, B0 y支持N栏
  • TA的每日心情
    开心
    2019-6-28 11:53
  • 签到天数: 28 天

    [LV.4]偶尔看看III

    发表于 2016-11-16 23:30:48 | 显示全部楼层
    製作圖片辭典的福音,可以節省非常多的時間,期待軟件分享~~~
    $ o, [( {. L" k1 \& x/ F$ K2 n
  • TA的每日心情
    慵懒
    2023-2-4 11:26
  • 签到天数: 579 天

    [LV.9]以坛为家II

    发表于 2016-11-17 17:28:54 | 显示全部楼层
    这个绝对是神器
  • TA的每日心情
    开心
    2018-5-8 11:51
  • 签到天数: 18 天

    [LV.4]偶尔看看III

    发表于 2016-11-20 01:16:53 | 显示全部楼层
    激动不已!跃跃欲试

    该用户从未签到

    发表于 2016-11-20 09:18:39 来自手机 | 显示全部楼层
    哇,很牛的软件,期待chigre3的分享。
  • TA的每日心情
    开心
    2020-12-9 19:29
  • 签到天数: 27 天

    [LV.4]偶尔看看III

    发表于 2016-11-22 17:12:18 | 显示全部楼层
    这个软件太厉害了
  • TA的每日心情
    开心
    2020-12-9 19:29
  • 签到天数: 27 天

    [LV.4]偶尔看看III

    发表于 2016-11-22 17:13:11 | 显示全部楼层
    提示: 该帖被管理员或版主屏蔽

    该用户从未签到

     楼主| 发表于 2016-11-26 09:05:40 | 显示全部楼层
    【20161125更新】《葡汉词典》切图版! C! p1 d- ?" g2 z
    https://www.pdawiki.com/forum/fo ... &fromuid=174481
    ; ^6 Z2 F. f" s( F" H(出处: 掌上百科)
    * X  g( t0 a5 C6 T( u9 x

    该用户从未签到

    发表于 2016-11-27 08:21:42 | 显示全部楼层
    C大神器,谁与争锋?创意无限,匠心十足。佩服佩服。

    该用户从未签到

     楼主| 发表于 2016-11-27 20:23:37 | 显示全部楼层
    切图版后续:
    " E% J0 ]. E# C7 {" ?2 c/ B1 f# H因为切出的图片数目极多,目前想法是:
    7 C1 I5 g& j- }" m5 P% J(1) 制作成MDX/MDD格式, CSS不内嵌入MDD, 外置CSS, 方便个人设置# o! s+ u& }/ d, o0 L3 V
    (2) 制作成DSL格式, 图片资源直接打包zip
    % v% |( K7 u1 q8 B

    该用户从未签到

     楼主| 发表于 2017-2-1 02:01:35 | 显示全部楼层
    teresaiao 发表于 2017-2-1 01:58
    " r0 P! ]% _$ x3 L( q" [9 K終於都會做了, 可是我想問用你那個軟件, 如果轉頁, 或解釋在第二欄, 要怎麼合併?

    5 d( J* V6 w2 g+ d所有位置的切图都是分离的,后期导出时同时导出对应信息6 g% R& \0 C0 b  ^3 C
    也就是:词条+页码+切图图片名(1~多个)

    该用户从未签到

     楼主| 发表于 2017-2-1 02:04:52 | 显示全部楼层
    teresaiao 发表于 2017-2-1 01:58/ w5 A: S% f) R/ s0 h+ r
    終於都會做了, 可是我想問用你那個軟件, 如果轉頁, 或解釋在第二欄, 要怎麼合併?

    4 M  i5 k7 t% _; W! W7 z你下载了那个红葡汉词典 查一些释义特别长的单词 就可以了解到啦 DSL.dz 可以使用解压缩软件还原为.dsl 文本的 你打开就可看到词条结构

    该用户从未签到

    发表于 2017-2-1 03:39:23 | 显示全部楼层
    本帖最后由 teresaiao 于 2017-2-10 13:46 编辑 / Q6 b0 U6 f) @
    chigre3 发表于 2017-2-1 02:04
    0 f) N, Q* X0 t+ ~$ ^+ _你下载了那个红葡汉词典 查一些释义特别长的单词 就可以了解到啦 DSL.dz 可以使用解压缩软件还原为.dsl  ...
    2 m/ l( \: Q5 c  i0 @

    4 c# M0 ]: z! ?; e5 A1 \5 m如何才能固定
    7 c, l: D+ E2 S
    : @" R: b9 k7 B& a7 s% x
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-6-13 23:12 , Processed in 0.081019 second(s), 11 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表