|
本帖最后由 chigre3 于 2018-11-30 08:14 编辑 K6 l+ D3 o) [
8 L9 N1 D0 a$ w9 w9 B0 q7 D
一、致谢:5 ^* g# j0 h" w/ }- k
感谢 @vbnet 的自动画线测试版, 现在经过个人修改, 几乎完全删除了原先的内容, 软件名称仍为 Picture Capture2 c! G! t' P; G2 i; p
感谢 @孤影 的自动划线软件, 给了很多界面上的参考
4 b. m" z/ z0 n/ W------------------------------------------------------------------------
8 r# F- E) K+ q) `3 I二、这个软件有什么用呢???* g% d2 ?' W% G2 V" P* g5 p
极大地提高制作图片版词典的效率,现在个人需要做的事情仅仅为:
0 F( U' H3 N) l2 Z* M! q 1. 前期的图片处理:Abbyy Finereader(整体校直)、Photoshop(模板调位置, 统一)、ComicEnhancerPro(转换格式、大小) 等- r* ]2 n6 J9 E
2. 使用本软件进行:
8 H" L1 N# \: f6 {! ]9 n (1) 全部页面的 自动划线-->自动OCR
: R9 p7 G% r$ v8 { (2) 逐页校对划线和文本(可删可增)
7 y1 _! k) D Y8 Z4 m (3) A.合并 .pdic (词条 + 坐标信息) --> Excel 模板 --> 文本替换 --> 精确高亮定位 整页版 图片词典
6 t! q8 L I$ I9 b3 j# ?4 D B.导出单词整体切图 --> 合并 .PWWords (词条+图片名称) --> 文本替代 --> 切图版 图片词典! y' d& T- l: d7 w; N1 n) r9 ?! y
------------------------------------------------------------------------
# Y q9 z5 p! [6 p三、实现的功能:4 I. V; @- W0 B% O5 @. ~
1. 画线:
( A6 W, |0 N1 R% \. j3 W (1) 自动分析页面 + 自动画线* Y$ g7 z& w- p- B. Q. u! ^
(2) 手动模式定义页面 + 自动划线
7 c- E! S; k( l; j3 z (3) 鼠标右键单击修改单栏重新自动画线4 d5 b& Z* P5 h1 L( `# {4 u
以上均 + 鼠标左键单击增加画线, 文本框内快捷键`删除划线
2 |) i& W# ~1 g- k1 F+ V" v' V( a- t Z V! l' a% Z
2. OCR:
3 |" A1 h+ m5 v% |9 ], b3 h6 }$ Z2 h 采用Tesseract OCR, 具体语言文件 tessdata 可以到官网下载:https://github.com/tesseract-ocr/tessdata s3 U" Y8 e8 R. J) n8 J9 o( i
(1) 导出文本:可外部编辑后导入, 避免OCR单个切图的不足
7 a0 g0 w" k9 t* a& {: | (2) 导入文本
3 q, Q# H4 f, }2 @- t+ ^& E (3) 1 + 2:直接将OCR结果导入当前页面的文本框 --> 校对1 `2 d- ^5 _+ N; }; w
外置批量替换表达式文本, 可自行创建和编辑, 适应各个词典不同OCR处理的场景
* D8 ]8 A3 f! [7 W% R; J
0 Y* h J5 B8 R; ~ 3. 切图:
4 V. L. s% N+ D: X (1) 词条单行切图:也可以使用外部其他OCR软件处理,或者其他用途5 k: W* x Z7 ?5 ^. p% |
(2) 词条整体切图:实现切图版图片词典的制作(背景透明,不过目前需要其他PNG优化软件缩减大小:https://www.pdawiki.com/forum/thread-19157-1-1.html). x" n0 r( S2 ?! k
(实例1:[英-汉] 20161113《英汉大词典(第2版)》10页单词 切图版 https://www.pdawiki.com/forum/thread-19015-1-1.html)
1 d! U+ O% Y4 ? h9 b$ |% x (实例2:新西汉词典 切图版 https://www.pdawiki.com/forum/fo ... 6545&fromuid=174481)
7 u! K# B+ W M5 u7 j5 ~
: `$ L3 [& L8 x' D, L 可实现仅导出切图坐标等信息,不导出切图,方便使用外部软件进行$ h+ l4 \2 C- y. L. v- r
0 g9 F3 S& w4 F1 c$ g3 {
6 O' f. R: R7 \! ^1 R& X
4. 校对:
6 f" u# m6 K+ q6 E 列表式样, 与主窗口同步更新文本框内容, 也高亮匹配提示& N6 i6 O3 L4 ~" [# A9 c$ k3 H7 F
# h2 I; c2 Z, G; }/ X 5. 其他:0 }# I9 j6 u9 K
(1) 配置文件保存、导入
* h: w D+ j+ a$ N* t) D (2) 自动下一页+操作(定时):自动保存、自动画线、自动OCR、自动切图。方便无人值守完成相应任务
: g6 r2 a$ \8 u' ? (3) 最重要的还是要人工校对!!!!
1 [7 W# @. n4 ^+ h2 P (4) 高度自定义参数设置
; Z0 D8 h; P" p+ X4 o5 _------------------------------------------------------------------------* F) G$ B7 {7 X0 w* R& S6 v
如题,放个图:
3 F2 ^% v3 R$ p/ B6 C! z
0 j! L7 W4 P; I% K8 y" j6 K& r, D9 v0 Z
7 O+ R! y0 B$ F o4 v) E. B
% P; c! s" P( O6 G7 \) O1 Z& @
截图内的词条文字为OCR结果
% w8 k# ~! P7 }. ]( n4 B, d# t# a0 U1 [7 T. }4 i" ~, ]4 c
6 O" f# j' o) j2 v5 h# b
; S* l; m1 Y# l8 G----------------------------20181130更新:
! s& D# a% a( Z$ v# K2 {/ G N1 k校对窗口增加按当前提示索引(全部或部分)填充当前划线的文本框!
* M1 t9 p) h1 D) m% R- |----------------------------
, |1 H3 R; p3 t, A7 {20180809更新:/ [' n2 B* @( x- O+ Z( m
插图画区域由之前的矩形升级为任意多边形& d9 n* k) v4 T: e
1 L5 ~- E6 c8 R' W- m _( P! \
& L. F7 B( k" V, O! I$ W) h5 o8 n----------------------------
! f; p+ p# V; D5 K- \4 l20180614更新:
) b3 c; S4 F; Q0 y/ s+ q在校对界面中增加一列单词,即大词库表中 上页末单词和本页末单词 之间的所有单词。
, L4 B" l. b4 D$ m! c# Y3 G* f/ p单击则替换当前校对文本框中的文本!1 z9 s$ H( ]+ z" R0 S: F9 y: ^
不同颜色提示,方便定位!
) ^7 D0 g* F3 O5 k/ x4 d5 u+ E$ p' K5 Y) |
% q* \) k7 f2 z) K) a; Z
c& v4 y. `/ c" B' b3 ~----------------------------* A/ U2 M; x. f, f+ j7 }9 S8 k
20170314更新2:
- R- t# r p; w校对界面修改如下,增添更多特殊字符(aeiou等),方便校对的时候直接复制粘贴:
% t0 F9 w% T0 E* l1 G w
~1 o1 y5 _* Z& m/ i% o+ d& ~/ k( k% a/ p
20170314更新:& Q& [9 ` x2 Y
起始页-->终止页. |. t6 O; b2 w, `# N
[切图]-【词条整体切图】# L6 v) v( `! F5 T2 R& ]
---> 会直接把范围内的页面的所有单词切图导出(软件界面会有假死的状态,不用理会,导出结束就OK了)
% G! L W% {, A8 r# ?如果起始页和终止页为空,则导出当前页的词条切图
% h7 j3 r- N, X: ]) _; E$ Z8 P0 X! \' x
在校对界面时,主界面【√隐藏线框】,那么此时就只有颜色框(平行线宽)
. z# g4 H2 n8 y+ R' c4 ~当前词条亮黄色,其他还是红色
4 \+ @6 f7 h- E8 h' h这儿主要是考虑到有时候词条不只是单行,多行的时候可以方便查看。) o, t6 k8 Z, [' |1 C5 u7 M! M. K, f
& V% d% n; Q( Y$ h
----------------------------
, [+ \4 j: S- K4 z5 X, R" G; p20170313更新:* ^5 M- Q }4 T" ~
1. 词条整体导出切图的判断逻辑的补充(3栏以上时,位于不同列的上下单词中间隔了空列。之前这个情况未考虑到)/ O9 `, ]) a: [+ ~1 z+ \3 n6 Q
【仅修改了:从PDIC整体导出切图的坐标数据的这部分补充内容】
) \( {; z7 H$ h* e1 O4 T----------------------------, j7 L! C$ q' ]! H
20170217更新:7 M3 U" l8 z( g8 }% F" m# v
1. 画线判断的方法改进(2种方法均改进)7 t. W' S2 f! h$ \
----------------------------+ y+ J: k* b' w7 C, L( W
20170115更新:/ L) y o: k& H1 I% R. Q
1. tessdata 的完整语言列表,具体语言移步【https://github.com/tesseract-ocr/tessdata】下载
2 p8 Y8 ]3 j% L" c* E' |4 O5 v2. 在图片文件名列表上方的文本框里输入“SMALL”,点击【校对】,每个词条行的缩略图切图(非原始图片上裁剪)* ]" H- [( u, Y* [) v
----------------------------
" ]# c& X, ]' @) R20161119更新:
* c9 u" c2 ~: ?2 O/ B d5 F1.修复保存坐标数据时的bug
3 y. j9 N9 _( R" W2.修复单词整体导出页面的一个bug7 M5 `/ J6 O, R& [5 V/ x
3.增加功能: 选定范围页面的批量导入词条
" K8 r6 o' _, g: y* e! j) W* j4.增加功能: 快速查找定位索引
4 ~3 i& L# X' M----------------------------) [# S( A4 A2 }0 \: }
20161123更新:. M8 T, W2 X! `/ j2 S, }
重写词条整体导出切图的判断逻辑,现在应该不会有切图坐标不一致、切图数目不一致的情况了。, ~+ f+ h6 }+ S2 d) e
" X8 `2 \& X" n7 h7 _
- 问题:页面是否有词条?
! L9 I8 C" n* l( ? - 1. NO --> 直接导出和栏数一致的大切图 (标记为上页末词条续)4 V3 j) _5 j9 c. v: a
- 2. YES --> # n" {( w! {! ~3 V
- (1) 确定0号词条所在栏:
; X& m+ G @4 Z3 Y8 G( O6 J - --> 0号词条所在栏之前的栏, 直接导出大切图 (标记为上页末词条续)9 Z4 ]1 R! D4 f! U
- --> 0号词条所在栏上方若还有部分上页末词条接续, 则导出切图 (标记为上页末词条续)
+ G# i! C/ ?$ I6 e - (2) 次数为所有词条数目的循环:
& n9 [) U! F1 J+ Z9 D1 k$ F4 ] - A. 若: 当前为最后一个词条 --> 确定高度4 e* ^. j O6 q$ K
- B. 否则:
/ C3 T% y$ h/ o0 U2 C - a. 下一个词条在下一栏 --> 确定高度
& D& k2 `! F* z) b$ @2 T; ~ - --> 如果当前词条在下一栏仍有接续 --> 导出切图 (标记为当前词条接续2). x& V5 n7 m t" n% }/ L
- b. 下一个词条在同一栏 --> 确定高度
) Z! J& u3 Y y |$ P4 a. ?( [) E
# S: y3 L* `; p/ m1 k+ `- --> 导出每个词条的切图
; l, v& k. ?8 A3 l/ f( ?( Z2 s' l - 3 H1 W$ s, z, i5 W
- (3) 确定最后一个词条所在栏:
4 g7 O4 m/ @- G) W' G5 ^ - --> 最后词条所在栏之后的栏, 直接导出大切图 (标记为本页末词条续)
复制代码 % ?1 v! p, y8 A3 ~. o
. b* ^' [, g( a9 v+ S% h: S7 n6 A" W G
重要更新:
, d8 |: T0 l3 h" f- s& o7 m1. 词条整体切图模块重写
0 C3 K" e p L4 `' U: h0 \7 M2. 增加根据.pdic导出所有图片切图信息(+切图)--> 几十秒【如下面动图GIF】
4 v, ~% y5 s- i7 E- O
5 n& N7 O, z6 S" u; j1 N$ o( [2 H' }; f3 `2 Q6 t
9 y n3 v/ v1 r$ B5 C& i V9 }9 L# t4 I2016.11.28
/ Q( Q! X' u5 E% \) Y更新:一个小小的bug(跳过页首处下方如果单行接续,会因为判断的距离和行高过于接近造成缺漏 --> 修改了公式)
2 {1 B( w6 o4 [ Q! E8 @) k; D) q1 C
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?免费注册
x
评分
-
1
查看全部评分
-
|