|
本帖最后由 chigre3 于 2018-11-30 08:14 编辑 ) o* K; v+ z7 \; G0 `0 d
( t' ~# C5 m. G, k- m$ Y; B一、致谢:3 W# ]1 L' O, `0 a1 x( M8 r: |
感谢 @vbnet 的自动画线测试版, 现在经过个人修改, 几乎完全删除了原先的内容, 软件名称仍为 Picture Capture
$ q7 m. e0 f+ A/ Q) a d5 J 感谢 @孤影 的自动划线软件, 给了很多界面上的参考; |$ I' S9 V' `# x7 r
------------------------------------------------------------------------1 v( y6 G) @0 }# N7 O0 C# V, R% `
二、这个软件有什么用呢???
- i: ~" Q3 R- d( w5 _& k; v 极大地提高制作图片版词典的效率,现在个人需要做的事情仅仅为:8 V& k: r3 z- U' Z6 K: K
1. 前期的图片处理:Abbyy Finereader(整体校直)、Photoshop(模板调位置, 统一)、ComicEnhancerPro(转换格式、大小) 等; R8 \( _# T0 L, _! @' Q$ h7 E
2. 使用本软件进行:
+ c4 l2 N: u3 |; V) P3 @% l; v (1) 全部页面的 自动划线-->自动OCR9 i: X: {/ B5 P& v; r7 C
(2) 逐页校对划线和文本(可删可增)/ i2 y9 `7 M2 J; e* ~' N
(3) A.合并 .pdic (词条 + 坐标信息) --> Excel 模板 --> 文本替换 --> 精确高亮定位 整页版 图片词典
9 M! U! k, g! y8 ^0 {$ f B.导出单词整体切图 --> 合并 .PWWords (词条+图片名称) --> 文本替代 --> 切图版 图片词典 ^; N; q& `9 z3 P7 g
------------------------------------------------------------------------
% V. z+ w2 ^# i) Y三、实现的功能:
9 s' y+ z6 L9 \& D* ?3 J7 |( q 1. 画线:; G" ?4 Z+ U, Y+ M' z& q
(1) 自动分析页面 + 自动画线+ c3 s' p; ~9 @$ F. v# u
(2) 手动模式定义页面 + 自动划线
. b" |( l9 o. \9 J (3) 鼠标右键单击修改单栏重新自动画线
2 ^4 T) {" b W& e/ h1 C1 B V2 ]% e 以上均 + 鼠标左键单击增加画线, 文本框内快捷键`删除划线
# j6 N0 l: A) o+ h: B" x; C' U) p9 h! I) ~) X9 | L
2. OCR:5 i' u& z/ a" p& j( \1 y1 y
采用Tesseract OCR, 具体语言文件 tessdata 可以到官网下载:https://github.com/tesseract-ocr/tessdata
, P( C5 {9 u& c3 q (1) 导出文本:可外部编辑后导入, 避免OCR单个切图的不足( R. W( A: V. |; l' p# s/ B( ^2 k
(2) 导入文本3 N) X* ?7 ^+ g! A4 V
(3) 1 + 2:直接将OCR结果导入当前页面的文本框 --> 校对
( R- k5 }. \8 Q4 x8 p- v 外置批量替换表达式文本, 可自行创建和编辑, 适应各个词典不同OCR处理的场景
( k8 A, i2 l- c# H; G- _0 e- L' s
3. 切图:+ G5 U2 C- {3 [8 ]+ z0 U: |+ O
(1) 词条单行切图:也可以使用外部其他OCR软件处理,或者其他用途1 x* D4 U: o- g
(2) 词条整体切图:实现切图版图片词典的制作(背景透明,不过目前需要其他PNG优化软件缩减大小:https://www.pdawiki.com/forum/thread-19157-1-1.html)
7 N; C( O- D7 P/ _ (实例1:[英-汉] 20161113《英汉大词典(第2版)》10页单词 切图版 https://www.pdawiki.com/forum/thread-19015-1-1.html)7 l6 U' I o6 M: v; o
(实例2:新西汉词典 切图版 https://www.pdawiki.com/forum/fo ... 6545&fromuid=174481)
* I7 W* x4 D4 Y 2 R5 ]; Y H) @: s6 E
可实现仅导出切图坐标等信息,不导出切图,方便使用外部软件进行! r* z1 V: Z! ^) w9 j: s$ D
0 \' u. J- N1 h9 Y# M0 N n& i& L
! u1 H( e0 d& U( o 4. 校对:, E; l m' g0 H0 d0 g
列表式样, 与主窗口同步更新文本框内容, 也高亮匹配提示 g0 G8 D' ~0 r# t/ w6 D
6 o$ |$ D* ~$ c: }; Y
5. 其他:
& `. Z+ x4 o( I1 D! q% C (1) 配置文件保存、导入
# @( c3 m+ Y! f' e (2) 自动下一页+操作(定时):自动保存、自动画线、自动OCR、自动切图。方便无人值守完成相应任务3 H1 C2 |! F2 f4 s4 B q8 G ~
(3) 最重要的还是要人工校对!!!!
% z0 @3 E* n' @ r6 y t% m- p; z (4) 高度自定义参数设置
: }, K: G9 h7 V7 `% U------------------------------------------------------------------------( {+ G) B- ^2 I! A1 `) I; }5 s* P
如题,放个图:
0 z0 y9 k! a3 i% w% g$ a( N& H" ?* R7 i. T7 R5 a
% G' l# [ Q. @7 o2 _8 |0 \ H- Q
l9 y- I% Z$ g6 x6 e# ^截图内的词条文字为OCR结果
2 M0 H. J7 Z0 G' g& P
$ @1 G. m V! X3 Y) `' d
$ k: D1 {5 x' V ^ : t0 o& x/ |! U% L; X
----------------------------20181130更新:
* ]4 U- i8 F9 D% B7 _! }校对窗口增加按当前提示索引(全部或部分)填充当前划线的文本框!
$ z, c# G$ U' T+ ]0 L) b, c( Z----------------------------
# \9 c7 P7 y+ H# W20180809更新:$ ~) N) |/ {8 h8 d
插图画区域由之前的矩形升级为任意多边形
& X* L; {) K7 [) [- t2 _, k+ K* L! c% ^1 v
$ V" |6 b3 }/ u1 [
----------------------------
% Q0 u2 W& _3 W" {20180614更新:
. B" V# D7 f$ K( K* K; p: J& R* R k- M在校对界面中增加一列单词,即大词库表中 上页末单词和本页末单词 之间的所有单词。
$ b) l1 t: { k, C" ~' z; l0 [单击则替换当前校对文本框中的文本!+ v5 v# Z" b: F- [ N6 I
不同颜色提示,方便定位!; c. d7 \8 |* F/ {4 @
. S$ E: H+ o3 ~- x" [
4 d. Y" h) i. z0 A# ?
3 y8 ^( p5 k) l----------------------------
' h/ E$ w _7 F2 C% s; h3 }20170314更新2:
/ L* K c2 _# D3 \+ b校对界面修改如下,增添更多特殊字符(aeiou等),方便校对的时候直接复制粘贴:9 A% {( Y! R; ~8 a8 i; w4 ~3 C

8 e# t6 a, e' f- K, ~0 b s1 j( u5 L$ k$ ~' s/ @' s& F
20170314更新:
- j7 g5 }$ m$ G: n" X- o6 B) u起始页-->终止页1 ~4 ~/ J+ i; Q
[切图]-【词条整体切图】, P" K; Y5 i& D+ r3 q2 z7 e& d4 Y
---> 会直接把范围内的页面的所有单词切图导出(软件界面会有假死的状态,不用理会,导出结束就OK了)
$ I' o1 K4 c" w" ^+ Q" G如果起始页和终止页为空,则导出当前页的词条切图+ T9 o# V' `' \
9 l7 p0 @. W+ f) P
在校对界面时,主界面【√隐藏线框】,那么此时就只有颜色框(平行线宽)
/ {2 \+ R# W5 M当前词条亮黄色,其他还是红色4 u& I( Q! l1 |; D, ~
这儿主要是考虑到有时候词条不只是单行,多行的时候可以方便查看。
) b+ u s+ i- _& V1 ]0 r* m9 S* a( R# W3 F
----------------------------
1 ^( A, x. D7 C% p20170313更新:7 p5 N5 X* }# n& t
1. 词条整体导出切图的判断逻辑的补充(3栏以上时,位于不同列的上下单词中间隔了空列。之前这个情况未考虑到)
5 L6 Q: T; m0 k, M8 ~8 s 【仅修改了:从PDIC整体导出切图的坐标数据的这部分补充内容】
}" F9 o% i- N0 ]7 e7 A [----------------------------; v! Q5 j0 q( I3 I4 \ c. k
20170217更新:
3 S, ^- t% v7 g' N0 t# J1. 画线判断的方法改进(2种方法均改进)
. ?2 Y! @ X$ g7 \7 a- I7 b----------------------------
* ?! B( X( m( K% F: o20170115更新:
$ m1 Y6 g2 W! S6 n1 l& [% c, j1. tessdata 的完整语言列表,具体语言移步【https://github.com/tesseract-ocr/tessdata】下载4 T$ A( V9 A" Q3 l# i/ y0 j z
2. 在图片文件名列表上方的文本框里输入“SMALL”,点击【校对】,每个词条行的缩略图切图(非原始图片上裁剪)5 d: n3 C4 {( H9 h5 u; `
----------------------------. w* r$ k: L) _
20161119更新:9 M) H7 [% T0 [- z7 {% `) Y' ^
1.修复保存坐标数据时的bug
8 [2 J, f% U4 A% W& `1 G7 j1 P2.修复单词整体导出页面的一个bug
: T. h* w4 s! c p. `/ |' U0 ]! N3.增加功能: 选定范围页面的批量导入词条
1 O. [2 [" U( T, |# x" c/ [4.增加功能: 快速查找定位索引
; `6 H g1 x/ W( p" s----------------------------, P( s; }& `! s2 s
20161123更新:
v- c4 G* v3 f! u8 t t重写词条整体导出切图的判断逻辑,现在应该不会有切图坐标不一致、切图数目不一致的情况了。: K: g- ]8 Z. R5 x$ W( y) F9 {
1 }" A& i4 @6 g- 问题:页面是否有词条?# M5 J1 a4 d& w# w
- 1. NO --> 直接导出和栏数一致的大切图 (标记为上页末词条续)
% L0 c) i9 n0 g n E4 J" M - 2. YES --> % N- p. U/ E' n4 P6 ~% L
- (1) 确定0号词条所在栏:- u; }3 B: N. h4 P6 X" O, [ a
- --> 0号词条所在栏之前的栏, 直接导出大切图 (标记为上页末词条续)& n8 g4 H j8 c5 d9 j7 [$ S
- --> 0号词条所在栏上方若还有部分上页末词条接续, 则导出切图 (标记为上页末词条续)9 G. Y6 j1 R$ O6 I7 \/ p, \6 U
- (2) 次数为所有词条数目的循环:
" R5 F0 J6 Q6 r: {0 y( P - A. 若: 当前为最后一个词条 --> 确定高度; u o* f* R) c) R8 C8 o# w) d2 ]
- B. 否则:& C: @1 D2 R- W$ S- U. s
- a. 下一个词条在下一栏 --> 确定高度# U" G# U0 {) ]6 @4 H2 b; ^2 `% N
- --> 如果当前词条在下一栏仍有接续 --> 导出切图 (标记为当前词条接续2)
2 L8 L0 D# t ?& l6 s1 [8 c, @( F - b. 下一个词条在同一栏 --> 确定高度' V% k& y% z3 b! m2 X3 D, h
- 0 l6 F0 i a/ q
- --> 导出每个词条的切图
" M- `4 p+ c: I6 T5 s - 3 o5 l, e ? ~. I; O
- (3) 确定最后一个词条所在栏: C6 C1 o {# a0 J
- --> 最后词条所在栏之后的栏, 直接导出大切图 (标记为本页末词条续)
复制代码 ; ~/ m: U# d) J8 N
4 x% A: R4 a: y, O# x [- l0 V重要更新:
3 A) J. q; J; ]; `1. 词条整体切图模块重写
& C$ T( z3 R0 f* y; w- g2. 增加根据.pdic导出所有图片切图信息(+切图)--> 几十秒【如下面动图GIF】
8 @( R: b1 o: \& w, Z' w6 x
7 D- n! q/ N3 Q1 e4 y9 K, p. ~ h# w7 ~9 y+ g/ c* C
# M' Y, k" d7 t2016.11.28 c* D" I# o3 h* p6 L0 i" z: x
更新:一个小小的bug(跳过页首处下方如果单行接续,会因为判断的距离和行高过于接近造成缺漏 --> 修改了公式)
3 L* _. P) f3 y7 b& p- p. A
+ w! U. z3 f" n5 } |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?免费注册
x
评分
-
1
查看全部评分
-
|