|
|
本帖最后由 chigre3 于 2018-11-30 08:14 编辑
; s) v: r5 U4 f2 k" W1 f, i& H* q& ~' B9 Q* S6 u
一、致谢:0 g# A/ g# |3 q; l2 B
感谢 @vbnet 的自动画线测试版, 现在经过个人修改, 几乎完全删除了原先的内容, 软件名称仍为 Picture Capture
1 b4 d& q2 ` f, i* I; e6 B& c 感谢 @孤影 的自动划线软件, 给了很多界面上的参考
7 L8 p u' j# Y/ u: D9 W2 @------------------------------------------------------------------------
# x" Q% c9 t' h! U- I* ?. a% R5 x h二、这个软件有什么用呢???
0 a/ j2 s7 ?3 ?9 V9 E 极大地提高制作图片版词典的效率,现在个人需要做的事情仅仅为:: \9 `+ {, U1 Y
1. 前期的图片处理:Abbyy Finereader(整体校直)、Photoshop(模板调位置, 统一)、ComicEnhancerPro(转换格式、大小) 等
/ @# _! m' i$ c A* C6 s# `( E 2. 使用本软件进行:8 t" \& O! g( c9 o! ~; z3 ^' ?. o
(1) 全部页面的 自动划线-->自动OCR# o9 Y% f# M7 L( A
(2) 逐页校对划线和文本(可删可增)
0 E O, n) U: H1 Z) \ (3) A.合并 .pdic (词条 + 坐标信息) --> Excel 模板 --> 文本替换 --> 精确高亮定位 整页版 图片词典# d. a8 `( K( G" p( S3 w% ?5 }
B.导出单词整体切图 --> 合并 .PWWords (词条+图片名称) --> 文本替代 --> 切图版 图片词典
' R2 |; R0 ?' ~: ]+ a, _9 X------------------------------------------------------------------------
" @0 a9 X7 f U( m2 N3 J三、实现的功能:: h4 L3 E c: C" | x
1. 画线:5 _0 T+ p' S& v! O* P
(1) 自动分析页面 + 自动画线7 M6 N# Q, ?' A
(2) 手动模式定义页面 + 自动划线
" y9 y! a% \9 U( e( S4 R (3) 鼠标右键单击修改单栏重新自动画线( w6 u6 s/ M v+ @3 ?
以上均 + 鼠标左键单击增加画线, 文本框内快捷键`删除划线
. y J- C8 g- |, M, e$ c
+ h, p$ `5 J" g6 H 2. OCR:
; I# s- t6 Y' \0 g; D& E0 p 采用Tesseract OCR, 具体语言文件 tessdata 可以到官网下载:https://github.com/tesseract-ocr/tessdata
! O' {' L) F0 ]4 Z6 a/ x! a6 V (1) 导出文本:可外部编辑后导入, 避免OCR单个切图的不足
' b; |/ ^2 d5 k& k) t; Z& E (2) 导入文本/ }* a: T: \ R1 T5 Q
(3) 1 + 2:直接将OCR结果导入当前页面的文本框 --> 校对
3 w+ Y) {% `/ m( M* C$ X! h$ i& X' p 外置批量替换表达式文本, 可自行创建和编辑, 适应各个词典不同OCR处理的场景& R$ x& b, L% x$ _& j4 d M
: D, N8 ^" Z; A8 |1 X
3. 切图:4 Z) I4 r3 u: A. O
(1) 词条单行切图:也可以使用外部其他OCR软件处理,或者其他用途
3 c+ O" @/ H" l (2) 词条整体切图:实现切图版图片词典的制作(背景透明,不过目前需要其他PNG优化软件缩减大小:https://www.pdawiki.com/forum/thread-19157-1-1.html)! Y: l9 P+ w3 ^' g1 N0 y
(实例1:[英-汉] 20161113《英汉大词典(第2版)》10页单词 切图版 https://www.pdawiki.com/forum/thread-19015-1-1.html)& f) i, K0 E# S# O v6 n
(实例2:新西汉词典 切图版 https://www.pdawiki.com/forum/fo ... 6545&fromuid=174481)
! T& G9 d; D0 Z) \( P& f& B* D, g " q6 k U- a- G$ ?9 a5 a/ P7 c- K" v
可实现仅导出切图坐标等信息,不导出切图,方便使用外部软件进行
+ e X) D! q' t, J5 z( h" i, D$ n e( E# S4 H8 A/ Y P
, Y1 \- p8 I" w. P& O3 [
4. 校对:5 Y7 _: `7 }" |' v; h
列表式样, 与主窗口同步更新文本框内容, 也高亮匹配提示+ D2 _" A# ~! X
' o6 S* m- `4 w7 V 5. 其他:+ S4 s+ ] v% J
(1) 配置文件保存、导入3 C& |1 ?1 D6 ]+ |6 }
(2) 自动下一页+操作(定时):自动保存、自动画线、自动OCR、自动切图。方便无人值守完成相应任务
, {$ P L- e; k5 g# ` (3) 最重要的还是要人工校对!!!!
& u/ ^: ^0 ]5 X& Q- V0 j% s) _ (4) 高度自定义参数设置# w5 s1 k% ]. q9 S6 l3 `) v. X
------------------------------------------------------------------------
6 U3 v' R( Z$ \如题,放个图:. ]: e |. D4 {) W# _# o& p6 d7 P
0 [8 y6 v: ?4 B; _" @
4 H9 ~( z0 I! I7 u" {( f( n/ e# ~ c1 K) C3 z3 C
. G I+ ^" E. C( R2 J: l. p/ s" k
截图内的词条文字为OCR结果' S) e7 _9 h3 C# f8 F

7 H: B9 k. B) K& w: o& v. x( e8 C! O
3 H2 i; X6 u1 r& p+ o9 `* r7 a
----------------------------20181130更新:/ o+ @, K" U3 x% a8 X% t
校对窗口增加按当前提示索引(全部或部分)填充当前划线的文本框!
* R, t+ f: w( G----------------------------9 {* g1 V; w! m7 H
20180809更新: Y$ e& A6 z1 i L* \
插图画区域由之前的矩形升级为任意多边形( T9 x; g" I+ O. l/ T( m, V- k
1 H4 l4 v' b$ p! g
4 G( W9 I/ _# y1 n6 S7 o% f----------------------------
* p, J! _$ e9 q; C- l3 U; ]4 N% D1 F20180614更新:
$ o+ h% R% l8 I1 L* q在校对界面中增加一列单词,即大词库表中 上页末单词和本页末单词 之间的所有单词。" R, v9 f4 _1 K/ x' z
单击则替换当前校对文本框中的文本!- O, v K/ ]1 r Z) O! d Q6 T
不同颜色提示,方便定位!& `/ J/ U2 ~/ r' W+ z2 `
) ^8 M! y& z, f! F7 ~* Z5 f/ |! A" f
% d7 X! h7 G) E
- H1 O( r# N# N) E: ^) m
----------------------------# c: [7 Q# }: w0 I Y! B
20170314更新2:: t: L% |6 B8 B) O$ G
校对界面修改如下,增添更多特殊字符(aeiou等),方便校对的时候直接复制粘贴:% C7 `$ k: q, t# s2 Z
1 A T" a3 L0 E4 k+ E
! N9 m! z1 b7 D5 _9 _3 F2 Z' A
20170314更新:( K# u7 {/ b; q+ v
起始页-->终止页6 L! O/ Y/ w2 G8 c$ v; ?
[切图]-【词条整体切图】
3 d3 s7 n% Y4 j+ }& o# e---> 会直接把范围内的页面的所有单词切图导出(软件界面会有假死的状态,不用理会,导出结束就OK了)
3 |2 p8 r; e- j( w如果起始页和终止页为空,则导出当前页的词条切图
2 _0 ~0 @( g, C- ~6 i+ q* G
' ]1 i" O# _2 p; S# N* c d在校对界面时,主界面【√隐藏线框】,那么此时就只有颜色框(平行线宽)
8 ]+ ^& z7 X {5 B% t当前词条亮黄色,其他还是红色
' }5 D8 Q& Y# d% m- k. K1 T这儿主要是考虑到有时候词条不只是单行,多行的时候可以方便查看。6 H( U/ E3 o* i. t8 y
& W {7 [: I+ t; x" F3 ]----------------------------
; c6 |- c0 Y7 q* f6 v3 c" w20170313更新:) V3 K& X0 T1 i
1. 词条整体导出切图的判断逻辑的补充(3栏以上时,位于不同列的上下单词中间隔了空列。之前这个情况未考虑到)+ K$ z, c, o9 D) M; E, [/ e! l0 A
【仅修改了:从PDIC整体导出切图的坐标数据的这部分补充内容】) u2 M% \$ z" f1 b' f: K9 p) y# B% x
----------------------------# @, f X% q {9 `
20170217更新:
! M! E9 n- f" l6 }1. 画线判断的方法改进(2种方法均改进)
0 H; J4 o9 ]( H, ~7 t4 ]8 C----------------------------+ D) E4 ?$ j6 {) \' L
20170115更新:
; W' i2 E3 e- f9 l! c% T1. tessdata 的完整语言列表,具体语言移步【https://github.com/tesseract-ocr/tessdata】下载
# Y2 k6 L% J: O* w5 n2. 在图片文件名列表上方的文本框里输入“SMALL”,点击【校对】,每个词条行的缩略图切图(非原始图片上裁剪)
. A1 h# V' R }----------------------------6 {$ C2 V" t ` b8 ?6 h
20161119更新:
6 F7 {3 u5 ^# H# ^. }1.修复保存坐标数据时的bug/ Y1 p4 m; L) S9 M0 r. b
2.修复单词整体导出页面的一个bug' _) A' {8 |' W* W+ G7 }5 T
3.增加功能: 选定范围页面的批量导入词条
1 T B, `( m, u/ G6 @$ X, g4.增加功能: 快速查找定位索引0 K. v) z" a( C2 x* k' S" S/ M8 G
----------------------------* v n/ O/ v% }7 ?% w. C3 i* S
20161123更新:
+ n9 a, k1 h/ m! r) E重写词条整体导出切图的判断逻辑,现在应该不会有切图坐标不一致、切图数目不一致的情况了。
! ?( E' h7 ]4 o* |# |" @ h2 V5 |* C$ ]+ X/ `! A- l! c
- 问题:页面是否有词条?/ ?6 |7 u0 n9 |; {
- 1. NO --> 直接导出和栏数一致的大切图 (标记为上页末词条续)( y/ e9 p6 \ D
- 2. YES --> 9 _" W) b& H7 ^0 l. r
- (1) 确定0号词条所在栏:
; k3 l& f# m( D' D* D - --> 0号词条所在栏之前的栏, 直接导出大切图 (标记为上页末词条续)( o+ k4 Z, m; S G& ?) S
- --> 0号词条所在栏上方若还有部分上页末词条接续, 则导出切图 (标记为上页末词条续)
% ?& Y6 r3 H, G G0 S6 D - (2) 次数为所有词条数目的循环:
& T8 J" f8 {7 q- e) R - A. 若: 当前为最后一个词条 --> 确定高度
; g! F% G2 N2 V# m - B. 否则:
7 x6 B D* ~9 c `+ n3 |: ~% G - a. 下一个词条在下一栏 --> 确定高度) C6 S R9 T+ u7 B8 C' J
- --> 如果当前词条在下一栏仍有接续 --> 导出切图 (标记为当前词条接续2)
/ i. R3 u6 Z% }5 Z* n: y: { - b. 下一个词条在同一栏 --> 确定高度
3 Q4 {4 x) G5 w5 Y+ `* T/ J - ! y T: G* ^1 G, `' r
- --> 导出每个词条的切图
: b/ h2 S' L( ?+ d0 f1 K& [6 d - ' }/ s) s+ _) {8 b6 b- g1 \" i' [
- (3) 确定最后一个词条所在栏:( u' g0 m0 Q2 S5 z( k$ \- c
- --> 最后词条所在栏之后的栏, 直接导出大切图 (标记为本页末词条续)
复制代码
; |0 f3 U' i: k: B2 {9 @0 d: W* N( N5 d: h3 `1 b& F
重要更新:
! m+ q* q& C2 y5 d4 u8 n* ?4 w& P% n5 X1. 词条整体切图模块重写5 v! T2 U, P" E7 r3 ~/ G
2. 增加根据.pdic导出所有图片切图信息(+切图)--> 几十秒【如下面动图GIF】# S: _ W: u. g$ N" {9 r+ V2 E# _$ ~
( y! C9 x; j" l; q* F4 b
) u+ F. f# |' k5 {0 O; E% @/ d
8 T. E# z' Z6 p* g: r( i5 y2016.11.28& ^7 y- G: p+ v: y0 Q2 {
更新:一个小小的bug(跳过页首处下方如果单行接续,会因为判断的距离和行高过于接近造成缺漏 --> 修改了公式)
- z$ V }1 J( A% b6 P8 A5 \- ^, g/ N8 X# x$ B
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?免费注册
x
评分
-
1
查看全部评分
-
|