|
本帖最后由 chigre3 于 2018-11-30 08:14 编辑 ! j& i1 q+ g- n, x1 w. A7 o( A6 B
. u5 H' e v) W) i( ]6 T) G4 ~一、致谢:
' K& s0 P1 W6 z e 感谢 @vbnet 的自动画线测试版, 现在经过个人修改, 几乎完全删除了原先的内容, 软件名称仍为 Picture Capture
/ r, D2 o3 I; U" Y" Z; P 感谢 @孤影 的自动划线软件, 给了很多界面上的参考
' }2 `, h1 B5 p8 ~, {------------------------------------------------------------------------9 P# z. o* W( Y% f* P
二、这个软件有什么用呢???
# Q7 [1 O5 H% l9 q, \4 g' X 极大地提高制作图片版词典的效率,现在个人需要做的事情仅仅为:- R; s9 W% D- U4 p7 ~7 o
1. 前期的图片处理:Abbyy Finereader(整体校直)、Photoshop(模板调位置, 统一)、ComicEnhancerPro(转换格式、大小) 等$ z# ]. R* O6 |8 F
2. 使用本软件进行:
# I% z5 [; ?- L (1) 全部页面的 自动划线-->自动OCR# G" X9 w( O. D# I% c& R8 y
(2) 逐页校对划线和文本(可删可增)" M- v p0 m0 H* N$ b2 C' m
(3) A.合并 .pdic (词条 + 坐标信息) --> Excel 模板 --> 文本替换 --> 精确高亮定位 整页版 图片词典9 q- q7 S! J- m. q5 j4 C9 D E Q
B.导出单词整体切图 --> 合并 .PWWords (词条+图片名称) --> 文本替代 --> 切图版 图片词典
( u9 y+ P1 y+ l/ X3 [+ A" y------------------------------------------------------------------------
4 y- F" D6 L* g' C. K9 Z& W三、实现的功能:
7 Q3 \5 l% a( _9 S$ {+ u7 d/ F3 _ 1. 画线:
# j" ~, \3 R$ q+ j* t (1) 自动分析页面 + 自动画线
+ R4 c- i$ N1 b (2) 手动模式定义页面 + 自动划线
+ q0 Q/ g3 N; ~4 L (3) 鼠标右键单击修改单栏重新自动画线
* Q2 q9 |; h6 e' S% Z; b 以上均 + 鼠标左键单击增加画线, 文本框内快捷键`删除划线
. l6 C) s3 D: t0 N) w. f& N3 P+ K
; u6 T$ ~, u- A% @7 j/ V 2. OCR:
4 u0 W7 X" U! f6 }* C' \% J! v9 Q 采用Tesseract OCR, 具体语言文件 tessdata 可以到官网下载:https://github.com/tesseract-ocr/tessdata8 Q! U' {) Y+ O9 m h4 f& G1 N
(1) 导出文本:可外部编辑后导入, 避免OCR单个切图的不足, P: F6 [9 d+ T/ X+ D6 T" b, t
(2) 导入文本
" W7 j4 K1 k% X (3) 1 + 2:直接将OCR结果导入当前页面的文本框 --> 校对) y8 n# z5 c2 u* ?" f3 V5 n& j. u
外置批量替换表达式文本, 可自行创建和编辑, 适应各个词典不同OCR处理的场景3 M( o/ b/ L8 |" }. q( n* K
* X5 ~% C! r& L( _
3. 切图:$ g$ l3 Z! t6 C s+ D
(1) 词条单行切图:也可以使用外部其他OCR软件处理,或者其他用途
" n! K$ ~; m G (2) 词条整体切图:实现切图版图片词典的制作(背景透明,不过目前需要其他PNG优化软件缩减大小:https://www.pdawiki.com/forum/thread-19157-1-1.html)8 m. b# G2 P; V7 m3 X6 ?
(实例1:[英-汉] 20161113《英汉大词典(第2版)》10页单词 切图版 https://www.pdawiki.com/forum/thread-19015-1-1.html)2 c9 ?, N/ I2 |$ n0 J. x, q
(实例2:新西汉词典 切图版 https://www.pdawiki.com/forum/fo ... 6545&fromuid=174481)
& X; L% V* B* u; N d
" W: N* D5 C; w0 d; J+ N 可实现仅导出切图坐标等信息,不导出切图,方便使用外部软件进行. V. Y0 t/ h/ R# b2 U
0 I9 |, y% w1 g- v; C
, `7 D: g% @" V# S( |" v) k 4. 校对:* b& a0 K/ m2 P
列表式样, 与主窗口同步更新文本框内容, 也高亮匹配提示
?; G4 n. `0 a k! A% [
# H3 b) D0 Y9 W4 ^" }1 ?7 a9 Y 5. 其他:
& k- r9 a8 P+ B( B, T5 F! l (1) 配置文件保存、导入
8 V2 s U8 _) H: I* `$ u9 Z! T/ ^ (2) 自动下一页+操作(定时):自动保存、自动画线、自动OCR、自动切图。方便无人值守完成相应任务( n3 [+ X" g1 R0 J! Z7 L! ^+ z
(3) 最重要的还是要人工校对!!!!
7 U; A3 u5 `$ k (4) 高度自定义参数设置
( A/ L8 v4 I, b' A, i4 l4 x------------------------------------------------------------------------, [2 X# }# D/ p e
如题,放个图:! q- B1 y1 b4 R2 Z% x
- e* w* e% ?+ ?( Q
J3 r) M* w6 b6 e& @
0 K5 }2 h. H- [
9 @6 Q( g: H# `- \! [) b# I
截图内的词条文字为OCR结果- e. {: f" }# m* e- k
' s8 j, ~0 A* h8 N0 T& C
# @$ b* o7 s6 G, }& Q2 R0 v1 p; i( w* E, y; `2 v/ S/ R
----------------------------20181130更新:
' z$ w7 L& r/ _1 I* h校对窗口增加按当前提示索引(全部或部分)填充当前划线的文本框!
( X1 S! Z8 |1 z x1 v/ q/ ~----------------------------
! d% C- L+ u. ]* w20180809更新:
+ o5 `( e# y) G1 J9 ^: U插图画区域由之前的矩形升级为任意多边形6 |/ a5 x0 z# i0 z
/ P! j; W4 G) w, H9 C
) B D- n( ^3 a" u" ^* a& ]$ y7 r
----------------------------- P. Q& D D$ T( L4 G/ o; @
20180614更新:* i* _1 B) R& T' e
在校对界面中增加一列单词,即大词库表中 上页末单词和本页末单词 之间的所有单词。+ _3 [* w! g6 v* z; ]' Y8 ]5 k* ~( `
单击则替换当前校对文本框中的文本!
8 L$ K- u4 k7 o8 R* j# M0 M不同颜色提示,方便定位!
+ ~. u$ f0 {2 v+ D+ i# T7 f
- Y. c5 A( g9 C+ ^8 F( @' X' d1 L/ \
* ~4 A* W/ j+ R ]4 r6 ?. j6 F
----------------------------
, b) T; C8 N% }, t20170314更新2:; e# `7 F3 C8 K* L6 U; w
校对界面修改如下,增添更多特殊字符(aeiou等),方便校对的时候直接复制粘贴:
# C4 x5 W/ \# i7 t# N
: |% D: n7 r) H: B2 x1 W6 J8 y2 L
: S% u* P) ~' z7 w; Q+ T20170314更新:; _$ X; V' Y$ l& I% W; N% }
起始页-->终止页' w9 A4 ~6 y1 m# m
[切图]-【词条整体切图】0 X2 H! ?9 q% w6 R# Z
---> 会直接把范围内的页面的所有单词切图导出(软件界面会有假死的状态,不用理会,导出结束就OK了)8 Y0 H3 D& O: [. t2 U) g
如果起始页和终止页为空,则导出当前页的词条切图+ t! x2 n2 k9 M" i* b9 z
2 ~0 `; L# l5 |: [" o
在校对界面时,主界面【√隐藏线框】,那么此时就只有颜色框(平行线宽)5 S& ]0 V K- o& B5 Y% b
当前词条亮黄色,其他还是红色% A; ]( j' x W- q* w. H$ \1 y
这儿主要是考虑到有时候词条不只是单行,多行的时候可以方便查看。
* }9 w" H! O% v- ]: G h, `
1 d* m+ _( ^& C8 k6 G5 J% b----------------------------
9 B6 M+ C0 ~, F0 m0 ~9 ~20170313更新:& r# g8 y+ d% H; O0 j1 W
1. 词条整体导出切图的判断逻辑的补充(3栏以上时,位于不同列的上下单词中间隔了空列。之前这个情况未考虑到), J# H5 o% ]' l: U
【仅修改了:从PDIC整体导出切图的坐标数据的这部分补充内容】! U# ~1 t9 S% ^2 a* `
----------------------------
0 J1 L% a: o# n9 `4 S20170217更新:
. q( I6 F2 y' Z# ~1. 画线判断的方法改进(2种方法均改进)' m: m& S% y% q) U, `" b4 ]
----------------------------% `( Z% s5 {5 K3 Y% j
20170115更新:
& g& L* }. X9 U" U1 p5 n1. tessdata 的完整语言列表,具体语言移步【https://github.com/tesseract-ocr/tessdata】下载
5 H) P+ F0 K6 e, v0 T; C! Y) B2. 在图片文件名列表上方的文本框里输入“SMALL”,点击【校对】,每个词条行的缩略图切图(非原始图片上裁剪)% E8 X+ }* R5 _& x5 ?" w
----------------------------. S' x3 d6 f9 ^+ t
20161119更新:$ e& @2 g1 u/ e9 g0 a' R# V% _& t+ }
1.修复保存坐标数据时的bug
& ^4 L0 [% p B1 o5 k2.修复单词整体导出页面的一个bug
5 Q+ C+ m- V3 A8 G$ G8 ~3.增加功能: 选定范围页面的批量导入词条
. n5 @! M' g& {& Y c4.增加功能: 快速查找定位索引3 w# B p/ m/ o
----------------------------
' n0 F" d" W3 J/ Q4 r% w7 e20161123更新:' S& F/ c2 ^+ n$ W) ?7 }; j7 ^
重写词条整体导出切图的判断逻辑,现在应该不会有切图坐标不一致、切图数目不一致的情况了。
& z1 R$ l% ]0 Y) s7 s4 A" ~3 A6 |* V, [$ u5 }
- 问题:页面是否有词条?8 E1 I* ^7 x T# }
- 1. NO --> 直接导出和栏数一致的大切图 (标记为上页末词条续)7 t9 d% p. {8 s+ i
- 2. YES -->
% g4 c6 h1 z7 b) h( P& \, A2 n - (1) 确定0号词条所在栏:
3 ]5 x( y3 _; ` W" y - --> 0号词条所在栏之前的栏, 直接导出大切图 (标记为上页末词条续)
$ q$ `8 b: I* b4 X0 B9 f% j5 H- ] - --> 0号词条所在栏上方若还有部分上页末词条接续, 则导出切图 (标记为上页末词条续): c5 |: G* _- h8 k
- (2) 次数为所有词条数目的循环:
$ O; v: M" d, b; Y6 |0 W& l - A. 若: 当前为最后一个词条 --> 确定高度0 g; }3 F, A8 c# K5 [
- B. 否则:
9 w0 A0 x5 S% F1 [ - a. 下一个词条在下一栏 --> 确定高度& \) \. @8 Y6 w" J% o d2 {
- --> 如果当前词条在下一栏仍有接续 --> 导出切图 (标记为当前词条接续2)
1 B6 M( w; k: \! E8 y( s, y - b. 下一个词条在同一栏 --> 确定高度& s7 A$ U% I7 j9 I# u1 _) a# n
- # E4 F4 M' I; N) s P' C
- --> 导出每个词条的切图
9 c3 i r" f: g - # |8 j% J% G4 } e# h- }
- (3) 确定最后一个词条所在栏:# A7 [% W: |1 q& V4 M
- --> 最后词条所在栏之后的栏, 直接导出大切图 (标记为本页末词条续)
复制代码
4 g V: W& M. L/ y
! r$ Z( H: j6 p' b' k; I重要更新:
G+ R R0 K$ \9 a1. 词条整体切图模块重写2 x8 @ e6 N+ s
2. 增加根据.pdic导出所有图片切图信息(+切图)--> 几十秒【如下面动图GIF】
# O' O' f5 W: k3 {! v7 D" `# p
( ?- t' |+ u L
+ [- f' N* t# h. p; R9 Q u; S! \1 V) B9 h
2016.11.28
" R( E( d# W8 N5 L v更新:一个小小的bug(跳过页首处下方如果单行接续,会因为判断的距离和行高过于接近造成缺漏 --> 修改了公式)! }: p3 y& f# R B5 J+ `8 I {
9 a$ K9 d9 m e D |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?免费注册
x
评分
-
1
查看全部评分
-
|