|
本帖最后由 chigre3 于 2018-11-30 08:14 编辑
9 i- f9 U! u8 {4 a4 V
- x* \/ Z! I; r* \; b5 E2 { Q: ^一、致谢:
. T# e; o; E1 [$ h& y 感谢 @vbnet 的自动画线测试版, 现在经过个人修改, 几乎完全删除了原先的内容, 软件名称仍为 Picture Capture
8 s8 m" T6 f3 u' {6 A" J 感谢 @孤影 的自动划线软件, 给了很多界面上的参考# E' p& _) x4 q7 B+ L: b g
------------------------------------------------------------------------* |7 d R% R" k6 Q3 C2 G/ w* R- }
二、这个软件有什么用呢???
# ~% B- A- v- E4 L 极大地提高制作图片版词典的效率,现在个人需要做的事情仅仅为:6 _- `, f, P+ ]& C
1. 前期的图片处理:Abbyy Finereader(整体校直)、Photoshop(模板调位置, 统一)、ComicEnhancerPro(转换格式、大小) 等
% l5 Z8 C2 n! l2 r 2. 使用本软件进行:
5 N7 [# |3 t' o (1) 全部页面的 自动划线-->自动OCR
) F K$ f2 j' h/ b# S* \ N7 Q (2) 逐页校对划线和文本(可删可增)
' q3 K# c4 B9 y9 T, b% s- {" d (3) A.合并 .pdic (词条 + 坐标信息) --> Excel 模板 --> 文本替换 --> 精确高亮定位 整页版 图片词典" W, u; l' J2 @
B.导出单词整体切图 --> 合并 .PWWords (词条+图片名称) --> 文本替代 --> 切图版 图片词典
4 a8 z/ [7 h" \& _2 m------------------------------------------------------------------------
( I! ~' h% n# g三、实现的功能:- X P/ v! b" ]1 v9 z
1. 画线:
) M; u9 o' n# q" o (1) 自动分析页面 + 自动画线
' ?+ e* ?1 Z1 C* g$ M( z (2) 手动模式定义页面 + 自动划线
2 B8 P, _8 Y! ~1 @. H! A2 x0 W2 p (3) 鼠标右键单击修改单栏重新自动画线! x \8 g' v. y- V1 ]/ f
以上均 + 鼠标左键单击增加画线, 文本框内快捷键`删除划线
4 U$ N- v1 {' l* P& h4 n) P% W* Q- g. G" m# I S- \# G
2. OCR:
( q0 Q0 |2 W- x$ q6 J 采用Tesseract OCR, 具体语言文件 tessdata 可以到官网下载:https://github.com/tesseract-ocr/tessdata/ J1 O" ~; S+ [& t( d1 e2 y# z
(1) 导出文本:可外部编辑后导入, 避免OCR单个切图的不足6 L) r) K( f/ c
(2) 导入文本
9 x9 D! p$ k+ f+ |7 C (3) 1 + 2:直接将OCR结果导入当前页面的文本框 --> 校对) m, Q7 L" p" Z
外置批量替换表达式文本, 可自行创建和编辑, 适应各个词典不同OCR处理的场景
) _6 @( a3 h8 m0 e" a
2 b K. K) E% Q' j 3. 切图:: B3 R! o" w% g* Q+ k( G
(1) 词条单行切图:也可以使用外部其他OCR软件处理,或者其他用途7 {' I0 j! ~' S4 y0 o) d
(2) 词条整体切图:实现切图版图片词典的制作(背景透明,不过目前需要其他PNG优化软件缩减大小:https://www.pdawiki.com/forum/thread-19157-1-1.html)
+ X2 y" |8 j) a0 _8 C (实例1:[英-汉] 20161113《英汉大词典(第2版)》10页单词 切图版 https://www.pdawiki.com/forum/thread-19015-1-1.html), G: A! W/ Z4 t, S( }" g
(实例2:新西汉词典 切图版 https://www.pdawiki.com/forum/fo ... 6545&fromuid=174481)
5 B8 ~ C8 @/ a% X: t " V# T) R. U( z" d+ ^' |
可实现仅导出切图坐标等信息,不导出切图,方便使用外部软件进行
5 \* G8 Z W: y0 U7 L# c i$ K
9 _- N- ^( N' ~2 |! |7 G/ K6 n
2 I7 ]& ?0 ^$ L1 e9 ]( W9 o 4. 校对:% P3 w y" g6 O% e5 k* X
列表式样, 与主窗口同步更新文本框内容, 也高亮匹配提示* P$ S' A) J% R# ~# a2 O. H
4 F) L, K& G3 D4 n# `2 B+ { 5. 其他:
1 G9 {9 \. w4 H4 A6 K C (1) 配置文件保存、导入
0 H4 |' V, V8 k* L' k& {( \9 ^ (2) 自动下一页+操作(定时):自动保存、自动画线、自动OCR、自动切图。方便无人值守完成相应任务2 |8 S ?5 `" p7 J" a0 w* n
(3) 最重要的还是要人工校对!!!!
' t' v. _+ j& P+ J1 D (4) 高度自定义参数设置" n& \6 _8 [2 t' m, h4 B* M
------------------------------------------------------------------------
2 D3 y" w, s l5 l+ o0 M如题,放个图:
% V8 f3 v, n0 ^% } s6 q% G/ r
( c T1 |5 W% U0 w" ]: z
' U; a. \5 H: w7 }, I+ e
3 X0 @9 u1 G0 e0 m1 T) h- ~
# t3 z0 V6 u2 E* |5 l& @0 J截图内的词条文字为OCR结果
8 @1 P9 K* f V; H3 Q- b; f8 J: x3 V+ [* x6 C0 w% _
! U2 C" a. ~9 C, c4 F1 B; r9 D
& U7 o/ j6 V, m----------------------------20181130更新:
/ ` i8 j1 C- A( F1 I6 w. P校对窗口增加按当前提示索引(全部或部分)填充当前划线的文本框!5 Z. P2 i K# D
----------------------------
3 ]/ @2 n E% x" W$ d: ^20180809更新:1 T0 D% p% A7 a$ @
插图画区域由之前的矩形升级为任意多边形2 {+ y# E u/ m
' N- x7 n; N8 T4 C5 n& Q
6 F* q; W" H" y! G' d6 n----------------------------; Q7 d4 g1 X6 P& {# J
20180614更新:
- E9 `7 R" b: m3 I- Q( J在校对界面中增加一列单词,即大词库表中 上页末单词和本页末单词 之间的所有单词。& h) L- j5 p3 u3 ?$ N
单击则替换当前校对文本框中的文本!
/ B" o" e% c0 u8 z+ S不同颜色提示,方便定位!5 P5 R( d+ {. L! B o
7 O3 O+ u# g4 d& D6 M" J: o: f4 L+ R5 f% s7 H# S+ ~+ e
% I: Y' D# v# |
----------------------------
1 M& r/ z/ s4 f# r' S' Y20170314更新2:$ x" _. t4 j4 O- }7 }3 ^
校对界面修改如下,增添更多特殊字符(aeiou等),方便校对的时候直接复制粘贴:
" e: F* L. `7 y" @ \3 X, Z* I& B% g, H/ ?* k
- P( m7 P9 x( @5 v/ ?) E% K3 w' U
20170314更新:" y' F. B# {8 ]7 [4 m9 ]7 q
起始页-->终止页6 w7 x4 y, h9 Z
[切图]-【词条整体切图】; c8 Z. `& l- v* h+ f& y/ G
---> 会直接把范围内的页面的所有单词切图导出(软件界面会有假死的状态,不用理会,导出结束就OK了), ~5 D3 c/ Y3 y- f( w; e9 k1 E
如果起始页和终止页为空,则导出当前页的词条切图
5 |* _9 O, }4 _- z z1 u8 W3 A$ y
/ h; K3 H0 h" v在校对界面时,主界面【√隐藏线框】,那么此时就只有颜色框(平行线宽)
3 j4 ]$ h1 Z2 s当前词条亮黄色,其他还是红色" ]/ a5 J6 n4 R/ n$ T& o/ Y
这儿主要是考虑到有时候词条不只是单行,多行的时候可以方便查看。" J b" c. {8 r3 I3 r7 |( t6 q
4 Y% c" i! C0 B----------------------------
6 ]/ y/ _9 d4 z: c" h6 {) h20170313更新:
$ s/ A- S) @1 B( N, Z9 o/ L1. 词条整体导出切图的判断逻辑的补充(3栏以上时,位于不同列的上下单词中间隔了空列。之前这个情况未考虑到)& ^" l7 {$ _- z5 M U0 y
【仅修改了:从PDIC整体导出切图的坐标数据的这部分补充内容】/ i9 ~0 ^8 T" p) k7 y
----------------------------: Q; U0 w) i" A; J/ V4 ~
20170217更新:3 E y* ?6 p1 C4 x- k' R
1. 画线判断的方法改进(2种方法均改进) r; q" Q4 h! w: l; K
----------------------------
: G4 Q- i. Q" k! J1 Q20170115更新:/ N) u& t9 h1 M4 m
1. tessdata 的完整语言列表,具体语言移步【https://github.com/tesseract-ocr/tessdata】下载, h. Y2 W- X# k7 e# W4 q3 _5 v
2. 在图片文件名列表上方的文本框里输入“SMALL”,点击【校对】,每个词条行的缩略图切图(非原始图片上裁剪)
" @$ [4 P" `4 R% G# s$ R----------------------------# k2 `7 _& H! U. E, R8 w
20161119更新:( L' D# ~# D2 |3 P+ `
1.修复保存坐标数据时的bug8 E0 s5 j+ ~# M1 l @8 D+ ]
2.修复单词整体导出页面的一个bug& N& M# k# E2 I4 o# @9 N+ Z
3.增加功能: 选定范围页面的批量导入词条$ n7 ^5 R) p& {' Y
4.增加功能: 快速查找定位索引: X. n! @- t' D8 T2 c! W
----------------------------) D0 ~4 \& T/ a; q! J
20161123更新:
' f$ a0 q5 ^5 I0 z重写词条整体导出切图的判断逻辑,现在应该不会有切图坐标不一致、切图数目不一致的情况了。) A3 D9 P i+ b
! q7 I8 A+ y( \7 v/ B! N# B4 b7 y6 I- 问题:页面是否有词条?* M+ b' H7 A3 o. A o
- 1. NO --> 直接导出和栏数一致的大切图 (标记为上页末词条续)# r: X, E' s( j+ b G! s
- 2. YES -->
8 S0 m5 [* L% M - (1) 确定0号词条所在栏:
$ \4 a/ l& X# p - --> 0号词条所在栏之前的栏, 直接导出大切图 (标记为上页末词条续)/ A# Y9 F& z! J8 _0 L6 k
- --> 0号词条所在栏上方若还有部分上页末词条接续, 则导出切图 (标记为上页末词条续)
/ @+ h# V% `, {% e/ P - (2) 次数为所有词条数目的循环:
% [& I$ s9 K2 f7 B2 M - A. 若: 当前为最后一个词条 --> 确定高度
2 i" c) `6 e. F/ @7 x - B. 否则:
$ ~; K6 U0 z9 x! b - a. 下一个词条在下一栏 --> 确定高度9 ~, V& f% H% l# e) \% Z
- --> 如果当前词条在下一栏仍有接续 --> 导出切图 (标记为当前词条接续2)
0 [; k# M; R7 Z( m; o, _3 ]- q: g" j - b. 下一个词条在同一栏 --> 确定高度( ]. h* N. u; b# ^) u# |; l6 t
# U! w# B E7 h) H* m+ k9 z- --> 导出每个词条的切图
; w2 v. m- n" b$ c) U7 d) F1 ]5 k
9 t2 Z; D* ^0 x# _- (3) 确定最后一个词条所在栏:
2 m/ }. j) K4 T' N" e, u - --> 最后词条所在栏之后的栏, 直接导出大切图 (标记为本页末词条续)
复制代码
) H3 Y: h9 J. c: r
+ k" {. n- B# r重要更新:: f9 N" U5 x& a1 i
1. 词条整体切图模块重写5 V# P6 g8 z$ Y/ H7 `
2. 增加根据.pdic导出所有图片切图信息(+切图)--> 几十秒【如下面动图GIF】
/ l7 N7 _2 \/ J9 B1 Z! i' K5 J. ^
+ B5 n5 p8 o# o. F6 @6 ?* n1 F3 q8 F2 Y, G3 W
8 A! l9 h2 h$ x( F. m9 P9 c7 G6 E2016.11.289 ?( `. J" K- g& S# c: |0 w. `
更新:一个小小的bug(跳过页首处下方如果单行接续,会因为判断的距离和行高过于接近造成缺漏 --> 修改了公式)
# M9 a ]/ u$ j
, z# s* m% }( Q. k |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?免费注册
x
评分
-
1
查看全部评分
-
|