|
本帖最后由 chigre3 于 2018-11-30 08:14 编辑 6 S% n! a2 J1 ]( q
9 A: o$ ~- q. l5 ^! I5 _一、致谢:- |$ G; D" {6 B. m
感谢 @vbnet 的自动画线测试版, 现在经过个人修改, 几乎完全删除了原先的内容, 软件名称仍为 Picture Capture9 w" X3 Y/ }8 T$ O y9 b& C. H- A
感谢 @孤影 的自动划线软件, 给了很多界面上的参考- t3 \9 }9 z. G9 ?( B
------------------------------------------------------------------------
& @! G8 Y" l& `& ^8 r1 @% V二、这个软件有什么用呢???+ Q' t$ @6 j# l
极大地提高制作图片版词典的效率,现在个人需要做的事情仅仅为:
$ D) v7 S5 R/ ~# F 1. 前期的图片处理:Abbyy Finereader(整体校直)、Photoshop(模板调位置, 统一)、ComicEnhancerPro(转换格式、大小) 等' C+ v3 b9 Y5 f& o) U1 h# A, R
2. 使用本软件进行:
6 `- | T5 e) N/ ]5 V L( b4 J (1) 全部页面的 自动划线-->自动OCR/ ~- B3 |+ J$ I
(2) 逐页校对划线和文本(可删可增)" J9 \6 F7 b& w
(3) A.合并 .pdic (词条 + 坐标信息) --> Excel 模板 --> 文本替换 --> 精确高亮定位 整页版 图片词典: T- L8 O( E" N( R" Z
B.导出单词整体切图 --> 合并 .PWWords (词条+图片名称) --> 文本替代 --> 切图版 图片词典) ^( C/ I3 D6 W. V6 y
------------------------------------------------------------------------ d4 _8 x, L7 H6 D
三、实现的功能:# |& M2 F- Q+ ?9 W' q9 V
1. 画线:- c: v9 P% |" C
(1) 自动分析页面 + 自动画线8 {5 ]! ]; h' ], N+ W* G$ |* q
(2) 手动模式定义页面 + 自动划线
8 ]0 X+ y/ {8 I (3) 鼠标右键单击修改单栏重新自动画线
, c; I) u+ k. v! h 以上均 + 鼠标左键单击增加画线, 文本框内快捷键`删除划线4 @, g d8 j4 _% h Z n2 A
" D' g/ f) @3 r% G/ }6 O% o
2. OCR:6 A, t% M: n" S; B
采用Tesseract OCR, 具体语言文件 tessdata 可以到官网下载:https://github.com/tesseract-ocr/tessdata
' K" b! O9 A, b, i. R+ J: k (1) 导出文本:可外部编辑后导入, 避免OCR单个切图的不足
* E1 R$ f) J% d. Y& X8 u* c (2) 导入文本
7 d9 ^: N) j7 }! W (3) 1 + 2:直接将OCR结果导入当前页面的文本框 --> 校对" X! f0 ~& w6 H4 B1 h
外置批量替换表达式文本, 可自行创建和编辑, 适应各个词典不同OCR处理的场景
$ w: ]5 o- E% V9 L( `- \
9 F8 }8 _7 u0 k2 t) q5 R5 |5 A2 Q 3. 切图:" c* w% l: N0 n% l
(1) 词条单行切图:也可以使用外部其他OCR软件处理,或者其他用途
# _) i, H$ ]4 m% [- E (2) 词条整体切图:实现切图版图片词典的制作(背景透明,不过目前需要其他PNG优化软件缩减大小:https://www.pdawiki.com/forum/thread-19157-1-1.html)
# N& }% t! p$ g0 R: L) A* m (实例1:[英-汉] 20161113《英汉大词典(第2版)》10页单词 切图版 https://www.pdawiki.com/forum/thread-19015-1-1.html)9 A7 R5 T# b, n
(实例2:新西汉词典 切图版 https://www.pdawiki.com/forum/fo ... 6545&fromuid=174481)
6 K* ^9 I$ n6 j3 k% {: {9 \ A ' z0 Y0 @! b/ `0 j6 X
可实现仅导出切图坐标等信息,不导出切图,方便使用外部软件进行
2 O! a" Z. c% v
5 _, S1 `( I. Y1 Y/ G( \* ~; B/ o$ j4 _' S
4. 校对:8 ^* @; p! N* ^/ B/ r
列表式样, 与主窗口同步更新文本框内容, 也高亮匹配提示
# M; f% K6 c+ h) `9 I& R6 y5 f, {8 v5 L8 _' v. J3 N. a: O% Z
5. 其他:
8 C- [0 E# q5 R( d# ` (1) 配置文件保存、导入) t% q' x! M, ]8 K3 ]
(2) 自动下一页+操作(定时):自动保存、自动画线、自动OCR、自动切图。方便无人值守完成相应任务
1 ~" `; \+ X( L (3) 最重要的还是要人工校对!!!!( f6 c' H% ^% `- C' ]& n9 y
(4) 高度自定义参数设置8 m* O$ u, A* i" e/ S6 `: l
------------------------------------------------------------------------
8 x: p, D% x! c6 |, K; q2 F. b0 Z: }如题,放个图:
) }# D! d% |9 a1 u* H, z; w5 h
& _$ `4 Z3 e6 L$ P
7 F6 }" ]* z q! K# ^2 x* E% ]1 a( D" h/ Z7 e H+ c9 Z
+ A/ |4 Y, U e
截图内的词条文字为OCR结果
; I3 r4 j. S' R7 [
+ n8 r, P, }, u2 y z5 y7 ~" {* j8 h, _! w- Q( l
6 } ^; V# E y! G- X+ i
----------------------------20181130更新:0 Q2 C, B- [/ @7 v I8 @. ~% H
校对窗口增加按当前提示索引(全部或部分)填充当前划线的文本框!2 `* u' r( ^1 n* q7 K8 F3 u5 ~
----------------------------
& G+ C1 b8 O1 e2 q6 U20180809更新:3 n! n3 N2 d; Q+ k9 ^: w+ Q: b- w
插图画区域由之前的矩形升级为任意多边形8 d7 [ }$ c5 z% J2 m, Y; u- R
# \3 W1 j5 c+ h! u5 e) n' r1 {; O2 g% ]3 K" j1 h% z
----------------------------
" m- o" j0 b9 K20180614更新:
; B- S5 k! U8 A# m( n" V4 B在校对界面中增加一列单词,即大词库表中 上页末单词和本页末单词 之间的所有单词。5 r( g5 Q, s+ M) K$ |' B
单击则替换当前校对文本框中的文本!
! @8 a/ }, ]# K5 i不同颜色提示,方便定位!
; n+ X4 p0 d1 u0 n% e; g0 T& s+ N/ V; |
; F2 j1 K, \6 C' q' I$ C
" y9 Z# e. R) ]) G. ]----------------------------. U! s1 B% `+ P {+ K
20170314更新2:' P! d' p, Q, k% U) n
校对界面修改如下,增添更多特殊字符(aeiou等),方便校对的时候直接复制粘贴:7 _$ l+ {$ ?! v$ l/ d2 |1 G1 U( B/ r
4 @& F' n/ m8 @- ?
& x- r0 ^: @0 p; V2 r/ n20170314更新:
2 l* \0 q" t( ^" R7 |起始页-->终止页- ?) z# A7 P4 i8 \8 m& o; H
[切图]-【词条整体切图】
( S6 T `( s7 E& V) Z* j5 S---> 会直接把范围内的页面的所有单词切图导出(软件界面会有假死的状态,不用理会,导出结束就OK了)
# x' r9 b! {$ g2 k Z* p如果起始页和终止页为空,则导出当前页的词条切图
: d' P3 L6 z+ f; j0 G$ L
( ]" ^6 X+ w. i$ L2 ~9 s) _在校对界面时,主界面【√隐藏线框】,那么此时就只有颜色框(平行线宽)
F: O" u; ]4 l$ }7 x; p当前词条亮黄色,其他还是红色0 n8 y) X. H }7 ]& [) q! n4 [
这儿主要是考虑到有时候词条不只是单行,多行的时候可以方便查看。
! H) p& |9 e6 X/ b) ]) q" k7 s9 V9 J) }# I6 c. A+ e
----------------------------
4 a4 Z2 X0 I- }/ }; `" Q20170313更新:
$ F x- x9 }& \. \5 t0 T1. 词条整体导出切图的判断逻辑的补充(3栏以上时,位于不同列的上下单词中间隔了空列。之前这个情况未考虑到)" A) U* u/ w! Y) s/ N) d
【仅修改了:从PDIC整体导出切图的坐标数据的这部分补充内容】
; }3 u9 G) g3 L3 M, c# }" e% t----------------------------; ?- q! c6 s. l3 Y) C M' ]" i
20170217更新:
0 F$ n- B7 m- O1 f7 a8 t( A! a6 O1. 画线判断的方法改进(2种方法均改进)" E# B4 D: p Y, f |' Q$ Q
----------------------------
1 u3 z+ o. C( R3 u* U8 ?20170115更新:
0 t* \$ d! a0 u5 j5 ]: z1. tessdata 的完整语言列表,具体语言移步【https://github.com/tesseract-ocr/tessdata】下载
* ?' m g! o7 `9 C; X1 N, p2. 在图片文件名列表上方的文本框里输入“SMALL”,点击【校对】,每个词条行的缩略图切图(非原始图片上裁剪)
D2 J3 P7 Z% N9 M$ S----------------------------# N; p2 ~0 r- m$ H
20161119更新:
" s5 o% R- W+ a( I+ {# L1.修复保存坐标数据时的bug/ ]6 ^) |5 c/ r- u
2.修复单词整体导出页面的一个bug
' p& L* }0 @1 V2 d* j% x4 Y3.增加功能: 选定范围页面的批量导入词条
$ O# u8 n1 {" F5 [5 t* L4.增加功能: 快速查找定位索引) J9 G m# }0 u& X% _
----------------------------
8 r C+ j6 M( L) B2 P7 \20161123更新:+ r `/ r; P" a# C5 P
重写词条整体导出切图的判断逻辑,现在应该不会有切图坐标不一致、切图数目不一致的情况了。
) Q# Q! M$ r4 K
5 }- f' ]. y: O. e8 I- 问题:页面是否有词条?$ W( J' J, f; S" H7 d, N+ |% b% E
- 1. NO --> 直接导出和栏数一致的大切图 (标记为上页末词条续)4 h# G9 c! \. ~- G8 L |
- 2. YES --> 4 [# K. [, d! X+ V. w/ c
- (1) 确定0号词条所在栏:
8 |. I- B: H2 k [- u- c; F - --> 0号词条所在栏之前的栏, 直接导出大切图 (标记为上页末词条续)7 Y9 D& N6 W% D! X% r) Q
- --> 0号词条所在栏上方若还有部分上页末词条接续, 则导出切图 (标记为上页末词条续)5 r) J# \9 U1 Z1 Z
- (2) 次数为所有词条数目的循环:$ t! | l$ e7 A) o
- A. 若: 当前为最后一个词条 --> 确定高度
, @4 P% a$ t, S ~: K - B. 否则:
1 X8 i' o7 @+ D+ g4 ?* p _ - a. 下一个词条在下一栏 --> 确定高度
8 @! w3 T. A7 R4 a$ ~ R3 X - --> 如果当前词条在下一栏仍有接续 --> 导出切图 (标记为当前词条接续2)8 E( Y* r4 F9 @( p& T
- b. 下一个词条在同一栏 --> 确定高度
6 K( g* e* s6 n* p - # A/ G' x9 Y; S0 R: O
- --> 导出每个词条的切图
! w2 S8 G- Q! k; S3 r0 U5 T - 6 f3 d1 y* F w8 i/ G
- (3) 确定最后一个词条所在栏:6 a+ _1 l/ X/ A: y
- --> 最后词条所在栏之后的栏, 直接导出大切图 (标记为本页末词条续)
复制代码
: X8 g" Z8 h$ h7 h6 ]1 E, E" |
% n M* D% w; n1 w. ]重要更新:
: G4 e' Q0 {# ^ c1. 词条整体切图模块重写
! w# M6 c# _; W' O# x" L2. 增加根据.pdic导出所有图片切图信息(+切图)--> 几十秒【如下面动图GIF】" \1 g4 Q+ \4 f" b
$ \# H* X7 N, E9 s, [ X
" p O. O3 [3 d: M
$ O0 H/ U! S- e& n! O2016.11.28
8 y; _) ^- H) e8 R6 {. p更新:一个小小的bug(跳过页首处下方如果单行接续,会因为判断的距离和行高过于接近造成缺漏 --> 修改了公式)8 E% x, T) }% c4 g6 Y% y: Z
) r% B0 B; {( ~6 @5 T" W2 ?7 Z$ z |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?免费注册
x
评分
-
1
查看全部评分
-
|