掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 2176|回复: 8

[讨论] 关于文本格式的使用及扫描版格式的一点建议

[复制链接]
  • TA的每日心情
    擦汗
    2023-9-2 09:16
  • 签到天数: 1103 天

    [LV.10]以坛为家III

    发表于 2014-5-14 23:40:53 | 显示全部楼层 |阅读模式
    本帖最后由 spoony1971 于 2014-5-14 23:46 编辑
    5 N) O+ E( n% x% U% l3 t
      y9 S6 w2 n; q7 M& V+ l近来诸君工作如火如荼,无私精神令人惭愧。这里我发表一些愚见,若对诸君产生细微的帮助,则不胜欣慰。
    / F1 G9 s0 `  t4 u: a' x! t
    , s6 s, x. A7 P6 J  ^$ w7 _% q关于文本格式:markdown vs. XML
    8 e: V- }( l+ r2 S* Z8 g6 J个人推荐使用markdown格式。XML格式太过繁琐,直接输入不胜其繁。即使markdown也只应该采纳最基本的两点。
    2 V6 n7 v# n# P. Y1 ^1,空一行作为分段标记。(换行符不起作用,可由输入者自行决定,但换行符可作为全文检索时的单元划分,善加利用可更好的全文检索)。
    - h: u; @6 e  q5 @) F# N6 Y+ M2,词头单独成一行,前加“###” (假如担心字典中段首会出现"###"的话,也可用"####"等)) M& E& t9 E3 d) c8 y/ m, r
    别的更丰富的标记可酌情采纳,但不可过多。
    ( Q9 U, S" t2 Q( S& R' L! f0 `, N; s. y9 L( @; F9 W, h
    关于扫描版格式:
    ' f0 g9 y/ a5 _- O毋庸置虞,无损压缩清晰度没有丝毫损失,这里主要两种图像格式bmp和无损png压缩。但生成的最终文件太大。
      P; B9 o% G% g1 {6 R( R' }! ^在图像有损压缩中,jpeg专门针对图像,文字边界清晰度损失较大,没有对扫描文字进行特殊优化,压缩率低。
    ' W+ b* }5 [% }) Q! Y5 \, Jdjvu是专门针对扫描文本的压缩算法,对普通图像处理效果不佳,但对扫描文本,清晰度保存高,压缩率超高。(特别推荐用minidjvu来压缩黑白扫描文本)
    7 S0 o. G) k" n) i7 C. w0 Z# |; V0 C2 H
    欢迎大家讨论。

    该用户从未签到

    发表于 2014-5-15 00:36:34 来自手机 | 显示全部楼层
    黑白格式的png完爆jpg/jpeg不解释

    该用户从未签到

    发表于 2014-5-15 03:24:16 | 显示全部楼层
    spoony1971, 你说的markdown, 我google了解了一下, 暂时还未尝试过.
    + P, G7 B7 ^5 [& G7 y3 P目前我个人用Emeditor, 自定义高亮, 文本里除了`/\, 几乎没有添加另外的符号,
    + W8 l' F; d% u" o8 k感觉非常好.) {3 ?" W! z' ]+ a

    该用户从未签到

    发表于 2014-5-15 06:50:27 | 显示全部楼层
    dsl格式为GoldenDict直接支持,容错性高。' r  M" J+ B; d. K

    * d  o& I: Y- o! U, C我目前是直接录入为dsl格式。如图
    $ f! m9 d; N, {
      b' p" L, C0 H' a3 c8 s

    ; J( k2 ]# v  r, t* ?; N# u( E
    * X% l& `: y: L8 @: L) D够简单吧?词头单独一行,内容前有tab,完了空一行,so easy。当然,最后排版可能也就这般朴素了。5 f1 j+ l) V$ U& j- f1 l
    : v& p) A2 {3 k7 t' m
    另外,同意楼主的看法。我们这般普通网友,没必要搞出出版级别的xml,那太累太累了,当然,如果有牛人搞出一个简单的适用于mdx的Dictionary Writing System,那就另当别论。3 T) O# M- K; ?  V3 l% x! E

    ; g  ^$ U8 L7 ~其实校对,最难的是找到靠谱的同路人,《英汉大词典》,能找到五个,就不错了。
    : W* `$ v, K7 @5 Z* y$ z, @
    . P! k, C0 ~* P2 r6 p{:5_227:} " q" L# _5 r' n+ _, W, P
    / `( V. f% S2 |0 j& _+ |- Y

    ) t- R8 C. E: G* d0 B

    该用户从未签到

    发表于 2014-5-16 11:46:59 | 显示全部楼层
    Oeasy 发表于 2014-5-15 06:50
    + I/ T7 z  ?% o0 _+ d# b+ Jdsl格式为GoldenDict直接支持,容错性高。
    . @( O- G. Q0 s7 Q* Y7 P- E6 D
    % ^6 X: ^2 `% n* _. `, B, f- _我目前是直接录入为dsl格式。如图
    % Y) u; D& B' B: ~
    伸手党请教,dsl格式有什么优势么,是否市面上光盘的词典转换为dsl更容易?

    该用户从未签到

    发表于 2014-5-16 11:58:22 | 显示全部楼层
    itarcy 发表于 2014-5-16 11:46
    ( I" ]" C- z% a伸手党请教,dsl格式有什么优势么,是否市面上光盘的词典转换为dsl更容易?
    % M4 O+ L7 q# T: F. s5 @

    6 d- O+ C5 }+ u5 ~  x! N$ V  K0 J5 u* _, e
    dsl格式就是纯文本,GoldenDict可用,容错性高。参考:http://lingvo.helpmax.net/zh/故 ... �一本-dsl-词典/( L6 @) _( u5 d
    4 `3 S8 E( H# d6 A1 m
    这里所谓i的“容错性”高,是指某些词条格式不合乎规范,这个dsl文件,还是可以为GoldenDict所加载,还是能够使用,能够查询到绝大多数词条。只不过这个不合乎规范的dsl在转制为lsd(ABBYY Lingvo所支持的格式)时,会有很多问题罢了。
    3 ]0 d" u8 a6 z& s, n3 D9 x$ t+ R/ _
    要是mdx的源文件txt里有些问题,不严格符合规范,是不能制作为mdx的,也不能为词典软件所加载使用。而且从mdx再转为mdx源文件txt,词条的顺序可能就变了,和最初的源txt不同。2 i+ k, s3 C1 _5 \  m/ ?9 C1 Y
    & x/ m; `: [5 v0 ~% t( y
    - S. t5 p9 @- u. J# f9 @
    dsl里,词条顺序可以和纸质出版物一致,方便校对时定位、对照。
    2 n2 n- t7 Y  Q7 u8 X  w
    " U1 h# G% q2 _) x& P9 n, J至于光盘转换为dsl,难度和转换为mdx是一样的。最难的部分其实就是从光盘提取文本(一般是xml格式),至于那文本是转为dsl还是mdx,就看制作者喜好了。
    & q8 p# H+ H: l, I. P; y5 m8 a( e0 j# V, A2 x

    该用户从未签到

    发表于 2014-5-16 12:05:10 | 显示全部楼层
    Oeasy 发表于 2014-5-16 11:58 5 \/ f$ d8 h' q9 i
    dsl格式就是纯文本,GoldenDict可用,容错性高。参考:http://lingvo.helpmax.net/zh/故障排除/dsl-c ...
    : `# o9 \* B' I$ v
    懂了,谢谢,大人简直就是百科全书

    该用户从未签到

    发表于 2014-5-16 16:49:17 | 显示全部楼层
    太忙,以至于只关注了我自己的贴子,今天才看到前辈的耐心箴言,非常惭愧!

    该用户从未签到

    发表于 2014-12-26 23:58:45 | 显示全部楼层
    光盘转文本大神们主要是什么方法,按键精灵吗?
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2025-5-10 19:41 , Processed in 0.021564 second(s), 21 queries .

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表