掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

楼主: Cdasjkldjas

[讨论] 【讨论】如果要把老神仙的《英汉大词典》弄出来,XML标记怎么约定?

 关闭 [复制链接]

该用户从未签到

发表于 2014-5-20 15:55:57 | 显示全部楼层
怎么焚书坑儒了!{:11_317:}

该用户从未签到

发表于 2014-5-28 22:28:22 | 显示全部楼层
本帖最后由 bt4baidu 于 2014-6-12 16:24 编辑
  T4 b4 D8 D; R9 J1 Q# O6 }+ a
Cdasjkldjas 发表于 2014-5-15 13:43
+ O; z: W1 ]9 g; U: x+ H谢谢各位回复,机器已到。
- n! U, D7 v3 D" W- p! t3 K. J, [9 M) g/ |
最大支持600。

9 x$ h8 \) @4 [  C
% B$ q( q; x/ f! M2 K8 K8 z根据#49楼主给出的扫描结果,写了一个格式化工具,下载地址如下:
1 n# E7 p( `6 h' u) l: }7 C! f链接:http://pan.baidu.com/s/1hqmTwkG 密码:l4rv
7 \$ y" h. b4 T) }& r" d9 B9 v; B, {5 b& i' Y" |5 o7 w

; E  ?3 v  y" U0 H经本人实测,只需要改正少量OCR识别错误,仅须不到30分钟即可校对完成1页+ |6 A- N4 v% H  @) T$ e6 w2 u" ^

! q- N2 T* E: A# `* V  H. @, T
7 o/ u/ e( ~5 E2 O3 E: k0 M; J5 r6 X

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?免费注册

x

该用户从未签到

发表于 2014-5-28 22:44:42 | 显示全部楼层
补充一句:OCR识别文本一定要存成UTF-8编码,否则容易出乱码
  • TA的每日心情

    2025-8-19 07:45
  • 签到天数: 1104 天

    [LV.10]以坛为家III

    发表于 2014-5-28 23:55:14 | 显示全部楼层
    赞同犯人说,不如OCR后不加校对直接使用(多列转换成文本可能需编程解决),使用过程中发现错误再加以修正。只要对源文本用git等版本工具管理起来。多人同时修改不是什么问题。只要大家不是拿这个词典供着,真正使用起来的话不久就完善了,而且绝无痛苦可言。1 R: P9 n  {! a, j/ Y$ z
    , `) _, J5 t! ~. [- y
    bt4baidu是编程牛人,不知能不能编个转换多列pdf(?)成单列文本的工具,这样的话词典立即就可使用了。
    ! s# `2 n8 W2 q! X) Q( r7 |! Q
    8 F6 v6 u/ A& F1 x# J! W

    该用户从未签到

    发表于 2014-5-29 09:37:04 | 显示全部楼层
    spoony1971 发表于 2014-5-28 23:55
    $ }! X) k/ g1 O/ o赞同犯人说,不如OCR后不加校对直接使用(多列转换成文本可能需编程解决),使用过程中发现错误再加以修正。 ...
    . q& e  T0 J: D6 L& X
    不需要多列转换成文本,ABBYY可以保存ocr结果为txt文本,自动就是按词条的+ d; \3 A( b) }- J0 |" e
    4 N! W3 M& v: ^% B( I& n
    我的想法是大家每人领取50页扫描图片,自己用ABBYY软件ocr,这样的好处是在ABBYY里就可以根据软件提示修改识别错误。  `% A: z$ d; G; y
    , @, m! N2 u9 s8 g8 P$ r3 i5 M; U
    保存为文本后用我的工具格式化,然后校对确认无误后,再通过另外的工具(我可以写一个)整成mdx源文件,完工
    * x" h8 S$ W( p2 q; m
    . l7 n! P+ I+ L' w& }, a% ?由于我手头的ocr结果有限,可能有个别地方格式化工具不能对应,这个可以新开个校对专贴来反馈,我可以随时升级工具(保证向下兼容)
  • TA的每日心情

    2018-2-6 10:27
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2014-5-29 21:19:29 | 显示全部楼层
    支持楼主。。{:11_337:}开心的扭来扭去。。9 _) I# c. w8 p( R8 g
    我老了,上班的时候没有公网可以用。。。下班事情太多。精神支持!
  • TA的每日心情
    难过
    2023-11-26 08:44
  • 签到天数: 49 天

    [LV.5]常住居民I

    发表于 2014-6-1 17:40:02 | 显示全部楼层
    bt4baidu 发表于 2014-5-29 09:37 8 j3 [0 p  c" q( {6 G0 Q% o
    不需要多列转换成文本,ABBYY可以保存ocr结果为txt文本,自动就是按词条的
    6 M- C6 ~! }% l9 _4 E6 x8 {' q% s. Y( _: k) |. R
    我的想法是大家每人领取50页 ...

    0 }* Q1 Z6 s, W' A: C期待楼主搞个MDX源文件整理软件,MDX源文件整理太难了,我制作出来的MDX都是比较丑陋的,没有加粗、没有图表、没有色彩……

    该用户从未签到

    发表于 2014-6-7 00:26:06 | 显示全部楼层
    本帖最后由 bt4baidu 于 2014-6-8 22:10 编辑 / v( u3 }% V9 \6 i1 L

    / q7 g' s" b# G) d1 w重写一个格式化工具,30分钟就能干完一页。且几乎不用录入多少文字。8 R: r! b3 ?0 C# k
    欢迎使用
    . v- `- j5 F* g, y2 T3 p% s7 u5 r; L& ~5 ~+ L# u/ |5 u  i

    + ]" h' |+ c, U) y' f2 u9 ]9 C: a: m; I链接:http://pan.baidu.com/s/1hqrDaPe 密码:qzl5

    该用户从未签到

    发表于 2014-6-7 02:33:36 | 显示全部楼层
    bt4baidu 发表于 2014-6-7 00:26
    $ l& n) Q! P* I; g- \重写一个格式化工具,30分钟就能干完一页。且几乎不用录入多少文字。" j* G% c. W3 y5 Z5 B# q
    欢迎使用
    8 u' n+ }! c: e4 r+ h4 ~' e
    你这个工具好!不愧是高手!

    点评

    呵呵 抓紧干 本人想早点用上电子版的ECD2  发表于 2014-6-8 22:12

    该用户从未签到

    发表于 2014-12-24 15:41:44 | 显示全部楼层
    是的,出版社的利益没保证,以后大家就没吃点了,建议等到第三版上市后在放出文本化版本,和高清扫描版,虽然说起来盗版可耻,但是电子词典的方便性纸质版是没法比的,这方国内做的实在太差劲了
    6 `: `: W0 Q. i并且好的词典也实在太少了啊8 u4 a. U: ^: J2 b1 Y
    虽然需要,但是还是强烈建议等待第三版上市时候,在放出来吧,到时候第二版虽然还有价值,都是残余价值了,不太多的价值了,出版社不知道会不会介意

    该用户从未签到

    发表于 2014-12-24 15:41:53 | 显示全部楼层
    是的,出版社的利益没保证,以后大家就没吃点了,建议等到第三版上市后在放出文本化版本,和高清扫描版,虽然说起来盗版可耻,但是电子词典的方便性纸质版是没法比的,这方国内做的实在太差劲了
    & [$ [, j; H1 ^, G并且好的词典也实在太少了啊9 s7 d5 L& w. s3 _$ K( R/ h
    虽然需要,但是还是强烈建议等待第三版上市时候,在放出来吧,到时候第二版虽然还有价值,都是残余价值了,不太多的价值了,出版社不知道会不会介意

    点评

    沒人打算放出來,不勞您費心  发表于 2014-12-25 09:39

    该用户从未签到

    发表于 2015-7-1 04:20:41 | 显示全部楼层
    你好。我非常想弄一本英汉大词典的电子版。6 y6 `1 `' d; N" D0 R* L
    但我人在海外。  K" f7 X3 q1 v7 J& v" c6 J8 I
    我买一本邮给你,你传一份电子版给我如何?
    9 n% _+ U2 i& E& g邮件:[email protected]
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2026-6-4 22:52 , Processed in 0.019897 second(s), 17 queries .

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表