掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

楼主: Cdasjkldjas

[讨论] 【讨论】如果要把老神仙的《英汉大词典》弄出来,XML标记怎么约定?

 关闭 [复制链接]

该用户从未签到

发表于 2014-5-20 15:55:57 | 显示全部楼层
怎么焚书坑儒了!{:11_317:}

该用户从未签到

发表于 2014-5-28 22:28:22 | 显示全部楼层
本帖最后由 bt4baidu 于 2014-6-12 16:24 编辑 * z( ]1 C4 T- o  ^) Z& ~
Cdasjkldjas 发表于 2014-5-15 13:43 ( z+ d3 c5 s' X) n# ^0 E" }5 Q5 e
谢谢各位回复,机器已到。( Y' t& N6 @% Q3 y
7 p# F6 o' b$ A3 R9 x" Q! W. f
最大支持600。
7 H2 f% f5 m2 w
4 ]$ z& P- t( e7 j  c
根据#49楼主给出的扫描结果,写了一个格式化工具,下载地址如下:
& `2 U) ]& J/ o7 r; S链接:http://pan.baidu.com/s/1hqmTwkG 密码:l4rv7 a& k* L! S  C7 p5 ]

: B. D% X8 [" f2 F& J8 E
5 e* d! V/ i( ^2 R% f经本人实测,只需要改正少量OCR识别错误,仅须不到30分钟即可校对完成1页" X! U2 C' C! E; Z' T3 L
2 \& H, T# K/ ^( F/ ?5 e

; t. w' l- {6 r( Y

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?免费注册

x

该用户从未签到

发表于 2014-5-28 22:44:42 | 显示全部楼层
补充一句:OCR识别文本一定要存成UTF-8编码,否则容易出乱码
  • TA的每日心情
    擦汗
    2023-9-2 09:16
  • 签到天数: 1103 天

    [LV.10]以坛为家III

    发表于 2014-5-28 23:55:14 | 显示全部楼层
    赞同犯人说,不如OCR后不加校对直接使用(多列转换成文本可能需编程解决),使用过程中发现错误再加以修正。只要对源文本用git等版本工具管理起来。多人同时修改不是什么问题。只要大家不是拿这个词典供着,真正使用起来的话不久就完善了,而且绝无痛苦可言。
    7 D7 B, b* e( h7 u
    0 T% X5 b. j8 q" Y% bbt4baidu是编程牛人,不知能不能编个转换多列pdf(?)成单列文本的工具,这样的话词典立即就可使用了。
    ) A& y0 j6 g6 ~4 c
    3 d& H' q$ H) e3 j/ E2 }7 x

    该用户从未签到

    发表于 2014-5-29 09:37:04 | 显示全部楼层
    spoony1971 发表于 2014-5-28 23:55 , W. V( p0 e2 l. Z# Z) Y8 H# n5 J
    赞同犯人说,不如OCR后不加校对直接使用(多列转换成文本可能需编程解决),使用过程中发现错误再加以修正。 ...
    1 u* P7 k2 m: v, d' M) K
    不需要多列转换成文本,ABBYY可以保存ocr结果为txt文本,自动就是按词条的
      o  M/ z( Z' J) A& c1 K& b( C$ P1 ~' e6 S* L$ z% \- p
    我的想法是大家每人领取50页扫描图片,自己用ABBYY软件ocr,这样的好处是在ABBYY里就可以根据软件提示修改识别错误。
    # s6 h" l# Y0 x/ R' ]8 z5 ~/ ^' z; `$ l2 C: X0 U- i& l3 s( D5 w: x2 v1 K& S' k
    保存为文本后用我的工具格式化,然后校对确认无误后,再通过另外的工具(我可以写一个)整成mdx源文件,完工
    5 J! a& S1 M7 q5 ^; V0 E7 c- I
      V. T, v1 t; N9 ?5 D) ?( s/ s2 b7 n由于我手头的ocr结果有限,可能有个别地方格式化工具不能对应,这个可以新开个校对专贴来反馈,我可以随时升级工具(保证向下兼容)
  • TA的每日心情

    2018-2-6 10:27
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2014-5-29 21:19:29 | 显示全部楼层
    支持楼主。。{:11_337:}开心的扭来扭去。。. a' K8 m/ @! Y
    我老了,上班的时候没有公网可以用。。。下班事情太多。精神支持!
  • TA的每日心情
    难过
    2023-11-26 08:44
  • 签到天数: 49 天

    [LV.5]常住居民I

    发表于 2014-6-1 17:40:02 | 显示全部楼层
    bt4baidu 发表于 2014-5-29 09:37
    7 t: O% V2 d/ N6 ~不需要多列转换成文本,ABBYY可以保存ocr结果为txt文本,自动就是按词条的1 u0 s: L* |2 k; M) O
    1 k- H$ Z9 w  h0 M: d$ X
    我的想法是大家每人领取50页 ...
    9 E6 n  S, F% U; w" z2 n  }3 |
    期待楼主搞个MDX源文件整理软件,MDX源文件整理太难了,我制作出来的MDX都是比较丑陋的,没有加粗、没有图表、没有色彩……

    该用户从未签到

    发表于 2014-6-7 00:26:06 | 显示全部楼层
    本帖最后由 bt4baidu 于 2014-6-8 22:10 编辑
    * v- z$ L$ W3 C7 H! V
    / H2 e6 u+ C- e# l重写一个格式化工具,30分钟就能干完一页。且几乎不用录入多少文字。+ v/ A1 b$ b" b2 E( k
    欢迎使用
    . [! O# u6 g0 S: D8 Q) d6 j, {2 y' P! W" l4 Z

    ! c3 M1 F% i) ~1 Y) b% r$ ~链接:http://pan.baidu.com/s/1hqrDaPe 密码:qzl5

    该用户从未签到

    发表于 2014-6-7 02:33:36 | 显示全部楼层
    bt4baidu 发表于 2014-6-7 00:26
    % i' q$ }& b; z: t5 v重写一个格式化工具,30分钟就能干完一页。且几乎不用录入多少文字。
    9 N7 C. V% U5 |0 z( G7 m- W0 N* k7 m欢迎使用

    : N0 r9 A8 ?) X; n; K; a4 m你这个工具好!不愧是高手!

    点评

    呵呵 抓紧干 本人想早点用上电子版的ECD2  发表于 2014-6-8 22:12

    该用户从未签到

    发表于 2014-12-24 15:41:44 | 显示全部楼层
    是的,出版社的利益没保证,以后大家就没吃点了,建议等到第三版上市后在放出文本化版本,和高清扫描版,虽然说起来盗版可耻,但是电子词典的方便性纸质版是没法比的,这方国内做的实在太差劲了
    ( B, d  {/ u" T) G/ W并且好的词典也实在太少了啊9 K9 y( L3 M- R7 L6 s( d
    虽然需要,但是还是强烈建议等待第三版上市时候,在放出来吧,到时候第二版虽然还有价值,都是残余价值了,不太多的价值了,出版社不知道会不会介意

    该用户从未签到

    发表于 2014-12-24 15:41:53 | 显示全部楼层
    是的,出版社的利益没保证,以后大家就没吃点了,建议等到第三版上市后在放出文本化版本,和高清扫描版,虽然说起来盗版可耻,但是电子词典的方便性纸质版是没法比的,这方国内做的实在太差劲了. Y0 w! E+ w. T0 ]& d% \5 i$ ]- V
    并且好的词典也实在太少了啊
    ! u" Z# P; z5 E( i6 c* ^# Q2 s虽然需要,但是还是强烈建议等待第三版上市时候,在放出来吧,到时候第二版虽然还有价值,都是残余价值了,不太多的价值了,出版社不知道会不会介意

    点评

    沒人打算放出來,不勞您費心  发表于 2014-12-25 09:39

    该用户从未签到

    发表于 2015-7-1 04:20:41 | 显示全部楼层
    你好。我非常想弄一本英汉大词典的电子版。
    7 `2 f# j& P. x但我人在海外。; d  e# P* E/ A1 V+ k
    我买一本邮给你,你传一份电子版给我如何?% u- ^+ P+ D+ o$ f; d
    邮件:[email protected]
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2025-5-7 03:04 , Processed in 0.021946 second(s), 17 queries .

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表