Cdasjkldjas 发表于 2014-5-11 22:12:18

【讨论】如果要把老神仙的《英汉大词典》弄出来,XML标记怎么约定?

本帖最后由 Cdasjkldjas 于 2014-5-18 14:01 编辑



经过这几天和各位朋友的探讨,我发现我之前的想法有很多不成熟的地方。

O大的讨论帖:

https://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=12590&fromuid=176107

我的本意是为社区贡献一份高清扫描版,用于制作英汉大词典的电子版。

但是我也反对不购买纸质版(200块钱不到你买不起我不信)就获得高清扫描。

经过和前辈们的交流,我体会到他们既成的工作模式有着非常现实、非常严肃的重要意义。

所以我决定不再公开高清扫描。

如果大家在购买了纸质版之后依然希望获得一份自用的《英汉大词典》电子版的话:

请移步至:

《英汉大词典》(第2版)文本化专贴》

https://pdawiki.com/forum/forum.php?mod=viewthread&tid=12601&fromuid=176107

协调人chigre是此贴楼主:

《【2014.05.04】《红葡汉词典》重新校对 (葡萄牙语) [还在进行中]》

https://pdawiki.com/forum/forum.php?mod=viewthread&tid=12529&fromuid=176107


bt4baidu 发表于 2014-5-29 09:37:04

spoony1971 发表于 2014-5-28 23:55 static/image/common/back.gif
赞同犯人说,不如OCR后不加校对直接使用(多列转换成文本可能需编程解决),使用过程中发现错误再加以修正。 ...

不需要多列转换成文本,ABBYY可以保存ocr结果为txt文本,自动就是按词条的

我的想法是大家每人领取50页扫描图片,自己用ABBYY软件ocr,这样的好处是在ABBYY里就可以根据软件提示修改识别错误。

保存为文本后用我的工具格式化,然后校对确认无误后,再通过另外的工具(我可以写一个)整成mdx源文件,完工

由于我手头的ocr结果有限,可能有个别地方格式化工具不能对应,这个可以新开个校对专贴来反馈,我可以随时升级工具(保证向下兼容)

Cdasjkldjas 发表于 2014-5-11 22:28:42

本帖最后由 Cdasjkldjas 于 2014-5-11 22:34 编辑

我这么有诚意地把我的英汉大词典拆了,你们倒是吱一声啊{:4_93:}

zhplren 发表于 2014-12-24 15:41:53

是的,出版社的利益没保证,以后大家就没吃点了,建议等到第三版上市后在放出文本化版本,和高清扫描版,虽然说起来盗版可耻,但是电子词典的方便性纸质版是没法比的,这方国内做的实在太差劲了
并且好的词典也实在太少了啊
虽然需要,但是还是强烈建议等待第三版上市时候,在放出来吧,到时候第二版虽然还有价值,都是残余价值了,不太多的价值了,出版社不知道会不会介意

Cdasjkldjas 发表于 2014-5-11 22:23:48

本帖最后由 Cdasjkldjas 于 2014-5-11 22:27 编辑



老神仙以及译文社,如果你们看到这个贴子不要生气。

因为我们确实需要电子版,这个时代没有电子版什么事情都做不了。

我老了,背不动那么沉的书。

我老了,看不见那么小的字。

我需要电子版,我需要非常灵活的电子版,供我制作出适合自己需要的《英汉大词典》。

我个人已经收藏了纸质版,但的确需要电子版来辅助学习和复习。







PS:我照片里面就有我的位置信息,不要来找我 {:4_93:}


dingyang 发表于 2014-5-11 22:35:22

Cdasjkldjas 发表于 2014-5-11 22:47:51

dingyang 发表于 2014-5-11 22:35 static/image/common/back.gif


{:4_98:}

Cdasjkldjas 发表于 2014-5-11 22:49:49



有兴趣讨论的可以加群,群里面有个匿名聊功能:





Oeasy 发表于 2014-5-12 00:27:02


可以参考
《GB 23829-2009-T 辞书条目XML格式》https://pdawiki.com/forum/thread-11221-1-1.html 。

《[英-汉] 从2012、2013英汉大词典编纂处的招聘公告,可以窥探出一些信息 》https://pdawiki.com/forum/thread-10982-1-1.html


mofunzone 发表于 2014-5-12 00:34:05

支持OCR识别方式,但是得扫描超高的分辨率才能在识别的时候一劳永逸

chigre3 发表于 2014-5-12 02:03:22

哎, 楼主, 你一定要和oeasy聊聊~

chigre3 发表于 2014-5-12 02:07:08

本帖最后由 chigre3 于 2014-5-12 02:09 编辑

纯文本即可, 后期格式很好加入的.
下面是红葡汉词典的校对模式:
10页一组, 联系他人报名分配, 发送标准邮件(格式/方法等要求),
纯文本录入(校对)均可. 效果是显而易见的 (录入校对的同时彩色显示)

https://www.pdawiki.com/forum/data/attachment/forum/201405/12/020848ewcrklrcro6wllv6.png

https://www.pdawiki.com/forum/data/attachment/forum/201405/12/020842yeludad2iedwbd47.png

JAMES_ROWAN 发表于 2014-5-12 07:46:44

本帖最后由 JAMES_ROWAN 于 2014-5-12 07:50 编辑

话说iTunes 里的CJKI汉英英汉大辞典的内容与楼主说的包括另一老神仙的汉英老词典内容相似性极高,不如.......(我已购以上两老神仙的纸质版)

belleyeah 发表于 2014-5-12 08:36:53

ocr的精度有多高?lz能否先上一页demo,看看ocr的效果?否则后期的校对很困难。
另外这个电子版貌似只有casio有,且数据无法破解。如果有iOS版,那就。。。。。。

louislaolu 发表于 2014-5-12 08:47:37

目前还没有非常清晰的pdf版本。读秀里边也不知怎么样?

louislaolu 发表于 2014-5-12 08:50:20

另外本坛有个 id叫raredictionary的确实弄出来了,要价2w.,不过人家没有找到买家现在隐身了。

plop 发表于 2014-5-12 10:06:49

本帖最后由 plop 于 2014-5-12 11:20 编辑

{:5_223:} 如果识别准确度很高的话,确实不错但是问题是 识别准确率比较低,实际很麻烦,考验耐心。就是单纯弄成图片格式的,一个词条一个词条的弄也比较麻烦,而且并且最后mdd会很大。相信弄的过程中绝对是要疯掉的节奏。

plop 发表于 2014-5-12 10:18:06

dexp格式 怎么破解啊。。楼主会?

JAMES_ROWAN 发表于 2014-5-12 10:48:17

若ios很好破解的话,那么我再推荐一个ios超强的词典,出版商diodict的 牛津.外研社英汉汉英词典

Oeasy 发表于 2014-5-12 11:50:34

louislaolu 发表于 2014-5-12 08:50 static/image/common/back.gif
另外本坛有个 id叫raredictionary的确实弄出来了,要价2w.,不过人家没有找到买家现在隐身了。

两万这个价格定得有讲究。

=======
http://baike.baidu.com/view/548248.htm
侵犯著作权罪,根据最高人民法院所作的司法解释,这里的“违法所得数额较大”是指个人违法所得数额在2万元以上,单位违法所得数额在10万元以上;“有其他严重情节”是指:(1)因侵犯著作权曾经两次以上被追究行政责任或者民事责任,又侵犯著作权的;(2)个人非法经营数额在10万元以上,单位非法经营数额在50万元以上的;(3)造成其他严重后果或具有其他严重情节的。以上内容,是区分侵犯著作权行为属刑事犯罪与民事侵权性质的具体标准,应注意掌握。

根据《刑法》第二百一十七条规定,侵犯著作权罪是以违法所得数额或者情节来量刑的。只有违法所得达到一定的数额,或者情节具有一定的严重性才构成“侵犯著作权罪”。
有两种刑罚:
1、违法所得数额较大或者有其他严重情节的,处三年以下有期徒刑或者拘役,并处或者单处罚金;
2、违法所得数额巨大或者有其他特别严重情节的,处三年以上七年以下有期徒刑,并处罚金。


=======

两万刚好在界线上,数额较小,属于一般侵权的违法行为,不构成侵犯著作权罪。

当然,不清楚那人是不是真有,如果没有的话还出来卖,那就是诈骗罪,个人诈骗公私财物在4千元以上的,属于“数额较大”,处三年以下有期徒刑、拘役或者管制,并处或者单处罚金。

Cdasjkldjas 发表于 2014-5-12 15:13:10

不知道这个清晰度够不够大家玩耍的 {:4_93:}

链接: http://pan.baidu.com/s/1dDCGpkH 密码: qvon

belleyeah 发表于 2014-5-12 15:56:52

Cdasjkldjas 发表于 2014-5-12 15:13 static/image/common/back.gif
不知道这个清晰度够不够大家玩耍的

链接: http://pan.baidu.com/s/1dDCGpkH 密码: qvon

够!效果惊人!
现在有多少人报名?

Cdasjkldjas 发表于 2014-5-12 16:29:57

belleyeah 发表于 2014-5-12 15:56 static/image/common/back.gif
够!效果惊人!
现在有多少人报名?

群 193804267{:4_97:}

meigen 发表于 2014-5-12 20:30:57

清晰度够了,但玩耍还不够
http://tb2.bdstatic.com/tb/editor/images/face/i_f25.png

Cdasjkldjas 发表于 2014-5-12 20:54:39

进度汇报… {:4_93:}

链接: http://pan.baidu.com/s/1o6FfHRs 密码: uu8s

Cdasjkldjas 发表于 2014-5-12 23:54:07

我的执着,从不会输给任何人!



jazzmood 发表于 2014-5-13 00:34:07

三栏排版,要600dpi扫描
根据:http://detail.zol.com.cn/scanner/index294434.shtml
理论上的扫描速度 57秒(600dpi)+熟练翻页3秒/页=1分钟
1分钟X约2487页=2487分钟
要40多个小时。
每天10小时扫描,也要四天。

佩服,敬仰!
汗颜,惭愧。。。
页: [1] 2 3 4
查看完整版本: 【讨论】如果要把老神仙的《英汉大词典》弄出来,XML标记怎么约定?