sky66 发表于 2016-6-4 01:16:35

ODE2016 的词条排序有问题

本帖最后由 sky66 于 2016-6-4 12:31 编辑

官网在合并词条时,估计是用正则或是什麽工具软件合并, 但是没有考虑清楚, 结果造成下列词条有问题:

Agenda 21
carbon-13
Clause 28
Economy 7
Fortune 1000
French 75
omega-6
post-16
star 69
type 1
uranium-238
year 2000

数字前面的 "纯英文字词条," 原本使用率要比 "英数字词条" 来得高,
可是查找的结果却是 "英数字词条" 在前面..

例如: 要查"agenda", 结果却排在"Agenda 21"之後, 这个"Agenda 21"的释义等内容就会先放在"agenda"之前
http://www.oxforddictionaries.com/definition/english/agenda?q=Agenda

依个人浅见 "agenda" 和"Agenda 21"应该要分成两个词条, 不可合并.
当然也有原本就正确分开的, 如"number"和"number 6"是分开的,
所以查number, 不会先显示"number 6"的内容..

影响所及, 官网最新的Top 1000字list也是有问题的,
"Economy 7"、"post-16"怎麽可能会是 Top 1,000 most frequently used words ?!
http://www.oxforddictionaries.com/top1000/english

cquark 发表于 2016-6-4 01:33:44

观察厉害!不过增加八万词这么大动作,这点副作用可以忽略不计了

mitkyg 发表于 2016-6-4 07:03:21

是有这个问题 有心

orca 发表于 2016-6-4 10:22:40

晕,直接导致一个问题就是a大和b大的词典在查词时也有这个问题。比如用agenda查,是查不到的,要用agenda 21查才会显示出agenda{:4_100:}

sky66 发表于 2016-6-4 11:46:37

orca 发表于 2016-6-4 10:22
晕,直接导致一个问题就是a大和b大的词典在查词时也有这个问题。比如用agenda查,是查不到的,要用agenda 2 ...

因为a大和b大的词典也是忠於原着, 自然会有相同的问题, 所以如果用联合词典的方式, 就会查不到这几个字
简单的方式就是要自己修改源码, 增加几个@@@LINK, 如:
agenda
@@@LINK=Agenda 21
</>
若要比较讲究一点, 就是自己提取Agenda 21内的部分内容, 添加一个agenda之类的新词条

此次官网大改版, 还有一个小问题, 就是删去很多词条里, 释义及例句中的超链接跳转.
以Top 1000来举例, 如: able、begin、call、damage..等非常多的词条, 可以比对ODE2015就知道了..
不知道是官方的刻意为之, 还是又不小心误删了?
虽然Mdict不管有没有超链接, 都还可以跳转.
只是觉得这麽专业的词典, 编排方式怎麽会不一致?

bt4baidu 发表于 2016-6-4 12:21:44

sky66 发表于 2016-6-4 11:46
因为a大和b大的词典也是忠於原着, 自然会有相同的问题, 所以如果用联合词典的方式, 就会查不到这几个字
...

这次网站改版确实造成一些瑕疵,不过一次增补8万多词工作量也不小,情有可原
还好ODE网站维护比较积极,经常改版,这些问题以后或许陆续都会被编辑发现、修改,或者大家写邮件向网站反馈一下,说不定很快就改过来了?{:4_105:}
词头的问题目前倒是可以自动生成几个@@@LINK出来

sky66 发表于 2016-6-4 12:36:34

bt4baidu 发表于 2016-6-4 12:21
这次网站改版确实造成一些瑕疵,不过一次增补8万多词工作量也不小,情有可原
还好ODE网站维护比较积极, ...

谢谢BT大, 目前再次确认, 共找到12个字缺词头, 供您参考:

*****
Agenda 21        =>agenda
carbon-13        =>carbon
Clause 28        =>clause
Economy 7        =>economy
Fortune 1000        =>fortune
French 75        =>french
omega-6        =>omega
post-16        =>post
star 69        =>star
type 1        =>type
uranium-238        =>uranium
year 2000        =>year

belleyeah 发表于 2016-6-4 13:05:00

sky66 发表于 2016-6-4 11:46
因为a大和b大的词典也是忠於原着, 自然会有相同的问题, 所以如果用联合词典的方式, 就会查不到这几个字
...

请教一个问题:ODE释义里面的超链接的‘标准’是什么?
以下图为例,
spar是超链接,为何ship,boat不是?

bt4baidu 发表于 2016-6-4 18:58:48

belleyeah 发表于 2016-6-4 13:05
请教一个问题:ODE释义里面的超链接的‘标准’是什么?
以下图为例,
spar是超链接,为何ship,boat不 ...

这个超链接,感觉是程序自动生成的,估计网站内部有个词频表啥的
上一版制作的时候都给删掉了,这次因为Goldendict支持锚跳转,可以精确定位到义项,所以全部予以保留
不过也有些瑕疵,比如can't,超链接指向的词头居然是ca,显然不对
但是有些情况又是对的,比如Cassius Clay,超链接指向的词头是Muhammad Ali(看CNN新闻,此人刚刚驾鹤西去。。。)
情况比较复杂,没法统一改

orca 发表于 2016-6-4 22:43:13

bt4baidu 发表于 2016-6-4 18:58
这个超链接,感觉是程序自动生成的,估计网站内部有个词频表啥的
上一版制作的时候都给删掉了,这次因为 ...

b大,目前超链接地址里同时包括'号、#号和数字的,好像都跳转不过去。

比如,PRC词条下,"People’s Republic of China"底下的链接是"entry://People's Republic of China#People's-Republic-of-China__2",没法跳到People’s Republic of China词条。
而China词条下,有两个People’s Republic of China链接,第一个的链接是"entry://People's Republic of China",可以跳到对应词条;第二个链接是"entry://People's Republic of China#People's-Republic-of-China__2",没法跳转。
http://ww2.sinaimg.cn/large/6e1493f5gw1f4jjolro4yj20c607b0t4.jpg



另外比如annoy词条,第一个义项的同义词展开后,有个短语"get on someone's nerves",它的链接是"entry://get on someone's nerves#nerve__21",也是没法跳转。去年发布的那个版本就可以跳转,因为链接里没有这种#号加数字的组合。


我用<a href="entry://[^>]+'[^>]+#[^>]+\d">搜了一下,有1000多条,随机抽了几个试了下都没法跳转。

orca 发表于 2016-6-5 00:19:08

觉得这问题像是GoldenDict的bug或是局限性。一般链接在GD里识别出来后都有个gdanchor***这样一串字符,但是一碰上'号就抓瞎了。图还是annoy第一个义项的同义词,标红的都没有识别出gdanchor***那串字符,都跳不了。
http://ww3.sinaimg.cn/large/6e1493f5gw1f4jn5jsmy3j20oz0clwfo.jpg

sky66 发表于 2016-6-5 00:27:30

修改前
People's...=>MDict 可跳转, GoldenDict 不行

修改後
People%27s...=>MDict 可跳转, GoldenDict 也可跳转

所以将 ' 改成 %27 可以改善GoldenDict的问题, 但不知对深蓝等其他软件有无影响...

bt4baidu 发表于 2016-6-5 09:38:03

sky66 发表于 2016-6-5 00:27
修改前
People's...=>MDict 可跳转, GoldenDict 不行



这个问题严格来说是Goldendict的bug,虽然可以用' -> %27回避,因为‘不算非法字符
URL里含有%XX也是符合标准的,不会造成副作用

klwy2003 发表于 2016-10-8 19:32:14

认真细致
页: [1]
查看完整版本: ODE2016 的词条排序有问题