ODE2016 的词条排序有问题
本帖最后由 sky66 于 2016-6-4 12:31 编辑官网在合并词条时,估计是用正则或是什麽工具软件合并, 但是没有考虑清楚, 结果造成下列词条有问题:
Agenda 21
carbon-13
Clause 28
Economy 7
Fortune 1000
French 75
omega-6
post-16
star 69
type 1
uranium-238
year 2000
数字前面的 "纯英文字词条," 原本使用率要比 "英数字词条" 来得高,
可是查找的结果却是 "英数字词条" 在前面..
例如: 要查"agenda", 结果却排在"Agenda 21"之後, 这个"Agenda 21"的释义等内容就会先放在"agenda"之前
http://www.oxforddictionaries.com/definition/english/agenda?q=Agenda
依个人浅见 "agenda" 和"Agenda 21"应该要分成两个词条, 不可合并.
当然也有原本就正确分开的, 如"number"和"number 6"是分开的,
所以查number, 不会先显示"number 6"的内容..
影响所及, 官网最新的Top 1000字list也是有问题的,
"Economy 7"、"post-16"怎麽可能会是 Top 1,000 most frequently used words ?!
http://www.oxforddictionaries.com/top1000/english
观察厉害!不过增加八万词这么大动作,这点副作用可以忽略不计了 是有这个问题 有心 晕,直接导致一个问题就是a大和b大的词典在查词时也有这个问题。比如用agenda查,是查不到的,要用agenda 21查才会显示出agenda{:4_100:} orca 发表于 2016-6-4 10:22
晕,直接导致一个问题就是a大和b大的词典在查词时也有这个问题。比如用agenda查,是查不到的,要用agenda 2 ...
因为a大和b大的词典也是忠於原着, 自然会有相同的问题, 所以如果用联合词典的方式, 就会查不到这几个字
简单的方式就是要自己修改源码, 增加几个@@@LINK, 如:
agenda
@@@LINK=Agenda 21
</>
若要比较讲究一点, 就是自己提取Agenda 21内的部分内容, 添加一个agenda之类的新词条
此次官网大改版, 还有一个小问题, 就是删去很多词条里, 释义及例句中的超链接跳转.
以Top 1000来举例, 如: able、begin、call、damage..等非常多的词条, 可以比对ODE2015就知道了..
不知道是官方的刻意为之, 还是又不小心误删了?
虽然Mdict不管有没有超链接, 都还可以跳转.
只是觉得这麽专业的词典, 编排方式怎麽会不一致?
sky66 发表于 2016-6-4 11:46
因为a大和b大的词典也是忠於原着, 自然会有相同的问题, 所以如果用联合词典的方式, 就会查不到这几个字
...
这次网站改版确实造成一些瑕疵,不过一次增补8万多词工作量也不小,情有可原
还好ODE网站维护比较积极,经常改版,这些问题以后或许陆续都会被编辑发现、修改,或者大家写邮件向网站反馈一下,说不定很快就改过来了?{:4_105:}
词头的问题目前倒是可以自动生成几个@@@LINK出来 bt4baidu 发表于 2016-6-4 12:21
这次网站改版确实造成一些瑕疵,不过一次增补8万多词工作量也不小,情有可原
还好ODE网站维护比较积极, ...
谢谢BT大, 目前再次确认, 共找到12个字缺词头, 供您参考:
*****
Agenda 21 =>agenda
carbon-13 =>carbon
Clause 28 =>clause
Economy 7 =>economy
Fortune 1000 =>fortune
French 75 =>french
omega-6 =>omega
post-16 =>post
star 69 =>star
type 1 =>type
uranium-238 =>uranium
year 2000 =>year
sky66 发表于 2016-6-4 11:46
因为a大和b大的词典也是忠於原着, 自然会有相同的问题, 所以如果用联合词典的方式, 就会查不到这几个字
...
请教一个问题:ODE释义里面的超链接的‘标准’是什么?
以下图为例,
spar是超链接,为何ship,boat不是?
belleyeah 发表于 2016-6-4 13:05
请教一个问题:ODE释义里面的超链接的‘标准’是什么?
以下图为例,
spar是超链接,为何ship,boat不 ...
这个超链接,感觉是程序自动生成的,估计网站内部有个词频表啥的
上一版制作的时候都给删掉了,这次因为Goldendict支持锚跳转,可以精确定位到义项,所以全部予以保留
不过也有些瑕疵,比如can't,超链接指向的词头居然是ca,显然不对
但是有些情况又是对的,比如Cassius Clay,超链接指向的词头是Muhammad Ali(看CNN新闻,此人刚刚驾鹤西去。。。)
情况比较复杂,没法统一改 bt4baidu 发表于 2016-6-4 18:58
这个超链接,感觉是程序自动生成的,估计网站内部有个词频表啥的
上一版制作的时候都给删掉了,这次因为 ...
b大,目前超链接地址里同时包括'号、#号和数字的,好像都跳转不过去。
比如,PRC词条下,"People’s Republic of China"底下的链接是"entry://People's Republic of China#People's-Republic-of-China__2",没法跳到People’s Republic of China词条。
而China词条下,有两个People’s Republic of China链接,第一个的链接是"entry://People's Republic of China",可以跳到对应词条;第二个链接是"entry://People's Republic of China#People's-Republic-of-China__2",没法跳转。
http://ww2.sinaimg.cn/large/6e1493f5gw1f4jjolro4yj20c607b0t4.jpg
另外比如annoy词条,第一个义项的同义词展开后,有个短语"get on someone's nerves",它的链接是"entry://get on someone's nerves#nerve__21",也是没法跳转。去年发布的那个版本就可以跳转,因为链接里没有这种#号加数字的组合。
我用<a href="entry://[^>]+'[^>]+#[^>]+\d">搜了一下,有1000多条,随机抽了几个试了下都没法跳转。 觉得这问题像是GoldenDict的bug或是局限性。一般链接在GD里识别出来后都有个gdanchor***这样一串字符,但是一碰上'号就抓瞎了。图还是annoy第一个义项的同义词,标红的都没有识别出gdanchor***那串字符,都跳不了。
http://ww3.sinaimg.cn/large/6e1493f5gw1f4jn5jsmy3j20oz0clwfo.jpg 修改前
People's...=>MDict 可跳转, GoldenDict 不行
修改後
People%27s...=>MDict 可跳转, GoldenDict 也可跳转
所以将 ' 改成 %27 可以改善GoldenDict的问题, 但不知对深蓝等其他软件有无影响... sky66 发表于 2016-6-5 00:27
修改前
People's...=>MDict 可跳转, GoldenDict 不行
这个问题严格来说是Goldendict的bug,虽然可以用' -> %27回避,因为‘不算非法字符
URL里含有%XX也是符合标准的,不会造成副作用 认真细致
页:
[1]