littlewj 发表于 2019-3-8 16:32:31

如何从牛津高阶中提取英文+中文释义

最近我在背托福单词,但背词软件只有中文释义,很让人费解。

我想从牛津高阶词典中(手头有欧陆词典),提取出英文和中文释义。
以faint这个词为例,我想提取的内容如下(图片不能上传,所以我粘贴的文本。麻烦大神们打开字典瞅瞅,就明白我指的是哪些内容啦\(≧▽≦)/~~~~)
1. ★ that cannot be clearly seen, heard or smelt (光、声、味)微弱的,不清楚的
2. ★ very small; possible but unlikely 微小的;可能性不大的
3. not enthusiastic 不热情的;不积极的
4. ★ feeling weak and tired and likely to become unconscious 昏眩;快要昏厥

至于为啥不用欧陆词典背单词,或者边背边查,主要还是为了节省查阅和大脑提取信息的时间~~~

{:4_104:}路过的技术大神们~请教教我应该怎么做~万分感谢!

dfliaoyue 发表于 2019-3-8 17:49:23

就是去掉例证图片之类的?
直接在css里把对应的类型加上'display: none;'就行了。文本部分体积又不大。

jonah_w 发表于 2019-3-8 16:53:11

弄成anki格式?可以试试正则或者xpath编程提取

klwo2 发表于 2019-3-8 17:34:30

{:4_91:}现在好一点的单词书都有中英文释义的呀,比如:https://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=31050&extra=

而且托福简单得不得了,根本用不到牛津高阶里面的大部分释义

再者,现在背单词都讲究结合例句背,你的需求反倒是要去掉例句,这个……效果……要不再考虑一下?

Snowdax 发表于 2019-3-8 17:37:33

这个需求我觉得要编程搞了,而且各种字典的内容组织方式都不太一样,实现起来也有很大不同的。

atauzki 发表于 2019-3-8 19:07:26

xpath,css选择器任选其一。正则就算了

haoduodianying 发表于 2019-3-22 21:27:02

能转成db文件就好了 ,{:11_384:}
页: [1]
查看完整版本: 如何从牛津高阶中提取英文+中文释义