掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 3698|回复: 15

[使用求助] 如何制作(Vocabulary.com + Collins + 雅思 + 牛津)高频短语词组记忆库?

[复制链接]
  • TA的每日心情
    开心
    2022-1-21 00:52
  • 签到天数: 699 天

    [LV.9]以坛为家II

    发表于 2019-4-18 00:04:14 | 显示全部楼层 |阅读模式
    atomore 整理了(Vocabulary.com + Collins + 雅思 + 牛津)中的高频短语词组
    ( C* K  }( Q8 @( W, h5 p内容包括:
    " }* l, C" B& ?4 E  c9 Ehttps://www.pdawiki.com/forum/thread-33730-1-1.html?x=180507' b6 K6 r2 t$ T- @
    1. Vocabulary.com词典中词频小于20000的词组 (1977个,按词频排序);4 C8 y8 W! G& t. P- }- ?
    2. 柯林斯双解词典中 五星词组 (4692个, 按五级分组排序);
      G. L  M3 I. C. h* b, D* }( I1 E3. 剑桥双解词典中 雅思词组 (2452个,按A1-C2分组);2 \& ^4 x/ t  M; [+ M% |) u5 c
    4. 牛津双解词典中 星标词组 (298个)。
    ; ?$ u6 s  j' c) ]' L( m4 M" ^5 O$ _) ?  n& {) m: z
    如果要把atomore 整理的xls列表,制作成anki记忆库(反面是相应词典中该短语词组的内容),技术上如何实现呢?- ^/ n7 E0 d) C  v
    希望集思广益
    ; a. K) |- M% v, ^0 l/ t  y3 ?! B1 D
    ) J' d8 V6 S  U' T

    本帖被以下淘专辑推荐:

  • TA的每日心情
    开心
    2023-2-22 11:08
  • 签到天数: 54 天

    [LV.5]常住居民I

    发表于 2019-4-22 09:06:50 | 显示全部楼层
    合并后,在Excel里删除相同词组后,大概有8000多个词组。5 x6 [2 e& P% Q
    不知道怎么批量提取中文。
  • TA的每日心情
    开心
    2019-6-23 00:02
  • 签到天数: 18 天

    [LV.4]偶尔看看III

    发表于 2019-4-25 23:37:30 | 显示全部楼层
    anki用的是sqlite数据库存储信息的,首先搞清楚数据库中table的结构,你可以在你想要的deck里创建一个新词条,然后分析数据库中的数据。% O& S/ h9 M9 c' _1 p# `" v
    然后就是根据单词提取对应词典中词条的信息,处理好以后写到anki的数据库中。这一步可以编写程序实现,也可以用某些editor的automation实现,比如用EmEditor。
  • TA的每日心情
    开心
    2022-1-21 00:52
  • 签到天数: 699 天

    [LV.9]以坛为家II

     楼主| 发表于 2019-4-26 00:59:34 | 显示全部楼层
    ogrishman 发表于 2019-4-25 23:37
    4 E+ b8 D4 M( \( |! e6 @anki用的是sqlite数据库存储信息的,首先搞清楚数据库中table的结构,你可以在你想要的deck里创建一个新词 ...
    % V8 j  e( e! j/ c9 C
    谢谢指点。
    ' o* K( ^; }2 f( v5 C) R短语词组每个单词都懂,但合在一起意思可能大不同,偏偏还太常见。
    " Q& H) I* ?+ v" J2 I# \; e: R* A) I) X3 A6 H! @; }
    需要学习一下技术了
  • TA的每日心情
    擦汗
    2021-11-13 00:18
  • 签到天数: 119 天

    [LV.6]常住居民II

    发表于 2019-4-26 14:23:11 | 显示全部楼层
    本帖最后由 脚下千 于 2019-4-26 14:44 编辑 6 i: v! s' B- Z/ ~( a; c* E

    ; @  w9 P+ J3 {) }5 `5 I这个站在前人的基础上,有简单一点的方法,不过需要有支持的词典。
    3 M2 A& }) ^( o* N; Z! `, N
    ; R$ d2 O9 G0 n, L0 y, z0 l简单来说,就是 将 xlsx 转成 csv,然后导入 anki,用 anki 插件(我用的好像叫 FastWordQuery)查询即可。
    : O1 y& J$ D( |4 ~. p: V
    5 Y8 s9 {( d1 @. R. }2 i虽然说缺的词典可以在这个插件基础上增加(因为给出的 mdx 词典一般都没有短语的索引),但目前我所见到的只有 longman 词典的短语有人制作过,其他的不知道有没有。
    % s) r) w) B" m如果自己解析对应词典的话,也许在实现上比较方便(解析 mdx 内容后用正则表达式只提取相关短语释义),但给插件贡献词典解析可能会有更广的作用。& `5 Y& h( `" g
    $ o! O+ U( |- Y% w9 Y
    ps:这个引起了我的兴趣,有些想做了,不过我的 CoCa 20000 还没背完……7 S+ s8 y* @; I/ C9 B8 c

    ! Y! C* b# F1 a5 }2 M: O2 }) O9 J
    7 l' ]2 |9 D* W  l& h
  • TA的每日心情
    开心
    2022-1-21 00:52
  • 签到天数: 699 天

    [LV.9]以坛为家II

     楼主| 发表于 2019-4-26 20:02:52 | 显示全部楼层
    脚下千 发表于 2019-4-26 14:23
    1 _5 P. y; J8 ]/ ]3 G9 S这个站在前人的基础上,有简单一点的方法,不过需要有支持的词典。4 b8 V+ c' S6 Z) |2 K6 [& |% o

    ; U4 o9 c) M! @6 M简单来说,就是 将 xlsx 转成 csv,然 ...
    0 }' b4 r$ S, u2 ~
    不知道插件对短语词组的支持如何?
    , O! x5 g; U3 }: K' H一个难点是例如eat one's fill这样的短语在不同词典里的词条可能是各种形式,eat sb's fill等等等等! `+ C* [  V1 T+ k& O6 C" w
    不容易批量把该短语在各个词典中的相关entries都查询出来,以便进一步进行比较再挑选自己觉得最好的词典解释和例句9 T% s( |; o( r- ?2 t: g' i& @
    3 x4 E; v1 R6 b
  • TA的每日心情
    擦汗
    2021-11-13 00:18
  • 签到天数: 119 天

    [LV.6]常住居民II

    发表于 2019-4-28 19:33:42 | 显示全部楼层
    本帖最后由 脚下千 于 2019-4-28 19:35 编辑 $ i9 r1 U, D3 s. x9 f& v
    cocowind 发表于 2019-4-26 20:02" {9 I. u2 I" e
    不知道插件对短语词组的支持如何?
    4 Q* G5 M; D# {# y  @" G1 [一个难点是例如eat one's fill这样的短语在不同词典里的词条可能是各 ...
    ' V  D" `8 `" |1 o9 t
    这个倒不是很难,就是麻烦点,直接按不同形式处理一下即可,比如 one 替换为 sb 等,当然里面可能有更复杂点的规则要写。, a0 ?' W, }5 Z0 J/ O# g, b. T

    9 ?: A& Z/ |  ?9 m如果要统一结果到一处的话,就多列几个 fields 存储不同的查询形式,然后按词典逐个查询。/ m, m. _% H1 T! g
    $ r- T- `# q+ H% A4 h: {3 N2 ?
    当然,这都需要有词典支持,一般来说上述词典我猜很少能对短语直接查询的(我没用过啊)。3 D, z4 U. w+ u
    , x% e! ^# b- E
    插件设置自定义词典后,只是根据字段直接查询,然后提取所有内容,和在词典软件里是一样的。在词典软件里如果直接输入短语查不到,那么插件也查不到。
  • TA的每日心情
    开心
    2022-1-21 00:52
  • 签到天数: 699 天

    [LV.9]以坛为家II

     楼主| 发表于 2019-4-28 19:56:54 | 显示全部楼层
    脚下千 发表于 2019-4-28 19:33
    % C7 v* U+ L0 u6 ?& P4 A; {+ k这个倒不是很难,就是麻烦点,直接按不同形式处理一下即可,比如 one 替换为 sb 等,当然里面可能有更复杂 ...
    . A+ S% Y9 c# C& [  s/ @
    谢谢指点~+ y% R0 j0 Z" a  @  |$ _" Y
      L' {; L2 Z" r7 w- R* q
    看到这个方法也许可以借鉴一下3 e1 X) ?9 ~+ U
    https://www.pdawiki.com/forum/thread-11546-1-1.html?x=180507& w3 k; A) u. p+ s% {! l" d
  • TA的每日心情
    奋斗
    2023-12-14 15:58
  • 签到天数: 874 天

    [LV.10]以坛为家III

    发表于 2019-5-6 19:48:04 | 显示全部楼层
    是fq这个插件不够好吗……直接把词条转为utf-8的txt导入anki,建几个字段用fq查询不就是了,而且css格式也能保留,要修改css去collection.media修改就是了
      t( e$ ?) k, O. v  f8 J. p1 ~

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    擦汗
    2021-11-13 00:18
  • 签到天数: 119 天

    [LV.6]常住居民II

    发表于 2019-6-12 03:12:14 | 显示全部楼层
    xusorn 发表于 2019-5-6 19:48
    ! l* o/ |5 K$ z; G  A( ^是fq这个插件不够好吗……直接把词条转为utf-8的txt导入anki,建几个字段用fq查询不就是了,而且css格式也 ...

    ( H& b( p, Y" O; f1 m  c6 s这个要词典本身支持才可以的,目前很少这样的词典。楼主说的是匹配短语,不是单词。(具体见我前面的帖子)
  • TA的每日心情
    奋斗
    2023-12-14 15:58
  • 签到天数: 874 天

    [LV.10]以坛为家III

    发表于 2019-6-12 07:27:20 | 显示全部楼层
    本帖最后由 xusorn 于 2019-6-12 07:31 编辑 ; [  v9 }" R4 l: E% I. l/ P/ u, l- I
    脚下千 发表于 2019-6-12 03:12) }( n* y; |5 \& p( E
    这个要词典本身支持才可以的,目前很少这样的词典。楼主说的是匹配短语,不是单词。(具体见我前面的帖子 ...

    2 L2 Q( Z4 X9 G我看清了问题,论坛的韦氏,朗文,牛津的词组不够你用吗?至少我用fq把vocabulary前1000的都查到了
    ) T. c! X4 g) Z6 b# {8 C3 }  J
    7 c0 U/ J7 Z* a! [6 M$ Z3 N9 L2 r7 M# @( @9 o- g

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    擦汗
    2021-11-13 00:18
  • 签到天数: 119 天

    [LV.6]常住居民II

    发表于 2019-6-12 13:05:01 | 显示全部楼层
    本帖最后由 脚下千 于 2019-6-12 13:15 编辑
    ( _' _, T0 R5 }$ Q+ f0 N
    xusorn 发表于 2019-6-12 07:27
    $ M% m  X% O; d# w. s我看清了问题,论坛的韦氏,朗文,牛津的词组不够你用吗?至少我用fq把vocabulary前1000的都查到了

    ( z: M, ?$ o2 n9 s。。。1 t) U6 R4 l$ J- Y4 X

    4 g$ Z* e. F3 V; m0 p6 S! K1. 问题中是: Vocabulary.com + Collins + 雅思 + 牛津 —— “制作成anki记忆库(反面是相应词典中该短语词组的内容)”3 p, M$ F; V: o8 q; }
      j3 b& Q0 }# `/ D% y7 U
    2. 输入是"例如eat one's fill这样的短语在不同词典里的词条可能是各种形式,eat sb's fill等等等等";
    8 R3 P8 h7 s7 R3 \
    ; w1 ~3 y% R' C$ W( @; A# X3. 需求是做一个“综合”的短语库,不能说这没必要,起码楼主是需要的;而这涉及到第 2 点中的形式不同问题,至少要预处理一下" {; }  M; t8 J5 y
    3 R9 [7 M3 O8 _% q
    4. FastWordQuery 我首次回帖就告知了楼主1 a. u* g, K1 {

    ) D& k  @8 [( t6 Q/ a  h; \) T3 h5. 我不是楼主5 a+ a  E  Z9 |" m% k
  • TA的每日心情
    奋斗
    2023-12-14 15:58
  • 签到天数: 874 天

    [LV.10]以坛为家III

    发表于 2019-6-12 15:38:31 | 显示全部楼层
    脚下千 发表于 2019-6-12 13:051 b, ]) f, ~# d8 P  R
    。。。
    / j# S" h# a% v$ C9 `4 N2 h! V% j' S3 v. X
    1. 问题中是: Vocabulary.com + Collins + 雅思 + 牛津 —— “制作成anki记忆库(反面是相应词 ...
    4 Q% j# [$ T0 V. Q* ?
    我上一条是在回复你回复我的“这个要词典本身支持才可以的,目前很少这样的词典。楼主说的是匹配短语,不是单词。(具体见我前面的帖子)”) C; G+ @) X* ^
    我回复楼主的是匹配词组,你说我是回复匹配单词,所以我进行了回应。
    , X) T' W/ T4 |* ~# z( I9 x* t+ f  l5 s3 v你说目前词典少,所以我就把论坛可以查的词典多告诉你了。
    " M1 i, C* I' |. a* a结果你和我扯什么形式,什么综合,搞得我好像没看清提问一样,而且你告知了和我有什么关系,我一开始就没回复你,是你在回复我,说我查的不是词组是单词啊。。。
  • TA的每日心情
    擦汗
    2021-11-13 00:18
  • 签到天数: 119 天

    [LV.6]常住居民II

    发表于 2019-6-13 11:00:17 | 显示全部楼层
    本帖最后由 脚下千 于 2019-6-13 11:09 编辑
    " B2 }9 A/ f: _6 _3 D& z1 }
    xusorn 发表于 2019-6-12 15:38. S$ d5 J% h) D8 }- s# c
    我上一条是在回复你回复我的“这个要词典本身支持才可以的,目前很少这样的词典。楼主说的是匹配短语,不 ...
    2 n: A! M' b2 z" Y
    之前回复你是看到你的用词—— 什么“不够好吗,……就是了,……就是了” 才回复的,另外当时你的图片也没显示出来(也许是论坛原因),我表达能力低下,想让你去看我之前写的内容 ,但因为 我懒,我笨,我没写清楚,我标点符号不会用,最后让你觉得我在说你用它来匹配单词而不是短语 —— 的确,我 这个 sb 怎么知道 fq 原来也可以匹配短语 ?!& l, U1 m/ q3 z. V1 x( U; I* D
    8 N, }( V; }' c  c" P: U
    算了,我是 sb,这里不是 StackOverflow,论坛发帖不需要看别人回帖。不再继续争论。我是 sb。
  • TA的每日心情
    奋斗
    2023-12-14 15:58
  • 签到天数: 874 天

    [LV.10]以坛为家III

    发表于 2019-6-13 13:14:48 | 显示全部楼层
    脚下千 发表于 2019-6-13 11:00
    $ w9 w' {9 b: s之前回复你是看到你的用词—— 什么“不够好吗,……就是了,……就是了” 才回复的,另外当时你的图片也 ...

    % o8 b* |8 j" [图片应该是是之前服务器出了问题,我一开始就不认为查询这些词组不是特别困难的事情,但如果我的措辞对你产生了困扰,我对你表示抱歉。刚刚把你的回复完整的看了一遍,我个人认为你可能是想把词条统一形式表达,然后进行合并去重再统一查询,不知道是不是这样,如果是是的话,我个人认为存在三个需要考虑之处8 e6 u. d4 b- |( ^$ s) t9 H
    1.工作量对于我和一般的不会Python的用户来说,应该不算小,因此可行性不高,或许程序员可以解决这个难题。
    6 @" w- C; v/ f8 R! h- x1 J8 U2.如果统一了形式,再进行查询,是否能够查询得出,因为每个词典的表示不同,那么同一个形式是否能在多个词条查询出结果,这也是一个需要考虑的问题。
    9 S0 \/ o: x* ^: k3.此外,每个词表的来源词典不同,因此导致词频及常用性的统计也不相同,合并后是否能够兼顾这些?2 H" x  k2 {3 x( \6 R
    因此我觉得,如果仅仅是为了去重而大费周章的改形式的成本远大于收益,所以我建议直接用多本词典进行查询或许是更好的选择,我已经制作出来了,比把制作流程发到了论坛,如果有兴趣,也可以看看[【展示+制作教程】根据高频短语词组制作anki记忆库教程https://www.pdawiki.com/forum/fo ... hread&tid=34820]
  • TA的每日心情
    开心
    2022-4-20 08:22
  • 签到天数: 23 天

    [LV.4]偶尔看看III

    发表于 2020-9-26 07:50:41 | 显示全部楼层
    好高深的样子
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-4-29 21:18 , Processed in 0.068368 second(s), 9 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表