掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 3699|回复: 15

[使用求助] 如何制作(Vocabulary.com + Collins + 雅思 + 牛津)高频短语词组记忆库?

[复制链接]
  • TA的每日心情
    开心
    2022-1-21 00:52
  • 签到天数: 699 天

    [LV.9]以坛为家II

    发表于 2019-4-18 00:04:14 | 显示全部楼层 |阅读模式
    atomore 整理了(Vocabulary.com + Collins + 雅思 + 牛津)中的高频短语词组4 K+ A- g5 v! ^" \
    内容包括:
    8 O) S6 N$ S' W2 e& H. w7 |' _) Xhttps://www.pdawiki.com/forum/thread-33730-1-1.html?x=180507/ ]- z4 P/ t" [+ P3 F- \+ I
    1. Vocabulary.com词典中词频小于20000的词组 (1977个,按词频排序);
    9 v7 Q3 @6 e0 v+ h) _5 E) O( K2. 柯林斯双解词典中 五星词组 (4692个, 按五级分组排序);
    3 @! A6 F  |. v5 |% D  r' ^+ \3. 剑桥双解词典中 雅思词组 (2452个,按A1-C2分组);
    7 b# _1 M6 c& w+ v/ P4. 牛津双解词典中 星标词组 (298个)。
      @8 ?9 T/ U" }1 r1 m# F
    - R7 ]9 r/ P* q2 m% H% u7 D7 b如果要把atomore 整理的xls列表,制作成anki记忆库(反面是相应词典中该短语词组的内容),技术上如何实现呢?+ u0 s+ e3 I8 t" d
    希望集思广益
    1 n0 I& y( C: o) [2 i6 x% X, A* n! P: p9 v* P) o

    本帖被以下淘专辑推荐:

  • TA的每日心情
    开心
    2023-2-22 11:08
  • 签到天数: 54 天

    [LV.5]常住居民I

    发表于 2019-4-22 09:06:50 | 显示全部楼层
    合并后,在Excel里删除相同词组后,大概有8000多个词组。0 }+ n2 {% E& r  o
    不知道怎么批量提取中文。
  • TA的每日心情
    开心
    2019-6-23 00:02
  • 签到天数: 18 天

    [LV.4]偶尔看看III

    发表于 2019-4-25 23:37:30 | 显示全部楼层
    anki用的是sqlite数据库存储信息的,首先搞清楚数据库中table的结构,你可以在你想要的deck里创建一个新词条,然后分析数据库中的数据。
    " v  x' @* Z6 O# a0 R8 M然后就是根据单词提取对应词典中词条的信息,处理好以后写到anki的数据库中。这一步可以编写程序实现,也可以用某些editor的automation实现,比如用EmEditor。
  • TA的每日心情
    开心
    2022-1-21 00:52
  • 签到天数: 699 天

    [LV.9]以坛为家II

     楼主| 发表于 2019-4-26 00:59:34 | 显示全部楼层
    ogrishman 发表于 2019-4-25 23:37+ V; q8 p9 T2 }
    anki用的是sqlite数据库存储信息的,首先搞清楚数据库中table的结构,你可以在你想要的deck里创建一个新词 ...

    " }- a. Y/ H9 Q& w! p) M1 r3 r谢谢指点。
    % ~7 S- t3 f. c4 P6 A* V$ F短语词组每个单词都懂,但合在一起意思可能大不同,偏偏还太常见。
    - n2 S! c' ?. R7 ~* x  {
    7 i. O; Y7 t0 s) F( C, o& d7 s$ T需要学习一下技术了
  • TA的每日心情
    擦汗
    2021-11-13 00:18
  • 签到天数: 119 天

    [LV.6]常住居民II

    发表于 2019-4-26 14:23:11 | 显示全部楼层
    本帖最后由 脚下千 于 2019-4-26 14:44 编辑
    % ]# S$ e- }1 k& u: y
    4 q% s1 Z2 P  l8 w  G这个站在前人的基础上,有简单一点的方法,不过需要有支持的词典。. _* t/ y3 s9 Y! _! i+ h( q# o# }! V
    - M6 {% H9 @- r% ~& H
    简单来说,就是 将 xlsx 转成 csv,然后导入 anki,用 anki 插件(我用的好像叫 FastWordQuery)查询即可。  a* ^* ]5 g/ j" ~# e) k

    + t+ @/ _3 j* W8 h1 c虽然说缺的词典可以在这个插件基础上增加(因为给出的 mdx 词典一般都没有短语的索引),但目前我所见到的只有 longman 词典的短语有人制作过,其他的不知道有没有。
    $ q! j1 T8 k/ j8 S5 r8 b' |如果自己解析对应词典的话,也许在实现上比较方便(解析 mdx 内容后用正则表达式只提取相关短语释义),但给插件贡献词典解析可能会有更广的作用。
    & o  b1 v2 I2 D" _3 H
    9 _+ C" r! o6 P& @8 Kps:这个引起了我的兴趣,有些想做了,不过我的 CoCa 20000 还没背完……
    4 E7 j4 X! ^5 ^9 `
    1 t5 h* `3 w, U' Y& R# h
    ' p6 {0 W' e1 J+ W2 S+ J* I% c5 \
  • TA的每日心情
    开心
    2022-1-21 00:52
  • 签到天数: 699 天

    [LV.9]以坛为家II

     楼主| 发表于 2019-4-26 20:02:52 | 显示全部楼层
    脚下千 发表于 2019-4-26 14:235 z) C, x0 R2 H9 m3 U
    这个站在前人的基础上,有简单一点的方法,不过需要有支持的词典。
      \9 N2 {; a: z7 A$ n& Y9 C  p' h: O. s' g% l
    简单来说,就是 将 xlsx 转成 csv,然 ...

    0 o5 p% F4 S7 [1 ^7 |" o7 S不知道插件对短语词组的支持如何?+ {* M& R% v4 W9 J& p; [
    一个难点是例如eat one's fill这样的短语在不同词典里的词条可能是各种形式,eat sb's fill等等等等
    7 _1 l5 T/ ~: `: ]: r5 e不容易批量把该短语在各个词典中的相关entries都查询出来,以便进一步进行比较再挑选自己觉得最好的词典解释和例句! i5 G1 o; V4 K6 l& T  `- o: {
    6 v0 s5 H$ Y6 ]  |
  • TA的每日心情
    擦汗
    2021-11-13 00:18
  • 签到天数: 119 天

    [LV.6]常住居民II

    发表于 2019-4-28 19:33:42 | 显示全部楼层
    本帖最后由 脚下千 于 2019-4-28 19:35 编辑 6 B' x8 j1 J. F4 I- X/ _* p
    cocowind 发表于 2019-4-26 20:02
    - E& t  i  ]# @6 `; ]! @* J& _; O' `不知道插件对短语词组的支持如何?' S& Y. t3 q8 s1 {8 \0 l. G! C
    一个难点是例如eat one's fill这样的短语在不同词典里的词条可能是各 ...
      |- h7 i+ m6 _: i8 ?& s7 F! M
    这个倒不是很难,就是麻烦点,直接按不同形式处理一下即可,比如 one 替换为 sb 等,当然里面可能有更复杂点的规则要写。3 f' q' ]$ o0 ^
    ; @: }! f- L. M/ T/ j! y
    如果要统一结果到一处的话,就多列几个 fields 存储不同的查询形式,然后按词典逐个查询。
    ! g2 f# K, |4 r+ }  ^- o3 s1 K$ H6 v& f5 U' G4 D) G7 _
    当然,这都需要有词典支持,一般来说上述词典我猜很少能对短语直接查询的(我没用过啊)。
    % `) p7 h$ Y: d" V
    & v( w  k+ m$ Q1 P6 u插件设置自定义词典后,只是根据字段直接查询,然后提取所有内容,和在词典软件里是一样的。在词典软件里如果直接输入短语查不到,那么插件也查不到。
  • TA的每日心情
    开心
    2022-1-21 00:52
  • 签到天数: 699 天

    [LV.9]以坛为家II

     楼主| 发表于 2019-4-28 19:56:54 | 显示全部楼层
    脚下千 发表于 2019-4-28 19:33
    % A8 i% l: u( l% ]9 Y7 ^  `) n! [这个倒不是很难,就是麻烦点,直接按不同形式处理一下即可,比如 one 替换为 sb 等,当然里面可能有更复杂 ...
    ' O4 x0 M' u# \/ @
    谢谢指点~$ T3 P1 \& K) }7 k' q/ o
    8 j" p/ e1 V/ b: t0 O
    看到这个方法也许可以借鉴一下
    / v8 S( p" Z0 s/ s; n: nhttps://www.pdawiki.com/forum/thread-11546-1-1.html?x=180507
    4 i/ O# O% k9 O" P% b8 |4 e! o
  • TA的每日心情
    奋斗
    2023-12-14 15:58
  • 签到天数: 874 天

    [LV.10]以坛为家III

    发表于 2019-5-6 19:48:04 | 显示全部楼层
    是fq这个插件不够好吗……直接把词条转为utf-8的txt导入anki,建几个字段用fq查询不就是了,而且css格式也能保留,要修改css去collection.media修改就是了
    : y8 {& C* T5 D& \, _

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    擦汗
    2021-11-13 00:18
  • 签到天数: 119 天

    [LV.6]常住居民II

    发表于 2019-6-12 03:12:14 | 显示全部楼层
    xusorn 发表于 2019-5-6 19:48
    9 A, T" O6 l3 ]  `* [1 C$ K% l4 a是fq这个插件不够好吗……直接把词条转为utf-8的txt导入anki,建几个字段用fq查询不就是了,而且css格式也 ...

    ' c0 h# E. {* u, c1 h4 }这个要词典本身支持才可以的,目前很少这样的词典。楼主说的是匹配短语,不是单词。(具体见我前面的帖子)
  • TA的每日心情
    奋斗
    2023-12-14 15:58
  • 签到天数: 874 天

    [LV.10]以坛为家III

    发表于 2019-6-12 07:27:20 | 显示全部楼层
    本帖最后由 xusorn 于 2019-6-12 07:31 编辑
    ! |4 \* S- j) x
    脚下千 发表于 2019-6-12 03:12' z' G' u( a* J( R
    这个要词典本身支持才可以的,目前很少这样的词典。楼主说的是匹配短语,不是单词。(具体见我前面的帖子 ...

    . Z: k$ ~$ f" o$ F! K; J, Y- G我看清了问题,论坛的韦氏,朗文,牛津的词组不够你用吗?至少我用fq把vocabulary前1000的都查到了" i" ^. B; j# m0 ]1 ^

    0 Y5 {* f* Z- W: D+ G% _7 S* P3 P! m. O2 l

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    擦汗
    2021-11-13 00:18
  • 签到天数: 119 天

    [LV.6]常住居民II

    发表于 2019-6-12 13:05:01 | 显示全部楼层
    本帖最后由 脚下千 于 2019-6-12 13:15 编辑 0 N  G/ l3 q5 b/ E$ Y: @( y, |- c
    xusorn 发表于 2019-6-12 07:27
    5 h% L& b) a$ C0 c. ^) Z我看清了问题,论坛的韦氏,朗文,牛津的词组不够你用吗?至少我用fq把vocabulary前1000的都查到了

    ) k7 q0 Y, k- S% h, |6 N0 u  a, s。。。
    6 _2 C! n4 f9 k" n
    ( o  M- f! P, @% _* _1. 问题中是: Vocabulary.com + Collins + 雅思 + 牛津 —— “制作成anki记忆库(反面是相应词典中该短语词组的内容)”2 ?0 z0 Z, c$ T, o! k* ?6 l
    ; r$ M0 d  f' X1 z( @4 i0 e
    2. 输入是"例如eat one's fill这样的短语在不同词典里的词条可能是各种形式,eat sb's fill等等等等";
    + w% ], G  l* @6 J, F7 Y0 n! a
    : v' P( F" l, k3. 需求是做一个“综合”的短语库,不能说这没必要,起码楼主是需要的;而这涉及到第 2 点中的形式不同问题,至少要预处理一下5 V3 T: T) y$ X% F: c- `( I
    ; [" j: T+ x& M) z" [& p
    4. FastWordQuery 我首次回帖就告知了楼主
    . ], ]$ g, g& A3 ~; b. a/ h4 ^/ F1 o! F# l2 `
    5. 我不是楼主3 b, r4 M+ ?2 D! @! l. N
  • TA的每日心情
    奋斗
    2023-12-14 15:58
  • 签到天数: 874 天

    [LV.10]以坛为家III

    发表于 2019-6-12 15:38:31 | 显示全部楼层
    脚下千 发表于 2019-6-12 13:05
    ' `; b7 X5 G" H4 v。。。& t( t8 I) k: R. q% o

    ' u3 j2 a2 X) c1. 问题中是: Vocabulary.com + Collins + 雅思 + 牛津 —— “制作成anki记忆库(反面是相应词 ...

    : Q  S0 R% Z& E我上一条是在回复你回复我的“这个要词典本身支持才可以的,目前很少这样的词典。楼主说的是匹配短语,不是单词。(具体见我前面的帖子)”
    : i6 C8 b/ e% a4 h! u$ S4 b' j* A我回复楼主的是匹配词组,你说我是回复匹配单词,所以我进行了回应。
    5 B2 T$ D4 N- d/ `( R你说目前词典少,所以我就把论坛可以查的词典多告诉你了。# E# q( @6 U& D) G7 T" f+ J* h
    结果你和我扯什么形式,什么综合,搞得我好像没看清提问一样,而且你告知了和我有什么关系,我一开始就没回复你,是你在回复我,说我查的不是词组是单词啊。。。
  • TA的每日心情
    擦汗
    2021-11-13 00:18
  • 签到天数: 119 天

    [LV.6]常住居民II

    发表于 2019-6-13 11:00:17 | 显示全部楼层
    本帖最后由 脚下千 于 2019-6-13 11:09 编辑
    1 T9 ?" k8 T9 n) M3 h: D/ C
    xusorn 发表于 2019-6-12 15:38. b% z; L# z) o
    我上一条是在回复你回复我的“这个要词典本身支持才可以的,目前很少这样的词典。楼主说的是匹配短语,不 ...

    $ l! e& @* m7 J' z# b2 ~之前回复你是看到你的用词—— 什么“不够好吗,……就是了,……就是了” 才回复的,另外当时你的图片也没显示出来(也许是论坛原因),我表达能力低下,想让你去看我之前写的内容 ,但因为 我懒,我笨,我没写清楚,我标点符号不会用,最后让你觉得我在说你用它来匹配单词而不是短语 —— 的确,我 这个 sb 怎么知道 fq 原来也可以匹配短语 ?!
    9 F2 s$ C/ G/ k; L: `( Q9 ?3 u" N6 x
    算了,我是 sb,这里不是 StackOverflow,论坛发帖不需要看别人回帖。不再继续争论。我是 sb。
  • TA的每日心情
    奋斗
    2023-12-14 15:58
  • 签到天数: 874 天

    [LV.10]以坛为家III

    发表于 2019-6-13 13:14:48 | 显示全部楼层
    脚下千 发表于 2019-6-13 11:00* O4 r5 `4 A! T" D5 ]7 p. W$ `
    之前回复你是看到你的用词—— 什么“不够好吗,……就是了,……就是了” 才回复的,另外当时你的图片也 ...
    6 e* i8 }3 d! H$ J" K- t" g! G% Z
    图片应该是是之前服务器出了问题,我一开始就不认为查询这些词组不是特别困难的事情,但如果我的措辞对你产生了困扰,我对你表示抱歉。刚刚把你的回复完整的看了一遍,我个人认为你可能是想把词条统一形式表达,然后进行合并去重再统一查询,不知道是不是这样,如果是是的话,我个人认为存在三个需要考虑之处
    8 {  b# U* a- c1.工作量对于我和一般的不会Python的用户来说,应该不算小,因此可行性不高,或许程序员可以解决这个难题。( N* q+ n; k; G$ X
    2.如果统一了形式,再进行查询,是否能够查询得出,因为每个词典的表示不同,那么同一个形式是否能在多个词条查询出结果,这也是一个需要考虑的问题。
    6 C+ z- s) P  Y3.此外,每个词表的来源词典不同,因此导致词频及常用性的统计也不相同,合并后是否能够兼顾这些?. K- X. F* _& k# L6 I" X
    因此我觉得,如果仅仅是为了去重而大费周章的改形式的成本远大于收益,所以我建议直接用多本词典进行查询或许是更好的选择,我已经制作出来了,比把制作流程发到了论坛,如果有兴趣,也可以看看[【展示+制作教程】根据高频短语词组制作anki记忆库教程https://www.pdawiki.com/forum/fo ... hread&tid=34820]
  • TA的每日心情
    开心
    2022-4-20 08:22
  • 签到天数: 23 天

    [LV.4]偶尔看看III

    发表于 2020-9-26 07:50:41 | 显示全部楼层
    好高深的样子
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-4-29 21:18 , Processed in 0.047199 second(s), 8 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表