掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 3787|回复: 15

[使用求助] 如何制作(Vocabulary.com + Collins + 雅思 + 牛津)高频短语词组记忆库?

[复制链接]
  • TA的每日心情
    开心
    2022-1-21 00:52
  • 签到天数: 699 天

    [LV.9]以坛为家II

    发表于 2019-4-18 00:04:14 | 显示全部楼层 |阅读模式
    atomore 整理了(Vocabulary.com + Collins + 雅思 + 牛津)中的高频短语词组. `- O, d# E! J4 t6 ]
    内容包括:
    1 _% x5 T$ ^) e1 J( @! V2 P7 dhttps://www.pdawiki.com/forum/thread-33730-1-1.html?x=180507
    , `& N+ J" [# |( a4 E& d1. Vocabulary.com词典中词频小于20000的词组 (1977个,按词频排序);
    * t" h. T; b7 c! f3 l1 B: I2. 柯林斯双解词典中 五星词组 (4692个, 按五级分组排序);
    * f' y7 B; ?/ M3. 剑桥双解词典中 雅思词组 (2452个,按A1-C2分组);
    1 n- _0 R9 {& `$ I4. 牛津双解词典中 星标词组 (298个)。* K+ n% J/ ^+ Y0 U- Z; e/ B

    " _) t( _* ~# L$ o  M4 A  t6 L如果要把atomore 整理的xls列表,制作成anki记忆库(反面是相应词典中该短语词组的内容),技术上如何实现呢?
    9 @# M+ c2 o6 G' }( i希望集思广益
    " b1 }8 V5 B2 h/ a# v
    , q" Z0 z4 c; n6 D2 w# T" A" Q+ m

    本帖被以下淘专辑推荐:

  • TA的每日心情
    开心
    2023-2-22 11:08
  • 签到天数: 54 天

    [LV.5]常住居民I

    发表于 2019-4-22 09:06:50 | 显示全部楼层
    合并后,在Excel里删除相同词组后,大概有8000多个词组。# R$ X! T* Z' R& X& o0 }& e$ M7 c
    不知道怎么批量提取中文。
  • TA的每日心情
    开心
    2019-6-23 00:02
  • 签到天数: 18 天

    [LV.4]偶尔看看III

    发表于 2019-4-25 23:37:30 | 显示全部楼层
    anki用的是sqlite数据库存储信息的,首先搞清楚数据库中table的结构,你可以在你想要的deck里创建一个新词条,然后分析数据库中的数据。
    8 H9 L) P0 K4 M2 k, E1 v6 p  D然后就是根据单词提取对应词典中词条的信息,处理好以后写到anki的数据库中。这一步可以编写程序实现,也可以用某些editor的automation实现,比如用EmEditor。
  • TA的每日心情
    开心
    2022-1-21 00:52
  • 签到天数: 699 天

    [LV.9]以坛为家II

     楼主| 发表于 2019-4-26 00:59:34 | 显示全部楼层
    ogrishman 发表于 2019-4-25 23:37
    4 k. x- l9 g( t0 @2 O" Y- K4 eanki用的是sqlite数据库存储信息的,首先搞清楚数据库中table的结构,你可以在你想要的deck里创建一个新词 ...

    , ]5 g! ?+ c4 Y" R- T' C7 t( i谢谢指点。/ E/ d" b9 l3 a$ Z# U8 ^& c
    短语词组每个单词都懂,但合在一起意思可能大不同,偏偏还太常见。# E) G5 h. d& j) X. p/ F9 m

      U/ e4 J  a% a" d- n需要学习一下技术了
  • TA的每日心情
    擦汗
    2021-11-13 00:18
  • 签到天数: 119 天

    [LV.6]常住居民II

    发表于 2019-4-26 14:23:11 | 显示全部楼层
    本帖最后由 脚下千 于 2019-4-26 14:44 编辑 : Y5 F  ]7 R! r. q! ^) p; H

    ( e/ j8 x  R" V9 ?% g; B+ D3 @这个站在前人的基础上,有简单一点的方法,不过需要有支持的词典。
    3 p4 `# z4 j0 K( |) ]8 y8 ^- N. d" L
    简单来说,就是 将 xlsx 转成 csv,然后导入 anki,用 anki 插件(我用的好像叫 FastWordQuery)查询即可。
    8 Q% v2 k1 t. E
    - O/ s! u+ x0 M) m5 o) x  o* j虽然说缺的词典可以在这个插件基础上增加(因为给出的 mdx 词典一般都没有短语的索引),但目前我所见到的只有 longman 词典的短语有人制作过,其他的不知道有没有。
    - w1 Y9 x. [8 G' `, m3 [+ h$ g如果自己解析对应词典的话,也许在实现上比较方便(解析 mdx 内容后用正则表达式只提取相关短语释义),但给插件贡献词典解析可能会有更广的作用。
    $ \, Q8 I. Y2 V2 Q( b( d
    9 i* O( }/ V/ x5 p1 m) E0 |ps:这个引起了我的兴趣,有些想做了,不过我的 CoCa 20000 还没背完……
    ! L* |4 ?' l' k2 }+ H5 |
    5 }2 Y- q6 O- W3 D. }9 A
    . |3 m) }. `2 h  h' W3 P
  • TA的每日心情
    开心
    2022-1-21 00:52
  • 签到天数: 699 天

    [LV.9]以坛为家II

     楼主| 发表于 2019-4-26 20:02:52 | 显示全部楼层
    脚下千 发表于 2019-4-26 14:23* U: ?$ \9 I: @0 {5 T- F5 R
    这个站在前人的基础上,有简单一点的方法,不过需要有支持的词典。
    0 [, N: ~  d' J0 p" ]0 X# r0 C. b* p- M
    简单来说,就是 将 xlsx 转成 csv,然 ...

    ( B2 f4 N, K) }  c& D不知道插件对短语词组的支持如何?
    1 M% a+ R' P% n' t' G* J* J8 Y2 f, I一个难点是例如eat one's fill这样的短语在不同词典里的词条可能是各种形式,eat sb's fill等等等等
    ( z8 B5 [" c9 n: Z. W不容易批量把该短语在各个词典中的相关entries都查询出来,以便进一步进行比较再挑选自己觉得最好的词典解释和例句. U  a, L( B0 |! M! A* M/ H: ?# v" G
    & o  {* K, {5 ?0 e" r$ E0 R
  • TA的每日心情
    擦汗
    2021-11-13 00:18
  • 签到天数: 119 天

    [LV.6]常住居民II

    发表于 2019-4-28 19:33:42 | 显示全部楼层
    本帖最后由 脚下千 于 2019-4-28 19:35 编辑
    . \3 {! I  O% b! l  J
    cocowind 发表于 2019-4-26 20:02
    . C. H& p/ X+ _) h; h不知道插件对短语词组的支持如何?
    " O7 M9 I  X4 Q2 T6 t* G一个难点是例如eat one's fill这样的短语在不同词典里的词条可能是各 ...

    5 L: s1 F) J3 o  f这个倒不是很难,就是麻烦点,直接按不同形式处理一下即可,比如 one 替换为 sb 等,当然里面可能有更复杂点的规则要写。$ ]3 E5 ]' v  k* ]
    ; O( T. `+ a' G) U6 b( O5 u2 H
    如果要统一结果到一处的话,就多列几个 fields 存储不同的查询形式,然后按词典逐个查询。
    " R1 g1 w  A3 P1 H' X  c* b1 n7 M' s1 s* s/ N. v
    当然,这都需要有词典支持,一般来说上述词典我猜很少能对短语直接查询的(我没用过啊)。
      ]4 f) y  D; O8 v6 V' I
    + d% a. J+ c9 ?9 k% a插件设置自定义词典后,只是根据字段直接查询,然后提取所有内容,和在词典软件里是一样的。在词典软件里如果直接输入短语查不到,那么插件也查不到。
  • TA的每日心情
    开心
    2022-1-21 00:52
  • 签到天数: 699 天

    [LV.9]以坛为家II

     楼主| 发表于 2019-4-28 19:56:54 | 显示全部楼层
    脚下千 发表于 2019-4-28 19:33
    1 V3 P! ?% @( h: b这个倒不是很难,就是麻烦点,直接按不同形式处理一下即可,比如 one 替换为 sb 等,当然里面可能有更复杂 ...

    4 r4 B& ]/ {6 o7 u* U7 ~谢谢指点~# O3 Q3 _) k# i( p: l

    # E. W$ B0 l% B- n$ c& z- Q; N% y看到这个方法也许可以借鉴一下
    " e- N& W* \$ D* {https://www.pdawiki.com/forum/thread-11546-1-1.html?x=1805071 u+ g% p8 ^/ l1 @5 l  e9 f
  • TA的每日心情
    奋斗
    2023-12-14 15:58
  • 签到天数: 874 天

    [LV.10]以坛为家III

    发表于 2019-5-6 19:48:04 | 显示全部楼层
    是fq这个插件不够好吗……直接把词条转为utf-8的txt导入anki,建几个字段用fq查询不就是了,而且css格式也能保留,要修改css去collection.media修改就是了# R# F, E& F* {( b% k5 z. u8 h

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    擦汗
    2021-11-13 00:18
  • 签到天数: 119 天

    [LV.6]常住居民II

    发表于 2019-6-12 03:12:14 | 显示全部楼层
    xusorn 发表于 2019-5-6 19:48: p1 V, f( L0 X6 u$ u( [8 v
    是fq这个插件不够好吗……直接把词条转为utf-8的txt导入anki,建几个字段用fq查询不就是了,而且css格式也 ...

    : H) z- p3 |+ i2 h6 [% f& M4 G这个要词典本身支持才可以的,目前很少这样的词典。楼主说的是匹配短语,不是单词。(具体见我前面的帖子)
  • TA的每日心情
    奋斗
    2023-12-14 15:58
  • 签到天数: 874 天

    [LV.10]以坛为家III

    发表于 2019-6-12 07:27:20 | 显示全部楼层
    本帖最后由 xusorn 于 2019-6-12 07:31 编辑
    / v( h0 ?' S, I  ^% U
    脚下千 发表于 2019-6-12 03:12; e& D" Z2 I5 M' z- N
    这个要词典本身支持才可以的,目前很少这样的词典。楼主说的是匹配短语,不是单词。(具体见我前面的帖子 ...

    % {: ^! }; s1 B% m# M% v/ J1 f) m我看清了问题,论坛的韦氏,朗文,牛津的词组不够你用吗?至少我用fq把vocabulary前1000的都查到了
    8 b4 Q1 f$ P: y1 `3 v, ?
    + J/ t( H# d- a3 L; B( D  d" t) q
    , m3 S1 _. s. I. f3 l5 M

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    擦汗
    2021-11-13 00:18
  • 签到天数: 119 天

    [LV.6]常住居民II

    发表于 2019-6-12 13:05:01 | 显示全部楼层
    本帖最后由 脚下千 于 2019-6-12 13:15 编辑 1 w6 y( R8 a: c% Y0 Y/ X- W  T
    xusorn 发表于 2019-6-12 07:27
    ( X/ ^# y- O; S1 g% A我看清了问题,论坛的韦氏,朗文,牛津的词组不够你用吗?至少我用fq把vocabulary前1000的都查到了

    9 k$ n# r4 i( ~" [。。。, i0 B  x/ ]3 n) x+ k( G! d4 b
    + U' f2 O: t+ E4 c
    1. 问题中是: Vocabulary.com + Collins + 雅思 + 牛津 —— “制作成anki记忆库(反面是相应词典中该短语词组的内容)”
    2 [+ n+ C. m9 l0 _7 Q$ V/ `1 e) U
    . A9 r4 U, p  t. m2. 输入是"例如eat one's fill这样的短语在不同词典里的词条可能是各种形式,eat sb's fill等等等等";
    + f. X; [2 y& b! k, C% ?% j; n% P& L- S+ G# [5 r. g
    3. 需求是做一个“综合”的短语库,不能说这没必要,起码楼主是需要的;而这涉及到第 2 点中的形式不同问题,至少要预处理一下
    9 i7 D& }4 D$ `( i* p; H: Q) e' s' Z8 d' }- X5 L
    4. FastWordQuery 我首次回帖就告知了楼主
    6 M# D7 w9 k: {  Q) j/ y6 N, x7 {+ {& |8 v8 x
    5. 我不是楼主
    8 E% _9 g* F0 M1 C  I6 \% y
  • TA的每日心情
    奋斗
    2023-12-14 15:58
  • 签到天数: 874 天

    [LV.10]以坛为家III

    发表于 2019-6-12 15:38:31 | 显示全部楼层
    脚下千 发表于 2019-6-12 13:05
    / ~- S5 J) `$ r5 q' F( V。。。! a8 E. B8 \% o- p8 y% y, D
    6 V$ R. S( C. r7 e; F
    1. 问题中是: Vocabulary.com + Collins + 雅思 + 牛津 —— “制作成anki记忆库(反面是相应词 ...
    ' \3 I4 O$ @! ^8 J
    我上一条是在回复你回复我的“这个要词典本身支持才可以的,目前很少这样的词典。楼主说的是匹配短语,不是单词。(具体见我前面的帖子)”
    + I. ~9 y9 F& A7 r我回复楼主的是匹配词组,你说我是回复匹配单词,所以我进行了回应。# i4 L2 y& f& m
    你说目前词典少,所以我就把论坛可以查的词典多告诉你了。1 m. E3 }/ f2 o+ c; f9 Q
    结果你和我扯什么形式,什么综合,搞得我好像没看清提问一样,而且你告知了和我有什么关系,我一开始就没回复你,是你在回复我,说我查的不是词组是单词啊。。。
  • TA的每日心情
    擦汗
    2021-11-13 00:18
  • 签到天数: 119 天

    [LV.6]常住居民II

    发表于 2019-6-13 11:00:17 | 显示全部楼层
    本帖最后由 脚下千 于 2019-6-13 11:09 编辑 & R& q( R: B% y9 E
    xusorn 发表于 2019-6-12 15:38
    1 `3 b1 ^: I5 k+ r; X我上一条是在回复你回复我的“这个要词典本身支持才可以的,目前很少这样的词典。楼主说的是匹配短语,不 ...

    . A3 L6 m' q) M之前回复你是看到你的用词—— 什么“不够好吗,……就是了,……就是了” 才回复的,另外当时你的图片也没显示出来(也许是论坛原因),我表达能力低下,想让你去看我之前写的内容 ,但因为 我懒,我笨,我没写清楚,我标点符号不会用,最后让你觉得我在说你用它来匹配单词而不是短语 —— 的确,我 这个 sb 怎么知道 fq 原来也可以匹配短语 ?!5 M/ c, \0 T5 i7 W4 I" E, e1 o7 L

    ; |" t5 O- y: D. m8 T7 K8 V算了,我是 sb,这里不是 StackOverflow,论坛发帖不需要看别人回帖。不再继续争论。我是 sb。
  • TA的每日心情
    奋斗
    2023-12-14 15:58
  • 签到天数: 874 天

    [LV.10]以坛为家III

    发表于 2019-6-13 13:14:48 | 显示全部楼层
    脚下千 发表于 2019-6-13 11:00' e8 h. g& C$ i- p0 I
    之前回复你是看到你的用词—— 什么“不够好吗,……就是了,……就是了” 才回复的,另外当时你的图片也 ...
    ) r. y. ^0 i' g% u4 d
    图片应该是是之前服务器出了问题,我一开始就不认为查询这些词组不是特别困难的事情,但如果我的措辞对你产生了困扰,我对你表示抱歉。刚刚把你的回复完整的看了一遍,我个人认为你可能是想把词条统一形式表达,然后进行合并去重再统一查询,不知道是不是这样,如果是是的话,我个人认为存在三个需要考虑之处
    6 |1 L4 G  ^8 d5 C. a7 o8 m9 H3 `1.工作量对于我和一般的不会Python的用户来说,应该不算小,因此可行性不高,或许程序员可以解决这个难题。
    * |0 ?- ~% R+ m1 R' Q, K5 b2.如果统一了形式,再进行查询,是否能够查询得出,因为每个词典的表示不同,那么同一个形式是否能在多个词条查询出结果,这也是一个需要考虑的问题。
    3 O! f. u$ S8 c/ a! Y3.此外,每个词表的来源词典不同,因此导致词频及常用性的统计也不相同,合并后是否能够兼顾这些?
    ! q% `/ I$ s! c$ @) R: y因此我觉得,如果仅仅是为了去重而大费周章的改形式的成本远大于收益,所以我建议直接用多本词典进行查询或许是更好的选择,我已经制作出来了,比把制作流程发到了论坛,如果有兴趣,也可以看看[【展示+制作教程】根据高频短语词组制作anki记忆库教程https://www.pdawiki.com/forum/fo ... hread&tid=34820]
  • TA的每日心情
    开心
    2022-4-20 08:22
  • 签到天数: 23 天

    [LV.4]偶尔看看III

    发表于 2020-9-26 07:50:41 | 显示全部楼层
    好高深的样子
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-6-17 17:03 , Processed in 0.108612 second(s), 10 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表