掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 3701|回复: 15

[使用求助] 如何制作(Vocabulary.com + Collins + 雅思 + 牛津)高频短语词组记忆库?

[复制链接]
  • TA的每日心情
    开心
    2022-1-21 00:52
  • 签到天数: 699 天

    [LV.9]以坛为家II

    发表于 2019-4-18 00:04:14 | 显示全部楼层 |阅读模式
    atomore 整理了(Vocabulary.com + Collins + 雅思 + 牛津)中的高频短语词组; j2 n. }: s, C/ b/ T6 ^. m
    内容包括:
    $ U& G0 F& w- F) \5 ehttps://www.pdawiki.com/forum/thread-33730-1-1.html?x=180507
    , ]; M% |$ i  I1. Vocabulary.com词典中词频小于20000的词组 (1977个,按词频排序);0 t2 A6 m+ N! o; ^& E9 n: v% w2 o
    2. 柯林斯双解词典中 五星词组 (4692个, 按五级分组排序);
    ; ~9 s: ~* X4 Y3. 剑桥双解词典中 雅思词组 (2452个,按A1-C2分组);
    3 {0 j/ c1 l8 Y) v9 A( O/ }4. 牛津双解词典中 星标词组 (298个)。) s* W! C9 \6 M/ g

    # @' x. Q) s. m! |  b5 u0 T% h如果要把atomore 整理的xls列表,制作成anki记忆库(反面是相应词典中该短语词组的内容),技术上如何实现呢?, m" o; h: J: Z1 Z/ H
    希望集思广益
    ; k$ j5 Z8 o0 _% |3 f& I
    6 o4 V$ Z6 u1 J4 C7 s

    本帖被以下淘专辑推荐:

  • TA的每日心情
    开心
    2023-2-22 11:08
  • 签到天数: 54 天

    [LV.5]常住居民I

    发表于 2019-4-22 09:06:50 | 显示全部楼层
    合并后,在Excel里删除相同词组后,大概有8000多个词组。8 C6 W' c+ `' J6 F; r" M2 B4 g- ~* Z
    不知道怎么批量提取中文。
  • TA的每日心情
    开心
    2019-6-23 00:02
  • 签到天数: 18 天

    [LV.4]偶尔看看III

    发表于 2019-4-25 23:37:30 | 显示全部楼层
    anki用的是sqlite数据库存储信息的,首先搞清楚数据库中table的结构,你可以在你想要的deck里创建一个新词条,然后分析数据库中的数据。
    " l- e' J! `9 n) p8 `然后就是根据单词提取对应词典中词条的信息,处理好以后写到anki的数据库中。这一步可以编写程序实现,也可以用某些editor的automation实现,比如用EmEditor。
  • TA的每日心情
    开心
    2022-1-21 00:52
  • 签到天数: 699 天

    [LV.9]以坛为家II

     楼主| 发表于 2019-4-26 00:59:34 | 显示全部楼层
    ogrishman 发表于 2019-4-25 23:37
    & L& o! W2 f; q0 l4 k6 u% {anki用的是sqlite数据库存储信息的,首先搞清楚数据库中table的结构,你可以在你想要的deck里创建一个新词 ...
    - w; e- R+ N( n: y( E
    谢谢指点。" r8 m8 L3 I" m6 V, Y* C; {
    短语词组每个单词都懂,但合在一起意思可能大不同,偏偏还太常见。& v1 t1 n  u6 ~8 z5 q
    ; A. ^2 c5 p$ `$ }
    需要学习一下技术了
  • TA的每日心情
    擦汗
    2021-11-13 00:18
  • 签到天数: 119 天

    [LV.6]常住居民II

    发表于 2019-4-26 14:23:11 | 显示全部楼层
    本帖最后由 脚下千 于 2019-4-26 14:44 编辑
    % D( ]' D/ q: F4 n. a/ ]* b1 d3 G5 \( [% B  H
    这个站在前人的基础上,有简单一点的方法,不过需要有支持的词典。* @9 H4 i2 }$ a4 a+ Y. e

    ( @7 Z% n' v1 Y1 H简单来说,就是 将 xlsx 转成 csv,然后导入 anki,用 anki 插件(我用的好像叫 FastWordQuery)查询即可。
    ! G$ @2 F( N1 L3 T8 m) q4 [- s; x! ]( ~0 W4 M
    虽然说缺的词典可以在这个插件基础上增加(因为给出的 mdx 词典一般都没有短语的索引),但目前我所见到的只有 longman 词典的短语有人制作过,其他的不知道有没有。
    ) V8 o& a) B+ ^1 C; c0 Q$ S如果自己解析对应词典的话,也许在实现上比较方便(解析 mdx 内容后用正则表达式只提取相关短语释义),但给插件贡献词典解析可能会有更广的作用。4 q5 c* s0 C3 l  V

    1 F0 _8 Z% n& L% E: N% W& Nps:这个引起了我的兴趣,有些想做了,不过我的 CoCa 20000 还没背完……
    , A+ H$ @- a' T2 j
    $ E  ?+ ~5 C" c8 p; Q2 n0 }2 d. {  T5 o$ x  N
  • TA的每日心情
    开心
    2022-1-21 00:52
  • 签到天数: 699 天

    [LV.9]以坛为家II

     楼主| 发表于 2019-4-26 20:02:52 | 显示全部楼层
    脚下千 发表于 2019-4-26 14:237 d: J  i4 |4 z* S! C
    这个站在前人的基础上,有简单一点的方法,不过需要有支持的词典。
    % Z8 D$ n: \( {8 P  x5 y( V$ l. G& {
    简单来说,就是 将 xlsx 转成 csv,然 ...
    6 q. T/ w2 u" ^
    不知道插件对短语词组的支持如何?
    , _+ o/ J  Z  V9 \, @! ?/ K一个难点是例如eat one's fill这样的短语在不同词典里的词条可能是各种形式,eat sb's fill等等等等) z$ V) }1 `# u/ p
    不容易批量把该短语在各个词典中的相关entries都查询出来,以便进一步进行比较再挑选自己觉得最好的词典解释和例句
    3 h* S/ f. l) h9 [  `5 b! d6 u
    ! I5 E% n4 v- x
  • TA的每日心情
    擦汗
    2021-11-13 00:18
  • 签到天数: 119 天

    [LV.6]常住居民II

    发表于 2019-4-28 19:33:42 | 显示全部楼层
    本帖最后由 脚下千 于 2019-4-28 19:35 编辑
    5 R! q$ w) D( z
    cocowind 发表于 2019-4-26 20:02
    9 e7 p7 O* W- i$ B5 i# H; t不知道插件对短语词组的支持如何?
    / j' ]! b$ J. b- z0 \) x0 d一个难点是例如eat one's fill这样的短语在不同词典里的词条可能是各 ...
    & f" l. Q1 r! i6 _% X
    这个倒不是很难,就是麻烦点,直接按不同形式处理一下即可,比如 one 替换为 sb 等,当然里面可能有更复杂点的规则要写。
    : x# s* u- X; {  l6 ?+ Z
    " i, }% r& X7 M6 D如果要统一结果到一处的话,就多列几个 fields 存储不同的查询形式,然后按词典逐个查询。" }1 O6 Z5 s4 Y1 {+ a1 n" `" o

    % H: S3 a* x9 S4 M5 _' X# Q当然,这都需要有词典支持,一般来说上述词典我猜很少能对短语直接查询的(我没用过啊)。
    + [5 n! n+ T$ j8 o
    ( ~2 u- J& Z7 ]  B+ m2 D4 F插件设置自定义词典后,只是根据字段直接查询,然后提取所有内容,和在词典软件里是一样的。在词典软件里如果直接输入短语查不到,那么插件也查不到。
  • TA的每日心情
    开心
    2022-1-21 00:52
  • 签到天数: 699 天

    [LV.9]以坛为家II

     楼主| 发表于 2019-4-28 19:56:54 | 显示全部楼层
    脚下千 发表于 2019-4-28 19:331 W% j6 ]+ z& D3 P* d
    这个倒不是很难,就是麻烦点,直接按不同形式处理一下即可,比如 one 替换为 sb 等,当然里面可能有更复杂 ...

    - Q* F$ Y- C5 z- e% o3 M5 C谢谢指点~, Z5 |* Y, |; r6 |4 O) q
    $ y/ _* x- Z5 P4 h* f0 G1 ], S
    看到这个方法也许可以借鉴一下" R% k! T9 M7 L
    https://www.pdawiki.com/forum/thread-11546-1-1.html?x=1805075 g9 E" \4 m0 f1 g) \
  • TA的每日心情
    奋斗
    2023-12-14 15:58
  • 签到天数: 874 天

    [LV.10]以坛为家III

    发表于 2019-5-6 19:48:04 | 显示全部楼层
    是fq这个插件不够好吗……直接把词条转为utf-8的txt导入anki,建几个字段用fq查询不就是了,而且css格式也能保留,要修改css去collection.media修改就是了
    . w" q& H, O" I

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    擦汗
    2021-11-13 00:18
  • 签到天数: 119 天

    [LV.6]常住居民II

    发表于 2019-6-12 03:12:14 | 显示全部楼层
    xusorn 发表于 2019-5-6 19:48
    0 f3 ~* b3 E+ l$ |! J* t5 B是fq这个插件不够好吗……直接把词条转为utf-8的txt导入anki,建几个字段用fq查询不就是了,而且css格式也 ...

    0 U; k9 k" s! L" J. z  Q$ N3 t. K) j( z* Y" B这个要词典本身支持才可以的,目前很少这样的词典。楼主说的是匹配短语,不是单词。(具体见我前面的帖子)
  • TA的每日心情
    奋斗
    2023-12-14 15:58
  • 签到天数: 874 天

    [LV.10]以坛为家III

    发表于 2019-6-12 07:27:20 | 显示全部楼层
    本帖最后由 xusorn 于 2019-6-12 07:31 编辑 1 Y& A" V: s) Y$ I7 Z- e
    脚下千 发表于 2019-6-12 03:12: k5 \6 x3 ?& a, B
    这个要词典本身支持才可以的,目前很少这样的词典。楼主说的是匹配短语,不是单词。(具体见我前面的帖子 ...

    & F" K: Y) V, U& h+ o我看清了问题,论坛的韦氏,朗文,牛津的词组不够你用吗?至少我用fq把vocabulary前1000的都查到了- S4 U4 J1 m" M( F, V5 o8 @9 z
    ; f) G, \2 G/ c1 x

      Q' K% d* A0 o% [4 o

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    擦汗
    2021-11-13 00:18
  • 签到天数: 119 天

    [LV.6]常住居民II

    发表于 2019-6-12 13:05:01 | 显示全部楼层
    本帖最后由 脚下千 于 2019-6-12 13:15 编辑
    & g) o2 j4 m# a( E6 ^9 \
    xusorn 发表于 2019-6-12 07:27- C/ T7 I' z/ ?
    我看清了问题,论坛的韦氏,朗文,牛津的词组不够你用吗?至少我用fq把vocabulary前1000的都查到了
    . n7 M& K$ _5 L+ y8 w4 F# l) c
    。。。% H+ w# J! O/ F, L! Z# d
    / o7 Z  S9 L- u' Z
    1. 问题中是: Vocabulary.com + Collins + 雅思 + 牛津 —— “制作成anki记忆库(反面是相应词典中该短语词组的内容)”
    7 u* a+ v$ ]: E" E1 \" p0 M/ E9 K0 s, O2 n! @; _
    2. 输入是"例如eat one's fill这样的短语在不同词典里的词条可能是各种形式,eat sb's fill等等等等";
    , g, R% S/ M# g9 Q7 d, {
    / k+ ]0 s- Z" z+ z3. 需求是做一个“综合”的短语库,不能说这没必要,起码楼主是需要的;而这涉及到第 2 点中的形式不同问题,至少要预处理一下0 g& r! [) l: C" @1 b

    ( T2 K% S$ w# k* }8 m0 ^4. FastWordQuery 我首次回帖就告知了楼主
    * {8 q8 {  ?0 J3 T
    $ M+ B( O* l3 O5. 我不是楼主
    . P9 p, N4 I( }" k0 n3 l0 {8 I
  • TA的每日心情
    奋斗
    2023-12-14 15:58
  • 签到天数: 874 天

    [LV.10]以坛为家III

    发表于 2019-6-12 15:38:31 | 显示全部楼层
    脚下千 发表于 2019-6-12 13:05
    1 T0 C5 E/ S. e# @5 g。。。& D4 ^0 z2 U+ A: e5 J; |( ?2 o
    0 M% ]3 _0 d& M6 `1 H
    1. 问题中是: Vocabulary.com + Collins + 雅思 + 牛津 —— “制作成anki记忆库(反面是相应词 ...

    ( u- i9 H* [4 k3 e我上一条是在回复你回复我的“这个要词典本身支持才可以的,目前很少这样的词典。楼主说的是匹配短语,不是单词。(具体见我前面的帖子)”
    , D9 h" N6 f6 x  ?! v我回复楼主的是匹配词组,你说我是回复匹配单词,所以我进行了回应。
      m: q6 c$ O% H) Z! D你说目前词典少,所以我就把论坛可以查的词典多告诉你了。% S3 s' u  Z) S* Q7 R( g' @8 g
    结果你和我扯什么形式,什么综合,搞得我好像没看清提问一样,而且你告知了和我有什么关系,我一开始就没回复你,是你在回复我,说我查的不是词组是单词啊。。。
  • TA的每日心情
    擦汗
    2021-11-13 00:18
  • 签到天数: 119 天

    [LV.6]常住居民II

    发表于 2019-6-13 11:00:17 | 显示全部楼层
    本帖最后由 脚下千 于 2019-6-13 11:09 编辑
    , k3 |5 F) ~3 f$ n
    xusorn 发表于 2019-6-12 15:38, Z  \/ c2 r1 G9 e
    我上一条是在回复你回复我的“这个要词典本身支持才可以的,目前很少这样的词典。楼主说的是匹配短语,不 ...
      F3 d; L7 q9 B& o- i
    之前回复你是看到你的用词—— 什么“不够好吗,……就是了,……就是了” 才回复的,另外当时你的图片也没显示出来(也许是论坛原因),我表达能力低下,想让你去看我之前写的内容 ,但因为 我懒,我笨,我没写清楚,我标点符号不会用,最后让你觉得我在说你用它来匹配单词而不是短语 —— 的确,我 这个 sb 怎么知道 fq 原来也可以匹配短语 ?!7 L& d$ o7 a9 H3 n) E2 v9 q

    1 D! A: ?5 [' L9 Y4 A算了,我是 sb,这里不是 StackOverflow,论坛发帖不需要看别人回帖。不再继续争论。我是 sb。
  • TA的每日心情
    奋斗
    2023-12-14 15:58
  • 签到天数: 874 天

    [LV.10]以坛为家III

    发表于 2019-6-13 13:14:48 | 显示全部楼层
    脚下千 发表于 2019-6-13 11:00
    ; i/ r! K8 S0 X! Z之前回复你是看到你的用词—— 什么“不够好吗,……就是了,……就是了” 才回复的,另外当时你的图片也 ...
    4 @( d& }5 S1 W+ B; r' l: W
    图片应该是是之前服务器出了问题,我一开始就不认为查询这些词组不是特别困难的事情,但如果我的措辞对你产生了困扰,我对你表示抱歉。刚刚把你的回复完整的看了一遍,我个人认为你可能是想把词条统一形式表达,然后进行合并去重再统一查询,不知道是不是这样,如果是是的话,我个人认为存在三个需要考虑之处
    9 P+ g" E. A! I  ]- F1 o5 t1.工作量对于我和一般的不会Python的用户来说,应该不算小,因此可行性不高,或许程序员可以解决这个难题。/ f* b" W4 f. j! U/ ^8 P1 k
    2.如果统一了形式,再进行查询,是否能够查询得出,因为每个词典的表示不同,那么同一个形式是否能在多个词条查询出结果,这也是一个需要考虑的问题。
    ' ^5 u  y8 X1 F7 T; [" b% l2 q1 Q! R3.此外,每个词表的来源词典不同,因此导致词频及常用性的统计也不相同,合并后是否能够兼顾这些?/ a& ~1 b! I9 [/ J
    因此我觉得,如果仅仅是为了去重而大费周章的改形式的成本远大于收益,所以我建议直接用多本词典进行查询或许是更好的选择,我已经制作出来了,比把制作流程发到了论坛,如果有兴趣,也可以看看[【展示+制作教程】根据高频短语词组制作anki记忆库教程https://www.pdawiki.com/forum/fo ... hread&tid=34820]
  • TA的每日心情
    开心
    2022-4-20 08:22
  • 签到天数: 23 天

    [LV.4]偶尔看看III

    发表于 2020-9-26 07:50:41 | 显示全部楼层
    好高深的样子
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-4-29 22:16 , Processed in 0.055709 second(s), 9 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表