掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 3704|回复: 15

[使用求助] 如何制作(Vocabulary.com + Collins + 雅思 + 牛津)高频短语词组记忆库?

[复制链接]
  • TA的每日心情
    开心
    2022-1-21 00:52
  • 签到天数: 699 天

    [LV.9]以坛为家II

    发表于 2019-4-18 00:04:14 | 显示全部楼层 |阅读模式
    atomore 整理了(Vocabulary.com + Collins + 雅思 + 牛津)中的高频短语词组/ e: ~) |, [7 l2 q4 n) z
    内容包括:
    ( J* Y9 [5 @  g% n3 M+ {https://www.pdawiki.com/forum/thread-33730-1-1.html?x=180507" r; t8 g( X0 H1 u& D/ I
    1. Vocabulary.com词典中词频小于20000的词组 (1977个,按词频排序);
    5 b0 c8 E/ n( X+ l6 L- z' Q2. 柯林斯双解词典中 五星词组 (4692个, 按五级分组排序);
    4 r1 V7 ^' y$ h4 q3. 剑桥双解词典中 雅思词组 (2452个,按A1-C2分组);
    8 A8 i2 Y; j3 r, l4 q$ m( l$ m4. 牛津双解词典中 星标词组 (298个)。2 u2 w& \8 |5 v% C5 d
    , [" E7 ?  l8 Q. m+ b
    如果要把atomore 整理的xls列表,制作成anki记忆库(反面是相应词典中该短语词组的内容),技术上如何实现呢?
    & _9 L8 l3 d: A9 _: B/ L! }4 c. D希望集思广益
    , I, p" Q6 h5 }5 D/ a: n9 J" g7 ~4 l6 u2 f: p* p: B2 F% ^* z

    本帖被以下淘专辑推荐:

  • TA的每日心情
    开心
    2023-2-22 11:08
  • 签到天数: 54 天

    [LV.5]常住居民I

    发表于 2019-4-22 09:06:50 | 显示全部楼层
    合并后,在Excel里删除相同词组后,大概有8000多个词组。
    ; [6 F* L$ G0 w$ ~& N6 V2 [0 O1 G5 J' ]不知道怎么批量提取中文。
  • TA的每日心情
    开心
    2019-6-23 00:02
  • 签到天数: 18 天

    [LV.4]偶尔看看III

    发表于 2019-4-25 23:37:30 | 显示全部楼层
    anki用的是sqlite数据库存储信息的,首先搞清楚数据库中table的结构,你可以在你想要的deck里创建一个新词条,然后分析数据库中的数据。; i3 M9 P2 ^: x, J* Z2 k" x9 s
    然后就是根据单词提取对应词典中词条的信息,处理好以后写到anki的数据库中。这一步可以编写程序实现,也可以用某些editor的automation实现,比如用EmEditor。
  • TA的每日心情
    开心
    2022-1-21 00:52
  • 签到天数: 699 天

    [LV.9]以坛为家II

     楼主| 发表于 2019-4-26 00:59:34 | 显示全部楼层
    ogrishman 发表于 2019-4-25 23:372 u( Y0 z! ~  g/ _7 r+ B- M4 C. r+ Z5 E9 z
    anki用的是sqlite数据库存储信息的,首先搞清楚数据库中table的结构,你可以在你想要的deck里创建一个新词 ...
    ; A1 a9 ?( J, ^0 I7 ]; U
    谢谢指点。
    $ [/ L; G$ C, Y  h短语词组每个单词都懂,但合在一起意思可能大不同,偏偏还太常见。* B2 o* r+ O$ p
    * c: t# c1 b" i  z4 h* O
    需要学习一下技术了
  • TA的每日心情
    擦汗
    2021-11-13 00:18
  • 签到天数: 119 天

    [LV.6]常住居民II

    发表于 2019-4-26 14:23:11 | 显示全部楼层
    本帖最后由 脚下千 于 2019-4-26 14:44 编辑
    1 p4 x& F% ?6 K% y3 N% k4 {8 ]/ M
    这个站在前人的基础上,有简单一点的方法,不过需要有支持的词典。3 \5 p1 ^1 r) H; l7 C: {( F

    ' F( J3 `1 U/ [! {' f' K2 [简单来说,就是 将 xlsx 转成 csv,然后导入 anki,用 anki 插件(我用的好像叫 FastWordQuery)查询即可。
    ( l5 C- |+ p4 x. }
    ( S, p( C) ~& n3 }7 w) d虽然说缺的词典可以在这个插件基础上增加(因为给出的 mdx 词典一般都没有短语的索引),但目前我所见到的只有 longman 词典的短语有人制作过,其他的不知道有没有。
    4 T. c: ^. I5 p! T7 L如果自己解析对应词典的话,也许在实现上比较方便(解析 mdx 内容后用正则表达式只提取相关短语释义),但给插件贡献词典解析可能会有更广的作用。
    ) n* P$ D( ]0 S" v, E0 c3 R; `+ v
    . Z* G8 w; _4 W+ s) Qps:这个引起了我的兴趣,有些想做了,不过我的 CoCa 20000 还没背完……7 w! i; r% J6 N& A8 K

    - ?7 z  l7 r1 j* P% a/ g' @" P" Y5 a# n
  • TA的每日心情
    开心
    2022-1-21 00:52
  • 签到天数: 699 天

    [LV.9]以坛为家II

     楼主| 发表于 2019-4-26 20:02:52 | 显示全部楼层
    脚下千 发表于 2019-4-26 14:23
    9 y% m' |  h. `; E这个站在前人的基础上,有简单一点的方法,不过需要有支持的词典。3 f9 c' G; @4 \% E4 s0 j7 q7 G' p

    7 x5 m' I9 c( Y( }. X& m2 y简单来说,就是 将 xlsx 转成 csv,然 ...
    ! Y% H0 ]9 y, @* {/ H$ s7 C
    不知道插件对短语词组的支持如何?$ L2 |3 z1 ~9 @! W( e0 i4 P
    一个难点是例如eat one's fill这样的短语在不同词典里的词条可能是各种形式,eat sb's fill等等等等4 e2 D8 K( K; t0 l: t* u% ]6 [
    不容易批量把该短语在各个词典中的相关entries都查询出来,以便进一步进行比较再挑选自己觉得最好的词典解释和例句: s2 z4 A3 c' |0 g& n
    . e2 y- w8 P, l% m/ Q
  • TA的每日心情
    擦汗
    2021-11-13 00:18
  • 签到天数: 119 天

    [LV.6]常住居民II

    发表于 2019-4-28 19:33:42 | 显示全部楼层
    本帖最后由 脚下千 于 2019-4-28 19:35 编辑 * e$ o' G2 J. ^. K9 d9 I" [
    cocowind 发表于 2019-4-26 20:02
    - t9 G  @4 ?& `+ a6 I1 l$ g不知道插件对短语词组的支持如何?( ^5 B- R# O  x
    一个难点是例如eat one's fill这样的短语在不同词典里的词条可能是各 ...
    # [: z+ h% F. k8 G" H
    这个倒不是很难,就是麻烦点,直接按不同形式处理一下即可,比如 one 替换为 sb 等,当然里面可能有更复杂点的规则要写。
    & v6 [- C& n# u7 k& C* p
    2 x. c0 l# [6 a# S9 x- C如果要统一结果到一处的话,就多列几个 fields 存储不同的查询形式,然后按词典逐个查询。9 N( |* T; k/ B$ F2 O3 E: P

    ( S: B2 m, }% G; o  H当然,这都需要有词典支持,一般来说上述词典我猜很少能对短语直接查询的(我没用过啊)。* l) ]3 d" i$ ^/ w) b( k6 g5 @

    0 ]" V7 H2 c4 k, B插件设置自定义词典后,只是根据字段直接查询,然后提取所有内容,和在词典软件里是一样的。在词典软件里如果直接输入短语查不到,那么插件也查不到。
  • TA的每日心情
    开心
    2022-1-21 00:52
  • 签到天数: 699 天

    [LV.9]以坛为家II

     楼主| 发表于 2019-4-28 19:56:54 | 显示全部楼层
    脚下千 发表于 2019-4-28 19:33) {9 [& O5 ?6 D. {2 L
    这个倒不是很难,就是麻烦点,直接按不同形式处理一下即可,比如 one 替换为 sb 等,当然里面可能有更复杂 ...
    4 B: P+ b" X- t" ~$ C6 j
    谢谢指点~4 t) m& o) I8 i# ]
    ' T  S6 y; X# u2 A
    看到这个方法也许可以借鉴一下3 e% \5 Z+ T8 ^7 A
    https://www.pdawiki.com/forum/thread-11546-1-1.html?x=180507
    2 L, e, u( L  {3 J+ G; N! w
  • TA的每日心情
    奋斗
    2023-12-14 15:58
  • 签到天数: 874 天

    [LV.10]以坛为家III

    发表于 2019-5-6 19:48:04 | 显示全部楼层
    是fq这个插件不够好吗……直接把词条转为utf-8的txt导入anki,建几个字段用fq查询不就是了,而且css格式也能保留,要修改css去collection.media修改就是了5 W4 J3 H+ J+ N8 L

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    擦汗
    2021-11-13 00:18
  • 签到天数: 119 天

    [LV.6]常住居民II

    发表于 2019-6-12 03:12:14 | 显示全部楼层
    xusorn 发表于 2019-5-6 19:48
    ( g% G5 z4 q# r7 c+ X! u9 V是fq这个插件不够好吗……直接把词条转为utf-8的txt导入anki,建几个字段用fq查询不就是了,而且css格式也 ...
    4 M; F) F3 U" _, A1 o8 G! @2 ~
    这个要词典本身支持才可以的,目前很少这样的词典。楼主说的是匹配短语,不是单词。(具体见我前面的帖子)
  • TA的每日心情
    奋斗
    2023-12-14 15:58
  • 签到天数: 874 天

    [LV.10]以坛为家III

    发表于 2019-6-12 07:27:20 | 显示全部楼层
    本帖最后由 xusorn 于 2019-6-12 07:31 编辑
    ' n+ O& }, D$ A6 L% y
    脚下千 发表于 2019-6-12 03:128 A* O: k' W: x4 j9 {
    这个要词典本身支持才可以的,目前很少这样的词典。楼主说的是匹配短语,不是单词。(具体见我前面的帖子 ...

    , }1 o6 H) i% Q! U& q6 W. L我看清了问题,论坛的韦氏,朗文,牛津的词组不够你用吗?至少我用fq把vocabulary前1000的都查到了  d; v0 q. M5 c, `& F9 F

    # h/ m) B7 b1 _) U- v/ w1 M, V% X1 n- X0 A: @

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    擦汗
    2021-11-13 00:18
  • 签到天数: 119 天

    [LV.6]常住居民II

    发表于 2019-6-12 13:05:01 | 显示全部楼层
    本帖最后由 脚下千 于 2019-6-12 13:15 编辑 5 j/ ^# }/ w* _
    xusorn 发表于 2019-6-12 07:27. v, w" q$ ?: V4 [+ v) _4 |2 W" B
    我看清了问题,论坛的韦氏,朗文,牛津的词组不够你用吗?至少我用fq把vocabulary前1000的都查到了
    ' H, P; F+ T- T! p2 v0 x, |" X3 a
    。。。
    , M5 R' r# h# I3 p& E# L0 U6 ^
    0 |1 |, h. q/ X% ?$ h# x; m5 K- N1. 问题中是: Vocabulary.com + Collins + 雅思 + 牛津 —— “制作成anki记忆库(反面是相应词典中该短语词组的内容)”
    1 z, o' ]5 o2 H8 P: Z' @+ n8 b5 H' \
    2. 输入是"例如eat one's fill这样的短语在不同词典里的词条可能是各种形式,eat sb's fill等等等等"; 2 d) ?' S4 W) P3 B) l& M

    # G" G$ Z1 S* O( |0 H0 p" X3. 需求是做一个“综合”的短语库,不能说这没必要,起码楼主是需要的;而这涉及到第 2 点中的形式不同问题,至少要预处理一下" R( P; D5 c% ~' N# @
    8 j: m6 R& T$ T1 b1 v: ^  o
    4. FastWordQuery 我首次回帖就告知了楼主9 P, S0 e3 w! N5 Y5 X/ V4 I% M

    - t* Z5 T' |* F% n& v9 f+ B5. 我不是楼主
    & R8 i& ~: C3 ]8 ~- G
  • TA的每日心情
    奋斗
    2023-12-14 15:58
  • 签到天数: 874 天

    [LV.10]以坛为家III

    发表于 2019-6-12 15:38:31 | 显示全部楼层
    脚下千 发表于 2019-6-12 13:054 x* p; N: i; H
    。。。1 ~: I) n6 U/ _/ t3 v/ m* w
    - T6 e# G( h  G. d2 x
    1. 问题中是: Vocabulary.com + Collins + 雅思 + 牛津 —— “制作成anki记忆库(反面是相应词 ...
    . \; N( s7 I; e# v# ]
    我上一条是在回复你回复我的“这个要词典本身支持才可以的,目前很少这样的词典。楼主说的是匹配短语,不是单词。(具体见我前面的帖子)”( w5 Q3 ^6 K2 t5 f) F6 R
    我回复楼主的是匹配词组,你说我是回复匹配单词,所以我进行了回应。
    ; I  |/ y, ], [8 H% t你说目前词典少,所以我就把论坛可以查的词典多告诉你了。
    : c; X9 B2 O1 M5 h结果你和我扯什么形式,什么综合,搞得我好像没看清提问一样,而且你告知了和我有什么关系,我一开始就没回复你,是你在回复我,说我查的不是词组是单词啊。。。
  • TA的每日心情
    擦汗
    2021-11-13 00:18
  • 签到天数: 119 天

    [LV.6]常住居民II

    发表于 2019-6-13 11:00:17 | 显示全部楼层
    本帖最后由 脚下千 于 2019-6-13 11:09 编辑 * d0 P+ a6 L$ e4 _: g
    xusorn 发表于 2019-6-12 15:38
    9 Z, H" I; x! m! u0 K6 ~# ^5 [我上一条是在回复你回复我的“这个要词典本身支持才可以的,目前很少这样的词典。楼主说的是匹配短语,不 ...

    2 ?- B7 s+ y; {5 {' V之前回复你是看到你的用词—— 什么“不够好吗,……就是了,……就是了” 才回复的,另外当时你的图片也没显示出来(也许是论坛原因),我表达能力低下,想让你去看我之前写的内容 ,但因为 我懒,我笨,我没写清楚,我标点符号不会用,最后让你觉得我在说你用它来匹配单词而不是短语 —— 的确,我 这个 sb 怎么知道 fq 原来也可以匹配短语 ?!- B% y. i$ ?2 `  g. ?1 T. T' E& w" o# S8 u

    0 F' y  s3 X- F算了,我是 sb,这里不是 StackOverflow,论坛发帖不需要看别人回帖。不再继续争论。我是 sb。
  • TA的每日心情
    奋斗
    2023-12-14 15:58
  • 签到天数: 874 天

    [LV.10]以坛为家III

    发表于 2019-6-13 13:14:48 | 显示全部楼层
    脚下千 发表于 2019-6-13 11:00. ~* D% M$ M3 q- }* b- i
    之前回复你是看到你的用词—— 什么“不够好吗,……就是了,……就是了” 才回复的,另外当时你的图片也 ...
    9 h0 z+ {9 P- i- }; I
    图片应该是是之前服务器出了问题,我一开始就不认为查询这些词组不是特别困难的事情,但如果我的措辞对你产生了困扰,我对你表示抱歉。刚刚把你的回复完整的看了一遍,我个人认为你可能是想把词条统一形式表达,然后进行合并去重再统一查询,不知道是不是这样,如果是是的话,我个人认为存在三个需要考虑之处
    . A. l8 C1 s, P, S' @& U1.工作量对于我和一般的不会Python的用户来说,应该不算小,因此可行性不高,或许程序员可以解决这个难题。5 G0 E( x% q' g/ p* b6 R! X! i
    2.如果统一了形式,再进行查询,是否能够查询得出,因为每个词典的表示不同,那么同一个形式是否能在多个词条查询出结果,这也是一个需要考虑的问题。8 J; V8 d" y5 V/ ?0 {1 l
    3.此外,每个词表的来源词典不同,因此导致词频及常用性的统计也不相同,合并后是否能够兼顾这些?
    , K# H6 U/ S. f. P- v7 S1 ^9 n; l因此我觉得,如果仅仅是为了去重而大费周章的改形式的成本远大于收益,所以我建议直接用多本词典进行查询或许是更好的选择,我已经制作出来了,比把制作流程发到了论坛,如果有兴趣,也可以看看[【展示+制作教程】根据高频短语词组制作anki记忆库教程https://www.pdawiki.com/forum/fo ... hread&tid=34820]
  • TA的每日心情
    开心
    2022-4-20 08:22
  • 签到天数: 23 天

    [LV.4]偶尔看看III

    发表于 2020-9-26 07:50:41 | 显示全部楼层
    好高深的样子
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-4-30 00:05 , Processed in 0.053349 second(s), 9 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表