掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 3695|回复: 15

[使用求助] 如何制作(Vocabulary.com + Collins + 雅思 + 牛津)高频短语词组记忆库?

[复制链接]
  • TA的每日心情
    开心
    2022-1-21 00:52
  • 签到天数: 699 天

    [LV.9]以坛为家II

    发表于 2019-4-18 00:04:14 | 显示全部楼层 |阅读模式
    atomore 整理了(Vocabulary.com + Collins + 雅思 + 牛津)中的高频短语词组
    # R; _$ [6 \- F, }内容包括:
    : Q0 g7 Z4 J- m; R4 i. e8 V1 ~https://www.pdawiki.com/forum/thread-33730-1-1.html?x=180507( `9 L- L; K, m6 S+ ^6 U% e# `
    1. Vocabulary.com词典中词频小于20000的词组 (1977个,按词频排序);2 f0 ^3 b- X6 O0 [& C, J
    2. 柯林斯双解词典中 五星词组 (4692个, 按五级分组排序);9 B. G; ]# a9 N2 J7 L; W
    3. 剑桥双解词典中 雅思词组 (2452个,按A1-C2分组);
    * `/ D+ p1 u2 ^9 M, R; C3 k4. 牛津双解词典中 星标词组 (298个)。: O9 Z2 K/ m8 w# L: g4 K' h# p

    ' H, L3 Q- _4 `9 g+ @+ E2 q& m6 p如果要把atomore 整理的xls列表,制作成anki记忆库(反面是相应词典中该短语词组的内容),技术上如何实现呢?
    5 z0 j& u. b+ o) q, H希望集思广益, ?/ n) U' t5 t/ k0 u1 R/ a3 H7 ~
    ( j' {( l& D0 S6 }, F* \

    本帖被以下淘专辑推荐:

  • TA的每日心情
    开心
    2023-2-22 11:08
  • 签到天数: 54 天

    [LV.5]常住居民I

    发表于 2019-4-22 09:06:50 | 显示全部楼层
    合并后,在Excel里删除相同词组后,大概有8000多个词组。
    / u$ \" b* [/ ^不知道怎么批量提取中文。
  • TA的每日心情
    开心
    2019-6-23 00:02
  • 签到天数: 18 天

    [LV.4]偶尔看看III

    发表于 2019-4-25 23:37:30 | 显示全部楼层
    anki用的是sqlite数据库存储信息的,首先搞清楚数据库中table的结构,你可以在你想要的deck里创建一个新词条,然后分析数据库中的数据。- y2 u. ]' V6 L. x5 B- I% s
    然后就是根据单词提取对应词典中词条的信息,处理好以后写到anki的数据库中。这一步可以编写程序实现,也可以用某些editor的automation实现,比如用EmEditor。
  • TA的每日心情
    开心
    2022-1-21 00:52
  • 签到天数: 699 天

    [LV.9]以坛为家II

     楼主| 发表于 2019-4-26 00:59:34 | 显示全部楼层
    ogrishman 发表于 2019-4-25 23:37
    * s, B0 v6 B9 ^4 W  Y8 g0 ^' yanki用的是sqlite数据库存储信息的,首先搞清楚数据库中table的结构,你可以在你想要的deck里创建一个新词 ...

    # @2 s" N  Z/ w& C. h5 O6 U1 r谢谢指点。7 a0 Y" y9 {9 h  q
    短语词组每个单词都懂,但合在一起意思可能大不同,偏偏还太常见。
    3 G- P) H& r  k3 c7 J2 X$ n# K4 Y! K: R" Q7 q, f
    需要学习一下技术了
  • TA的每日心情
    擦汗
    2021-11-13 00:18
  • 签到天数: 119 天

    [LV.6]常住居民II

    发表于 2019-4-26 14:23:11 | 显示全部楼层
    本帖最后由 脚下千 于 2019-4-26 14:44 编辑 : g8 e6 P: m# L9 K
    9 ]% X6 i" U6 f- c
    这个站在前人的基础上,有简单一点的方法,不过需要有支持的词典。( A6 q$ J9 i% v/ l, Y' p% V" D

    9 {) ^3 J- B2 _简单来说,就是 将 xlsx 转成 csv,然后导入 anki,用 anki 插件(我用的好像叫 FastWordQuery)查询即可。+ C, y8 r7 ?0 B* u1 ^8 l

    0 u: y; D9 t& y- o3 K" c( L/ m虽然说缺的词典可以在这个插件基础上增加(因为给出的 mdx 词典一般都没有短语的索引),但目前我所见到的只有 longman 词典的短语有人制作过,其他的不知道有没有。1 A" {: x' p$ b5 ^1 A
    如果自己解析对应词典的话,也许在实现上比较方便(解析 mdx 内容后用正则表达式只提取相关短语释义),但给插件贡献词典解析可能会有更广的作用。
    5 o: G$ ?/ b- y! _9 d0 G8 C$ L" R+ u' W( v4 _
    ps:这个引起了我的兴趣,有些想做了,不过我的 CoCa 20000 还没背完……
    5 a6 n) N" V  d
    ! P& ?8 a' j; d8 n# F) v1 Q7 Y! J2 Q& p% c
  • TA的每日心情
    开心
    2022-1-21 00:52
  • 签到天数: 699 天

    [LV.9]以坛为家II

     楼主| 发表于 2019-4-26 20:02:52 | 显示全部楼层
    脚下千 发表于 2019-4-26 14:23
    " i" w2 O$ p0 Y- V- _+ S7 T这个站在前人的基础上,有简单一点的方法,不过需要有支持的词典。
    ) K3 f. Q6 ]$ j6 m$ D' `( ~4 \! h) R+ @. p
      u) m3 c% A. n4 g( @简单来说,就是 将 xlsx 转成 csv,然 ...

    . E4 ~/ e& @( D, \0 l2 Z不知道插件对短语词组的支持如何?" x7 I2 ^6 A7 `
    一个难点是例如eat one's fill这样的短语在不同词典里的词条可能是各种形式,eat sb's fill等等等等, l) c  B0 ~$ K- J6 t4 A
    不容易批量把该短语在各个词典中的相关entries都查询出来,以便进一步进行比较再挑选自己觉得最好的词典解释和例句
    3 O2 Q% h: T! [" c- i
    + H: X/ R- B$ `$ [
  • TA的每日心情
    擦汗
    2021-11-13 00:18
  • 签到天数: 119 天

    [LV.6]常住居民II

    发表于 2019-4-28 19:33:42 | 显示全部楼层
    本帖最后由 脚下千 于 2019-4-28 19:35 编辑
    8 C' F, W: _0 G: F
    cocowind 发表于 2019-4-26 20:02- _7 ~. R6 c6 `5 s( @
    不知道插件对短语词组的支持如何?5 S2 k' N- K: q6 ^! i) T# L
    一个难点是例如eat one's fill这样的短语在不同词典里的词条可能是各 ...
    6 }; I; O6 L) S$ Q5 T: s; X( @
    这个倒不是很难,就是麻烦点,直接按不同形式处理一下即可,比如 one 替换为 sb 等,当然里面可能有更复杂点的规则要写。
    9 N0 V7 U$ L2 F% @
    ( z& ^3 }. j- h) K4 g如果要统一结果到一处的话,就多列几个 fields 存储不同的查询形式,然后按词典逐个查询。+ V# X+ Y# J& j$ U' c2 K# U2 n* j
    ' a, C7 V: s+ w: m2 E
    当然,这都需要有词典支持,一般来说上述词典我猜很少能对短语直接查询的(我没用过啊)。
    / A( D4 s8 J! v2 n# E) g$ ^8 {. |* q: m9 ~3 j) i  a
    插件设置自定义词典后,只是根据字段直接查询,然后提取所有内容,和在词典软件里是一样的。在词典软件里如果直接输入短语查不到,那么插件也查不到。
  • TA的每日心情
    开心
    2022-1-21 00:52
  • 签到天数: 699 天

    [LV.9]以坛为家II

     楼主| 发表于 2019-4-28 19:56:54 | 显示全部楼层
    脚下千 发表于 2019-4-28 19:33
    % t' `8 N& b6 L$ w这个倒不是很难,就是麻烦点,直接按不同形式处理一下即可,比如 one 替换为 sb 等,当然里面可能有更复杂 ...
    % b& d+ {0 s, k$ A
    谢谢指点~% Y( t9 M: a+ B
    8 o; G4 x. e0 H# c! m) R
    看到这个方法也许可以借鉴一下
    + u+ M6 j9 O' j" v* k. F! chttps://www.pdawiki.com/forum/thread-11546-1-1.html?x=180507
    ; a7 W1 ^/ L5 R: m+ i8 g
  • TA的每日心情
    奋斗
    2023-12-14 15:58
  • 签到天数: 874 天

    [LV.10]以坛为家III

    发表于 2019-5-6 19:48:04 | 显示全部楼层
    是fq这个插件不够好吗……直接把词条转为utf-8的txt导入anki,建几个字段用fq查询不就是了,而且css格式也能保留,要修改css去collection.media修改就是了
    ; N# v8 h8 F5 P, T  L! D

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    擦汗
    2021-11-13 00:18
  • 签到天数: 119 天

    [LV.6]常住居民II

    发表于 2019-6-12 03:12:14 | 显示全部楼层
    xusorn 发表于 2019-5-6 19:48+ {0 s# O9 h. q" y4 `, B
    是fq这个插件不够好吗……直接把词条转为utf-8的txt导入anki,建几个字段用fq查询不就是了,而且css格式也 ...

    $ U7 I1 b2 C) l3 C0 g2 e+ a8 a) M这个要词典本身支持才可以的,目前很少这样的词典。楼主说的是匹配短语,不是单词。(具体见我前面的帖子)
  • TA的每日心情
    奋斗
    2023-12-14 15:58
  • 签到天数: 874 天

    [LV.10]以坛为家III

    发表于 2019-6-12 07:27:20 | 显示全部楼层
    本帖最后由 xusorn 于 2019-6-12 07:31 编辑 % F8 p. M4 f$ R: Y/ g; A; ^" I, q
    脚下千 发表于 2019-6-12 03:12# ], u2 I) l" v. R
    这个要词典本身支持才可以的,目前很少这样的词典。楼主说的是匹配短语,不是单词。(具体见我前面的帖子 ...
    , D, k- n% U+ l+ h
    我看清了问题,论坛的韦氏,朗文,牛津的词组不够你用吗?至少我用fq把vocabulary前1000的都查到了5 H( s6 o- ?, B5 n
    / t4 g9 r' L. x# ?# U. q" _$ k
    : t) h% n1 T! s7 D  G4 ^, r

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    擦汗
    2021-11-13 00:18
  • 签到天数: 119 天

    [LV.6]常住居民II

    发表于 2019-6-12 13:05:01 | 显示全部楼层
    本帖最后由 脚下千 于 2019-6-12 13:15 编辑 / l3 @- W+ V6 y6 x7 I, s( W3 f1 n+ L
    xusorn 发表于 2019-6-12 07:27
    - d+ T$ g2 c! _1 B我看清了问题,论坛的韦氏,朗文,牛津的词组不够你用吗?至少我用fq把vocabulary前1000的都查到了

    / u+ r) o* e. ?5 H( k! z4 h# s。。。
    7 w1 @" b7 m0 s6 O4 Y8 d/ i; l2 e8 A- r9 H
    1. 问题中是: Vocabulary.com + Collins + 雅思 + 牛津 —— “制作成anki记忆库(反面是相应词典中该短语词组的内容)”
    1 T& O: X# q8 K" r6 N9 y
    , ~2 T- t9 i8 I2. 输入是"例如eat one's fill这样的短语在不同词典里的词条可能是各种形式,eat sb's fill等等等等"; 1 ~+ y) |: C( d8 l

    ! P: c3 z6 e5 c3. 需求是做一个“综合”的短语库,不能说这没必要,起码楼主是需要的;而这涉及到第 2 点中的形式不同问题,至少要预处理一下
    6 i  x) S5 B5 @' ~$ i. l2 L0 H( J' R; o
    4. FastWordQuery 我首次回帖就告知了楼主
    ) `9 J3 E- \6 ]" }4 f2 c3 [' y/ u, G
    5. 我不是楼主4 W( }" B3 T6 \6 d
  • TA的每日心情
    奋斗
    2023-12-14 15:58
  • 签到天数: 874 天

    [LV.10]以坛为家III

    发表于 2019-6-12 15:38:31 | 显示全部楼层
    脚下千 发表于 2019-6-12 13:05' Q! e6 Q( ^2 M7 b4 g
    。。。
    ( }" X0 J$ I5 `( W" d- a7 `: x. j7 e7 w0 I5 ^% V, n
    1. 问题中是: Vocabulary.com + Collins + 雅思 + 牛津 —— “制作成anki记忆库(反面是相应词 ...

    2 C0 |: v/ y0 |) s- w5 d* X我上一条是在回复你回复我的“这个要词典本身支持才可以的,目前很少这样的词典。楼主说的是匹配短语,不是单词。(具体见我前面的帖子)”4 \7 _, v$ `4 M+ z) w  }1 m) a
    我回复楼主的是匹配词组,你说我是回复匹配单词,所以我进行了回应。
    5 M9 g# ~  H" C0 _你说目前词典少,所以我就把论坛可以查的词典多告诉你了。
    % H" D( t- D* a4 \; ^% G结果你和我扯什么形式,什么综合,搞得我好像没看清提问一样,而且你告知了和我有什么关系,我一开始就没回复你,是你在回复我,说我查的不是词组是单词啊。。。
  • TA的每日心情
    擦汗
    2021-11-13 00:18
  • 签到天数: 119 天

    [LV.6]常住居民II

    发表于 2019-6-13 11:00:17 | 显示全部楼层
    本帖最后由 脚下千 于 2019-6-13 11:09 编辑 , G+ a6 w' n$ C6 {" ]# V: z
    xusorn 发表于 2019-6-12 15:38# s: J& f8 q9 {: n
    我上一条是在回复你回复我的“这个要词典本身支持才可以的,目前很少这样的词典。楼主说的是匹配短语,不 ...
    9 p- X7 k  i% n5 B' A
    之前回复你是看到你的用词—— 什么“不够好吗,……就是了,……就是了” 才回复的,另外当时你的图片也没显示出来(也许是论坛原因),我表达能力低下,想让你去看我之前写的内容 ,但因为 我懒,我笨,我没写清楚,我标点符号不会用,最后让你觉得我在说你用它来匹配单词而不是短语 —— 的确,我 这个 sb 怎么知道 fq 原来也可以匹配短语 ?!
    : h0 F" J3 r0 s6 K6 y! @6 L4 Z
    7 u. P8 M' Z* K- j9 v; m算了,我是 sb,这里不是 StackOverflow,论坛发帖不需要看别人回帖。不再继续争论。我是 sb。
  • TA的每日心情
    奋斗
    2023-12-14 15:58
  • 签到天数: 874 天

    [LV.10]以坛为家III

    发表于 2019-6-13 13:14:48 | 显示全部楼层
    脚下千 发表于 2019-6-13 11:00
    * `3 U, e: b8 H, K$ Q4 j" d$ C之前回复你是看到你的用词—— 什么“不够好吗,……就是了,……就是了” 才回复的,另外当时你的图片也 ...
    ' ]5 W# Q1 u9 M* k) @
    图片应该是是之前服务器出了问题,我一开始就不认为查询这些词组不是特别困难的事情,但如果我的措辞对你产生了困扰,我对你表示抱歉。刚刚把你的回复完整的看了一遍,我个人认为你可能是想把词条统一形式表达,然后进行合并去重再统一查询,不知道是不是这样,如果是是的话,我个人认为存在三个需要考虑之处
    , L1 @! {5 o! I1 D, `( L: h7 [1.工作量对于我和一般的不会Python的用户来说,应该不算小,因此可行性不高,或许程序员可以解决这个难题。0 x( K* [7 S$ D$ I- v0 ^
    2.如果统一了形式,再进行查询,是否能够查询得出,因为每个词典的表示不同,那么同一个形式是否能在多个词条查询出结果,这也是一个需要考虑的问题。# Q; p7 Z7 p9 G) h
    3.此外,每个词表的来源词典不同,因此导致词频及常用性的统计也不相同,合并后是否能够兼顾这些?
    , B1 i6 A3 B) R& m2 G- W& x$ s因此我觉得,如果仅仅是为了去重而大费周章的改形式的成本远大于收益,所以我建议直接用多本词典进行查询或许是更好的选择,我已经制作出来了,比把制作流程发到了论坛,如果有兴趣,也可以看看[【展示+制作教程】根据高频短语词组制作anki记忆库教程https://www.pdawiki.com/forum/fo ... hread&tid=34820]
  • TA的每日心情
    开心
    2022-4-20 08:22
  • 签到天数: 23 天

    [LV.4]偶尔看看III

    发表于 2020-9-26 07:50:41 | 显示全部楼层
    好高深的样子
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-4-29 16:25 , Processed in 0.065624 second(s), 9 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表