掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 3700|回复: 15

[使用求助] 如何制作(Vocabulary.com + Collins + 雅思 + 牛津)高频短语词组记忆库?

[复制链接]
  • TA的每日心情
    开心
    2022-1-21 00:52
  • 签到天数: 699 天

    [LV.9]以坛为家II

    发表于 2019-4-18 00:04:14 | 显示全部楼层 |阅读模式
    atomore 整理了(Vocabulary.com + Collins + 雅思 + 牛津)中的高频短语词组3 N" G- n: x) u; [% H
    内容包括:2 q  m) S  l3 _- t! [* O
    https://www.pdawiki.com/forum/thread-33730-1-1.html?x=180507
    * N( e3 r  [4 d; t* R2 a) g) b1. Vocabulary.com词典中词频小于20000的词组 (1977个,按词频排序);
    1 p/ |3 R% H- }5 k2. 柯林斯双解词典中 五星词组 (4692个, 按五级分组排序);
    9 m  Q5 b5 |! g5 s' _. D' C3. 剑桥双解词典中 雅思词组 (2452个,按A1-C2分组);/ ]0 ~* a& a2 ]" F; x" m
    4. 牛津双解词典中 星标词组 (298个)。7 r/ d2 v: e- Z' h, X

    & X! v+ s% a7 u3 u! n3 `2 n4 F如果要把atomore 整理的xls列表,制作成anki记忆库(反面是相应词典中该短语词组的内容),技术上如何实现呢?& h$ w. ?9 Z7 [1 f
    希望集思广益
    1 N: b7 x5 m& R2 u. O  B
    & O4 N6 b8 p8 y% \) t- f) H( e0 k

    本帖被以下淘专辑推荐:

  • TA的每日心情
    开心
    2023-2-22 11:08
  • 签到天数: 54 天

    [LV.5]常住居民I

    发表于 2019-4-22 09:06:50 | 显示全部楼层
    合并后,在Excel里删除相同词组后,大概有8000多个词组。  P* W$ ]0 k9 j. o0 g: }
    不知道怎么批量提取中文。
  • TA的每日心情
    开心
    2019-6-23 00:02
  • 签到天数: 18 天

    [LV.4]偶尔看看III

    发表于 2019-4-25 23:37:30 | 显示全部楼层
    anki用的是sqlite数据库存储信息的,首先搞清楚数据库中table的结构,你可以在你想要的deck里创建一个新词条,然后分析数据库中的数据。4 ^' S6 U+ I% y  D/ h, q
    然后就是根据单词提取对应词典中词条的信息,处理好以后写到anki的数据库中。这一步可以编写程序实现,也可以用某些editor的automation实现,比如用EmEditor。
  • TA的每日心情
    开心
    2022-1-21 00:52
  • 签到天数: 699 天

    [LV.9]以坛为家II

     楼主| 发表于 2019-4-26 00:59:34 | 显示全部楼层
    ogrishman 发表于 2019-4-25 23:37
    3 C8 g1 `# l" `anki用的是sqlite数据库存储信息的,首先搞清楚数据库中table的结构,你可以在你想要的deck里创建一个新词 ...

    , \+ F: ^! j: Z8 g3 w谢谢指点。. X& M& x5 ?" W
    短语词组每个单词都懂,但合在一起意思可能大不同,偏偏还太常见。
    % e. ?+ h5 A2 t6 }1 n% u0 y8 P
    需要学习一下技术了
  • TA的每日心情
    擦汗
    2021-11-13 00:18
  • 签到天数: 119 天

    [LV.6]常住居民II

    发表于 2019-4-26 14:23:11 | 显示全部楼层
    本帖最后由 脚下千 于 2019-4-26 14:44 编辑   e; j& Y% {1 F( F! V0 O
    ) w( N) \( R  G# q
    这个站在前人的基础上,有简单一点的方法,不过需要有支持的词典。1 ^% g, e) p# K2 o

    4 ~7 L, Q8 u1 h' K0 ?0 |简单来说,就是 将 xlsx 转成 csv,然后导入 anki,用 anki 插件(我用的好像叫 FastWordQuery)查询即可。
    6 T3 y; o' o  b7 E1 {
    ; R0 D/ O. H$ y9 r5 h虽然说缺的词典可以在这个插件基础上增加(因为给出的 mdx 词典一般都没有短语的索引),但目前我所见到的只有 longman 词典的短语有人制作过,其他的不知道有没有。4 k- v* o! \) y0 R# U( E4 Q: N# _
    如果自己解析对应词典的话,也许在实现上比较方便(解析 mdx 内容后用正则表达式只提取相关短语释义),但给插件贡献词典解析可能会有更广的作用。& V8 T9 t& c1 G6 J
    7 b. `. V2 v4 p0 N4 G* W
    ps:这个引起了我的兴趣,有些想做了,不过我的 CoCa 20000 还没背完……
    . [8 O9 H0 G5 q' }( A5 o2 v: E' W7 }9 j" T2 w8 G/ E
    + I! N$ [2 e' Y. U! Y* X: Q8 H. W. f
  • TA的每日心情
    开心
    2022-1-21 00:52
  • 签到天数: 699 天

    [LV.9]以坛为家II

     楼主| 发表于 2019-4-26 20:02:52 | 显示全部楼层
    脚下千 发表于 2019-4-26 14:23) {% R/ Q' D* C! ]6 t
    这个站在前人的基础上,有简单一点的方法,不过需要有支持的词典。- c( O* o, t  {! C

    6 [1 C9 Z: m  m9 f( l" J简单来说,就是 将 xlsx 转成 csv,然 ...
    ' M" [' m2 v0 i3 r
    不知道插件对短语词组的支持如何?+ p9 D2 y- ^- U
    一个难点是例如eat one's fill这样的短语在不同词典里的词条可能是各种形式,eat sb's fill等等等等
    2 X* g: P; g, N3 R5 ?/ O, V, \  b$ S不容易批量把该短语在各个词典中的相关entries都查询出来,以便进一步进行比较再挑选自己觉得最好的词典解释和例句, o" I. e- |: q2 X0 s8 K& j4 j
    0 b6 |5 g% u6 B6 X& B4 [; J
  • TA的每日心情
    擦汗
    2021-11-13 00:18
  • 签到天数: 119 天

    [LV.6]常住居民II

    发表于 2019-4-28 19:33:42 | 显示全部楼层
    本帖最后由 脚下千 于 2019-4-28 19:35 编辑 0 ~' H+ ~& E4 H: Y: r1 j
    cocowind 发表于 2019-4-26 20:022 X6 Y2 q* N" J2 a4 l4 ~
    不知道插件对短语词组的支持如何?% v0 h+ _) z" U7 ?( w. A9 M
    一个难点是例如eat one's fill这样的短语在不同词典里的词条可能是各 ...
    ( ~' L  b& Z9 z- |; v  J
    这个倒不是很难,就是麻烦点,直接按不同形式处理一下即可,比如 one 替换为 sb 等,当然里面可能有更复杂点的规则要写。
    ' y' B. u& W( Y* x7 u9 p
    7 r9 q5 X2 J4 j/ ?0 S7 X如果要统一结果到一处的话,就多列几个 fields 存储不同的查询形式,然后按词典逐个查询。+ i; v- {( H8 U0 v& R$ }/ P

    " r' o7 G5 A4 u, j. u4 e  j9 I' E( m* v当然,这都需要有词典支持,一般来说上述词典我猜很少能对短语直接查询的(我没用过啊)。5 K5 b7 m; R9 S! [* N' {
    9 I. n9 A' T  {
    插件设置自定义词典后,只是根据字段直接查询,然后提取所有内容,和在词典软件里是一样的。在词典软件里如果直接输入短语查不到,那么插件也查不到。
  • TA的每日心情
    开心
    2022-1-21 00:52
  • 签到天数: 699 天

    [LV.9]以坛为家II

     楼主| 发表于 2019-4-28 19:56:54 | 显示全部楼层
    脚下千 发表于 2019-4-28 19:33
    # a2 ^! _( ^/ n- r. C; Y这个倒不是很难,就是麻烦点,直接按不同形式处理一下即可,比如 one 替换为 sb 等,当然里面可能有更复杂 ...
    ; M& o0 o1 a( B+ B  ~+ ?
    谢谢指点~- e8 j- q* N+ ~3 \" o7 f' l: n( X. A

    % |0 p2 G" K) w! s& ]  s% e看到这个方法也许可以借鉴一下
    , S/ E  _4 y+ i7 yhttps://www.pdawiki.com/forum/thread-11546-1-1.html?x=180507, q  G" i1 w9 C- F; V
  • TA的每日心情
    奋斗
    2023-12-14 15:58
  • 签到天数: 874 天

    [LV.10]以坛为家III

    发表于 2019-5-6 19:48:04 | 显示全部楼层
    是fq这个插件不够好吗……直接把词条转为utf-8的txt导入anki,建几个字段用fq查询不就是了,而且css格式也能保留,要修改css去collection.media修改就是了! d* z& ]# @; @

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    擦汗
    2021-11-13 00:18
  • 签到天数: 119 天

    [LV.6]常住居民II

    发表于 2019-6-12 03:12:14 | 显示全部楼层
    xusorn 发表于 2019-5-6 19:48
    2 M! L) {) `$ r2 ~5 ~: s9 x+ T* q是fq这个插件不够好吗……直接把词条转为utf-8的txt导入anki,建几个字段用fq查询不就是了,而且css格式也 ...

    $ {; J( k0 Q+ Y" H% g. ]% @这个要词典本身支持才可以的,目前很少这样的词典。楼主说的是匹配短语,不是单词。(具体见我前面的帖子)
  • TA的每日心情
    奋斗
    2023-12-14 15:58
  • 签到天数: 874 天

    [LV.10]以坛为家III

    发表于 2019-6-12 07:27:20 | 显示全部楼层
    本帖最后由 xusorn 于 2019-6-12 07:31 编辑 & {5 a( F4 ?/ o
    脚下千 发表于 2019-6-12 03:12' _: V; P; l. d, x) ^* G6 k
    这个要词典本身支持才可以的,目前很少这样的词典。楼主说的是匹配短语,不是单词。(具体见我前面的帖子 ...
    - @! f+ _( f! m6 `9 r
    我看清了问题,论坛的韦氏,朗文,牛津的词组不够你用吗?至少我用fq把vocabulary前1000的都查到了
    5 {2 S1 V/ Z' w! s3 k6 `/ v
    * p7 s4 M4 U8 @$ l$ T5 q
      l3 |3 }9 w) [. J4 s7 t1 q2 L

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    擦汗
    2021-11-13 00:18
  • 签到天数: 119 天

    [LV.6]常住居民II

    发表于 2019-6-12 13:05:01 | 显示全部楼层
    本帖最后由 脚下千 于 2019-6-12 13:15 编辑
    $ I$ I* h7 Q1 Q, n
    xusorn 发表于 2019-6-12 07:27& x, s- E+ e! M! _. x
    我看清了问题,论坛的韦氏,朗文,牛津的词组不够你用吗?至少我用fq把vocabulary前1000的都查到了
    ) J" h8 r2 q: \1 W$ O; b
    。。。
    : G  I3 k4 ]: I" m) u1 ]$ W( E, L: a- ^* K, G" C
    1. 问题中是: Vocabulary.com + Collins + 雅思 + 牛津 —— “制作成anki记忆库(反面是相应词典中该短语词组的内容)”
    - A- B" e% q: D( I
    : I0 L3 A% }, _2. 输入是"例如eat one's fill这样的短语在不同词典里的词条可能是各种形式,eat sb's fill等等等等";
    : N: R! `& \* Y, \8 d; R  A& j3 i2 W6 o% m6 K, H  `
    3. 需求是做一个“综合”的短语库,不能说这没必要,起码楼主是需要的;而这涉及到第 2 点中的形式不同问题,至少要预处理一下
    ( c# M. _3 c& d7 n; r) U$ v- _) K2 S; j! ?: W
    4. FastWordQuery 我首次回帖就告知了楼主
    3 v$ G, q- ?" Y! w2 h- e5 ?9 k
    . N: C: [/ E' i6 N7 w/ H5. 我不是楼主
    ' V9 J# }2 x5 C
  • TA的每日心情
    奋斗
    2023-12-14 15:58
  • 签到天数: 874 天

    [LV.10]以坛为家III

    发表于 2019-6-12 15:38:31 | 显示全部楼层
    脚下千 发表于 2019-6-12 13:058 O; ]1 n8 Z6 E" L; ]
    。。。
    ) K, Q: ~% ~( c' s! n% |0 X7 }  E5 e. W& M$ ^5 |+ ~
    1. 问题中是: Vocabulary.com + Collins + 雅思 + 牛津 —— “制作成anki记忆库(反面是相应词 ...
    / B* k' p# A8 x4 z
    我上一条是在回复你回复我的“这个要词典本身支持才可以的,目前很少这样的词典。楼主说的是匹配短语,不是单词。(具体见我前面的帖子)”
    * A: [2 a4 \8 _& H: t) F8 Z我回复楼主的是匹配词组,你说我是回复匹配单词,所以我进行了回应。5 C6 \" |3 v9 |3 R' f- s) {
    你说目前词典少,所以我就把论坛可以查的词典多告诉你了。
    % J( S/ r: W, c" N7 y7 j结果你和我扯什么形式,什么综合,搞得我好像没看清提问一样,而且你告知了和我有什么关系,我一开始就没回复你,是你在回复我,说我查的不是词组是单词啊。。。
  • TA的每日心情
    擦汗
    2021-11-13 00:18
  • 签到天数: 119 天

    [LV.6]常住居民II

    发表于 2019-6-13 11:00:17 | 显示全部楼层
    本帖最后由 脚下千 于 2019-6-13 11:09 编辑 0 R$ v& p, V1 |: C# ]2 q' A( b
    xusorn 发表于 2019-6-12 15:38
    ( m  Y& p/ P3 L我上一条是在回复你回复我的“这个要词典本身支持才可以的,目前很少这样的词典。楼主说的是匹配短语,不 ...
    , ?6 D; O( ~5 h7 ^& |! d
    之前回复你是看到你的用词—— 什么“不够好吗,……就是了,……就是了” 才回复的,另外当时你的图片也没显示出来(也许是论坛原因),我表达能力低下,想让你去看我之前写的内容 ,但因为 我懒,我笨,我没写清楚,我标点符号不会用,最后让你觉得我在说你用它来匹配单词而不是短语 —— 的确,我 这个 sb 怎么知道 fq 原来也可以匹配短语 ?!
    1 |; [( V1 z) p: l
    " I3 N! z- W3 l; i8 M: G  K7 ~9 d" g算了,我是 sb,这里不是 StackOverflow,论坛发帖不需要看别人回帖。不再继续争论。我是 sb。
  • TA的每日心情
    奋斗
    2023-12-14 15:58
  • 签到天数: 874 天

    [LV.10]以坛为家III

    发表于 2019-6-13 13:14:48 | 显示全部楼层
    脚下千 发表于 2019-6-13 11:00, y, a8 E2 ]2 l. [3 C
    之前回复你是看到你的用词—— 什么“不够好吗,……就是了,……就是了” 才回复的,另外当时你的图片也 ...
    ( Q! E/ x; ~: z" b2 _9 N1 F4 M
    图片应该是是之前服务器出了问题,我一开始就不认为查询这些词组不是特别困难的事情,但如果我的措辞对你产生了困扰,我对你表示抱歉。刚刚把你的回复完整的看了一遍,我个人认为你可能是想把词条统一形式表达,然后进行合并去重再统一查询,不知道是不是这样,如果是是的话,我个人认为存在三个需要考虑之处1 Z" ]9 n! I3 H% o4 F
    1.工作量对于我和一般的不会Python的用户来说,应该不算小,因此可行性不高,或许程序员可以解决这个难题。
    9 P: s- g5 F# Q8 I) c! v  d2.如果统一了形式,再进行查询,是否能够查询得出,因为每个词典的表示不同,那么同一个形式是否能在多个词条查询出结果,这也是一个需要考虑的问题。
      r: w$ h1 `3 B4 C1 C3.此外,每个词表的来源词典不同,因此导致词频及常用性的统计也不相同,合并后是否能够兼顾这些?
    2 X% V2 \3 l. `" p: f因此我觉得,如果仅仅是为了去重而大费周章的改形式的成本远大于收益,所以我建议直接用多本词典进行查询或许是更好的选择,我已经制作出来了,比把制作流程发到了论坛,如果有兴趣,也可以看看[【展示+制作教程】根据高频短语词组制作anki记忆库教程https://www.pdawiki.com/forum/fo ... hread&tid=34820]
  • TA的每日心情
    开心
    2022-4-20 08:22
  • 签到天数: 23 天

    [LV.4]偶尔看看III

    发表于 2020-9-26 07:50:41 | 显示全部楼层
    好高深的样子
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-4-29 21:25 , Processed in 0.040145 second(s), 9 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表