掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 3783|回复: 15

[使用求助] 如何制作(Vocabulary.com + Collins + 雅思 + 牛津)高频短语词组记忆库?

[复制链接]
  • TA的每日心情
    开心
    2022-1-21 00:52
  • 签到天数: 699 天

    [LV.9]以坛为家II

    发表于 2019-4-18 00:04:14 | 显示全部楼层 |阅读模式
    atomore 整理了(Vocabulary.com + Collins + 雅思 + 牛津)中的高频短语词组. x1 d' `' y9 o# s. l; Y: ]7 j
    内容包括:
    + b" U  S7 h* ^2 `) \& p. ^https://www.pdawiki.com/forum/thread-33730-1-1.html?x=180507- P5 N3 D, p2 h$ E7 A: _
    1. Vocabulary.com词典中词频小于20000的词组 (1977个,按词频排序);
    * {7 c. u2 }# j  O' P/ z5 L, M' `. ~2. 柯林斯双解词典中 五星词组 (4692个, 按五级分组排序);
    & @/ `. X8 a7 g& D7 A3. 剑桥双解词典中 雅思词组 (2452个,按A1-C2分组);
    6 l- O8 i4 O3 R8 [" n4. 牛津双解词典中 星标词组 (298个)。7 R6 h8 K. G1 Q" r6 m% g

    + W6 |1 [: @# D) W) C如果要把atomore 整理的xls列表,制作成anki记忆库(反面是相应词典中该短语词组的内容),技术上如何实现呢?. x% r: K9 N8 @0 J  l3 x
    希望集思广益
    , y9 K/ X, ^' Q
    9 }" I; y- N% E2 K4 c$ T

    本帖被以下淘专辑推荐:

  • TA的每日心情
    开心
    2023-2-22 11:08
  • 签到天数: 54 天

    [LV.5]常住居民I

    发表于 2019-4-22 09:06:50 | 显示全部楼层
    合并后,在Excel里删除相同词组后,大概有8000多个词组。
    $ D1 q9 P( m- b/ X8 Y" Y6 _不知道怎么批量提取中文。
  • TA的每日心情
    开心
    2019-6-23 00:02
  • 签到天数: 18 天

    [LV.4]偶尔看看III

    发表于 2019-4-25 23:37:30 | 显示全部楼层
    anki用的是sqlite数据库存储信息的,首先搞清楚数据库中table的结构,你可以在你想要的deck里创建一个新词条,然后分析数据库中的数据。$ H+ P% [9 W. P* o* ^2 d
    然后就是根据单词提取对应词典中词条的信息,处理好以后写到anki的数据库中。这一步可以编写程序实现,也可以用某些editor的automation实现,比如用EmEditor。
  • TA的每日心情
    开心
    2022-1-21 00:52
  • 签到天数: 699 天

    [LV.9]以坛为家II

     楼主| 发表于 2019-4-26 00:59:34 | 显示全部楼层
    ogrishman 发表于 2019-4-25 23:373 N. l+ s/ m7 K( N3 R
    anki用的是sqlite数据库存储信息的,首先搞清楚数据库中table的结构,你可以在你想要的deck里创建一个新词 ...
    , M9 J- F( ~8 p4 \; h3 F
    谢谢指点。
    ' m, b. ]& C. t3 q1 q短语词组每个单词都懂,但合在一起意思可能大不同,偏偏还太常见。
    ) g% P) T: d& _4 a, m
    6 T4 c/ W( h& ~* [3 {需要学习一下技术了
  • TA的每日心情
    擦汗
    2021-11-13 00:18
  • 签到天数: 119 天

    [LV.6]常住居民II

    发表于 2019-4-26 14:23:11 | 显示全部楼层
    本帖最后由 脚下千 于 2019-4-26 14:44 编辑
      l  O" A- M- D( A0 C2 _' t( Q0 h% S/ J5 ^; B8 Y
    这个站在前人的基础上,有简单一点的方法,不过需要有支持的词典。5 Z" P# ]) I- z

    - a: a% E0 U; s9 g' U- K简单来说,就是 将 xlsx 转成 csv,然后导入 anki,用 anki 插件(我用的好像叫 FastWordQuery)查询即可。$ L" a. c  W* W: ^; E* {

      z% @9 K# S" a& O# u虽然说缺的词典可以在这个插件基础上增加(因为给出的 mdx 词典一般都没有短语的索引),但目前我所见到的只有 longman 词典的短语有人制作过,其他的不知道有没有。. Z! u# w& Z2 z  Q8 Z$ T5 G. j; P
    如果自己解析对应词典的话,也许在实现上比较方便(解析 mdx 内容后用正则表达式只提取相关短语释义),但给插件贡献词典解析可能会有更广的作用。& C6 L) D$ d: H+ R) [+ n$ ?
    & S. y6 f1 n9 j# v2 F5 p$ B
    ps:这个引起了我的兴趣,有些想做了,不过我的 CoCa 20000 还没背完……
    5 i1 X, y/ }  s( \; J5 v, O0 B' n, r- \6 y

    8 A6 X, V! K7 |9 A# B. F" _% V+ C! q
  • TA的每日心情
    开心
    2022-1-21 00:52
  • 签到天数: 699 天

    [LV.9]以坛为家II

     楼主| 发表于 2019-4-26 20:02:52 | 显示全部楼层
    脚下千 发表于 2019-4-26 14:23- z4 c  C4 q3 P2 c; ~
    这个站在前人的基础上,有简单一点的方法,不过需要有支持的词典。
    ) v$ Z- S0 ^5 j+ B3 q
      i6 n" {0 ~  {简单来说,就是 将 xlsx 转成 csv,然 ...
    $ s( ^+ ]3 X7 j7 z  C
    不知道插件对短语词组的支持如何?
    - M% h3 g) }' I. x9 L! C, B一个难点是例如eat one's fill这样的短语在不同词典里的词条可能是各种形式,eat sb's fill等等等等" T( e+ ~$ `9 S5 B( Z: G4 a
    不容易批量把该短语在各个词典中的相关entries都查询出来,以便进一步进行比较再挑选自己觉得最好的词典解释和例句
    " f1 l" F+ m. H4 S* p& f
    & s* B! Y5 K2 K) d9 J8 c1 w% K+ @
  • TA的每日心情
    擦汗
    2021-11-13 00:18
  • 签到天数: 119 天

    [LV.6]常住居民II

    发表于 2019-4-28 19:33:42 | 显示全部楼层
    本帖最后由 脚下千 于 2019-4-28 19:35 编辑 % Z8 |# s4 o/ V$ P+ {2 c
    cocowind 发表于 2019-4-26 20:02
    ) W" o6 S7 T6 S4 E1 O不知道插件对短语词组的支持如何?& R7 ^  ~/ m% I
    一个难点是例如eat one's fill这样的短语在不同词典里的词条可能是各 ...

    & s0 D, G/ e- ]5 u9 w0 M这个倒不是很难,就是麻烦点,直接按不同形式处理一下即可,比如 one 替换为 sb 等,当然里面可能有更复杂点的规则要写。
    " q4 \2 ^  Y/ F* V+ c0 m7 H; ^0 R
    9 ^* d  L1 i" {9 ]% a0 |9 B4 H如果要统一结果到一处的话,就多列几个 fields 存储不同的查询形式,然后按词典逐个查询。
    # i3 d3 B2 o% Q- a* F
    0 Q" n- @$ `/ h0 N当然,这都需要有词典支持,一般来说上述词典我猜很少能对短语直接查询的(我没用过啊)。
    ( s/ k& K  h1 a+ E% v2 ~" E! {* i& w( Q3 Q% o6 H2 H' h
    插件设置自定义词典后,只是根据字段直接查询,然后提取所有内容,和在词典软件里是一样的。在词典软件里如果直接输入短语查不到,那么插件也查不到。
  • TA的每日心情
    开心
    2022-1-21 00:52
  • 签到天数: 699 天

    [LV.9]以坛为家II

     楼主| 发表于 2019-4-28 19:56:54 | 显示全部楼层
    脚下千 发表于 2019-4-28 19:330 L$ r% l  g1 O6 t
    这个倒不是很难,就是麻烦点,直接按不同形式处理一下即可,比如 one 替换为 sb 等,当然里面可能有更复杂 ...
    * m1 g% P* C" g- G
    谢谢指点~
    3 ]) b6 N2 A- x) x. g$ r. ]; @0 R% {4 m
    看到这个方法也许可以借鉴一下' u, q" B7 |" d+ V9 C
    https://www.pdawiki.com/forum/thread-11546-1-1.html?x=1805075 N3 ?, ?; V* P* W8 c0 R; s" e8 C
  • TA的每日心情
    奋斗
    2023-12-14 15:58
  • 签到天数: 874 天

    [LV.10]以坛为家III

    发表于 2019-5-6 19:48:04 | 显示全部楼层
    是fq这个插件不够好吗……直接把词条转为utf-8的txt导入anki,建几个字段用fq查询不就是了,而且css格式也能保留,要修改css去collection.media修改就是了
    , X( J$ j# v, K, n, C9 w0 V0 A: F

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    擦汗
    2021-11-13 00:18
  • 签到天数: 119 天

    [LV.6]常住居民II

    发表于 2019-6-12 03:12:14 | 显示全部楼层
    xusorn 发表于 2019-5-6 19:48
    * G' D. ]6 e- q是fq这个插件不够好吗……直接把词条转为utf-8的txt导入anki,建几个字段用fq查询不就是了,而且css格式也 ...

    ) |8 d4 J% A' D, S这个要词典本身支持才可以的,目前很少这样的词典。楼主说的是匹配短语,不是单词。(具体见我前面的帖子)
  • TA的每日心情
    奋斗
    2023-12-14 15:58
  • 签到天数: 874 天

    [LV.10]以坛为家III

    发表于 2019-6-12 07:27:20 | 显示全部楼层
    本帖最后由 xusorn 于 2019-6-12 07:31 编辑
    1 G3 x( R0 Y4 N0 K5 l/ x* I
    脚下千 发表于 2019-6-12 03:125 V% `. [$ ?7 s( \; a  C- [: `
    这个要词典本身支持才可以的,目前很少这样的词典。楼主说的是匹配短语,不是单词。(具体见我前面的帖子 ...

    . d2 m/ [+ E- I( p& e6 a8 w  B我看清了问题,论坛的韦氏,朗文,牛津的词组不够你用吗?至少我用fq把vocabulary前1000的都查到了! E# X/ _. V! d& n& d

    6 x  R/ J; n8 F3 I+ V1 G; e. n, T9 \, F) o: L5 g4 u# a

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    擦汗
    2021-11-13 00:18
  • 签到天数: 119 天

    [LV.6]常住居民II

    发表于 2019-6-12 13:05:01 | 显示全部楼层
    本帖最后由 脚下千 于 2019-6-12 13:15 编辑 ' w7 e3 s: F8 \2 x5 e
    xusorn 发表于 2019-6-12 07:27' ]! z: y* A; G+ `/ @& w/ ~
    我看清了问题,论坛的韦氏,朗文,牛津的词组不够你用吗?至少我用fq把vocabulary前1000的都查到了
    ( H+ g* B0 R3 u% |8 D: i
    。。。( l5 c, ^6 X. T$ k0 l

    , f6 A0 _0 x6 ~3 r$ v  d3 \) H1. 问题中是: Vocabulary.com + Collins + 雅思 + 牛津 —— “制作成anki记忆库(反面是相应词典中该短语词组的内容)”3 L- C4 w! O6 d9 I( s
    9 f3 d( q2 m$ _. _- U
    2. 输入是"例如eat one's fill这样的短语在不同词典里的词条可能是各种形式,eat sb's fill等等等等"; 6 W! q, V- P: u& y8 p% C- t

    : e/ [0 \# D" \8 T, |7 s, X3. 需求是做一个“综合”的短语库,不能说这没必要,起码楼主是需要的;而这涉及到第 2 点中的形式不同问题,至少要预处理一下2 U% C" @* C9 T  m

    4 x1 q: H* z$ W" G, W( N7 L  B% D' U6 K4. FastWordQuery 我首次回帖就告知了楼主  Y7 L0 U' U/ G9 J' s/ Z& H8 p, {
    8 U6 c7 ~+ `$ ?( L
    5. 我不是楼主" U8 W. o: n1 M* J# {# K
  • TA的每日心情
    奋斗
    2023-12-14 15:58
  • 签到天数: 874 天

    [LV.10]以坛为家III

    发表于 2019-6-12 15:38:31 | 显示全部楼层
    脚下千 发表于 2019-6-12 13:05
    6 s+ `4 g5 Z. x6 B* ?, I, B9 F* r' z。。。6 Z9 R+ ]/ B' S# b. k) @  h1 \0 X( M
    : r! F1 `& \8 B; ]! q
    1. 问题中是: Vocabulary.com + Collins + 雅思 + 牛津 —— “制作成anki记忆库(反面是相应词 ...

    * A9 ]& L7 s  ~* t5 G我上一条是在回复你回复我的“这个要词典本身支持才可以的,目前很少这样的词典。楼主说的是匹配短语,不是单词。(具体见我前面的帖子)”5 o" T( m. d, E' i
    我回复楼主的是匹配词组,你说我是回复匹配单词,所以我进行了回应。% K3 l) X5 S: Z
    你说目前词典少,所以我就把论坛可以查的词典多告诉你了。
    8 R/ g: ?. y2 f结果你和我扯什么形式,什么综合,搞得我好像没看清提问一样,而且你告知了和我有什么关系,我一开始就没回复你,是你在回复我,说我查的不是词组是单词啊。。。
  • TA的每日心情
    擦汗
    2021-11-13 00:18
  • 签到天数: 119 天

    [LV.6]常住居民II

    发表于 2019-6-13 11:00:17 | 显示全部楼层
    本帖最后由 脚下千 于 2019-6-13 11:09 编辑 ; y' E+ z. @2 C7 P$ [
    xusorn 发表于 2019-6-12 15:38
    ) _7 t- G' U4 Q我上一条是在回复你回复我的“这个要词典本身支持才可以的,目前很少这样的词典。楼主说的是匹配短语,不 ...
    ' O9 t, n  D! f( V: }1 g
    之前回复你是看到你的用词—— 什么“不够好吗,……就是了,……就是了” 才回复的,另外当时你的图片也没显示出来(也许是论坛原因),我表达能力低下,想让你去看我之前写的内容 ,但因为 我懒,我笨,我没写清楚,我标点符号不会用,最后让你觉得我在说你用它来匹配单词而不是短语 —— 的确,我 这个 sb 怎么知道 fq 原来也可以匹配短语 ?!
    * A& |4 R& L3 M) [+ L; q+ B& X& V1 t
    算了,我是 sb,这里不是 StackOverflow,论坛发帖不需要看别人回帖。不再继续争论。我是 sb。
  • TA的每日心情
    奋斗
    2023-12-14 15:58
  • 签到天数: 874 天

    [LV.10]以坛为家III

    发表于 2019-6-13 13:14:48 | 显示全部楼层
    脚下千 发表于 2019-6-13 11:00
    + J! _; f4 m. K) h6 j之前回复你是看到你的用词—— 什么“不够好吗,……就是了,……就是了” 才回复的,另外当时你的图片也 ...
    0 Q# |2 `/ S& B  u
    图片应该是是之前服务器出了问题,我一开始就不认为查询这些词组不是特别困难的事情,但如果我的措辞对你产生了困扰,我对你表示抱歉。刚刚把你的回复完整的看了一遍,我个人认为你可能是想把词条统一形式表达,然后进行合并去重再统一查询,不知道是不是这样,如果是是的话,我个人认为存在三个需要考虑之处
    , M7 B/ P. p' }7 N  M2 E5 A1.工作量对于我和一般的不会Python的用户来说,应该不算小,因此可行性不高,或许程序员可以解决这个难题。
    ) f5 v; k- ?! j5 j0 \2.如果统一了形式,再进行查询,是否能够查询得出,因为每个词典的表示不同,那么同一个形式是否能在多个词条查询出结果,这也是一个需要考虑的问题。
    ( W0 Z& p& {- U3 `3.此外,每个词表的来源词典不同,因此导致词频及常用性的统计也不相同,合并后是否能够兼顾这些?. I1 {$ ?( B: W
    因此我觉得,如果仅仅是为了去重而大费周章的改形式的成本远大于收益,所以我建议直接用多本词典进行查询或许是更好的选择,我已经制作出来了,比把制作流程发到了论坛,如果有兴趣,也可以看看[【展示+制作教程】根据高频短语词组制作anki记忆库教程https://www.pdawiki.com/forum/fo ... hread&tid=34820]
  • TA的每日心情
    开心
    2022-4-20 08:22
  • 签到天数: 23 天

    [LV.4]偶尔看看III

    发表于 2020-9-26 07:50:41 | 显示全部楼层
    好高深的样子
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-6-15 11:53 , Processed in 0.076817 second(s), 10 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表