掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 3697|回复: 15

[使用求助] 如何制作(Vocabulary.com + Collins + 雅思 + 牛津)高频短语词组记忆库?

[复制链接]
  • TA的每日心情
    开心
    2022-1-21 00:52
  • 签到天数: 699 天

    [LV.9]以坛为家II

    发表于 2019-4-18 00:04:14 | 显示全部楼层 |阅读模式
    atomore 整理了(Vocabulary.com + Collins + 雅思 + 牛津)中的高频短语词组% Z& W) [+ Z$ b1 _  s5 K: ~. V
    内容包括:% b" {2 l$ x) }: c8 }( i
    https://www.pdawiki.com/forum/thread-33730-1-1.html?x=180507- }6 U& T/ \. L; f5 e% k$ P
    1. Vocabulary.com词典中词频小于20000的词组 (1977个,按词频排序);
    % o% A: I" F' M9 A2. 柯林斯双解词典中 五星词组 (4692个, 按五级分组排序);, O, m  }3 e& H: a5 C' J3 q$ I' Q
    3. 剑桥双解词典中 雅思词组 (2452个,按A1-C2分组);
    * L, D3 H5 V. C" R4. 牛津双解词典中 星标词组 (298个)。
    0 c' J; }( F9 E
    " u" n; O$ j* m- g$ E" k如果要把atomore 整理的xls列表,制作成anki记忆库(反面是相应词典中该短语词组的内容),技术上如何实现呢?
    + M' x- q; r% n/ v希望集思广益( z' q& V' l4 }" A+ T
    * ], `+ s7 k5 R

    本帖被以下淘专辑推荐:

  • TA的每日心情
    开心
    2023-2-22 11:08
  • 签到天数: 54 天

    [LV.5]常住居民I

    发表于 2019-4-22 09:06:50 | 显示全部楼层
    合并后,在Excel里删除相同词组后,大概有8000多个词组。" X# |6 z9 q& y% h( h2 e
    不知道怎么批量提取中文。
  • TA的每日心情
    开心
    2019-6-23 00:02
  • 签到天数: 18 天

    [LV.4]偶尔看看III

    发表于 2019-4-25 23:37:30 | 显示全部楼层
    anki用的是sqlite数据库存储信息的,首先搞清楚数据库中table的结构,你可以在你想要的deck里创建一个新词条,然后分析数据库中的数据。
    : X" n5 P6 U. z) B! W$ `然后就是根据单词提取对应词典中词条的信息,处理好以后写到anki的数据库中。这一步可以编写程序实现,也可以用某些editor的automation实现,比如用EmEditor。
  • TA的每日心情
    开心
    2022-1-21 00:52
  • 签到天数: 699 天

    [LV.9]以坛为家II

     楼主| 发表于 2019-4-26 00:59:34 | 显示全部楼层
    ogrishman 发表于 2019-4-25 23:37
    , P5 t3 c) c7 [anki用的是sqlite数据库存储信息的,首先搞清楚数据库中table的结构,你可以在你想要的deck里创建一个新词 ...

    1 ~: c& d9 R  L4 ]$ X2 ^- }0 v1 ?谢谢指点。/ I- A- N/ b5 f$ Q& F% D5 ~
    短语词组每个单词都懂,但合在一起意思可能大不同,偏偏还太常见。! c) X1 P7 F/ Z! ^

    7 U: P6 a, L. C* e需要学习一下技术了
  • TA的每日心情
    擦汗
    2021-11-13 00:18
  • 签到天数: 119 天

    [LV.6]常住居民II

    发表于 2019-4-26 14:23:11 | 显示全部楼层
    本帖最后由 脚下千 于 2019-4-26 14:44 编辑 5 O% B7 ]# i" x* `  m  F

    2 p+ t- X2 q# W8 l$ o这个站在前人的基础上,有简单一点的方法,不过需要有支持的词典。* H, d1 m  ~) Y" c, E. G# `% @
    , e  n2 U! n$ q2 P8 Y
    简单来说,就是 将 xlsx 转成 csv,然后导入 anki,用 anki 插件(我用的好像叫 FastWordQuery)查询即可。' n1 g& N- @6 {' n$ x
    0 }# z* I, `5 c1 G* z
    虽然说缺的词典可以在这个插件基础上增加(因为给出的 mdx 词典一般都没有短语的索引),但目前我所见到的只有 longman 词典的短语有人制作过,其他的不知道有没有。
    0 E( ~& l  r" K$ O; t$ H5 e如果自己解析对应词典的话,也许在实现上比较方便(解析 mdx 内容后用正则表达式只提取相关短语释义),但给插件贡献词典解析可能会有更广的作用。
    ) Q  y) i7 b$ E' O
    * ^; o. A' O7 @, W* M. ?ps:这个引起了我的兴趣,有些想做了,不过我的 CoCa 20000 还没背完……" u8 w! e& N7 _7 X

    $ }' B) a+ e: \. D! B; Z& Z( w, W# z# ?1 s
  • TA的每日心情
    开心
    2022-1-21 00:52
  • 签到天数: 699 天

    [LV.9]以坛为家II

     楼主| 发表于 2019-4-26 20:02:52 | 显示全部楼层
    脚下千 发表于 2019-4-26 14:23) I/ p. b0 O" e7 O
    这个站在前人的基础上,有简单一点的方法,不过需要有支持的词典。2 V1 Q; e& r% Q9 e
    ) G1 V! G) L2 R! \! f: d
    简单来说,就是 将 xlsx 转成 csv,然 ...

    , {$ J# ]5 o+ M% u+ [( x: K不知道插件对短语词组的支持如何?
    1 e; A/ W# y8 j) a, L一个难点是例如eat one's fill这样的短语在不同词典里的词条可能是各种形式,eat sb's fill等等等等, `. S+ F8 m( l
    不容易批量把该短语在各个词典中的相关entries都查询出来,以便进一步进行比较再挑选自己觉得最好的词典解释和例句; Z, G0 ~9 |: t1 @# A6 Q0 j
    ' _* [$ f2 x: {* i  X$ A5 F/ \9 Q
  • TA的每日心情
    擦汗
    2021-11-13 00:18
  • 签到天数: 119 天

    [LV.6]常住居民II

    发表于 2019-4-28 19:33:42 | 显示全部楼层
    本帖最后由 脚下千 于 2019-4-28 19:35 编辑 0 @6 ^) y& a$ R# a& I
    cocowind 发表于 2019-4-26 20:02
    5 E& N' z) {6 z; _不知道插件对短语词组的支持如何?
    * B1 y9 |/ z9 |6 F; [一个难点是例如eat one's fill这样的短语在不同词典里的词条可能是各 ...
    3 p, q7 B$ T4 L3 V0 g. h& G! j; x
    这个倒不是很难,就是麻烦点,直接按不同形式处理一下即可,比如 one 替换为 sb 等,当然里面可能有更复杂点的规则要写。
    ) f9 `) Z1 {$ e. Z
    # c( ~  {' S& x- L如果要统一结果到一处的话,就多列几个 fields 存储不同的查询形式,然后按词典逐个查询。
    ' D$ ^. t  o* I4 k6 k6 f) A5 y
    # K7 @' U) u8 y4 G' M, C. d当然,这都需要有词典支持,一般来说上述词典我猜很少能对短语直接查询的(我没用过啊)。/ O; P  b' e3 U& A* v0 ~9 X: k

    ! Y/ Y! ?8 }$ ^! s. ]7 L2 o8 m2 v插件设置自定义词典后,只是根据字段直接查询,然后提取所有内容,和在词典软件里是一样的。在词典软件里如果直接输入短语查不到,那么插件也查不到。
  • TA的每日心情
    开心
    2022-1-21 00:52
  • 签到天数: 699 天

    [LV.9]以坛为家II

     楼主| 发表于 2019-4-28 19:56:54 | 显示全部楼层
    脚下千 发表于 2019-4-28 19:33+ v& k9 b/ t/ U1 Q8 M1 x% |) Z* b
    这个倒不是很难,就是麻烦点,直接按不同形式处理一下即可,比如 one 替换为 sb 等,当然里面可能有更复杂 ...
    * ^7 }* V- h" A
    谢谢指点~
    . a( l+ m) Z* Z* k7 g$ i
    * @( H+ ]# x& q* k) I看到这个方法也许可以借鉴一下( y8 l( H  K# `5 Y9 |2 H5 }
    https://www.pdawiki.com/forum/thread-11546-1-1.html?x=180507
    , k8 ?+ I2 L: H9 f
  • TA的每日心情
    奋斗
    2023-12-14 15:58
  • 签到天数: 874 天

    [LV.10]以坛为家III

    发表于 2019-5-6 19:48:04 | 显示全部楼层
    是fq这个插件不够好吗……直接把词条转为utf-8的txt导入anki,建几个字段用fq查询不就是了,而且css格式也能保留,要修改css去collection.media修改就是了4 T1 K; n' I6 e% ~% N

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    擦汗
    2021-11-13 00:18
  • 签到天数: 119 天

    [LV.6]常住居民II

    发表于 2019-6-12 03:12:14 | 显示全部楼层
    xusorn 发表于 2019-5-6 19:48. Q9 d! ^+ Q$ ^% f6 _! w: _2 L
    是fq这个插件不够好吗……直接把词条转为utf-8的txt导入anki,建几个字段用fq查询不就是了,而且css格式也 ...

    / r; k6 k* i- C这个要词典本身支持才可以的,目前很少这样的词典。楼主说的是匹配短语,不是单词。(具体见我前面的帖子)
  • TA的每日心情
    奋斗
    2023-12-14 15:58
  • 签到天数: 874 天

    [LV.10]以坛为家III

    发表于 2019-6-12 07:27:20 | 显示全部楼层
    本帖最后由 xusorn 于 2019-6-12 07:31 编辑
    + V1 t- i( u' j; {, a$ t* o
    脚下千 发表于 2019-6-12 03:12
    ' @& e6 i7 [& r8 D+ j& r这个要词典本身支持才可以的,目前很少这样的词典。楼主说的是匹配短语,不是单词。(具体见我前面的帖子 ...

    $ f2 N: h- w. a& e7 a, k我看清了问题,论坛的韦氏,朗文,牛津的词组不够你用吗?至少我用fq把vocabulary前1000的都查到了7 e! o  l, n- k( q- [! V3 f  T9 `

    + ]. N% i0 t( L" \' d' ?' m9 w; x% Y9 a1 T

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    擦汗
    2021-11-13 00:18
  • 签到天数: 119 天

    [LV.6]常住居民II

    发表于 2019-6-12 13:05:01 | 显示全部楼层
    本帖最后由 脚下千 于 2019-6-12 13:15 编辑
    0 l+ C4 Q9 r" y, R0 N
    xusorn 发表于 2019-6-12 07:27
    # m- l4 O; W( D+ Z, z我看清了问题,论坛的韦氏,朗文,牛津的词组不够你用吗?至少我用fq把vocabulary前1000的都查到了
    9 V2 @1 \* e: a( F6 T
    。。。# |- U& G9 W0 ^9 N& d8 V
    4 p+ V. F" }8 `/ }0 E) T
    1. 问题中是: Vocabulary.com + Collins + 雅思 + 牛津 —— “制作成anki记忆库(反面是相应词典中该短语词组的内容)”3 a5 _0 y& s& E9 {5 W

    # @6 O! f9 I& m9 V2. 输入是"例如eat one's fill这样的短语在不同词典里的词条可能是各种形式,eat sb's fill等等等等"; 1 @! w/ t" o4 a# `, P( O7 ?
    4 M" M: Q$ I3 s7 F( s) I
    3. 需求是做一个“综合”的短语库,不能说这没必要,起码楼主是需要的;而这涉及到第 2 点中的形式不同问题,至少要预处理一下
    2 Z1 g7 D: O5 d5 r( S! \8 L, Z
    4. FastWordQuery 我首次回帖就告知了楼主. g+ M% w( t1 s- [3 S) {  e& C+ X
    * g- Y0 ~6 ^) f( ?, S& c
    5. 我不是楼主( i+ `0 ]  V. J, C5 Y
  • TA的每日心情
    奋斗
    2023-12-14 15:58
  • 签到天数: 874 天

    [LV.10]以坛为家III

    发表于 2019-6-12 15:38:31 | 显示全部楼层
    脚下千 发表于 2019-6-12 13:05% O' {/ w9 Y+ c5 N( U8 G
    。。。
    3 Q4 R5 G; H, _" o
    7 K' P; H0 ?% [: ?& T! t) x1. 问题中是: Vocabulary.com + Collins + 雅思 + 牛津 —— “制作成anki记忆库(反面是相应词 ...

    + Z6 w; ?2 j9 J6 p( i* o6 ~我上一条是在回复你回复我的“这个要词典本身支持才可以的,目前很少这样的词典。楼主说的是匹配短语,不是单词。(具体见我前面的帖子)”
    / q6 b" i- }  d我回复楼主的是匹配词组,你说我是回复匹配单词,所以我进行了回应。9 I1 l4 @; U; l2 ~1 r, N% W; F
    你说目前词典少,所以我就把论坛可以查的词典多告诉你了。
    * S& R- J7 o7 h: T结果你和我扯什么形式,什么综合,搞得我好像没看清提问一样,而且你告知了和我有什么关系,我一开始就没回复你,是你在回复我,说我查的不是词组是单词啊。。。
  • TA的每日心情
    擦汗
    2021-11-13 00:18
  • 签到天数: 119 天

    [LV.6]常住居民II

    发表于 2019-6-13 11:00:17 | 显示全部楼层
    本帖最后由 脚下千 于 2019-6-13 11:09 编辑 ) M! [& b; \! q( y% P
    xusorn 发表于 2019-6-12 15:38
    , o7 K% @, }3 C8 T我上一条是在回复你回复我的“这个要词典本身支持才可以的,目前很少这样的词典。楼主说的是匹配短语,不 ...

    " _+ n& @; _* Y( A8 D之前回复你是看到你的用词—— 什么“不够好吗,……就是了,……就是了” 才回复的,另外当时你的图片也没显示出来(也许是论坛原因),我表达能力低下,想让你去看我之前写的内容 ,但因为 我懒,我笨,我没写清楚,我标点符号不会用,最后让你觉得我在说你用它来匹配单词而不是短语 —— 的确,我 这个 sb 怎么知道 fq 原来也可以匹配短语 ?!; L2 }. X6 x& S: k+ {; ?! t

    % a1 ]$ w! J9 S2 t6 t; s- l# A" t算了,我是 sb,这里不是 StackOverflow,论坛发帖不需要看别人回帖。不再继续争论。我是 sb。
  • TA的每日心情
    奋斗
    2023-12-14 15:58
  • 签到天数: 874 天

    [LV.10]以坛为家III

    发表于 2019-6-13 13:14:48 | 显示全部楼层
    脚下千 发表于 2019-6-13 11:007 T) G9 C# t* `* n
    之前回复你是看到你的用词—— 什么“不够好吗,……就是了,……就是了” 才回复的,另外当时你的图片也 ...
    3 y" L& A" a" Q: }
    图片应该是是之前服务器出了问题,我一开始就不认为查询这些词组不是特别困难的事情,但如果我的措辞对你产生了困扰,我对你表示抱歉。刚刚把你的回复完整的看了一遍,我个人认为你可能是想把词条统一形式表达,然后进行合并去重再统一查询,不知道是不是这样,如果是是的话,我个人认为存在三个需要考虑之处4 d& {- ~0 X* g1 H& @
    1.工作量对于我和一般的不会Python的用户来说,应该不算小,因此可行性不高,或许程序员可以解决这个难题。0 ?( Z+ B. B0 d% `6 G2 k; k
    2.如果统一了形式,再进行查询,是否能够查询得出,因为每个词典的表示不同,那么同一个形式是否能在多个词条查询出结果,这也是一个需要考虑的问题。
      R4 i2 |) m) j, n3.此外,每个词表的来源词典不同,因此导致词频及常用性的统计也不相同,合并后是否能够兼顾这些?
    . q1 l- \  V5 n# l5 X* h% Y因此我觉得,如果仅仅是为了去重而大费周章的改形式的成本远大于收益,所以我建议直接用多本词典进行查询或许是更好的选择,我已经制作出来了,比把制作流程发到了论坛,如果有兴趣,也可以看看[【展示+制作教程】根据高频短语词组制作anki记忆库教程https://www.pdawiki.com/forum/fo ... hread&tid=34820]
  • TA的每日心情
    开心
    2022-4-20 08:22
  • 签到天数: 23 天

    [LV.4]偶尔看看III

    发表于 2020-9-26 07:50:41 | 显示全部楼层
    好高深的样子
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-4-29 17:58 , Processed in 0.042364 second(s), 8 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表