掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 3603|回复: 15

[使用求助] 如何制作(Vocabulary.com + Collins + 雅思 + 牛津)高频短语词组记忆库?

[复制链接]
  • TA的每日心情
    开心
    2022-1-21 00:52
  • 签到天数: 699 天

    [LV.9]以坛为家II

    发表于 2019-4-18 00:04:14 | 显示全部楼层 |阅读模式
    atomore 整理了(Vocabulary.com + Collins + 雅思 + 牛津)中的高频短语词组
    4 H) G7 I1 C. @6 M, u内容包括:
      z& J$ M# y( g8 Phttps://www.pdawiki.com/forum/thread-33730-1-1.html?x=180507
    2 J  D* N0 s7 \& L! f+ D0 g1 a& j1. Vocabulary.com词典中词频小于20000的词组 (1977个,按词频排序);
    , M1 P. D. B2 }, {5 a( b% c. w2. 柯林斯双解词典中 五星词组 (4692个, 按五级分组排序);
    : n( B! m. l' s: q) a  D7 O3. 剑桥双解词典中 雅思词组 (2452个,按A1-C2分组);
    ' d  O$ M% I/ E$ x8 v6 M2 T4. 牛津双解词典中 星标词组 (298个)。
    / `5 ^6 ^8 T2 f. q; u+ [4 a- c, w
    如果要把atomore 整理的xls列表,制作成anki记忆库(反面是相应词典中该短语词组的内容),技术上如何实现呢?9 w: R0 ?' S8 V7 O, O" R# m. e
    希望集思广益
    ( ~7 d7 r3 G1 k. C- x
    6 {7 d! _$ {. W9 \

    本帖被以下淘专辑推荐:

  • TA的每日心情
    开心
    2023-2-22 11:08
  • 签到天数: 54 天

    [LV.5]常住居民I

    发表于 2019-4-22 09:06:50 | 显示全部楼层
    合并后,在Excel里删除相同词组后,大概有8000多个词组。: A% I1 b& H: B& p9 v
    不知道怎么批量提取中文。
  • TA的每日心情
    开心
    2019-6-23 00:02
  • 签到天数: 18 天

    [LV.4]偶尔看看III

    发表于 2019-4-25 23:37:30 | 显示全部楼层
    anki用的是sqlite数据库存储信息的,首先搞清楚数据库中table的结构,你可以在你想要的deck里创建一个新词条,然后分析数据库中的数据。
    & {, d: ?; |1 @. y  g$ f然后就是根据单词提取对应词典中词条的信息,处理好以后写到anki的数据库中。这一步可以编写程序实现,也可以用某些editor的automation实现,比如用EmEditor。
  • TA的每日心情
    开心
    2022-1-21 00:52
  • 签到天数: 699 天

    [LV.9]以坛为家II

     楼主| 发表于 2019-4-26 00:59:34 | 显示全部楼层
    ogrishman 发表于 2019-4-25 23:37: L# w4 A0 R; I/ m: j
    anki用的是sqlite数据库存储信息的,首先搞清楚数据库中table的结构,你可以在你想要的deck里创建一个新词 ...
    : d# f  O# O' W- x( s7 y
    谢谢指点。
      }1 q8 x6 T, a4 Y7 D# q短语词组每个单词都懂,但合在一起意思可能大不同,偏偏还太常见。0 f! u! H9 j2 ]8 d- T

    4 [7 B7 x7 t. ^6 W需要学习一下技术了
  • TA的每日心情
    擦汗
    2021-11-13 00:18
  • 签到天数: 119 天

    [LV.6]常住居民II

    发表于 2019-4-26 14:23:11 | 显示全部楼层
    本帖最后由 脚下千 于 2019-4-26 14:44 编辑 " z- I3 _3 r9 L1 Q! g

    $ ?! T* k0 ?8 i( O. V# @这个站在前人的基础上,有简单一点的方法,不过需要有支持的词典。
    5 g. ~# D8 H. ^& m) z- \# j7 c* y
    简单来说,就是 将 xlsx 转成 csv,然后导入 anki,用 anki 插件(我用的好像叫 FastWordQuery)查询即可。! ?6 {7 G" j* |
    8 S9 n: x; z) }8 ?- a
    虽然说缺的词典可以在这个插件基础上增加(因为给出的 mdx 词典一般都没有短语的索引),但目前我所见到的只有 longman 词典的短语有人制作过,其他的不知道有没有。
    - U! l  E7 ^5 W" u( J: l7 ]如果自己解析对应词典的话,也许在实现上比较方便(解析 mdx 内容后用正则表达式只提取相关短语释义),但给插件贡献词典解析可能会有更广的作用。7 l- D$ t" Z5 W  x
    : T5 Q$ a0 T4 `8 {1 E% A3 c$ |; a6 E
    ps:这个引起了我的兴趣,有些想做了,不过我的 CoCa 20000 还没背完……" W1 N: E+ d( W0 W; x: n
    9 {* ?. d0 J9 p  C! X
    ; a7 }: E; i5 X5 g9 L% g
  • TA的每日心情
    开心
    2022-1-21 00:52
  • 签到天数: 699 天

    [LV.9]以坛为家II

     楼主| 发表于 2019-4-26 20:02:52 | 显示全部楼层
    脚下千 发表于 2019-4-26 14:23
    8 K. @( o, {  o) l1 T5 U* }这个站在前人的基础上,有简单一点的方法,不过需要有支持的词典。1 e/ X) m7 v7 I5 M  M
    " Y& L3 j4 E' s2 j/ n, V: e
    简单来说,就是 将 xlsx 转成 csv,然 ...

    2 E  c( C5 P4 S% I不知道插件对短语词组的支持如何?: W4 B, ~( c' e  j6 `
    一个难点是例如eat one's fill这样的短语在不同词典里的词条可能是各种形式,eat sb's fill等等等等
    8 n' I) @; h2 k5 w不容易批量把该短语在各个词典中的相关entries都查询出来,以便进一步进行比较再挑选自己觉得最好的词典解释和例句
    9 {3 i- T0 \) @+ x# }; b  r7 r' f5 b: v; U9 p! j9 ?6 t0 X" Y
  • TA的每日心情
    擦汗
    2021-11-13 00:18
  • 签到天数: 119 天

    [LV.6]常住居民II

    发表于 2019-4-28 19:33:42 | 显示全部楼层
    本帖最后由 脚下千 于 2019-4-28 19:35 编辑
    9 I/ y3 g+ m9 _( @& b( i" r
    cocowind 发表于 2019-4-26 20:02
    # O( ~' P' t6 Q6 B; {不知道插件对短语词组的支持如何?- Y7 K) I1 q/ d7 q" M
    一个难点是例如eat one's fill这样的短语在不同词典里的词条可能是各 ...

    ( X7 l* X& _& [2 t. @# H这个倒不是很难,就是麻烦点,直接按不同形式处理一下即可,比如 one 替换为 sb 等,当然里面可能有更复杂点的规则要写。
    $ X+ E, {' W0 E/ \! Z' F0 M  L/ [4 o) |( X% a' Z, o
    如果要统一结果到一处的话,就多列几个 fields 存储不同的查询形式,然后按词典逐个查询。* I2 u3 n8 F+ w
    ( K, S' I6 A. q# {! T1 l3 O, v
    当然,这都需要有词典支持,一般来说上述词典我猜很少能对短语直接查询的(我没用过啊)。
    9 R. P" t% d# l. h9 w
    * B0 s- y# m, ~  `+ u插件设置自定义词典后,只是根据字段直接查询,然后提取所有内容,和在词典软件里是一样的。在词典软件里如果直接输入短语查不到,那么插件也查不到。
  • TA的每日心情
    开心
    2022-1-21 00:52
  • 签到天数: 699 天

    [LV.9]以坛为家II

     楼主| 发表于 2019-4-28 19:56:54 | 显示全部楼层
    脚下千 发表于 2019-4-28 19:33  \- \$ Z1 u; u7 |( ]
    这个倒不是很难,就是麻烦点,直接按不同形式处理一下即可,比如 one 替换为 sb 等,当然里面可能有更复杂 ...
    . b9 w/ r& I" D  R1 {
    谢谢指点~4 l7 y! {- t/ h4 ]
    6 `) i! l; K2 P: ?9 y- O( L
    看到这个方法也许可以借鉴一下
    0 S' I' w9 Z4 m5 Bhttps://www.pdawiki.com/forum/thread-11546-1-1.html?x=180507
    : x% W5 v! l$ u" m/ m( T
  • TA的每日心情
    奋斗
    2023-12-14 15:58
  • 签到天数: 874 天

    [LV.10]以坛为家III

    发表于 2019-5-6 19:48:04 | 显示全部楼层
    是fq这个插件不够好吗……直接把词条转为utf-8的txt导入anki,建几个字段用fq查询不就是了,而且css格式也能保留,要修改css去collection.media修改就是了
    8 h; d/ |1 u2 O; P' c

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    擦汗
    2021-11-13 00:18
  • 签到天数: 119 天

    [LV.6]常住居民II

    发表于 2019-6-12 03:12:14 | 显示全部楼层
    xusorn 发表于 2019-5-6 19:488 m+ p! N) r8 f/ A$ }4 Z
    是fq这个插件不够好吗……直接把词条转为utf-8的txt导入anki,建几个字段用fq查询不就是了,而且css格式也 ...

    9 a6 p2 L& H. U/ c7 Z: i8 h这个要词典本身支持才可以的,目前很少这样的词典。楼主说的是匹配短语,不是单词。(具体见我前面的帖子)
  • TA的每日心情
    奋斗
    2023-12-14 15:58
  • 签到天数: 874 天

    [LV.10]以坛为家III

    发表于 2019-6-12 07:27:20 | 显示全部楼层
    本帖最后由 xusorn 于 2019-6-12 07:31 编辑
    " w8 q/ t- ^- Z, {8 e, k, F1 ~
    脚下千 发表于 2019-6-12 03:12
    : u/ z2 V, W4 S+ n! m: B这个要词典本身支持才可以的,目前很少这样的词典。楼主说的是匹配短语,不是单词。(具体见我前面的帖子 ...

    & u: J9 Q) i; W, A! y" V- w我看清了问题,论坛的韦氏,朗文,牛津的词组不够你用吗?至少我用fq把vocabulary前1000的都查到了! R7 I) ~* H. \. E- u4 \7 O" }
    ! C* s' k* z: M$ T$ T- D6 T- \
    ) F- q4 h0 [) n9 o% B

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    擦汗
    2021-11-13 00:18
  • 签到天数: 119 天

    [LV.6]常住居民II

    发表于 2019-6-12 13:05:01 | 显示全部楼层
    本帖最后由 脚下千 于 2019-6-12 13:15 编辑
    1 W& P. A, l) F$ I+ K7 p
    xusorn 发表于 2019-6-12 07:27% W% z) t' k4 s* C3 S# B8 f* k
    我看清了问题,论坛的韦氏,朗文,牛津的词组不够你用吗?至少我用fq把vocabulary前1000的都查到了
    4 f3 {1 t/ b9 ]# b
    。。。# `" V6 R  V2 m# N
    1 d: J) t1 f/ O: [4 C
    1. 问题中是: Vocabulary.com + Collins + 雅思 + 牛津 —— “制作成anki记忆库(反面是相应词典中该短语词组的内容)”
    6 u. M- k, P. `/ V' s4 n
    ; A8 K: U) K3 x5 }2. 输入是"例如eat one's fill这样的短语在不同词典里的词条可能是各种形式,eat sb's fill等等等等";
    3 G7 m% S2 f( G* ]  E6 L/ w! ~9 _% T: H( h& S
    3. 需求是做一个“综合”的短语库,不能说这没必要,起码楼主是需要的;而这涉及到第 2 点中的形式不同问题,至少要预处理一下& E% I4 M5 C7 m8 S/ f

    $ P. o6 F, V3 l  Q! {% K4. FastWordQuery 我首次回帖就告知了楼主
    9 ^. y# W  }, P% \' T. Y9 J, t5 L( y1 Q
    5. 我不是楼主
    ; W. c9 k) U) ^
  • TA的每日心情
    奋斗
    2023-12-14 15:58
  • 签到天数: 874 天

    [LV.10]以坛为家III

    发表于 2019-6-12 15:38:31 | 显示全部楼层
    脚下千 发表于 2019-6-12 13:05
    * y+ v8 Y# G+ d1 s6 d$ ?。。。
    ) W7 z9 h& ~9 o  n' t9 J0 C( m" _  m2 F  d
    1. 问题中是: Vocabulary.com + Collins + 雅思 + 牛津 —— “制作成anki记忆库(反面是相应词 ...
    , O( H( _' u  |2 R9 E: `4 Y2 E, [3 a; A
    我上一条是在回复你回复我的“这个要词典本身支持才可以的,目前很少这样的词典。楼主说的是匹配短语,不是单词。(具体见我前面的帖子)”$ T/ h5 D- {% n) ?, H' c. A/ G
    我回复楼主的是匹配词组,你说我是回复匹配单词,所以我进行了回应。) m. a, F3 b/ N) o- T
    你说目前词典少,所以我就把论坛可以查的词典多告诉你了。$ L1 |9 c, N$ D, r9 y4 `& i4 d
    结果你和我扯什么形式,什么综合,搞得我好像没看清提问一样,而且你告知了和我有什么关系,我一开始就没回复你,是你在回复我,说我查的不是词组是单词啊。。。
  • TA的每日心情
    擦汗
    2021-11-13 00:18
  • 签到天数: 119 天

    [LV.6]常住居民II

    发表于 2019-6-13 11:00:17 | 显示全部楼层
    本帖最后由 脚下千 于 2019-6-13 11:09 编辑
    8 Q. _/ g: Y7 V9 C, z2 ~' i. J
    xusorn 发表于 2019-6-12 15:381 F& Z* P' \( d8 U: s7 J
    我上一条是在回复你回复我的“这个要词典本身支持才可以的,目前很少这样的词典。楼主说的是匹配短语,不 ...

    6 g7 ?; g' a4 N# Z* T6 W$ i之前回复你是看到你的用词—— 什么“不够好吗,……就是了,……就是了” 才回复的,另外当时你的图片也没显示出来(也许是论坛原因),我表达能力低下,想让你去看我之前写的内容 ,但因为 我懒,我笨,我没写清楚,我标点符号不会用,最后让你觉得我在说你用它来匹配单词而不是短语 —— 的确,我 这个 sb 怎么知道 fq 原来也可以匹配短语 ?!
    . E  R) `; A! @4 ?$ r+ c: }+ p# ^9 O0 f+ U$ e' U/ \+ _/ u2 e9 b
    算了,我是 sb,这里不是 StackOverflow,论坛发帖不需要看别人回帖。不再继续争论。我是 sb。
  • TA的每日心情
    奋斗
    2023-12-14 15:58
  • 签到天数: 874 天

    [LV.10]以坛为家III

    发表于 2019-6-13 13:14:48 | 显示全部楼层
    脚下千 发表于 2019-6-13 11:008 D- l" @9 [. J; I7 [1 \* ?) M# }
    之前回复你是看到你的用词—— 什么“不够好吗,……就是了,……就是了” 才回复的,另外当时你的图片也 ...
    * b3 f% `4 Y! D  z4 C8 I5 p. J
    图片应该是是之前服务器出了问题,我一开始就不认为查询这些词组不是特别困难的事情,但如果我的措辞对你产生了困扰,我对你表示抱歉。刚刚把你的回复完整的看了一遍,我个人认为你可能是想把词条统一形式表达,然后进行合并去重再统一查询,不知道是不是这样,如果是是的话,我个人认为存在三个需要考虑之处  w! T  B& h* A% o9 U& p" K
    1.工作量对于我和一般的不会Python的用户来说,应该不算小,因此可行性不高,或许程序员可以解决这个难题。
    $ g* F) k7 C) \2.如果统一了形式,再进行查询,是否能够查询得出,因为每个词典的表示不同,那么同一个形式是否能在多个词条查询出结果,这也是一个需要考虑的问题。& B# P/ k5 S, Y3 A. r  K5 M
    3.此外,每个词表的来源词典不同,因此导致词频及常用性的统计也不相同,合并后是否能够兼顾这些?8 U1 @* l( `5 F; W2 n
    因此我觉得,如果仅仅是为了去重而大费周章的改形式的成本远大于收益,所以我建议直接用多本词典进行查询或许是更好的选择,我已经制作出来了,比把制作流程发到了论坛,如果有兴趣,也可以看看[【展示+制作教程】根据高频短语词组制作anki记忆库教程https://www.pdawiki.com/forum/fo ... hread&tid=34820]
  • TA的每日心情
    开心
    2022-4-20 08:22
  • 签到天数: 23 天

    [LV.4]偶尔看看III

    发表于 2020-9-26 07:50:41 | 显示全部楼层
    好高深的样子
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-3-29 21:31 , Processed in 0.046218 second(s), 9 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表