掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 3702|回复: 15

[使用求助] 如何制作(Vocabulary.com + Collins + 雅思 + 牛津)高频短语词组记忆库?

[复制链接]
  • TA的每日心情
    开心
    2022-1-21 00:52
  • 签到天数: 699 天

    [LV.9]以坛为家II

    发表于 2019-4-18 00:04:14 | 显示全部楼层 |阅读模式
    atomore 整理了(Vocabulary.com + Collins + 雅思 + 牛津)中的高频短语词组1 b% x& m$ w1 P6 v" d1 M
    内容包括:) ]' H+ @4 U( k+ P
    https://www.pdawiki.com/forum/thread-33730-1-1.html?x=180507
    " h5 O% k, l- V; R1. Vocabulary.com词典中词频小于20000的词组 (1977个,按词频排序);
    : a6 K6 A( e$ A# J( w5 B& g2 L" J2. 柯林斯双解词典中 五星词组 (4692个, 按五级分组排序);2 S' G3 k- i& R5 m9 q0 h' p9 k" l
    3. 剑桥双解词典中 雅思词组 (2452个,按A1-C2分组);8 ?% u$ @* e  A' ^
    4. 牛津双解词典中 星标词组 (298个)。. n( j2 E( {/ q; K; W7 x

    ' v3 w& x, Y& M+ M如果要把atomore 整理的xls列表,制作成anki记忆库(反面是相应词典中该短语词组的内容),技术上如何实现呢?
    6 k6 g; w  I) z) X- s  N希望集思广益9 `- s3 o! b) _: y
    ( }' W# z' T2 P: N/ ~# C# n. b" k

    本帖被以下淘专辑推荐:

  • TA的每日心情
    开心
    2023-2-22 11:08
  • 签到天数: 54 天

    [LV.5]常住居民I

    发表于 2019-4-22 09:06:50 | 显示全部楼层
    合并后,在Excel里删除相同词组后,大概有8000多个词组。
    ) c- F4 F7 J; P9 d不知道怎么批量提取中文。
  • TA的每日心情
    开心
    2019-6-23 00:02
  • 签到天数: 18 天

    [LV.4]偶尔看看III

    发表于 2019-4-25 23:37:30 | 显示全部楼层
    anki用的是sqlite数据库存储信息的,首先搞清楚数据库中table的结构,你可以在你想要的deck里创建一个新词条,然后分析数据库中的数据。. g- O) b8 ^& V* `" I6 Y' p
    然后就是根据单词提取对应词典中词条的信息,处理好以后写到anki的数据库中。这一步可以编写程序实现,也可以用某些editor的automation实现,比如用EmEditor。
  • TA的每日心情
    开心
    2022-1-21 00:52
  • 签到天数: 699 天

    [LV.9]以坛为家II

     楼主| 发表于 2019-4-26 00:59:34 | 显示全部楼层
    ogrishman 发表于 2019-4-25 23:37
    0 [  T$ C+ W- G6 R/ h/ B( Tanki用的是sqlite数据库存储信息的,首先搞清楚数据库中table的结构,你可以在你想要的deck里创建一个新词 ...

    8 ^* \- r$ o% o谢谢指点。
    8 Y4 F3 C# ^% ^9 _短语词组每个单词都懂,但合在一起意思可能大不同,偏偏还太常见。
    % T( Q. u6 J" Y; \
    ; R7 p7 x+ G# I8 k8 F' B需要学习一下技术了
  • TA的每日心情
    擦汗
    2021-11-13 00:18
  • 签到天数: 119 天

    [LV.6]常住居民II

    发表于 2019-4-26 14:23:11 | 显示全部楼层
    本帖最后由 脚下千 于 2019-4-26 14:44 编辑 ( b$ S2 w6 y5 e4 m5 _

    & R) L! S. f+ ]" E' F5 A这个站在前人的基础上,有简单一点的方法,不过需要有支持的词典。
    % z, c4 }0 K! H$ y9 S" w* D" U+ ], h; @8 y9 F
    简单来说,就是 将 xlsx 转成 csv,然后导入 anki,用 anki 插件(我用的好像叫 FastWordQuery)查询即可。' p) J9 j- h- b4 d9 T8 L- Z/ |7 e

    0 T7 y; T5 P% ^0 U% i% z( z虽然说缺的词典可以在这个插件基础上增加(因为给出的 mdx 词典一般都没有短语的索引),但目前我所见到的只有 longman 词典的短语有人制作过,其他的不知道有没有。: v: h( Z1 b/ R
    如果自己解析对应词典的话,也许在实现上比较方便(解析 mdx 内容后用正则表达式只提取相关短语释义),但给插件贡献词典解析可能会有更广的作用。, P' ?9 l% T/ C5 w3 q
    $ K% R. ~! x2 H' G- a! V, u3 Z/ t& \
    ps:这个引起了我的兴趣,有些想做了,不过我的 CoCa 20000 还没背完……
    $ f" \0 P1 L! K! Q5 }; y8 |# `3 k0 r( I$ ]& W/ O
    : I: D( t% Y# h8 {7 e* x
  • TA的每日心情
    开心
    2022-1-21 00:52
  • 签到天数: 699 天

    [LV.9]以坛为家II

     楼主| 发表于 2019-4-26 20:02:52 | 显示全部楼层
    脚下千 发表于 2019-4-26 14:233 l! D. J2 B) r, M( d0 L+ n- ]/ ]
    这个站在前人的基础上,有简单一点的方法,不过需要有支持的词典。7 |. v( d) x( q* v) S$ A

    5 z& N& e& N) }$ q$ k简单来说,就是 将 xlsx 转成 csv,然 ...

    1 O8 ?) I- R+ `" d不知道插件对短语词组的支持如何?6 l% S4 K5 W9 Q( T9 M# I3 d6 u
    一个难点是例如eat one's fill这样的短语在不同词典里的词条可能是各种形式,eat sb's fill等等等等/ q$ I; c' ?/ V8 Q6 q
    不容易批量把该短语在各个词典中的相关entries都查询出来,以便进一步进行比较再挑选自己觉得最好的词典解释和例句
    : L, Y/ i! T" T6 ^6 y6 A  C- `; K$ ?5 c- I6 O5 w) Q
  • TA的每日心情
    擦汗
    2021-11-13 00:18
  • 签到天数: 119 天

    [LV.6]常住居民II

    发表于 2019-4-28 19:33:42 | 显示全部楼层
    本帖最后由 脚下千 于 2019-4-28 19:35 编辑 4 @/ C- Q' n8 j; o4 r
    cocowind 发表于 2019-4-26 20:02
    & {2 n& _" [% L- D: N/ h不知道插件对短语词组的支持如何?
    * M1 Z& ]  z2 p; [# m) z一个难点是例如eat one's fill这样的短语在不同词典里的词条可能是各 ...

    5 U& r( Y0 U+ y这个倒不是很难,就是麻烦点,直接按不同形式处理一下即可,比如 one 替换为 sb 等,当然里面可能有更复杂点的规则要写。4 {+ g# ?- j- r9 P& j/ f6 u

      d: A0 Y! o9 N8 @如果要统一结果到一处的话,就多列几个 fields 存储不同的查询形式,然后按词典逐个查询。0 D# S( ]( Q# ^# F" z, r% B" [

    , A! s' n3 z( n1 v2 E当然,这都需要有词典支持,一般来说上述词典我猜很少能对短语直接查询的(我没用过啊)。
    $ _6 x( d4 e* n6 u4 C/ u2 \& t4 B
    插件设置自定义词典后,只是根据字段直接查询,然后提取所有内容,和在词典软件里是一样的。在词典软件里如果直接输入短语查不到,那么插件也查不到。
  • TA的每日心情
    开心
    2022-1-21 00:52
  • 签到天数: 699 天

    [LV.9]以坛为家II

     楼主| 发表于 2019-4-28 19:56:54 | 显示全部楼层
    脚下千 发表于 2019-4-28 19:33
    5 Z2 S- I1 n# D. O, O3 N) Y这个倒不是很难,就是麻烦点,直接按不同形式处理一下即可,比如 one 替换为 sb 等,当然里面可能有更复杂 ...

    8 R9 T3 r3 b8 h谢谢指点~5 X+ k" t6 n1 P7 s

    / x* S* T$ J2 H. \- u* Q看到这个方法也许可以借鉴一下% K% g* Y; E' A; H) \! l1 C* A) u
    https://www.pdawiki.com/forum/thread-11546-1-1.html?x=1805077 E- ~0 T$ a) f! n( p$ a' o
  • TA的每日心情
    奋斗
    2023-12-14 15:58
  • 签到天数: 874 天

    [LV.10]以坛为家III

    发表于 2019-5-6 19:48:04 | 显示全部楼层
    是fq这个插件不够好吗……直接把词条转为utf-8的txt导入anki,建几个字段用fq查询不就是了,而且css格式也能保留,要修改css去collection.media修改就是了4 F4 |7 l9 p& H0 G

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    擦汗
    2021-11-13 00:18
  • 签到天数: 119 天

    [LV.6]常住居民II

    发表于 2019-6-12 03:12:14 | 显示全部楼层
    xusorn 发表于 2019-5-6 19:48. D% ]8 x, U4 n& t* m# \, t6 p
    是fq这个插件不够好吗……直接把词条转为utf-8的txt导入anki,建几个字段用fq查询不就是了,而且css格式也 ...
    . M# y, v; n3 N* S5 H( F1 Z! k+ D; p
    这个要词典本身支持才可以的,目前很少这样的词典。楼主说的是匹配短语,不是单词。(具体见我前面的帖子)
  • TA的每日心情
    奋斗
    2023-12-14 15:58
  • 签到天数: 874 天

    [LV.10]以坛为家III

    发表于 2019-6-12 07:27:20 | 显示全部楼层
    本帖最后由 xusorn 于 2019-6-12 07:31 编辑 8 q5 F, S* m; s. ^( v( {$ O- \
    脚下千 发表于 2019-6-12 03:126 Z- t# e" {* _, }: ?6 M$ s
    这个要词典本身支持才可以的,目前很少这样的词典。楼主说的是匹配短语,不是单词。(具体见我前面的帖子 ...
    4 d+ Y4 k# J3 U
    我看清了问题,论坛的韦氏,朗文,牛津的词组不够你用吗?至少我用fq把vocabulary前1000的都查到了
    9 i2 D  d+ }: i4 u# @- Y/ n3 s6 u7 \& a4 V+ h9 f- P$ s! `
    - e- H. m, D# ]! Q* G) t

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    擦汗
    2021-11-13 00:18
  • 签到天数: 119 天

    [LV.6]常住居民II

    发表于 2019-6-12 13:05:01 | 显示全部楼层
    本帖最后由 脚下千 于 2019-6-12 13:15 编辑
    ' n. `3 B* O* D9 e
    xusorn 发表于 2019-6-12 07:27
    1 ?$ U4 z: K' V我看清了问题,论坛的韦氏,朗文,牛津的词组不够你用吗?至少我用fq把vocabulary前1000的都查到了
    . e5 V  U1 C# z2 D0 G7 _  l
    。。。0 L2 M8 @; ]+ ]. n0 D* x$ T; d
    9 @$ g5 {/ |+ x" e- T7 u1 u
    1. 问题中是: Vocabulary.com + Collins + 雅思 + 牛津 —— “制作成anki记忆库(反面是相应词典中该短语词组的内容)”
    2 F6 _, c# s# q$ ?6 p3 e3 H5 Z0 b( z
    2. 输入是"例如eat one's fill这样的短语在不同词典里的词条可能是各种形式,eat sb's fill等等等等"; " R3 |* L7 j0 L! o  N! F

    " R( m* o7 p7 k: p, q- l+ p1 q3. 需求是做一个“综合”的短语库,不能说这没必要,起码楼主是需要的;而这涉及到第 2 点中的形式不同问题,至少要预处理一下
    8 }: V& L: n6 g8 u) u: l, R6 L6 D2 Z3 F, X5 ?3 h* a3 O+ U  y; w
    4. FastWordQuery 我首次回帖就告知了楼主& Q5 V& u% S3 r/ v
    3 F9 Z3 j/ a. ]/ H  C. K# ]
    5. 我不是楼主
    4 W4 r  q, H' a$ B% M
  • TA的每日心情
    奋斗
    2023-12-14 15:58
  • 签到天数: 874 天

    [LV.10]以坛为家III

    发表于 2019-6-12 15:38:31 | 显示全部楼层
    脚下千 发表于 2019-6-12 13:057 ^3 ?  b$ Q: w
    。。。0 u: i. R8 X! b% h$ r1 K0 s
    ; n, g6 e: c+ w3 q: Z# e
    1. 问题中是: Vocabulary.com + Collins + 雅思 + 牛津 —— “制作成anki记忆库(反面是相应词 ...

    " X* d5 c) W; K$ ^+ ?我上一条是在回复你回复我的“这个要词典本身支持才可以的,目前很少这样的词典。楼主说的是匹配短语,不是单词。(具体见我前面的帖子)”% O  V& H" Y6 n! O4 ^% _% b3 U
    我回复楼主的是匹配词组,你说我是回复匹配单词,所以我进行了回应。
    0 Z  \, g1 B$ l3 i8 c* H& ^+ O你说目前词典少,所以我就把论坛可以查的词典多告诉你了。
    " U3 A2 K+ l  F# q8 t) Z2 r0 m结果你和我扯什么形式,什么综合,搞得我好像没看清提问一样,而且你告知了和我有什么关系,我一开始就没回复你,是你在回复我,说我查的不是词组是单词啊。。。
  • TA的每日心情
    擦汗
    2021-11-13 00:18
  • 签到天数: 119 天

    [LV.6]常住居民II

    发表于 2019-6-13 11:00:17 | 显示全部楼层
    本帖最后由 脚下千 于 2019-6-13 11:09 编辑
    1 J/ ?) \  t8 v& S; V5 t
    xusorn 发表于 2019-6-12 15:380 d( q2 i/ P6 ?. z
    我上一条是在回复你回复我的“这个要词典本身支持才可以的,目前很少这样的词典。楼主说的是匹配短语,不 ...
    ; @3 {8 R- l$ y! B/ i
    之前回复你是看到你的用词—— 什么“不够好吗,……就是了,……就是了” 才回复的,另外当时你的图片也没显示出来(也许是论坛原因),我表达能力低下,想让你去看我之前写的内容 ,但因为 我懒,我笨,我没写清楚,我标点符号不会用,最后让你觉得我在说你用它来匹配单词而不是短语 —— 的确,我 这个 sb 怎么知道 fq 原来也可以匹配短语 ?!
    $ R7 m5 _2 N2 ^! ^5 \7 w9 g7 I+ X- y( S
    算了,我是 sb,这里不是 StackOverflow,论坛发帖不需要看别人回帖。不再继续争论。我是 sb。
  • TA的每日心情
    奋斗
    2023-12-14 15:58
  • 签到天数: 874 天

    [LV.10]以坛为家III

    发表于 2019-6-13 13:14:48 | 显示全部楼层
    脚下千 发表于 2019-6-13 11:00! O. [- C) @1 }, Y; X% L
    之前回复你是看到你的用词—— 什么“不够好吗,……就是了,……就是了” 才回复的,另外当时你的图片也 ...

    : Z' W' N+ E: X+ v# c图片应该是是之前服务器出了问题,我一开始就不认为查询这些词组不是特别困难的事情,但如果我的措辞对你产生了困扰,我对你表示抱歉。刚刚把你的回复完整的看了一遍,我个人认为你可能是想把词条统一形式表达,然后进行合并去重再统一查询,不知道是不是这样,如果是是的话,我个人认为存在三个需要考虑之处
    0 ]( `: Y1 N8 |9 y6 d1 X1.工作量对于我和一般的不会Python的用户来说,应该不算小,因此可行性不高,或许程序员可以解决这个难题。
    ) W6 E1 y4 l4 i; s7 B6 z2.如果统一了形式,再进行查询,是否能够查询得出,因为每个词典的表示不同,那么同一个形式是否能在多个词条查询出结果,这也是一个需要考虑的问题。
    " m8 l, f6 j3 f. X3.此外,每个词表的来源词典不同,因此导致词频及常用性的统计也不相同,合并后是否能够兼顾这些?
      ?. k7 F7 C4 {2 S# c6 K4 L: O因此我觉得,如果仅仅是为了去重而大费周章的改形式的成本远大于收益,所以我建议直接用多本词典进行查询或许是更好的选择,我已经制作出来了,比把制作流程发到了论坛,如果有兴趣,也可以看看[【展示+制作教程】根据高频短语词组制作anki记忆库教程https://www.pdawiki.com/forum/fo ... hread&tid=34820]
  • TA的每日心情
    开心
    2022-4-20 08:22
  • 签到天数: 23 天

    [LV.4]偶尔看看III

    发表于 2020-9-26 07:50:41 | 显示全部楼层
    好高深的样子
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-4-29 22:25 , Processed in 0.049957 second(s), 9 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表