掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 3682|回复: 15

[使用求助] 如何制作(Vocabulary.com + Collins + 雅思 + 牛津)高频短语词组记忆库?

[复制链接]
  • TA的每日心情
    开心
    2022-1-21 00:52
  • 签到天数: 699 天

    [LV.9]以坛为家II

    发表于 2019-4-18 00:04:14 | 显示全部楼层 |阅读模式
    atomore 整理了(Vocabulary.com + Collins + 雅思 + 牛津)中的高频短语词组9 z2 }: E2 r( }2 }1 ^
    内容包括:% `. l5 m' o" t9 Y% X
    https://www.pdawiki.com/forum/thread-33730-1-1.html?x=180507
    ! \. r8 p. B7 U/ _& y: D: m1. Vocabulary.com词典中词频小于20000的词组 (1977个,按词频排序);
    & e  p. Q' \6 a2. 柯林斯双解词典中 五星词组 (4692个, 按五级分组排序);
    6 H( @7 y; j8 j; \3. 剑桥双解词典中 雅思词组 (2452个,按A1-C2分组);
    ; S1 W0 `1 u9 S) I6 J8 S4. 牛津双解词典中 星标词组 (298个)。) W: y/ d/ I% v3 d4 _

    ) O# h( b& K0 d! q5 i. Z3 [如果要把atomore 整理的xls列表,制作成anki记忆库(反面是相应词典中该短语词组的内容),技术上如何实现呢?1 ^. S( [8 A: o# S. y- h9 P
    希望集思广益
      M  j* L9 T1 c
    - _% G5 ?; h$ ~  ^( T, }7 `

    本帖被以下淘专辑推荐:

  • TA的每日心情
    开心
    2023-2-22 11:08
  • 签到天数: 54 天

    [LV.5]常住居民I

    发表于 2019-4-22 09:06:50 | 显示全部楼层
    合并后,在Excel里删除相同词组后,大概有8000多个词组。
    " |4 F! Y0 g' v$ g$ [$ u' w* J不知道怎么批量提取中文。
  • TA的每日心情
    开心
    2019-6-23 00:02
  • 签到天数: 18 天

    [LV.4]偶尔看看III

    发表于 2019-4-25 23:37:30 | 显示全部楼层
    anki用的是sqlite数据库存储信息的,首先搞清楚数据库中table的结构,你可以在你想要的deck里创建一个新词条,然后分析数据库中的数据。" w6 W0 Z& y$ L
    然后就是根据单词提取对应词典中词条的信息,处理好以后写到anki的数据库中。这一步可以编写程序实现,也可以用某些editor的automation实现,比如用EmEditor。
  • TA的每日心情
    开心
    2022-1-21 00:52
  • 签到天数: 699 天

    [LV.9]以坛为家II

     楼主| 发表于 2019-4-26 00:59:34 | 显示全部楼层
    ogrishman 发表于 2019-4-25 23:37
    2 |% @* q) i. @+ c2 canki用的是sqlite数据库存储信息的,首先搞清楚数据库中table的结构,你可以在你想要的deck里创建一个新词 ...
    ' W3 [7 a- V; M( F
    谢谢指点。. b. c1 _9 ^6 k
    短语词组每个单词都懂,但合在一起意思可能大不同,偏偏还太常见。. `  s3 q0 w; c/ C) s4 ]

    - {* v9 S5 h) }, Z4 `& [' b$ A需要学习一下技术了
  • TA的每日心情
    擦汗
    2021-11-13 00:18
  • 签到天数: 119 天

    [LV.6]常住居民II

    发表于 2019-4-26 14:23:11 | 显示全部楼层
    本帖最后由 脚下千 于 2019-4-26 14:44 编辑 $ _2 x/ j- g3 [9 b' J0 |

    4 |1 D3 K0 S6 V0 Y这个站在前人的基础上,有简单一点的方法,不过需要有支持的词典。  d! ]9 g& m  I) v6 @: n9 z

    5 l/ m8 O& N% b+ G% F: d1 H  {* X  _简单来说,就是 将 xlsx 转成 csv,然后导入 anki,用 anki 插件(我用的好像叫 FastWordQuery)查询即可。. v# x. `) m5 \0 {+ \2 `
    1 t. Q1 R5 }. z% p
    虽然说缺的词典可以在这个插件基础上增加(因为给出的 mdx 词典一般都没有短语的索引),但目前我所见到的只有 longman 词典的短语有人制作过,其他的不知道有没有。
    , L# J; A! |4 h如果自己解析对应词典的话,也许在实现上比较方便(解析 mdx 内容后用正则表达式只提取相关短语释义),但给插件贡献词典解析可能会有更广的作用。( t, `1 h' z+ j! r$ U- Y

    ( E, S0 _) j% O, b# Pps:这个引起了我的兴趣,有些想做了,不过我的 CoCa 20000 还没背完……
    6 L" P& p( M6 }( d. W* R: H; E) |6 b6 v

    6 @, F" p0 j& d- {0 }0 t( c" H9 a
  • TA的每日心情
    开心
    2022-1-21 00:52
  • 签到天数: 699 天

    [LV.9]以坛为家II

     楼主| 发表于 2019-4-26 20:02:52 | 显示全部楼层
    脚下千 发表于 2019-4-26 14:23
    + E0 u0 _% M' R9 |6 D! X4 \这个站在前人的基础上,有简单一点的方法,不过需要有支持的词典。
    9 l" V) J, X# q7 \1 T; [2 `$ m2 e% [/ s* O/ H; `4 m# i  g& T# T
    简单来说,就是 将 xlsx 转成 csv,然 ...

    & t" D2 _) p6 ?/ f# D$ }不知道插件对短语词组的支持如何?& S8 s  a% O/ _4 X; ?
    一个难点是例如eat one's fill这样的短语在不同词典里的词条可能是各种形式,eat sb's fill等等等等
    * g# g! N6 P* C, g* I! J8 x. y9 f+ q不容易批量把该短语在各个词典中的相关entries都查询出来,以便进一步进行比较再挑选自己觉得最好的词典解释和例句- m6 b6 v3 a" l7 p
    1 Q- Y, E9 U( k8 x7 ?( N, o( B: _
  • TA的每日心情
    擦汗
    2021-11-13 00:18
  • 签到天数: 119 天

    [LV.6]常住居民II

    发表于 2019-4-28 19:33:42 | 显示全部楼层
    本帖最后由 脚下千 于 2019-4-28 19:35 编辑
    2 z/ Q; v9 y9 x+ J
    cocowind 发表于 2019-4-26 20:020 n( d% ^, g( j" _* h
    不知道插件对短语词组的支持如何?- z5 j' b6 X# C
    一个难点是例如eat one's fill这样的短语在不同词典里的词条可能是各 ...

    2 P& a" l  O$ L! S5 z$ b$ F这个倒不是很难,就是麻烦点,直接按不同形式处理一下即可,比如 one 替换为 sb 等,当然里面可能有更复杂点的规则要写。
    3 c. w( r& f& O4 n
    $ g9 b  d$ z9 L; [2 F" s' e3 {如果要统一结果到一处的话,就多列几个 fields 存储不同的查询形式,然后按词典逐个查询。6 T( y/ T! F9 @+ z4 _3 k2 n  \

    ' ]0 K, j9 w& b4 c当然,这都需要有词典支持,一般来说上述词典我猜很少能对短语直接查询的(我没用过啊)。
    9 b* d; R8 S: h' J1 ^9 ~8 W. V3 O+ s2 Z' m- k
    插件设置自定义词典后,只是根据字段直接查询,然后提取所有内容,和在词典软件里是一样的。在词典软件里如果直接输入短语查不到,那么插件也查不到。
  • TA的每日心情
    开心
    2022-1-21 00:52
  • 签到天数: 699 天

    [LV.9]以坛为家II

     楼主| 发表于 2019-4-28 19:56:54 | 显示全部楼层
    脚下千 发表于 2019-4-28 19:33+ O3 K* W: }% b. J0 {0 u. Q3 y
    这个倒不是很难,就是麻烦点,直接按不同形式处理一下即可,比如 one 替换为 sb 等,当然里面可能有更复杂 ...

    . n; A, @0 k) E% h谢谢指点~
    ; |' Q9 e) S. b1 }' ^  R
    ' Z2 I3 v6 E% t看到这个方法也许可以借鉴一下
    6 \7 A/ |" B/ jhttps://www.pdawiki.com/forum/thread-11546-1-1.html?x=180507$ T" {/ p- b. D" N
  • TA的每日心情
    奋斗
    2023-12-14 15:58
  • 签到天数: 874 天

    [LV.10]以坛为家III

    发表于 2019-5-6 19:48:04 | 显示全部楼层
    是fq这个插件不够好吗……直接把词条转为utf-8的txt导入anki,建几个字段用fq查询不就是了,而且css格式也能保留,要修改css去collection.media修改就是了
    8 m  o0 L  a4 @) M

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    擦汗
    2021-11-13 00:18
  • 签到天数: 119 天

    [LV.6]常住居民II

    发表于 2019-6-12 03:12:14 | 显示全部楼层
    xusorn 发表于 2019-5-6 19:48
    ' J8 |# K. W! S是fq这个插件不够好吗……直接把词条转为utf-8的txt导入anki,建几个字段用fq查询不就是了,而且css格式也 ...

    6 P$ W9 p5 g5 Y8 `这个要词典本身支持才可以的,目前很少这样的词典。楼主说的是匹配短语,不是单词。(具体见我前面的帖子)
  • TA的每日心情
    奋斗
    2023-12-14 15:58
  • 签到天数: 874 天

    [LV.10]以坛为家III

    发表于 2019-6-12 07:27:20 | 显示全部楼层
    本帖最后由 xusorn 于 2019-6-12 07:31 编辑 ! Z  ^4 W! S* x( c
    脚下千 发表于 2019-6-12 03:12  Q5 I% L+ u+ s
    这个要词典本身支持才可以的,目前很少这样的词典。楼主说的是匹配短语,不是单词。(具体见我前面的帖子 ...

    # i/ o" Y7 J5 }我看清了问题,论坛的韦氏,朗文,牛津的词组不够你用吗?至少我用fq把vocabulary前1000的都查到了, v9 ^  W2 H7 p+ |5 b. I1 ?
    . j9 f* q! z7 t2 K( m
      ?. p' X: I: @  h' ~! y

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    擦汗
    2021-11-13 00:18
  • 签到天数: 119 天

    [LV.6]常住居民II

    发表于 2019-6-12 13:05:01 | 显示全部楼层
    本帖最后由 脚下千 于 2019-6-12 13:15 编辑
    , K" ?0 T( u; w) H% ?
    xusorn 发表于 2019-6-12 07:27
    $ q% K, v. H0 |' {' D" _我看清了问题,论坛的韦氏,朗文,牛津的词组不够你用吗?至少我用fq把vocabulary前1000的都查到了
    / L+ A' c0 k$ ~
    。。。
    ! V1 _% \( d6 K( h( O, ]6 {7 X' `/ m0 ^/ G# E' y1 i
    1. 问题中是: Vocabulary.com + Collins + 雅思 + 牛津 —— “制作成anki记忆库(反面是相应词典中该短语词组的内容)”
    - [- g# O1 z# ~3 X  }6 a3 Y
    # P) a+ I- F. y' j+ {2. 输入是"例如eat one's fill这样的短语在不同词典里的词条可能是各种形式,eat sb's fill等等等等";
    , k( b9 o7 |' c3 ^$ j. W' Q7 G/ E0 R2 v% g% N- _! X& B. V. \6 h
    3. 需求是做一个“综合”的短语库,不能说这没必要,起码楼主是需要的;而这涉及到第 2 点中的形式不同问题,至少要预处理一下2 j0 ?% l; H1 R6 G7 m4 j1 J: A
    2 B0 R5 s" V- A
    4. FastWordQuery 我首次回帖就告知了楼主
    & z) |' u# Y7 X7 {- B. C" V* g
    7 b  Q: ]  ~& ?! W5. 我不是楼主5 u4 q9 J. \4 F& ]3 Z$ m
  • TA的每日心情
    奋斗
    2023-12-14 15:58
  • 签到天数: 874 天

    [LV.10]以坛为家III

    发表于 2019-6-12 15:38:31 | 显示全部楼层
    脚下千 发表于 2019-6-12 13:05) C& K+ L+ i8 @3 N& ~; `
    。。。
    + l* `7 U4 i8 U/ ]" r' M3 |. H7 k3 e, {5 {: w2 F3 J- `, }3 q3 l! x
    1. 问题中是: Vocabulary.com + Collins + 雅思 + 牛津 —— “制作成anki记忆库(反面是相应词 ...
    * Z+ u3 Y8 i! Z, [* t* i* R
    我上一条是在回复你回复我的“这个要词典本身支持才可以的,目前很少这样的词典。楼主说的是匹配短语,不是单词。(具体见我前面的帖子)”! K% A+ u& {7 R7 ^# M* r% D
    我回复楼主的是匹配词组,你说我是回复匹配单词,所以我进行了回应。
    9 ^2 Y% n2 `7 v% {( W你说目前词典少,所以我就把论坛可以查的词典多告诉你了。9 l3 k+ x0 H9 y" t/ N, A
    结果你和我扯什么形式,什么综合,搞得我好像没看清提问一样,而且你告知了和我有什么关系,我一开始就没回复你,是你在回复我,说我查的不是词组是单词啊。。。
  • TA的每日心情
    擦汗
    2021-11-13 00:18
  • 签到天数: 119 天

    [LV.6]常住居民II

    发表于 2019-6-13 11:00:17 | 显示全部楼层
    本帖最后由 脚下千 于 2019-6-13 11:09 编辑 % q# x( g+ r( H9 p! i# `# f
    xusorn 发表于 2019-6-12 15:381 B* u& B9 f( ~" G8 ^3 C8 Z
    我上一条是在回复你回复我的“这个要词典本身支持才可以的,目前很少这样的词典。楼主说的是匹配短语,不 ...

    2 `  I2 E- E2 V' [" Z4 P) L2 \; n之前回复你是看到你的用词—— 什么“不够好吗,……就是了,……就是了” 才回复的,另外当时你的图片也没显示出来(也许是论坛原因),我表达能力低下,想让你去看我之前写的内容 ,但因为 我懒,我笨,我没写清楚,我标点符号不会用,最后让你觉得我在说你用它来匹配单词而不是短语 —— 的确,我 这个 sb 怎么知道 fq 原来也可以匹配短语 ?!5 C% R* F3 M3 d2 E* Q( _* E* \
    ' ~' B" B( @$ V4 A& y! O( c+ e* ]
    算了,我是 sb,这里不是 StackOverflow,论坛发帖不需要看别人回帖。不再继续争论。我是 sb。
  • TA的每日心情
    奋斗
    2023-12-14 15:58
  • 签到天数: 874 天

    [LV.10]以坛为家III

    发表于 2019-6-13 13:14:48 | 显示全部楼层
    脚下千 发表于 2019-6-13 11:00
    ' D4 K8 g2 O, R% M0 l% w之前回复你是看到你的用词—— 什么“不够好吗,……就是了,……就是了” 才回复的,另外当时你的图片也 ...

    : f: Y+ @3 \$ c" h# ]3 y图片应该是是之前服务器出了问题,我一开始就不认为查询这些词组不是特别困难的事情,但如果我的措辞对你产生了困扰,我对你表示抱歉。刚刚把你的回复完整的看了一遍,我个人认为你可能是想把词条统一形式表达,然后进行合并去重再统一查询,不知道是不是这样,如果是是的话,我个人认为存在三个需要考虑之处
    . T) }. N* D# C1.工作量对于我和一般的不会Python的用户来说,应该不算小,因此可行性不高,或许程序员可以解决这个难题。' q0 B9 |8 B' k0 Q+ P
    2.如果统一了形式,再进行查询,是否能够查询得出,因为每个词典的表示不同,那么同一个形式是否能在多个词条查询出结果,这也是一个需要考虑的问题。; W" `( `1 _- e+ [* j. O
    3.此外,每个词表的来源词典不同,因此导致词频及常用性的统计也不相同,合并后是否能够兼顾这些?: B2 q+ K4 i1 l' d; V$ m
    因此我觉得,如果仅仅是为了去重而大费周章的改形式的成本远大于收益,所以我建议直接用多本词典进行查询或许是更好的选择,我已经制作出来了,比把制作流程发到了论坛,如果有兴趣,也可以看看[【展示+制作教程】根据高频短语词组制作anki记忆库教程https://www.pdawiki.com/forum/fo ... hread&tid=34820]
  • TA的每日心情
    开心
    2022-4-20 08:22
  • 签到天数: 23 天

    [LV.4]偶尔看看III

    发表于 2020-9-26 07:50:41 | 显示全部楼层
    好高深的样子
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-4-24 00:23 , Processed in 0.077898 second(s), 9 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表