再谈谈生词本

ipda_cluo · 发表于 2019-1-9 14:37:20

本帖最后由 ipda_cluo 于 2019-1-10 10:21 编辑

今天真的是超级闲，再发一个我平时用来整理生词的工具，供大家借鉴。
背景：
我使用欧陆词典唯一的原因就是，这玩意带一个云端生词本，可以把我在手机上、电脑上，pad上看资料，看书等查过的单词记录下来。这就解决了我制作自己生词本的最基本攒词的问题了。
攒了一段时间生词后，接下来就得背这些单词，我我是懒癌患者，指望我记笔记整理生词是不可能的。所以我选择了用知米背单词，扇贝单词这类app，把我的生词本导进去背诵，这样既省力，又容易坚持，还可以借用app所谓的“科学记忆法”。
但问题来了，如果有人看过自己查词记录就知道，查过的单词是需要整理的，没整理前的查词记录有这些问题：
1，有些查过的单词根本不是单词，比如人名，比如拼写错误等等，把这些单词当做生词背下来那可真是天理不容。
2，很多单词各种变体，比如ing形式，ed形式等等。虽说有些时候背诵这种形式也很有用，但还是力气实在刀刃上，源词都没背下来，你去背ing形式干嘛？
3，词频过低，有些单词可能是个组合词，或者使用率极低的词，及时背完了，以后一辈子都用不到，跟没背一样。也会忘记。

So，怎么解决呢？

1，导出生词本，这个大家研究一下欧陆词典，应该都会
2，清洗生词本
a）去除不存在的词。方法比较简单，在词典里查一下，如果查不到，那就是不存在的词。
b）还原到变体前形式，这个有意思了，混这个论坛里的人，如果我和你们说说直接把单词后面的ing，ed字母去掉，肯定会骂我的。大家可还记得有道在线词典查这种词的结果？

看，对于这种单词，有道翻译后面一般都会有一个 xxx的yyy形式。对，这里xxx就是源词。
那剩下的就简单了，有道查一遍，找到那个xxx就可以啦。
  c）去除重复，之前做了还原，肯定有很多重复的单词
  d）根据词频排序，筛选
   与去除单词方法一样，很多词典里面都包含了词频数据，找到后做个排序就可以了。
3，导入到背单词工具里面，退出懒人模式，开背。

方法有了，剩下的就是写工具来搞定啦，人肉一个个查肯定要吐血的，安装python，复制如下代码到文件里，改名为py

import pandas as pd
$ i$ ~4 l% c Q. J2 x: E" N
import numpy- u5 a0 g+ L' z' _2 W& B. R
import ydcv
. x* M/ J& A7 ]$ l
import sys; q( ^1 c, m4 `0 c n; Y
sys.path.append('./mdictlib')
' z$ x- L& U) m* `2 K
from mdict_query import IndexBuilder
4 s3 y2 ~2 t* H) [
builder = IndexBuilder('./Collins.mdx')
4 d4 {4 U% V7 d) f
0 @2 G! h" u7 R4 o d
def has_explains(result):
2 ]5 P1 B2 o) _+ J
return ('basic' in result) and ('explains' in result['basic'])8 \6 I/ M7 y6 T5 E
" X/ l, [. b6 J/ d8 A4 ]* U+ q
def get_explian_from_result(result):
( z' o" u% a3 [& T# u. L" U
if not has_explains(result):
; q8 ]$ O3 t& o3 v% _
return '', Q" B( Q' ^' `: L
return ';'.join(result['basic']['explains'])" m$ Q9 r$ Y: w" t0 N1 e- r
; I3 A% _) p ?3 M& t: J) y. k
def translate_from_yd(word):4 ^+ D$ c# H6 a1 e- P5 Q) R
result = ydcv.lookup_word_inner(word)
$ L$ S9 }8 [! y4 b
return result
' R9 O. n! [. @, Y* d
$ p& _- w1 ^/ f2 n% j% W R
def if_in_collins(word):
& ^3 H+ D8 R$ {4 m! ?% }4 X+ W8 }4 u
return len(builder.mdx_lookup(word)) > 0! t; N4 z6 W6 v+ R) |, L; P
) Y2 Y* |/ L' h, u& j: z: S
df1 = pd.read_csv('./2018.12.20-wordbook-neat.txt',names=['worlds'])
' u1 ?* g" O1 R* j2 T: l1 X9 M
df1 = df1.sort_values(by = 'worlds')
6 m& d& Q- O7 e9 D6 c3 H
df1['yd_explain'] = df1['worlds'].apply(lambda x :translate_from_yd(x)): D4 h4 `" {; I3 j1 C
df1['expalins'] = df1['yd_explain'].apply(get_explian_from_result)
+ z) Y' j K9 Y; ^7 N# ~# Z
origin_word = df1['expalins'].str.extractall(r'[（$]([a-z]+)的.*[）$]').unstack()+ K1 a! Z h2 Z4 }6 s
df2 = df1.copy()
" W6 w3 H& U6 k" a& F
df2.loc[list(origin_word[0].index)] = origin_word[0]
4 X. C# Q" [. f; p1 X0 r
df2 = df2.reindex(columns=['worlds','expalins']); e9 E: m% r" i
df2 = df2.drop_duplicates('worlds')
2 M' N0 ` l* n
df_not_in_collins = df2[df2['worlds'].apply(lambda x: if_in_collins(x))]
# Z% o1 \7 u) d
* W( C' K8 }+ l/ q- d4 A
df1.to_json('./words_queried_by_youdao.json')
: Y5 L7 \, P8 [9 W5 R2 D9 Y
df_not_in_collins.to_csv('./df_not_in_collins.csv')5 L' A3 b, n! x
) @4 a7 e! U1 J P S1 D
df_not_in_collins['worlds'].to_csv('./neat_word_list.csv')+ B& S2 y. R* Q+ |. w2 y) q: q: V! y8 ^

复制代码

然后运行，就可以看到清洗过的单词啦。

PS：这个工具需要有些依赖解决，有一定python基础的可以通过看导入的模块来猜出依赖。没有基础的不要着急，我有时间整理好后会放到github上，给小伙伴们提供使用。
除了依赖以外，需要自己有一个用于排除无效词的mdx文件，这里我用的是柯林斯词典。

So，enjoy

======================================================================

updae
好像有朋友再尝试代码的时候遇到些问题，我深知调试别人代码是多么恶心的事情，为了节省各位的时间抽时间整理了一下代码放到了git hub上：
参见： https://github.com/zam5607822/word_book

几点说明：
1，由于我自己的环境是基于jupyter，所以也上传了ipynb文件，大家有喜欢用jupyter的也可以用这个。不使用jupyter的，直接使用wordbook.py即可。
2，为了方便大家，增加了依赖说明文件：requirements.txt ，各位在第一次运行代码的时候，使用 pip install -r requirements.txt 安装一下依赖即可
3，为了方便大家测试，准备了一个示例生词本：2018.12.20-wordbook-neat.txt可以替换成你的
4，同样也上传了一个默认词典文件：Collins.mdx
5，有道词典的接口是需要一个token的，获取的方法可以自行百度，我的token被我隐藏掉了。自己获取到token后，替换掉ydcv.py文件中的28,29行换成你的token。

enjoy

807847958 · 发表于 2019-1-9 15:06:54

感谢楼主分享，先码住收藏一下，以后学习

jonah_w · 发表于 2019-1-9 15:47:40

本帖最后由 jonah_w 于 2019-1-9 16:20 编辑

大赞代码流。

不过我的思路跟你好像不大一样，我是查了单词以后，看到好的释义或者例句，会很愿意及时通过我在这篇帖子：【整理版】几种好玩的查词典方式
https://www.pdawiki.com/forum/thread-31879-1-1.html?x=294297 里分享的方法记录下来。但让我后续再洗数据，这个我就懒得做了（也没必要洗了，因为当初放进去的就是完美版

）。
那么记录下来以后怎么办呢？我不会去用市面上的一些背单词软件。我的想法是想自己开发一个app，去从印象笔记里获取这些数据，然后展示，各种媒介上展示（这还只是想法，因为懒… 还没有去实施。）相当于自己做一个记单词软件的样子，但应该会有不同（具体怎么不同，就先不说了）。

另外说下对背单词的看法，我觉得单词没必要特意背，只需要去查就好了，expose自己到词典的海洋里，我也不会逼迫自己当时必须记住，我只要求自己有一点印象就好了，后面要做的事情就是持续不断的expose自己到这些查过的单词。现在做的还不是很好，但想法就是上面的想法，一直还没有实施。

下一步就是把我这些年记在印象笔记里的1万多单词笔记合理利用起来。
但一直懒…

目前虽然回顾比较少，但好在一个单词如果真的重要一定会出现很多次的，查的次数多了自然就记住了。

另外，我不喜欢欧路词典。

大爱 GoldenDict + EbMac + 深蓝

显示全部楼层 · 发表于 2019-1-9 16:01:01

mdict_query module 是不是该发上来？

zhin · 发表于 2019-1-9 16:39:14

我倒是觉得无所谓，毕竟是少数情况。而且复习的时候也能明显看出。

ipda_cluo · 发表于 2019-1-9 16:48:55

bbs 发表于 2019-1-9 16:01- v; o% N5 f3 V/ i
mdict_query module 是不是该发上来？

git上的模块，可以自行下载：https://github.com/mmjang/mdict-query ， https://github.com/felixonmars/ydcv

ipda_cluo · 发表于 2019-1-9 16:56:03

jonah_w 发表于 2019-1-9 15:47
7 G8 y7 Y: |1 Z2 N大赞代码流。$ D: Y/ l+ @' s& f) T4 b
$ T6 O7 J! v$ D7 i
不过我的思路跟你好像不大一样，我是查了单词以后，看到好的释义或者例句，会很愿意及时通过 ...

我深思也实践过不去特意背诵这种方法，对我来说有几个弊端：
1，如果不想打断阅读思路一般会迅速撩一眼意思然后接着往下读。这种情况对于我来说会经常对所查的单词毫无意向。
2，更重要的是，不会仔细回味琢磨单词的发音和发音结构。我个人认为单词发音是一定要弄清楚而且不可以出错的。
不过也无所谓啦，各有各的路。自己相信的路才是最好的

ipda_cluo · 发表于 2019-1-9 17:04:26

zhin 发表于 2019-1-9 16:391 `( P$ N$ J0 C# \ d; X( m
我倒是觉得无所谓，毕竟是少数情况。而且复习的时候也能明显看出。

开始我也是觉得无所谓的，后来发现十分影响心情~

显示全部楼层 · 发表于 2019-1-9 17:39:46

ipda_cluo 发表于 2019-1-9 16:480 u( _/ Z. ~" P+ J, N
git上的模块，可以自行下载：https://github.com/mmjang/mdict-query ， https://github.com/felixonmars ...

奇怪了。如下报错。

Traceback (most recent call last):
  File "C:\Users\Administrator\Desktop\words\words.py", line 32, in <module>
df1['yd_explain'] = df1['worlds'].apply(lambda x :translate_from_yd(x))
  File "D:\Python27\lib\site-packages\pandas\core\series.py", line 3194, in apply
mapped = lib.map_infer(values, f, convert=convert_dtype)
  File "pandas/_libs/src\inference.pyx", line 1472, in pandas._libs.lib.map_infer
  File "C:\Users\Administrator\Desktop\words\words.py", line 32, in <lambda>
df1['yd_explain'] = df1['worlds'].apply(lambda x :translate_from_yd(x))
  File "C:\Users\Administrator\Desktop\words\words.py", line 24, in translate_from_yd
result = ydcv.lookup_word_inner(word)
AttributeError: 'module' object has no attribute 'lookup_word_inner'

bob123 · 发表于 2019-1-9 17:57:46

这个思路不错，手动整理一大堆生词确实花时间。

zera · 发表于 2019-1-9 18:11:34

点赞！存着以后用

jonah_w · 发表于 2019-1-9 18:17:42

ipda_cluo 发表于 2019-1-9 16:56
2 J0 w) N' g3 @8 S& ^7 y我深思也实践过不去特意背诵这种方法，对我来说有几个弊端：
7 \' [' H- D; Y; E" B! w1，如果不想打断阅读思路一般会迅速撩一眼意 ...

我主要靠上下文去判断一个生词的意思，不可能每个生词都去查的。这样也失去阅读的意义了。如果一个单词连续出现多次，那么我会查一查。

龙狐 · 发表于 2019-1-9 20:16:00

厉害，小白过来学习

ipda_cluo · 发表于 2019-1-10 10:23:07

bbs 发表于 2019-1-9 17:395 F$ l3 V: p7 K/ A3 E- _2 @* d9 U3 I
奇怪了。如下报错。
: |' X3 s6 x& y) t1 P1 I7 ^' D6 J- Y: S W9 f
Traceback (most recent call last):

已经传到了git上，可以在试试看。
这回能省点事情。

807847958 · 发表于 2019-1-10 12:15:18

请问大佬，为什么大家都不直接用欧路词典背单词呢

庄胜文66 · 发表于 2019-1-10 14:49:27

楼主，你这个代码的作用，是将变体单词自动还原成原形？

endotw · 发表于 2019-1-10 21:01:54

膜拜一下，但是，怎么把单词本导入扇贝呢？

PDAWIKIjason · 发表于 2019-1-10 22:42:02

不错的用法，谢谢楼主高手

听海的声音 · 发表于 2019-1-11 20:45:24

跟牛人学牛招！

xinwanliu · 发表于 2019-1-13 16:22:30

能自己编辑笔记，还能同步，也挺不错的

		自动登录	找回密码
密码			免费注册

[经验交流] 再谈谈生词本

本帖子中包含更多资源

评分

本帖被以下淘专辑推荐: