如何从txt文本中提取同等学力大纲词汇范围内的词条?
各位大侠,高手:我有了牛津双解词典的txt格式的源文件,想做一个专门学习同等学力词汇的词典。所以想提取同等学力大纲词汇范围内的大概5-6千词汇。请问,如何做呢?有什么技巧和软件可以较快速的实现啊?!不要让我一条条查找复制啊!工作量太大了!
此贴的前世是:https://pdawiki.com/forum/thread-10470-1-1.html( 如何从《牛津英汉双解词典》中提取“同等学力大纲词汇“做成专用词库?!) 有好多方法可以一次性提取所需文本,可以使用cygwin也可以使用powergrep等,效率就是几秒钟的事。加油! 有好多方法可以一次性提取所需文本,可以使用cygwin也可以使用powergrep等,效率就是几秒钟的事。加油!
menglongma 发表于 2013-2-4 11:07 https://pdawiki.com/forum/images/common/back.gif
能不能再具体一点点,上次有位大侠说cygwin可以,询问了度娘,可惜没找到有用信息啊!那位大侠说的也不很具体!我还是新手啊,摸索的不容易啊,玉口良言,多说几句啊,对我等求知路上帮助无限啊!公德无量啊,阿弥陀佛! 本帖最后由 humoryou 于 2013-2-6 05:38 编辑
能不能再具体一点点,上次有位大侠说cygwin可以,询问了度娘,可惜没找到有用信息啊!那位大侠说的也不很具体!我还是新手啊,摸索的不容易啊,玉口良言,多说几句啊,对我等求知路上帮助无限啊!公德无量啊,阿弥 ...
humoryou 发表于 2013-2-6 05:29 https://pdawiki.com/forum/images/common/back.gif
menglongma,原来再另一个帖子里回答的也是你!;-)谢谢!您就再多说两句吧! 我知道怎么弄,前提是你要有你的那个同等学历大纲的词汇表。
我和你的情况比较像,我想背GRE词汇,发现新牛津双解词典比较好,解释精准,且有词源阐述,帮助记忆,于是从网上找了一个GRE红宝书的词汇txt,把新牛津双解词典用工具反编译,得到词典的txt文本,然后写一个python脚本,这个脚本从GRE词汇的txt里读取第一个词汇,然后以这个词汇去词典txt里找这个词的解释,找到后把这个词条写入一个文件,如此反复,直到把GRE词汇txt里的所有词汇都从词典里找出并写入到一个单独的文件里,同时这个脚本会每写到100个词汇就从新开一个文件,这样就形成了很多个单词list,每个list里100个词汇,最后用epub工具制作成epub格式的电子书,然后放到手机里,用多看阅读打开,就可以随时随地用手机背牛津版的GRE词汇啦! 这个不错啊,有实用性。 jungshin 发表于 2013-3-21 21:22 static/image/common/back.gif
我知道怎么弄,前提是你要有你的那个同等学历大纲的词汇表。
我和你的情况比较像,我想背GRE词汇,发现新牛 ...
能分享您的脚本吗?谢谢。我的邮箱:ok927@126.com
页:
[1]