掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 1444|回复: 13

[求助] 请教 Python + NLTK

[复制链接]

该用户从未签到

发表于 2016-6-30 22:05:05 | 显示全部楼层 |阅读模式
有谁能教教怎么使用Python + NLTK吗?

该用户从未签到

发表于 2016-6-30 22:28:14 | 显示全部楼层
装一个集成各种科学库的PYTHON发行版就行,比如winpython,用官网的版本就非常麻烦。

该用户从未签到

 楼主| 发表于 2016-7-1 07:14:56 | 显示全部楼层
fnaviwwo1 发表于 2016-6-30 22:28- U; Q# o% H) F0 H4 S0 f7 I
装一个集成各种科学库的PYTHON发行版就行,比如winpython,用官网的版本就非常麻烦。
+ a; m7 C- a% e
好的 谢谢 试试看

该用户从未签到

发表于 2016-7-2 15:33:16 | 显示全部楼层
想用nltk弄一个考试真题例句词典。。。。

该用户从未签到

 楼主| 发表于 2016-7-3 02:18:52 | 显示全部楼层
fnaviwwo1 发表于 2016-7-2 15:33
- V4 ?4 u, q* t3 l2 ]! U9 ?想用nltk弄一个考试真题例句词典。。。。

4 b: U3 _- M: F! ^大概会是什么样式的?有题库了吗?

该用户从未签到

发表于 2016-7-3 06:57:43 | 显示全部楼层
lxchen2001 发表于 2016-7-3 02:18% K, B0 U8 @& E% ^
大概会是什么样式的?有题库了吗?
* L# _5 z" O- ~' }8 U0 X
目前收集了托福tpo,雅思剑4-10,还有一些国内考试的题目。。。正好看到nltk有个分词断句模块。。。我想拿句子做headword然后句子里的每个单词设置@@@link ,vocabulary.com 的语料库偏报纸,而考试的文章以新闻杂志和学术杂志为主了,两者文风不完全一致。。。对了,不知道国外公开课的字幕能不能当语料库啊。。。我想这些东西如果是私下用是可以的。

该用户从未签到

 楼主| 发表于 2016-7-3 15:54:10 | 显示全部楼层
雅思托福如果能写出报刊的局势和文法,应该足以。:-)
- |6 e# x. W$ A5 c1 X
+ h( {7 ?4 f7 E/ |/ w6 S有个英国学术语料库,可以免费下载:http://ota.ox.ac.uk/text/2539.zip 收集了2761篇学术文章(500-5000个字)。如何导入到NLTK? 并且比较容易展示出来?/ v9 O  r- Q# x# s$ I- M
: w  P- ~) Y& A" o, Z9 u5 @( D" }. l' E
字幕语料库,自用的肯定没问题。

该用户从未签到

 楼主| 发表于 2016-7-3 23:43:37 | 显示全部楼层
fnaviwwo1 发表于 2016-7-3 06:57- R4 h2 M$ Y$ q# I5 K0 y& \
目前收集了托福tpo,雅思剑4-10,还有一些国内考试的题目。。。正好看到nltk有个分词断句模块。。。我想 ...

- H  E/ G- _. B4 q看了一下您说得的,但觉得有几个地方需要考虑 。
" p  v5 J; h3 Y1 J6 h+ M% P1 N; K& O, V* S: p& w
- 有些句子很长,可能是40-50个词,这种情况下怎么 处理?
' z. b/ Y3 r! X8 D- A- 简单单词, 高频率的单词,如the, a, this, 这样的情况怎么处理?

该用户从未签到

发表于 2016-7-4 00:52:23 | 显示全部楼层
本帖最后由 fnaviwwo1 于 2016-7-4 00:59 编辑
3 z/ E) f4 E/ ]+ |
lxchen2001 发表于 2016-7-3 23:43
% ^% _4 V" g  T) n" e9 l看了一下您说得的,但觉得有几个地方需要考虑 。: _2 R4 c- F. `( H( q. \9 p
# W8 u+ q' X; N" W
- 有些句子很长,可能是40-50个词,这种情况下怎么  ...
2 u5 J6 p) L4 S

& P2 y2 S3 b6 I$ X8 B8 z我就是说说想法啦,希望能和您一同探讨可行性。- n1 a8 M. j* I, \& {' D
. b* ^5 P8 H, |" H* S1 v& Q
3 E! [9 Z5 q- g( k. r
之前看到论坛里有大神做过国内考试真题的词典,感觉效果非常棒。
4 p7 l: V1 X- Y: j: m[取自考研英语真题]1997-2015年真题单词、词频、意思及其例句# x) s" ]& H2 h
也看到有大神做过新概念英语的词典。
0 u2 z' k0 c, `1 M[英-英] 新概念英语全文句库. @# ~) m& R9 X. _" W  r: q0 G* q
) P, n4 E+ Q* @) _
简单词的问题,nltk有个stopwords列表,这些词不要
! t3 q0 ~/ M4 t
  1. >>> from nltk.corpus import stopwords
    & J- y. L1 j( G4 L5 p8 b
  2. >>> stopwords.words('english')3 d: F( p0 y  U6 e; O. ]% N
  3. ['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', 'your', 'yours',
    % T# A, k) m* |- x9 A9 M9 \  F: I
  4. 'yourself', 'yourselves', 'he', 'him', 'his', 'himself', 'she', 'her', 'hers',8 ?/ }: V; u$ u+ U
  5. 'herself', 'it', 'its', 'itself', 'they', 'them', 'their', 'theirs', 'themselves',) J5 v* S) ~5 \
  6. 'what', 'which', 'who', 'whom', 'this', 'that', 'these', 'those', 'am', 'is', 'are',9 z5 A7 c: f  H/ v7 k6 X3 c. Q
  7. 'was', 'were', 'be', 'been', 'being', 'have', 'has', 'had', 'having', 'do', 'does',# s! a7 T# P' p$ I. \8 z1 l/ J: U
  8. 'did', 'doing', 'a', 'an', 'the', 'and', 'but', 'if', 'or', 'because', 'as', 'until',  d! Z# x/ j5 n% }
  9. 'while', 'of', 'at', 'by', 'for', 'with', 'about', 'against', 'between', 'into',# u, d8 W: {: O; S
  10. 'through', 'during', 'before', 'after', 'above', 'below', 'to', 'from', 'up', 'down',7 C9 r9 z' O# ^% J8 \
  11. 'in', 'out', 'on', 'off', 'over', 'under', 'again', 'further', 'then', 'once', 'here',
    . e( n0 k7 G! w# `4 J. S+ H
  12. 'there', 'when', 'where', 'why', 'how', 'all', 'any', 'both', 'each', 'few', 'more',! x% l2 V7 \. w+ N" y
  13. 'most', 'other', 'some', 'such', 'no', 'nor', 'not', 'only', 'own', 'same', 'so',! v5 g* {5 `4 N" C+ t3 c+ `1 @! |
  14. 'than', 'too', 'very', 's', 't', 'can', 'will', 'just', 'don', 'should', 'now']
复制代码
0 j5 Q6 \, p' {! {2 D$ s

7 g) m( x/ w3 z- j' c- m关于词典的布局,因为特定于某一们考试,句子的数量虽然大但是还是很有限。: Q5 ?. m  |/ j# u
确实每个句子会有很多词(还包括词型变化),如果每个句子都放到他出现的单词下面会有很多冗余。
$ m- S0 j" V* Y/ k  ~$ h感觉可以设置很多不存在的词条来放句子,比如 id_0001->一个句子,这样子。
$ h3 r2 w* b. F0 W% ^然后利用mdict的@@@link功能,句子里的每个单词都连接到句子,mdict会直接显示链接后的结果的。
& m& R0 |3 P# |- F
6 m. X5 h/ @5 U' ~! x% c, H8 _这些冗余因为mdx是压缩保存的,我觉得重复的问题也不是不大。
2 N. X2 M' p* }& e% t7 w, A7 D. E( b* v8 S! @& s' A2 N9 Y
通过不同的单词下重复若干经典例句,会给单词留下非常深刻的印象,个人感觉比直接背孤立单词(特别是释义很长的时候)有效果。; V3 ~: N( S  f0 M7 B
5 O+ @# A1 s. W. N4 O9 T
题外话:
7 |% m( `' r, {: Q4 E新东方的有些单词书例句看着真不爽,感觉怪怪的。

该用户从未签到

 楼主| 发表于 2016-7-4 17:14:12 | 显示全部楼层
本帖最后由 lxchen2001 于 2016-7-4 17:24 编辑
1 m3 X; z8 g" V# h. _4 T+ S! S, ^% X
fnaviwwo1 发表于 2016-7-4 00:52
( w. F! n6 E2 K9 G) }我就是说说想法啦,希望能和您一同探讨可行性。
+ V2 @* h& ~, }7 f

0 ?& x  G, E8 _) m谢谢分享
2 _  A9 V) {. U. z9 [& ^3 G8 {. ^+ }' O8 _1 k- z
学习中 ......  stopwords 还没学到  很棒的功能 我还想着自己去列出呢

该用户从未签到

 楼主| 发表于 2016-7-4 20:52:04 | 显示全部楼层
fnaviwwo1 发表于 2016-7-4 00:52
: B9 x/ o+ j# T1 k我就是说说想法啦,希望能和您一同探讨可行性。
. l4 O% N/ g& E7 \! q
试用了一下stopwords, 觉得不是很方便,需要自己外加很多词,可能从词频中选出高频词比较方便。/ e5 S1 `! y* Q4 I4 R' C
. p! S+ x; N7 j' m: e( g, l
标点可以用 string.punctuation 加入$ l) s% {1 j: i% y1 A) ~0 K& N

0 W3 F2 i4 X& i! K2 J- B& P" @% c遇到的问题有些词在stopwords list中,却仍被tokenize. 中横线'-'也是。

该用户从未签到

 楼主| 发表于 2016-7-5 23:37:24 | 显示全部楼层
本帖最后由 lxchen2001 于 2016-7-5 23:48 编辑 ' J) M% ]0 p: {9 d0 [! D

2 A: c# h9 O2 ~琢磨出来了:1 B- B: \. B' z; V
; b. b5 a4 `- E" {+ m$ J1 i* k$ S
1.文档放入nltk_data
2 m$ m# j) ?# L( b0 X: p: m2. 修改 __init__.py 就能导入自建的语料库4 f( @  h' ]2 j0 V& d

& R. K  A+ z8 J- f这样方便很多不用自己再去建个数据库, 特别是那些XML语料库,格式已经很规范了
2 m" \% s" S8 {1 x
) _% s$ m/ A$ V+ V下一步,考虑怎么去将数据呈现出来

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?免费注册

x

该用户从未签到

 楼主| 发表于 2016-7-13 23:25:39 | 显示全部楼层
本帖最后由 lxchen2001 于 2016-7-14 01:56 编辑
3 Y) T, q$ p% B3 H
fnaviwwo1 发表于 2016-7-4 00:52
  V$ K5 z! X: c7 M我就是说说想法啦,希望能和您一同探讨可行性。
3 l% [3 C% z& s: M
7 G! _/ ~& A3 O+ y0 S& ^
我这些天看了一下这个,用Python应该可以做到想要的,有没有NLTK其实都没太大关系。( [! N- L2 |$ T$ }- }4 W
& w. B* ]5 ~! V4 d5 n% l
1. 语料库 - 文字档- i% b! `! a$ R$ r  J
2. 自配一套单词表:比如初中的、高中的等等. r& o+ `2 K9 k
3. 单词一个个去搜,找到了就存档:单词加例句% v, S9 C3 Q- D# ~
; D* _# q9 w3 V$ ]
可能不是很有效率 但能够做成想要的。. Y: \' z* V( Q8 d& W. e3 f) s+ V, e
6 s9 b& U, p8 ~
用NLTK的好处包括
! I& t& |4 V8 Z8 E; U1. 能够从句子中提出单词原型,倒是有个疑问,怎么从原型和变型的词去匹配呢?" J& r$ z& b: s- w! ^
2. 可以训练,比如 Mr. Jones, 不要在Mr.的句号断开句子

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?免费注册

x
  • TA的每日心情
    郁闷
    2020-5-16 17:43
  • 签到天数: 49 天

    [LV.5]常住居民I

    发表于 2019-5-1 19:43:37 | 显示全部楼层
    从学英语向学编程转化了,呵呵
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2025-5-12 12:02 , Processed in 0.022187 second(s), 22 queries .

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表