掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 1447|回复: 13

[求助] 请教 Python + NLTK

[复制链接]

该用户从未签到

发表于 2016-6-30 22:05:05 | 显示全部楼层 |阅读模式
有谁能教教怎么使用Python + NLTK吗?

该用户从未签到

发表于 2016-6-30 22:28:14 | 显示全部楼层
装一个集成各种科学库的PYTHON发行版就行,比如winpython,用官网的版本就非常麻烦。

该用户从未签到

 楼主| 发表于 2016-7-1 07:14:56 | 显示全部楼层
fnaviwwo1 发表于 2016-6-30 22:281 T9 A1 Z, [& y/ S. ]) q' Z! Z
装一个集成各种科学库的PYTHON发行版就行,比如winpython,用官网的版本就非常麻烦。
7 H, P$ y; M6 |$ f. U+ _- H
好的 谢谢 试试看

该用户从未签到

发表于 2016-7-2 15:33:16 | 显示全部楼层
想用nltk弄一个考试真题例句词典。。。。

该用户从未签到

 楼主| 发表于 2016-7-3 02:18:52 | 显示全部楼层
fnaviwwo1 发表于 2016-7-2 15:33  S9 R0 y- m/ Y
想用nltk弄一个考试真题例句词典。。。。
$ ]5 z" ~) Y9 B0 V8 c9 e
大概会是什么样式的?有题库了吗?

该用户从未签到

发表于 2016-7-3 06:57:43 | 显示全部楼层
lxchen2001 发表于 2016-7-3 02:182 l5 m; n: c4 J+ l# W3 _9 w
大概会是什么样式的?有题库了吗?

' A* p& m5 ]! W6 |/ M目前收集了托福tpo,雅思剑4-10,还有一些国内考试的题目。。。正好看到nltk有个分词断句模块。。。我想拿句子做headword然后句子里的每个单词设置@@@link ,vocabulary.com 的语料库偏报纸,而考试的文章以新闻杂志和学术杂志为主了,两者文风不完全一致。。。对了,不知道国外公开课的字幕能不能当语料库啊。。。我想这些东西如果是私下用是可以的。

该用户从未签到

 楼主| 发表于 2016-7-3 15:54:10 | 显示全部楼层
雅思托福如果能写出报刊的局势和文法,应该足以。:-)
, k& j/ Y. x% D
6 ^+ ~2 o& j) d有个英国学术语料库,可以免费下载:http://ota.ox.ac.uk/text/2539.zip 收集了2761篇学术文章(500-5000个字)。如何导入到NLTK? 并且比较容易展示出来?* X5 a3 d0 F4 z/ n/ n4 z! N, `

4 `( C1 W0 q  C' Y& c" N字幕语料库,自用的肯定没问题。

该用户从未签到

 楼主| 发表于 2016-7-3 23:43:37 | 显示全部楼层
fnaviwwo1 发表于 2016-7-3 06:57
% x% U+ M9 p( h; d$ ~3 f' @1 i# z- c9 a目前收集了托福tpo,雅思剑4-10,还有一些国内考试的题目。。。正好看到nltk有个分词断句模块。。。我想 ...
4 c+ _7 M! ?% [5 M1 J6 e
看了一下您说得的,但觉得有几个地方需要考虑 。
( Z9 e. y: z7 `: T  V( n9 L; j( P0 A  i  N- _
- 有些句子很长,可能是40-50个词,这种情况下怎么 处理?. J! V# u7 F( T7 h
- 简单单词, 高频率的单词,如the, a, this, 这样的情况怎么处理?

该用户从未签到

发表于 2016-7-4 00:52:23 | 显示全部楼层
本帖最后由 fnaviwwo1 于 2016-7-4 00:59 编辑
" k6 D. E, e! ~. T( P, s
lxchen2001 发表于 2016-7-3 23:43% j' R# N. z9 z9 C0 f6 n
看了一下您说得的,但觉得有几个地方需要考虑 。
0 C% a& ~) ?( o/ K. @; H
0 X; q9 S6 t9 ?0 P  y. d) }- 有些句子很长,可能是40-50个词,这种情况下怎么  ...

; r1 Z* r/ t: H# Z5 B4 I
8 f. [0 @! \; ^+ s/ @- Q) c# c我就是说说想法啦,希望能和您一同探讨可行性。$ S3 q, ^0 ^1 G% C

5 W& e; q7 m' M7 G) }% y( Z% d* [; d4 z
之前看到论坛里有大神做过国内考试真题的词典,感觉效果非常棒。1 B5 u% C' o; F4 p' u
[取自考研英语真题]1997-2015年真题单词、词频、意思及其例句% @, a9 Q1 ]9 @7 J  T% ]" x3 H, s
也看到有大神做过新概念英语的词典。) d/ ]1 z5 I8 D0 P! z
[英-英] 新概念英语全文句库# q0 G# E2 m1 }$ J1 S3 a; R% F
4 p/ A% }, r- N. [& S; R) W
简单词的问题,nltk有个stopwords列表,这些词不要' \. e: K9 v9 l1 v( g
  1. >>> from nltk.corpus import stopwords0 {9 P: ^) q" c1 ^7 Z. U) v
  2. >>> stopwords.words('english')
    ; q) m# s) Q& L* W
  3. ['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', 'your', 'yours',
    2 ~" ^5 P( x. M+ H# [0 R+ W2 d
  4. 'yourself', 'yourselves', 'he', 'him', 'his', 'himself', 'she', 'her', 'hers',
    ; ?1 c% W  A: C3 r
  5. 'herself', 'it', 'its', 'itself', 'they', 'them', 'their', 'theirs', 'themselves',
    4 G2 j3 B& X7 `9 P* }6 _4 r
  6. 'what', 'which', 'who', 'whom', 'this', 'that', 'these', 'those', 'am', 'is', 'are',
    - f/ x& `+ y4 S: |% E
  7. 'was', 'were', 'be', 'been', 'being', 'have', 'has', 'had', 'having', 'do', 'does',
    % a. ?' Q# ^; M; M" H* k- Q
  8. 'did', 'doing', 'a', 'an', 'the', 'and', 'but', 'if', 'or', 'because', 'as', 'until',
    $ |0 M+ g/ ]3 y* G' c+ u8 Y
  9. 'while', 'of', 'at', 'by', 'for', 'with', 'about', 'against', 'between', 'into',
    ) y, I! k6 x& T9 l- p( ]# G
  10. 'through', 'during', 'before', 'after', 'above', 'below', 'to', 'from', 'up', 'down',& I- F- T# w( `( E" X2 @$ `) L
  11. 'in', 'out', 'on', 'off', 'over', 'under', 'again', 'further', 'then', 'once', 'here',
    9 d" S! i- c1 i/ M9 ~, |
  12. 'there', 'when', 'where', 'why', 'how', 'all', 'any', 'both', 'each', 'few', 'more',
    " ]; x) N: y; p, q, C7 T7 D
  13. 'most', 'other', 'some', 'such', 'no', 'nor', 'not', 'only', 'own', 'same', 'so',) g# e4 s8 B0 X- n8 k) t0 g% I
  14. 'than', 'too', 'very', 's', 't', 'can', 'will', 'just', 'don', 'should', 'now']
复制代码
$ e  H. m9 t7 v/ L# M5 R1 `

/ v7 ?4 t$ x$ h: f" f关于词典的布局,因为特定于某一们考试,句子的数量虽然大但是还是很有限。) s" U/ B( ~0 a# J
确实每个句子会有很多词(还包括词型变化),如果每个句子都放到他出现的单词下面会有很多冗余。
/ d4 [$ |7 _" V7 T8 q感觉可以设置很多不存在的词条来放句子,比如 id_0001->一个句子,这样子。
0 z1 d* B1 p, o1 m9 }! A) E+ n然后利用mdict的@@@link功能,句子里的每个单词都连接到句子,mdict会直接显示链接后的结果的。
4 `) f" O% Q( R) X) Z% R, O
$ R; o8 ^' ]" D7 P2 e这些冗余因为mdx是压缩保存的,我觉得重复的问题也不是不大。1 x: ]8 Z( J1 r; e
8 R$ x1 y3 x# D
通过不同的单词下重复若干经典例句,会给单词留下非常深刻的印象,个人感觉比直接背孤立单词(特别是释义很长的时候)有效果。
: Z* {7 n( W3 o% E
- m) }! J. V3 n5 j题外话:# p  t5 e7 J6 b7 L4 v* }; T/ A
新东方的有些单词书例句看着真不爽,感觉怪怪的。

该用户从未签到

 楼主| 发表于 2016-7-4 17:14:12 | 显示全部楼层
本帖最后由 lxchen2001 于 2016-7-4 17:24 编辑 6 ~8 N4 B- |2 k
fnaviwwo1 发表于 2016-7-4 00:52
+ \$ J0 P$ B( @  N& B+ y3 I我就是说说想法啦,希望能和您一同探讨可行性。

! u2 X0 g! a( f0 E* q  {" U$ Z* b; j9 Y- l
谢谢分享: `/ i, Q) u/ `6 h/ D
, E; F4 N  }; z0 }6 @
学习中 ......  stopwords 还没学到  很棒的功能 我还想着自己去列出呢

该用户从未签到

 楼主| 发表于 2016-7-4 20:52:04 | 显示全部楼层
fnaviwwo1 发表于 2016-7-4 00:524 _# j3 B$ c7 t7 S5 q
我就是说说想法啦,希望能和您一同探讨可行性。
7 v, K( ~: B) z
试用了一下stopwords, 觉得不是很方便,需要自己外加很多词,可能从词频中选出高频词比较方便。
' x) M, k# l2 d' L5 K1 G
3 \1 Q( t8 b' g& {标点可以用 string.punctuation 加入9 ^* c. L& ^1 z0 }) {0 R

$ D1 V7 E/ U" ~) u( c7 r0 W# V遇到的问题有些词在stopwords list中,却仍被tokenize. 中横线'-'也是。

该用户从未签到

 楼主| 发表于 2016-7-5 23:37:24 | 显示全部楼层
本帖最后由 lxchen2001 于 2016-7-5 23:48 编辑
) ]" o9 J$ B8 K
& H  ]; x9 E* v; U. t) }' z琢磨出来了:
7 o; B& ^2 }7 g% E- I; C$ _# E" Q3 @# v  \9 z+ b  C3 b: G: b
1.文档放入nltk_data7 B3 h9 }. ~; U# i
2. 修改 __init__.py 就能导入自建的语料库2 I' n1 k6 \, l" S6 r

; S/ H; a: z4 Y9 Z! |: V1 s7 w这样方便很多不用自己再去建个数据库, 特别是那些XML语料库,格式已经很规范了" r8 Z1 M3 \5 w* p5 Z

' ^) M+ N( w! n% m5 d5 A/ `* l下一步,考虑怎么去将数据呈现出来

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?免费注册

x

该用户从未签到

 楼主| 发表于 2016-7-13 23:25:39 | 显示全部楼层
本帖最后由 lxchen2001 于 2016-7-14 01:56 编辑 0 e6 e7 L3 K5 l3 e& V
fnaviwwo1 发表于 2016-7-4 00:52, e' \# m8 f4 F9 z+ \- J5 s5 x
我就是说说想法啦,希望能和您一同探讨可行性。
! H/ x* j) r: w- x( v0 x
  Z/ X  L) K' Z: s0 E
我这些天看了一下这个,用Python应该可以做到想要的,有没有NLTK其实都没太大关系。/ {0 M2 T# h  n' H9 N1 _0 \

% |4 V- t& e# E8 U) E* T+ ?1. 语料库 - 文字档; ~. Q/ C( L* T) o+ R# C1 v
2. 自配一套单词表:比如初中的、高中的等等9 `4 \6 l; S0 U3 \+ ?# F
3. 单词一个个去搜,找到了就存档:单词加例句
: z. S! G$ Z) d& ^; u  g3 }6 e2 o0 [& c4 f7 q- a
可能不是很有效率 但能够做成想要的。
* ~( P6 e* N, e6 O7 A) |: |
; z2 W, D- h( p2 i3 O! E) _& j用NLTK的好处包括
  C! @  j. J; {7 ?1. 能够从句子中提出单词原型,倒是有个疑问,怎么从原型和变型的词去匹配呢?7 w+ Y; D' F6 ?
2. 可以训练,比如 Mr. Jones, 不要在Mr.的句号断开句子

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?免费注册

x
  • TA的每日心情
    郁闷
    2020-5-16 17:43
  • 签到天数: 49 天

    [LV.5]常住居民I

    发表于 2019-5-1 19:43:37 | 显示全部楼层
    从学英语向学编程转化了,呵呵
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2025-5-15 12:03 , Processed in 0.022931 second(s), 22 queries .

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表