掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 686|回复: 10

[求助] 一个想法,求大神们技术指导

[复制链接]

该用户从未签到

发表于 2016-1-25 20:09:09 | 显示全部楼层 |阅读模式
本帖最后由 LYX1692 于 2016-1-26 14:23 编辑
6 w7 _8 I. @- [% Y" g" L
/ g# q& P) a2 x# Q5 f+ D# d小弟以前发过一个贴子:1 o/ b, I! T; H+ k! M0 Q9 z
https://www.pdawiki.com/forum/fo ... hread&tid=11546
' |; }) B! G, L) J& |  d( r4 H# u
现在想将这几个词典的例句如此整理下* X# B3 E) x& e, s1 J- S6 C
0 w" d5 D1 d5 t6 K$ a2 C
有一份基础词汇表(如牛津3000词啊等等),这种词汇表倒是可以找到。包括这些单词的各种变形,均有列表了。
4 B3 r  k; T1 @- a; v5 p8 }/ I
难住我的是,如何将只有基础词汇组成的例句提取出来?
  r  Q# Y  W$ g也就是说,我想提取出最基本的例句,只有基础词汇组成。
" N' u, u6 Q1 G
+ c: o8 v7 a9 ]( ^! }5 A1 q想来,首先可以将基础词汇表之外的词条一概删除。' l& n+ X/ u& G& O8 O1 g$ r3 }' ^
剩下的就是基础词汇词条。* p9 _8 ]& l8 w
! [7 \2 w' C8 X3 X; `5 U$ ^
那么,这里面的例句,有些还是不符合我的条件的。1 D9 U* w) H' {* \0 l8 y
下一步又该怎么整理呢?
" p& A9 t: w: v" W' G; g  t求指导。6 k4 P3 H$ Q! ^1 O3 P( x
7 h- }8 z( d0 z& ^. W

$ x' |/ s- \/ _/ Q; ^刚刚试了下Emeditor脚本,导入了4000个词,再加各种变形,总共有将近1万个词,居然可以操作,只是速度略慢(共49万例句)。
' [& C$ v6 ?/ Z* j- zUltraEdit 应该更快。因为才刚刚接触脚本,Emeditor勉强可编下脚本,ultraedit 的就写不出来了。% @' s. f" A- K4 j$ M
EmEditro 慢也就凑合着用了。也就几十分钟。7 B- j( ]4 ~( I) W9 w& M

7 r  N% g$ u7 D( ^
  1. var key = document.selection.Text;// 设选定字符串为Key8 L0 F4 g+ d7 Q5 Z, y$ N8 a
  2. var keyfind = "\\b(a|an|abandon|abandons|abandoned|abandoning)\\b";// 括号内输入单词,每个单词用|分开。' p. X! X4 E4 B) y4 g7 l2 a
  3. var keycode = "→";
    , G/ l5 }$ u/ `& X, k; d5 ?
  4. if (key == "") {} // document.write(keyfind);如果没有选择任何字符串,则没有任何操作
    # ?- }) G: c) k4 J* R( e
  5. else    // 否则,//document.write(keyfind+"\n");document.write(keycode+"\n");# Q- M8 C9 K; b2 b4 s1 j
  6.   {* Y( r& x+ G' x" V8 _
  7.             document.selection.Replace( keyfind, keycode, eeFindReplaceRegExp|eeReplaceAll );
    , Z$ c4 T! P6 V* i$ L
  8.     };
    ' b& L6 h1 v. I2 ^0 f  u# Q+ Z5 W
复制代码

  \, I! D- t9 j7 n; o3 ^0 r( u
+ c8 u& r. ?" G# X1 n+ ~. ]3 i$ e, r上面是本人弄的脚本,实在是笨方法。
) [, o: g- _6 Y, XJavascript前几天才学,好多也不懂,只能用我掌握的几个知识来写。) d3 W- z" h5 I9 s& ~7 p4 P7 Y

& n; K3 ]) n! h& K+ c  w思路是:
& F; {$ ]0 p' Z- @1 x9 k! ~1. 先用Excel给每个例句编号。
: _' f' Y* z  U6 i# R) I: W3 o2. 然后运行脚本,将基础词表中的单词替换为"→"符号。
% F& G$ \% p- Z! f3. 因为基础词表未必准确,有些人名、地名、标点符号、缩略式,未必包含在基础词表中,需在再手工替换为"→"符号。
5 R1 u+ L0 E9 S" W2 Y+ N4. 如果一个例句的英文部分全部都是由"→"符号组成,即说明这个句子全部由基础词汇组成。
# ]% u! r* E; j. I% C5. 提取编号。' q- {5 e- h9 q" o4 A8 p# d
6. Excel 用Vlookup公式,返回例句。8 v; l* L6 M5 [& ^
大功告成。- A  s5 o1 d2 X: D
: G4 r& U3 [8 h4 k8 P0 m' N3 h, b: j
好笨的操作啊。

该用户从未签到

发表于 2016-1-25 21:47:46 | 显示全部楼层
意思是不是(例如)只含牛津3000基础单词的所有例句?
" C* T" c5 P% I: s; B. y如果是, 用aboboo导出也不太难,而且有音频。
  • TA的每日心情
    开心
    昨天 00:00
  • 签到天数: 2397 天

    [LV.Master]伴坛终老

    发表于 2016-1-25 23:52:27 | 显示全部楼层
    支持楼主的想法。. i" g% C8 R4 L" y$ _% _; r( v
    等大神支招。
    1 @1 ?2 R/ g  Z: D/ {3 A4 z, R4 R6 r! K! `
    想起 m-w 电脑安装版有个功能,  J! b( J( c9 f9 n! D
    4 x* Z& K2 |( J" r( Y
    表达式:单词空格|空格单词
    - Q) {. z: X2 L比如有个3000GRE单词的 word-list+ E* t* }/ t" U5 I
    在m-w 词典 Browse 标签(一共就三个标签:basic,advanced 和 Browse)的搜索框里输入类似下面这样的:
    $ E8 N( _& m+ w+ Z; vabandon | abase | abash | abate
    2 v; K( f5 l7 M! W' a) [* N! Q3 Y) |# h0 N
    m-w可以显示定制内容了。:-)
    : T. F4 n- x0 H% f0 A7 u

    该用户从未签到

    发表于 2016-1-26 09:01:12 | 显示全部楼层
    持续关注,最近学英语越来越意识到基础3000词的重要性。
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2016-1-26 12:25:52 | 显示全部楼层
    LYX1692 兄:
    5 a$ Z- @9 t8 K# {# o+ H3 K為何要拘泥於基础词汇词条
    : Z. a5 l4 f3 L9 _若真有此需求不如就單單建一個字表的3000詞mdx就好了
    : C; c4 ^7 p# ~9 q3 i' D解釋例句都不用3 j' `9 Y( L5 L& Z+ `9 s7 z' q: s
    用那3000詞mdx來當索引不也方便嗎?) J8 V* \4 c6 L+ u8 C
    or 3000 wordlist txt" L8 B% j5 ]; R/ ^# R; j6 l2 G- ?
    that will be easy and more flexable
    0 L4 E# Q; ?* M7 o: @

    该用户从未签到

     楼主| 发表于 2016-1-26 14:03:50 | 显示全部楼层
    本帖最后由 LYX1692 于 2016-1-26 14:09 编辑 , I+ Y9 e8 |6 S, \$ Y' C/ S
    喬治兄 发表于 2016-1-26 12:25
    # F/ ?) v$ h6 r5 F7 [LYX1692 兄:
    ' i" l, ]$ q0 \1 s為何要拘泥於基础词汇词条
    3 Q9 B. g) ?0 C: E" e- t若真有此需求不如就單單建一個字表的3000詞mdx就好了

    . ?" G6 _! H1 d0 f1 ]* W0 _! k. h2 W5 n+ \
    喬治兄:
    3 ^; T& _' i, M- K: D$ P当然,我也明白,光有那几千基础词汇,读篇英文新闻都会读不下去。
    - N6 o' [/ z8 ~/ g  {  k* V: l词汇量总归是越多越好。4 U6 E* x. z: H* E4 {9 U2 a$ R
    为什么还想要弄这么一个基础词汇的例句库呢?
    . x9 Q8 \. @. o' Y4 O  c因为这些基础词汇大有可为,我想提取出来,看看他们究竟能有多大作为。
    : j; B4 ?8 I* f6 n8 ~其实,要做这么一个句库,词典本不是理想的对象,毕竟词典收纳单词的,大量词汇是超出基础的。
    + r' U; k" ~$ u& k我以前统计过《哈利波特》的词汇量,连小说人名、地名一起算在内,第1部总用词是4300多,第2部是5200多。( K; d4 [# I* A5 u  n
    《哈利波特》一共7部,总字数是112万多。总词汇量是15500左右。
    - ]1 J$ |, U& n5 d! N使用频率上排名前3000的词汇,占字106万。
    4 y, N( I( |% J6 g在这一共15500左右的词汇中,其中4841个词汇在这7部书里只出现过一次。% Y1 H) P) y$ J0 R! e
    于是,我就想,假设给我这些词汇,也不需要我自己创作,简单到对着中文来翻译英文,我跟原著能有多大差异?' }. @0 V/ K/ n+ b3 {) w9 w
    这种差别的原因所在,不是原书用了哪一个我不知道的单词,恰巧体现在某些单词,我明明很熟悉,却用不出来。8 h7 z% a  [" F
    有些句子,我抓破头也想不出怎么翻译,一看英文,就是中学词汇而已。
    * P' y! U; J% m7 _当然,也还有中英思维方式的差异,对语法的掌握程序等因素,我也不否认。/ q( [6 _0 M2 k& |: ?6 D0 B4 B, m
    于是,我就想,回归基础。% ~5 O6 T( @! R+ Q0 g
    我想很多人跟我一样,不会用英文表达,不是因为我们词汇量不足,而是一些基础词汇不会灵活运用。
    ( I0 H9 V: J! g/ F+ |" T8 ]' S# C$ h* ]) m; N: {# P; ~0 {
    至于你说到,建个3000词的词表就好了。
    " @$ m9 d3 v/ c. @其实我知道这么做。以前也发过一个词频词典,包含朗文当代高阶第5版列出的3000核心词,牛津的3000核心词, 麦克米伦词典2500释义词汇, VOA慢速英语1500基础词汇, 英国国家语料库5000高频词, 当代美国英语语料库5000高频词汇。" ]; q6 @7 b* Q7 G

    - K* V7 D+ _3 f- G' b我现在想要提取只包含这些词的例句,更多是想弄成电子书放到Kindle上阅读。
    5 s. B0 A1 |! [9 }以中文为主,弹出英文注脚。* S# G  {; o  N5 J! @0 \2 ^( }
    这种样式,我以前也发布过资源。
    - M/ j3 [+ }2 d  v/ |2 ~9 O+ \/ k- G& D4 ]( K
    其实这个帖子算是已解决。3 j/ J2 J0 p& ]2 A3 d) Z" w
    写了个Javascript脚本,已大致实现。
    ) l5 ]* F- z2 J2 U9 T4 r; M但是技术有限,希望大神能有更好的办法。- |! ~' S3 \  k

    + w$ ~, Y; F0 X7 v- Z; r4 B  W8 B以后我有小孩了,我就给他/她弄一个。- S0 K( z9 z" C- A" m
    Ta读初三,我就给Ta提取一个初三版,读高三,我就给ta给高三版,让Ta知道,哪怕只有这个年级英语词汇量,也可以这么表达。! v3 B7 c, s  z- d0 U

    该用户从未签到

    发表于 2016-1-26 15:30:26 | 显示全部楼层
    如果每个句子里的用词都严格限定为 4000 个单词,有些内容就不太容易表达。或者要表达就要像 ALD 词典一样,详细解释,比如某些植物,花草,动物等等,还不一定能解释清楚。这样的例子很多,像 scorpion (蝎子) 、honeybee(蜜蜂)、mosquito(蚊子)之类的。只有对照着实物或者图片才是最好的方法。
    + D! k4 k; h3 l* N* Z1 F8 o! w: T8 s4 j. E$ v8 f; o0 ?( V
    其实要学只用基础单词表达意思,我觉得 ALD 里面的解释是一个比较好的参考对象。
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2016-1-26 20:43:06 | 显示全部楼层
    本帖最后由 喬治兄 于 2016-1-27 02:33 编辑 ' s+ G! g* i6 s, x+ v: X$ N
    LYX1692 发表于 2016-1-26 14:03- p7 q% w4 f" P% S' q; }- Z
    喬治兄:
    3 X2 c+ j8 L/ u, S0 `! r当然,我也明白,光有那几千基础词汇,读篇英文新闻都会读不下去。' [+ K5 K8 B# ^# Q% c
    词汇量总归是越多越好。 ...
    % Y! }1 F! k4 p9 p, c

    3 D& j/ Z9 H' Q6 TLYX1692 兄:  O7 B% u+ ]. d2 p1 j: s* l4 U  x
    ( v- r/ A+ `3 }/ g$ w1 `( i1 K
    您的遠慮,真令小弟佩服+ F- Z+ J# w8 H

    , e/ x2 m: V3 I5 O3 ~
    以后我有小孩了,我就给他/她弄一个。
    5 }5 Y. {3 _0 x( g6 \Ta读初三,我就给Ta提取一个初三版,读高三,我就给ta给高三版,让Ta知道,哪怕只有这个年级英语词汇量,也可以这么表达

    - x, ?. _" ~/ S, x4 Q! n
    4 q+ n0 {! a1 ?" v0 X只不過以後說不定學習模式都改變了
    ! [4 e% {( ]! `4 }" S9 ]* z' C, g) M0 Q9 N0 k4 |7 u) w
    更甚至1 j- i6 t9 d$ E  n4 h) Q9 g

    * H4 b0 }; D( p) i8 f. |說不定以後的世界不用學英文而是學中文需求量大幾十倍
    ) g3 q  {# W/ h
    - O8 n# P4 N5 ]# Z' d2 U6 O1 `供不應求呢
    + @& E! H) x0 i" s9 R% V) i5 S4 ^1 _2 w. M
    真希望大家都搶著學中文的時代趕快到來" W. a* ?2 @9 J
    - Q- v+ K6 D) ^3 Q% ?
    這樣就不需這樣辛苦滴學外語了, i( G- p6 R, S5 T4 [8 I
    % e( J, H. ?4 Y, z; Z, q
    & L" P3 d4 V3 e! T% S
    2 T6 L; r+ A) I6 ]
    % L1 ^: y; q" p- j# O8 v
    更重點是LYX1692 兄您結婚了嗎?( c% r& l& r, x+ P' z
    / |6 |1 K1 p  V2 H/ u- X* W: X
    若未婚這應該是要先完成的任務之一吧+ K- }4 M0 U. w
    3 X7 C& j! B; D1 Q) k- n. R6 g
    想太多也無益無人知道未來世界將如何改變: u- m- v; z  p0 e+ [3 W
    7 t: W) `& }. s+ w$ I: C7 {

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

    发表于 2016-1-27 09:33:51 来自手机 | 显示全部楼层
    我前段时间帮人做过,一本是集合牛津3000全部例句的英汉互译的(用脚注的方式弹出翻译),一本也是牛津3000(每个词条+该词条的所有英汉例句)。也许电脑上还有副本,不过我人在外地,电脑没带在身边。
    & m0 w. B) W4 eps:说点无关的,就我个人观察到情况,很多想学,但是却无法静下心来踏踏实实去做,一般都是坚持个十天半个月的热情就消退了,然后过一段时间又重燃激情,下决心这次一定要怎样怎样,然后一段时间后又没什么热情了,如此周而复始,最终不了了之。

    该用户从未签到

    发表于 2016-5-27 00:18:19 | 显示全部楼层
    我想到个方法,应该可行:( K+ w/ Z& i* S- L% A/ n& l2 b+ f. J
    1.把3000词汇用正则替换成mdx词典格式要求,另外在内容里加上特殊字符来标记该词条8 J0 \# q" D' R0 F2 o+ O8 D
    2.合并两个词典(一个是你所需要的词典,一个是3000词汇的txt)
    ' s: l! B7 q+ r* {" S3.差找含有特殊字符的词条并标记,然后提取,最后整理数据
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2025-5-8 09:36 , Processed in 0.024070 second(s), 23 queries .

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表