掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

楼主: BLKSerene

[工具] 震惊!上外学子因缺少研究工具 竟耗费数月自行开发!结果...

[复制链接]
  • TA的每日心情
    开心
    2 小时前
  • 签到天数: 472 天

    [LV.9]以坛为家II

    发表于 2019-4-18 11:37:02 | 显示全部楼层
    兹磁一下。楼主的硕士论文有着落了,而且磨练了诸多技艺,结识了诸多因缘,可喜可贺!
    , g" s3 [- O# G2 L6 O# ~" p3 F' A& Z7 k+ T0 a
    另,标题很UC哈
  • TA的每日心情
    开心
    2019-5-9 09:10
  • 签到天数: 5 天

    [LV.2]偶尔看看I

    发表于 2019-4-22 20:34:37 | 显示全部楼层
    好东西,一定推荐- p" @2 s' X& C( E+ o/ t/ Y7 M  L
  • TA的每日心情
    郁闷
    2020-5-16 17:43
  • 签到天数: 49 天

    [LV.5]常住居民I

    发表于 2019-4-27 13:02:09 | 显示全部楼层
    这个软件最直接的应用目标是什么?
  • TA的每日心情
    奋斗
    2020-7-16 15:41
  • 签到天数: 5 天

    [LV.2]偶尔看看I

    发表于 2019-4-29 22:00:24 | 显示全部楼层
    太牛了!有梦想,有实践!
  • TA的每日心情
    郁闷
    2019-5-15 14:40
  • 签到天数: 5 天

    [LV.2]偶尔看看I

    发表于 2019-5-4 19:54:08 | 显示全部楼层
    这是什么啊,没看到介绍啊
  • TA的每日心情
    开心
    2019-12-9 19:16
  • 签到天数: 69 天

    [LV.6]常住居民II

    发表于 2019-5-9 18:47:44 | 显示全部楼层
    再也不需要去用又大又笨的nvivo11啦 = =
    9 d) `- Z% \8 o" `浏览器下载很容易失败,推荐用普通的多线程下载软件……" v2 ~" S* T& S! T/ G& ?
    那个,没有加入中文界面语言的打算吗,不过对于真正需要的用户也的确没必要是了……
  • TA的每日心情
    郁闷
    2020-4-13 19:29
  • 签到天数: 90 天

    [LV.6]常住居民II

    发表于 2019-5-10 21:21:32 | 显示全部楼层
    虽然这个工具我是用不到,但是很强大的样子,支持一下
  • TA的每日心情

    2020-8-7 10:43
  • 签到天数: 199 天

    [LV.7]常住居民III

    发表于 2019-5-20 13:14:35 | 显示全部楼层
    楼主,软件很好,已经在使用了,非常感谢。
    - `4 ^3 _: o! O$ Q% G但是发现有几个问题希望能解决下:
    0 b& @1 C3 E+ E  W+ e& I1、wordlist下token只选择 words无法生成词表,token全部选择后挨个点击取消直至剩下words,单词表格却仍然存在。
    + r& q' I4 t; u1 K$ Z& [! c2、无法导入TXT格式的个人词表,只能挨个添加,效率太低。) j# s+ Q$ T- c6 N) S2 B% b- [
    3、如果选择的文件较大,文件无法快速生成。) r2 m9 D( l1 z  C3 K
    4、能否支持PDF或者EPUB格式?
    : r! O: k4 g1 e2 v谢谢
  • TA的每日心情
    慵懒
    昨天 09:24
  • 签到天数: 396 天

    [LV.9]以坛为家II

    发表于 2019-5-23 08:41:10 | 显示全部楼层
    本帖最后由 dictionaryfan 于 2019-5-23 08:42 编辑 % U2 U2 X! {0 A$ I. Y
    0 o5 F( m: b4 z, L% B
    能实现是很厉害了
    3 {' L/ W% @" A& A/ m0 u& T
    ) A* q5 L9 w/ f! eAntConc + Worditout +...
    . b4 I& B0 ~; ]$ e$ }
  • TA的每日心情

    2019-8-20 10:40
  • 签到天数: 16 天

    [LV.4]偶尔看看III

    发表于 2019-7-24 15:22:57 | 显示全部楼层
    这是干什么用的" R0 X- P: o4 u3 P
  • TA的每日心情
    开心
    昨天 09:45
  • 签到天数: 535 天

    [LV.9]以坛为家II

    发表于 2019-8-30 15:43:22 | 显示全部楼层
    win10不能安装呀

    该用户从未签到

    发表于 2019-9-22 10:03:47 | 显示全部楼层
    楼住是马甲吗?
  • TA的每日心情
    开心
    2019-9-25 22:26
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2019-9-25 22:19:35 | 显示全部楼层
    有点跟不上的感觉
  • TA的每日心情
    开心
    2019-10-4 08:20
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2019-10-5 19:18:20 | 显示全部楼层
    上外学生确实厉害
    4 w5 m0 S; t/ k- p

    该用户从未签到

    发表于 2019-10-10 23:03:01 | 显示全部楼层
    Mark一下,感谢楼主分享,应该以后能用到!

    该用户从未签到

    发表于 2019-10-16 20:38:33 | 显示全部楼层
    不错,准备下下来试试

    该用户从未签到

    发表于 2019-10-18 10:58:20 | 显示全部楼层
    多谢分享,楼主辛苦了
  • TA的每日心情
    开心
    2020-7-13 10:37
  • 签到天数: 122 天

    [LV.7]常住居民III

    发表于 2019-10-22 13:35:42 | 显示全部楼层
    微信转发点赞一条龙!
  • TA的每日心情
    奋斗
    2019-10-26 22:14
  • 签到天数: 3 天

    [LV.2]偶尔看看I

    发表于 2019-10-26 22:12:56 | 显示全部楼层
    大神!!!!!!啊看了感觉自己是条咸鱼
  • TA的每日心情
    开心
    2019-12-18 19:08
  • 签到天数: 5 天

    [LV.2]偶尔看看I

    发表于 2019-10-30 13:58:01 | 显示全部楼层
    这个绝对是好东西! 多年以前读书的时候用过类似这样的东西,现在这个wordless肯定要好多了。! g. d0 A! l, u% H
    ' J8 U. U( B, b& P3 L
    当时用的是哈工大开发的免费版,可以处理中英文。软件的主要目标是实现汉语的自动分词。" }8 K, d: ^/ c, I8 p  H6 `. I7 ?
    : X; k3 N  ?7 u" ^
    我当时才研一,但是我一直在学习的同时做一些研究工作。下载试用后很喜欢,虽然功能还比较简单,但是已经很有用,对语言学研究帮助很大。例如,有些历史文献研究中需要进行很多统计工作,然后才能进行分析出结果。
    9 z6 [  P. q, i( M7 ~4 @. d0 C6 P/ r4 e, c0 C9 }
    首先要把历史文献数字化(录入/扫描+校对! 校对非常重要!否则结论就不可靠。这是个需要细心和耐心的工作。但是,你可以借此熟悉要研究的语料)。然后根据软件的功能(可以做什么+不可以做什么),设计统计分析的方法和程序(程序非常重要! 事半功倍 vs 事倍功半)。
    - F* h, X, M1 D: u& O
    / z" @( [- E  d& j. x. j校对之后进行必要的格式调整,然后就可以用软件进行分析了。现在一些西方语言的语料库软件已经相当完善了,不仅可以统计词数、词频等等基本信息,对经过标注的熟语料库,甚至可以进行如分析某种语法结构出现的次数、频率等比较复杂的工作。
    0 J. z0 l+ G# U! e4 J* W
    " A* u2 B% d0 G( o- u' o汉语语料研究中一项经常需要做的工作是统计某语料中某些字、词、语出现的次数,这是进行进一步工作的基础。这项工作虽然很简单,但是当语料较大时,就成了一项苦事,不仅单调、枯燥,而且容易出错。为了减少工时,你必须在动手统计之前,科学、仔细地设计你的调查表,才能节省精力和时间。否则,可能仅仅为了补充统计一个遗漏的项目,你就又要把语料从头来一遍,甚至为此还要对其他的统计结果或已有的研究结果进行调整。因为工作往往是在试错中才逐渐完成甚至在试错中才找到方法的,所以重复或调整的工作在所难免。但是如果你工作过于随意、没有预见、不尽量进行缜密的预先设计,而不幸反复做这种初级的工作,很可能把自己逼疯,甚至因此导致预设的时间不够用,要么草草弄出一个自己都知道不好结果来交差,要么干脆连任务也完不成。
    5 b' k& {* x. r6 m% p7 ^
    / |# ~" h* J( l% U8 n% A3 \有了这种语料库处理软件,语料的预先处理工作(校对、格式)完成以后,这种费时又不具有实质性的工作就可以尽量交给软件去进行了。速度既快,又不出错。而且它不知疲倦,不会不耐烦。你调整调查方案再统计,结果还是马上就出来。所以确实是好东西。6 G: t0 I9 a  G$ {& o* f

    * M% Q3 U7 p# p$ T+ G8 o% @$ C  }这是对较小的语料或语料库而言,人工还可以进行。如果是大型或超大的语料库,不借助语料库软件几乎就无法进行了。人力、时间、物力、财力不允许。
    % p  r* c% |) m* D% P8 X+ f! j5 e3 z5 j8 q
    当时,那个分词工具“试玩”了以后就收藏代用了。因为正在学习阶段,自
  • TA的每日心情
    开心
    2019-12-18 19:08
  • 签到天数: 5 天

    [LV.2]偶尔看看I

    发表于 2019-10-30 13:58:50 | 显示全部楼层
    当时,那个分词工具“试玩”了以后就收藏代用了。因为正在学习阶段,自己的精力、兴趣主要还是随着课程转移。
    - r* h! p- P+ Q7 b9 G
    # ]" c! w" v+ E: t. P4 k那时候还有一个分词软件,好像是中科大研制的,似乎不是免费的。功能与水平都与前一个相似。也收藏了。/ ^" Q" P( ]5 ?* j" y9 e. Q1 j/ W& S
    6 T/ i. Z1 x2 J& @7 H5 M
    可是那天旧电脑不幸被一个二五校友弄坏了(可以说是故意破坏,但没有叫他赔偿。他也没有钱赔,但是却喜欢惹是,唉),硬盘也坏了,里面的东西,估计要么拿不出来了,要么要花不少钱。结果扔了,连废品都没卖。- }# D8 B" Y+ I" U! @3 l) R
    9 ^; n+ @1 m7 |. ^+ r
    可怕的是,后来这两个软件在网上都消失了,无处下载。更要命的是,后来的毕业论文正是要研究古代语料的。结果,把绝大部分时间花在初级无聊的手工统计上面。想起来实在是恨得要命。/ e! N/ M2 j, r, i/ B3 G' J9 a
    + H  H& Z# x7 N$ R% A
    若干年以后,发现网上有国外的、免费的、成系列的语料处理软件,但是此时我已经离开了那曾经让我如此着迷的语言研究了。8 v2 K# Z2 C# k/ e5 q! R9 p/ r
    / V5 {# n+ f2 `/ X
    【由于汉语的特点以及理论研究没有取得突破,汉语自动分词这个问题虽然有所进展,但至今仍然没有解决。不仅计算机自动分词没有解决,人工分词也是分歧很多,实际上这也是自动分词目前没有彻底解决的根本原因。你人都不知道怎么分,怎么指导计算机去分呢?】9 o2 z  N& d' `7 o

    . f% X5 r+ w; q+ V【为什么汉语的分词这么难呢?这是由汉语的特点造成的。汉语的语素(1)与词、词与短语之间并没有截然分明的界限,这就使词的分割、确认有时候很困难。】4 v4 V" C* ^& H( r2 N  s) l4 i7 \

    & p* e, ~& }( j【在一定意义上,可以说汉语的使用不是以“词”为基本的“形式(语音/文字)-语义”单位,而是以“语素”为基本单位。在这一点上,与复综语有相似之处,即由语素直接构成短语,而不是先构成词,再由词构成短语,没有“词”这一级语言单位!!! 】
    4 P" r/ i# i3 p$ H$ s" @( X- n0 y& C' K' o( N" b
    【就汉语有没有词这一级语言单位,历史上曾经有过集中的辩论。“有词论”者(如吕叔湘)既无法从事实和逻辑上证明其有,也无法反驳“无词论”者的反诘。没有办法的情况下,只好问:“没有词,那怎么讲语法呢?”这个不算理由的“理由”,倒是把“无词论”者难住了。归根结底,还是汉语的语法--怎样由语素构成短语--的规则系统没有搞清楚。】
    . I* M0 s& Z/ a( S' j
    6 }+ |: j6 z6 ?% }' o【(1) 汉语的语素多为单音节,一般来说,一个音节就是一个语素,书写形式上则表现为“字”。一些纯粹或者基本上是表音符号的“音节-字”不是语素,例如“葡萄”中的“葡”和“萄”、“婵媛”中的“婵”和“媛”)。】$ B8 T- ^# u6 S, {

    : e& \5 g/ G% z* R' I5 T, I0 H7 ]' Q7 r【汉语的语素构成的短语,凝结程度各不相同。其中有很多凝结程度相当高,长度也比较短,于是就被当作所谓的“词”。】
    2 B9 I3 j, M" f! M) }5 A; O8 s) {& i* G9 m  ?/ Q3 ~
  • TA的每日心情
    开心
    2019-12-19 19:41
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2019-12-19 21:17:50 | 显示全部楼层
    标记下,待我英语大成时再来研究
  • TA的每日心情

    2020-1-4 18:58
  • 签到天数: 9 天

    [LV.3]偶尔看看II

    发表于 2019-12-29 17:17:51 | 显示全部楼层
    感谢分享!!!!!辛苦了!!!!
  • TA的每日心情
    开心
    2018-7-19 23:08
  • 签到天数: 16 天

    [LV.4]偶尔看看III

    发表于 2020-1-6 11:15:50 | 显示全部楼层
    我就知道我坛一定有这么优秀的楼主和优秀的推荐,下来好好研究一下!非常感谢
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    顶部qrcode底部
    关注公众号送论坛充值码
    关注微信公众平台
    关注微信公众号 pdawiki,获取邀请码,看文抢积分,抽奖得浮云! Follow our Wechat official account "pdawiki", get invitation codes, and play the lottery to earn points (积分)!

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2020-8-15 03:07 , Processed in 0.047603 second(s), 7 queries , MemCache On.

    Powered by Discuz! X3.4

    © 2001-2017 Comsenz Inc.

    快速回复 返回顶部 返回列表