掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

楼主: BLKSerene

[工具] 震惊!上外学子因缺少研究工具 竟耗费数月自行开发!结果...

[复制链接]
  • TA的每日心情
    开心
    7 小时前
  • 签到天数: 407 天

    [LV.9]以坛为家II

    发表于 2019-4-18 11:37:02 | 显示全部楼层
    兹磁一下。楼主的硕士论文有着落了,而且磨练了诸多技艺,结识了诸多因缘,可喜可贺!! I9 V: N5 [  W! O' @- T
    / j( ~# ]7 }! ^" V% c
    另,标题很UC哈
  • TA的每日心情
    开心
    2019-5-9 09:10
  • 签到天数: 5 天

    [LV.2]偶尔看看I

    发表于 2019-4-22 20:34:37 | 显示全部楼层
    好东西,一定推荐2 s7 j" U1 b& c! F$ c$ E% |( ?
  • TA的每日心情
    郁闷
    2020-5-16 17:43
  • 签到天数: 49 天

    [LV.5]常住居民I

    发表于 2019-4-27 13:02:09 | 显示全部楼层
    这个软件最直接的应用目标是什么?
  • TA的每日心情
    开心
    2019-3-15 10:41
  • 签到天数: 4 天

    [LV.2]偶尔看看I

    发表于 2019-4-29 22:00:24 | 显示全部楼层
    太牛了!有梦想,有实践!
  • TA的每日心情
    郁闷
    2019-5-15 14:40
  • 签到天数: 5 天

    [LV.2]偶尔看看I

    发表于 2019-5-4 19:54:08 | 显示全部楼层
    这是什么啊,没看到介绍啊
  • TA的每日心情
    开心
    2019-12-9 19:16
  • 签到天数: 69 天

    [LV.6]常住居民II

    发表于 2019-5-9 18:47:44 | 显示全部楼层
    再也不需要去用又大又笨的nvivo11啦 = =
    % y" }, _" ~. t5 `* K3 E; u浏览器下载很容易失败,推荐用普通的多线程下载软件……
    - o  ~' O' A# |那个,没有加入中文界面语言的打算吗,不过对于真正需要的用户也的确没必要是了……
  • TA的每日心情
    郁闷
    2020-4-13 19:29
  • 签到天数: 90 天

    [LV.6]常住居民II

    发表于 2019-5-10 21:21:32 | 显示全部楼层
    虽然这个工具我是用不到,但是很强大的样子,支持一下
  • TA的每日心情
    奋斗
    2020-5-8 12:25
  • 签到天数: 197 天

    [LV.7]常住居民III

    发表于 2019-5-20 13:14:35 | 显示全部楼层
    楼主,软件很好,已经在使用了,非常感谢。, D% I5 s: [  S1 F! f+ A  G
    但是发现有几个问题希望能解决下:* u" g7 o' [* ]& g$ E8 ]) v
    1、wordlist下token只选择 words无法生成词表,token全部选择后挨个点击取消直至剩下words,单词表格却仍然存在。
    . K) W$ t3 Z7 G2、无法导入TXT格式的个人词表,只能挨个添加,效率太低。  t& Y0 o* B7 U$ y
    3、如果选择的文件较大,文件无法快速生成。, \) b9 S& K$ O9 g# y* @! O. q
    4、能否支持PDF或者EPUB格式?
    0 m% o6 Q' r+ ~+ l谢谢
  • TA的每日心情
    奋斗
    8 小时前
  • 签到天数: 338 天

    [LV.8]以坛为家I

    发表于 2019-5-23 08:41:10 | 显示全部楼层
    本帖最后由 dictionaryfan 于 2019-5-23 08:42 编辑 " }0 ?! `( t, X( P! _

    1 S8 M+ H# E( E$ w- i/ Q- |能实现是很厉害了+ t3 g& B$ k' S! @* T! k2 W/ Z

    6 g1 g) F/ \1 n: Q5 v# LAntConc + Worditout +...1 K. F  D1 Y* K  Z1 |6 b5 R8 F
  • TA的每日心情

    2019-8-20 10:40
  • 签到天数: 16 天

    [LV.4]偶尔看看III

    发表于 2019-7-24 15:22:57 | 显示全部楼层
    这是干什么用的& y( K4 d. W6 Z1 f
  • TA的每日心情
    郁闷
    7 天前
  • 签到天数: 480 天

    [LV.9]以坛为家II

    发表于 2019-8-30 15:43:22 | 显示全部楼层
    win10不能安装呀

    该用户从未签到

    发表于 2019-9-22 10:03:47 | 显示全部楼层
    楼住是马甲吗?
  • TA的每日心情
    开心
    2019-9-25 22:26
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2019-9-25 22:19:35 | 显示全部楼层
    有点跟不上的感觉
  • TA的每日心情
    开心
    2019-10-4 08:20
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2019-10-5 19:18:20 | 显示全部楼层
    上外学生确实厉害
    , f/ F& q' _3 k1 `+ I$ y0 w

    该用户从未签到

    发表于 2019-10-10 23:03:01 | 显示全部楼层
    Mark一下,感谢楼主分享,应该以后能用到!

    该用户从未签到

    发表于 2019-10-16 20:38:33 | 显示全部楼层
    不错,准备下下来试试

    该用户从未签到

    发表于 2019-10-18 10:58:20 | 显示全部楼层
    多谢分享,楼主辛苦了
  • TA的每日心情
    奋斗
    8 小时前
  • 签到天数: 106 天

    [LV.6]常住居民II

    发表于 2019-10-22 13:35:42 | 显示全部楼层
    微信转发点赞一条龙!
  • TA的每日心情
    奋斗
    2019-10-26 22:14
  • 签到天数: 3 天

    [LV.2]偶尔看看I

    发表于 2019-10-26 22:12:56 | 显示全部楼层
    大神!!!!!!啊看了感觉自己是条咸鱼
  • TA的每日心情
    开心
    2019-12-18 19:08
  • 签到天数: 5 天

    [LV.2]偶尔看看I

    发表于 2019-10-30 13:58:01 | 显示全部楼层
    这个绝对是好东西! 多年以前读书的时候用过类似这样的东西,现在这个wordless肯定要好多了。
      y8 {+ Q. S3 L/ Y1 F! d2 @8 Y' {
    + O" @' K, N  c2 H% X" S" L当时用的是哈工大开发的免费版,可以处理中英文。软件的主要目标是实现汉语的自动分词。
    - h3 \& {* w' T& A6 }7 W. i
    % @- F+ ]% p( w% h# ^我当时才研一,但是我一直在学习的同时做一些研究工作。下载试用后很喜欢,虽然功能还比较简单,但是已经很有用,对语言学研究帮助很大。例如,有些历史文献研究中需要进行很多统计工作,然后才能进行分析出结果。
    1 X  u/ \' }. `
      D: B  I7 _7 G/ N' M首先要把历史文献数字化(录入/扫描+校对! 校对非常重要!否则结论就不可靠。这是个需要细心和耐心的工作。但是,你可以借此熟悉要研究的语料)。然后根据软件的功能(可以做什么+不可以做什么),设计统计分析的方法和程序(程序非常重要! 事半功倍 vs 事倍功半)。
    1 u3 S3 d5 v4 q! j( q  G! F
    6 s+ X& s5 U4 s校对之后进行必要的格式调整,然后就可以用软件进行分析了。现在一些西方语言的语料库软件已经相当完善了,不仅可以统计词数、词频等等基本信息,对经过标注的熟语料库,甚至可以进行如分析某种语法结构出现的次数、频率等比较复杂的工作。
    7 ~3 t. d- J7 {1 X; t
    0 H7 L. C! u% n5 ]7 b汉语语料研究中一项经常需要做的工作是统计某语料中某些字、词、语出现的次数,这是进行进一步工作的基础。这项工作虽然很简单,但是当语料较大时,就成了一项苦事,不仅单调、枯燥,而且容易出错。为了减少工时,你必须在动手统计之前,科学、仔细地设计你的调查表,才能节省精力和时间。否则,可能仅仅为了补充统计一个遗漏的项目,你就又要把语料从头来一遍,甚至为此还要对其他的统计结果或已有的研究结果进行调整。因为工作往往是在试错中才逐渐完成甚至在试错中才找到方法的,所以重复或调整的工作在所难免。但是如果你工作过于随意、没有预见、不尽量进行缜密的预先设计,而不幸反复做这种初级的工作,很可能把自己逼疯,甚至因此导致预设的时间不够用,要么草草弄出一个自己都知道不好结果来交差,要么干脆连任务也完不成。
    8 p! k, ]1 Q+ r. Q8 g. x6 Y( y& B) x1 m, M/ X; d" y* v
    有了这种语料库处理软件,语料的预先处理工作(校对、格式)完成以后,这种费时又不具有实质性的工作就可以尽量交给软件去进行了。速度既快,又不出错。而且它不知疲倦,不会不耐烦。你调整调查方案再统计,结果还是马上就出来。所以确实是好东西。
    ' Q. [5 F" L4 T; N; R2 D  I  a6 T
    . c) r& _% }8 x这是对较小的语料或语料库而言,人工还可以进行。如果是大型或超大的语料库,不借助语料库软件几乎就无法进行了。人力、时间、物力、财力不允许。8 v/ O+ `( r9 ]3 a7 s

    - `) N- k6 s/ s+ Z4 E$ D9 r当时,那个分词工具“试玩”了以后就收藏代用了。因为正在学习阶段,自
  • TA的每日心情
    开心
    2019-12-18 19:08
  • 签到天数: 5 天

    [LV.2]偶尔看看I

    发表于 2019-10-30 13:58:50 | 显示全部楼层
    当时,那个分词工具“试玩”了以后就收藏代用了。因为正在学习阶段,自己的精力、兴趣主要还是随着课程转移。
    ) ?) ~5 U7 c4 f  R% t- V3 M, _# Q  O( ^" ?' T
    那时候还有一个分词软件,好像是中科大研制的,似乎不是免费的。功能与水平都与前一个相似。也收藏了。' b6 ~% j9 a+ K% v3 P9 U- }
    & ]7 H' F# T% {" n0 M
    可是那天旧电脑不幸被一个二五校友弄坏了(可以说是故意破坏,但没有叫他赔偿。他也没有钱赔,但是却喜欢惹是,唉),硬盘也坏了,里面的东西,估计要么拿不出来了,要么要花不少钱。结果扔了,连废品都没卖。8 Z* `8 [7 B$ w9 t* ~* f/ E
    2 z. g1 X" p% r  {, [6 y$ |3 G- H
    可怕的是,后来这两个软件在网上都消失了,无处下载。更要命的是,后来的毕业论文正是要研究古代语料的。结果,把绝大部分时间花在初级无聊的手工统计上面。想起来实在是恨得要命。9 G1 X5 I; h7 n) ^/ J1 C; Y, T
    8 m# Q9 I1 v& `( E& s
    若干年以后,发现网上有国外的、免费的、成系列的语料处理软件,但是此时我已经离开了那曾经让我如此着迷的语言研究了。
    + H7 s3 C8 n# i4 a6 O% L
    $ \& v! v$ ~) ]* I( S" b) c! l【由于汉语的特点以及理论研究没有取得突破,汉语自动分词这个问题虽然有所进展,但至今仍然没有解决。不仅计算机自动分词没有解决,人工分词也是分歧很多,实际上这也是自动分词目前没有彻底解决的根本原因。你人都不知道怎么分,怎么指导计算机去分呢?】7 G2 R$ g! d2 U1 v# M
    6 ~% E  n( U( p% [! `' Q* t7 I
    【为什么汉语的分词这么难呢?这是由汉语的特点造成的。汉语的语素(1)与词、词与短语之间并没有截然分明的界限,这就使词的分割、确认有时候很困难。】0 U( m, `# @6 m. y3 |  u" Q& }: _& x* ]% S
    5 C4 ~# E6 @2 n- T+ J5 _! B/ f5 B
    【在一定意义上,可以说汉语的使用不是以“词”为基本的“形式(语音/文字)-语义”单位,而是以“语素”为基本单位。在这一点上,与复综语有相似之处,即由语素直接构成短语,而不是先构成词,再由词构成短语,没有“词”这一级语言单位!!! 】
    / u& Z  }1 G# b+ U2 E) y
    " l( r8 D0 A& E2 R! H【就汉语有没有词这一级语言单位,历史上曾经有过集中的辩论。“有词论”者(如吕叔湘)既无法从事实和逻辑上证明其有,也无法反驳“无词论”者的反诘。没有办法的情况下,只好问:“没有词,那怎么讲语法呢?”这个不算理由的“理由”,倒是把“无词论”者难住了。归根结底,还是汉语的语法--怎样由语素构成短语--的规则系统没有搞清楚。】
    3 J) s: ~0 U' X! N
    7 d. J4 W. `9 {" B2 n& i) N! W, B& W+ r【(1) 汉语的语素多为单音节,一般来说,一个音节就是一个语素,书写形式上则表现为“字”。一些纯粹或者基本上是表音符号的“音节-字”不是语素,例如“葡萄”中的“葡”和“萄”、“婵媛”中的“婵”和“媛”)。】
    , x- b1 z. u' a# s( ?7 S( ?9 T$ ^) R2 U) ]
    【汉语的语素构成的短语,凝结程度各不相同。其中有很多凝结程度相当高,长度也比较短,于是就被当作所谓的“词”。】
    ' I1 @3 q; P9 [0 P- S% {9 ~; a( ?* M4 I0 X6 r0 V3 y2 s' @9 V9 j- D; v
  • TA的每日心情
    开心
    2019-12-19 19:41
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2019-12-19 21:17:50 | 显示全部楼层
    标记下,待我英语大成时再来研究
  • TA的每日心情

    2020-1-4 18:58
  • 签到天数: 9 天

    [LV.3]偶尔看看II

    发表于 2019-12-29 17:17:51 | 显示全部楼层
    感谢分享!!!!!辛苦了!!!!
  • TA的每日心情
    开心
    2018-7-19 23:08
  • 签到天数: 16 天

    [LV.4]偶尔看看III

    发表于 2020-1-6 11:15:50 | 显示全部楼层
    我就知道我坛一定有这么优秀的楼主和优秀的推荐,下来好好研究一下!非常感谢
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    顶部qrcode底部
    关注公众号送论坛充值码
    关注微信公众平台
    关注微信公众号 pdawiki,获取邀请码,看文抢积分,抽奖得浮云! Follow our Wechat official account "pdawiki", get invitation codes, and play the lottery to earn points (积分)!

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2020-6-4 18:07 , Processed in 4.188032 second(s), 8 queries , MemCache On.

    Powered by Discuz! X3.4

    © 2001-2017 Comsenz Inc.

    快速回复 返回顶部 返回列表