掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 5409|回复: 27

[存档] 收到警告,暂时休停

[复制链接]

该用户从未签到

发表于 2012-5-26 22:52:36 | 显示全部楼层 |阅读模式
本帖最后由 hanyl05 于 2012-5-30 22:46 编辑
* n+ g- J7 |- ?9 P
: k! a' O- P+ Y由于收到警告,暂时休停。

该用户从未签到

发表于 2012-5-26 23:20:48 | 显示全部楼层
lz给的文件只有3万多行,这个全吗?另下载会来了有什么办法进行批量编辑吗?

该用户从未签到

 楼主| 发表于 2012-5-26 23:25:14 | 显示全部楼层
lz给的文件只有3万多行,这个全吗?另下载会来了有什么办法进行批量编辑吗?
9 Q; X: ~! n  |. t; z. Difree64 发表于 2012-5-26 23:20

5 V$ c  q/ y! \0 C) X/ J
% g8 ]9 N0 y- h' _" Q- U8 ?' B, h应该是全的。$ [" C6 I& i; b0 n' c
建议会一些基础编程知识再去下载。
  • TA的每日心情
    慵懒
    2023-3-29 08:16
  • 签到天数: 1462 天

    [LV.10]以坛为家III

    发表于 2012-5-27 07:58:03 | 显示全部楼层
    这样囫囵吞枣下载会有很多不需要的代码内容,包括广告

    该用户从未签到

    发表于 2012-5-28 09:14:30 | 显示全部楼层
    4# huala 只要有包围内容的特征字符,还是可以提取的。
  • TA的每日心情
    开心
    2020-3-8 09:14
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2012-5-28 10:25:56 | 显示全部楼层
    路过!

    该用户从未签到

    发表于 2012-5-28 17:01:28 | 显示全部楼层
    本帖最后由 ifree64 于 2012-5-28 17:03 编辑
    " D# V2 b" J0 B! s, e5 a0 T  p" g+ A$ s8 I2 C/ r
    发现很好提取内容。但总觉得楼主提供的“全部地址”不全,才3万多条。我买了这本字典的纸质板,上面的广告说是收词/词组110000+条。
  • TA的每日心情
    开心
    2020-3-8 09:14
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2012-5-28 17:25:48 | 显示全部楼层
    3万多是有些少,7楼拿纸版比较便知缺什么。
  • TA的每日心情
    慵懒
    2023-3-29 08:16
  • 签到天数: 1462 天

    [LV.10]以坛为家III

    发表于 2012-5-28 18:40:48 | 显示全部楼层
    宣传的数字不是指单词条目,这是词典商一贯的促销吹嘘手法
    9 Z# x- S+ G( g: T) _  S9 |+ y- {) ^  j$ t2 |! l1 w9 i2 @0 f6 X
    单词条目数,就是Mdict左侧显示的词条数,差不多就3万多。
    ' M- x1 Q: m* x5 n1 A0 I' p& k* j/ V+ [! Q  }7 K# J! j
    我有纸质的,没精力一一细对,但大致数量是符合的。

    该用户从未签到

    发表于 2012-5-28 20:33:16 | 显示全部楼层
    有url就很好办了,wget -i指定url文件,批量很方便。注意编码,你的文件前面有bom. 可能会有问题,存为无bom的即可。
  • TA的每日心情
    开心
    2020-3-8 09:14
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2012-5-28 20:56:48 | 显示全部楼层
    发现很好提取内容。但总觉得楼主提供的“全部地址”不全,才3万多条。我买了这本字典的纸质板,上面的广告说是收词/词组110000+条。
    / X4 t( n8 A9 A, ]1 }) v& i: uifree64 发表于 2012-5-28 17:01

    - Y0 G( ^0 R9 K6 D2 G不知是怎么统计的,不过就算只有3万词条,对一本通常收词在6万到8万的学习词典来讲的确是太少了。
  • TA的每日心情
    慵懒
    2023-3-29 08:16
  • 签到天数: 1462 天

    [LV.10]以坛为家III

    发表于 2012-5-28 21:24:14 | 显示全部楼层
    本帖最后由 huala 于 2012-5-28 21:26 编辑 " v; T% ~) Z9 T/ x( V5 S

    , q% k" R' R1 f: k. H, P3万词条少吗?一点不觉得,Mdict词典中经典的牛津四双解,yru制作,单词条目数才22298个。5 T$ w0 {1 Z* p  D
    词典商把能统计的都算上了,比如形容词的词条下一般会带衍生的副词,
    7 _9 _  B8 z$ V! b! B统计时词典商会把“收词”算成两个,6-8万还不是轻轻松松就统计出来了。
    ' e! d0 ~( m4 P# |$ G请不要混淆“单词条目”数和“收词”数

    该用户从未签到

     楼主| 发表于 2012-5-28 22:54:15 | 显示全部楼层
    作为词典的骨灰级爱好者,可以负责任的告诉你这个数据是可靠的。
    / A& \& E1 ]/ M8 I1 `& x词典宣称的统计方法很夸张,不同的出版社宣传时的统计方法不同。; ?* o5 j6 t+ w" ?5 u+ T
      q' O8 ~9 _( b' z) X
    一般是把主词条,衍生词条,解释的项目(义项1,2,。。。),例句等都统计上,也就出来了十几万的数据。
    * \! I6 c" y' X0 k' u3 [$ cOED首次才25万,这个是毫不含糊的。其他都是在胡乱统计。

    该用户从未签到

     楼主| 发表于 2012-5-28 22:55:46 | 显示全部楼层
    另外,柯林斯的是有词频的,希望提取的时候不要遗漏了,尽可能完美吧。

    该用户从未签到

     楼主| 发表于 2012-5-28 22:56:56 | 显示全部楼层
    另外,金山的程序员通常都强奸破坏词库,总是缺斤短两的,有些金山没有的,但原本该有的,比如以 ‘ 开头的词条我删除了。

    该用户从未签到

    发表于 2012-5-29 10:42:59 | 显示全部楼层
    已经下载并提取完毕,总共下载了36323个文件 ,不是特别完美。

    该用户从未签到

    发表于 2012-5-29 11:57:06 | 显示全部楼层
    本帖最后由 ifree64 于 2012-5-29 12:19 编辑
    / J! u( [: z8 O! C6 ?+ r, O# ?8 P% ?9 ^. P
    制作完毕,以后有时间了再完善。这么我好像发不了资源连接呢?
    ( `! L3 c3 b3 s. A0 e4 L声明:本词典仅仅是本人学习制作mdx文件之作,放着这里也仅仅是为了与同好讨论mdx的制作技术,如果侵犯了您的权限,我将立即删除,并表示万分歉意。您只要下载或者使用这个资源(不管从哪里下载或者得到的),都说明您发誓做到如下内容9 o- O1 t$ z% w0 `% Z5 Y
    “我同意:下载或者使用此文件仅供个人学习mdx制作之用,不用于任何商业用途;同时我必将购买对应的正版产品。”
    ; A4 t! I! d4 [6 ^. P9 K
    0 k% i5 N0 Y9 z& J4 u
    115 共享& ^* ^. l! \6 J! O4 S
    mdd: bemg3w5r#7 I. |; t, |& y& x0 {
    mdx: c2e3mxas#
  • TA的每日心情
    慵懒
    2023-3-29 08:16
  • 签到天数: 1462 天

    [LV.10]以坛为家III

    发表于 2012-5-29 15:38:37 | 显示全部楼层
    楼上造福大众,版主帮忙弄一下链接吧
  • TA的每日心情
    开心
    2020-3-8 09:14
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2012-5-29 22:07:08 | 显示全部楼层
    这么好的东西,不能下载。都把人给急死了。

    该用户从未签到

    发表于 2012-5-30 10:25:40 | 显示全部楼层
    可以下载的,用u蛋粘贴提取码!
  • TA的每日心情
    慵懒
    2023-3-29 08:16
  • 签到天数: 1462 天

    [LV.10]以坛为家III

    发表于 2012-5-30 17:22:38 | 显示全部楼层
    本帖最后由 huala 于 2012-5-30 17:24 编辑 # @( b$ U* C0 z& d( q8 O" G
    . s3 Y0 t. T8 o6 r
    感谢楼主的劳动$ a( H4 a" V- R2 f2 T9 {& t$ Y
    / X8 n" u5 H) O5 ^5 r
    待完善的地方:显示区单词条目、音标、词频没有,例句超过3条的都没显示,语法信息也无
    5 N/ |' M9 c6 N5 ]( D8 g  ?, p0 \# |' r  y. |0 L$ z) B
    是不是可以试试用正则把javascript的地方都去掉
    1. <a href="javascript:;" class="info" onmouseover="showTips\('word_gram', '(\d+_\d+)'\)" onmouseout="closeTips\('word_gram', '\1'\)"></a>
    复制代码
  • TA的每日心情
    开心
    2020-3-8 09:14
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2012-5-31 17:21:58 | 显示全部楼层
    可以下载的,用u蛋粘贴提取码!# X1 a* Q! _+ J, l1 w
    heshunyihugh 发表于 2012-5-30 10:25
    $ e6 b, c) {' F
    谢谢指点!

    该用户从未签到

    发表于 2012-5-31 20:39:48 | 显示全部楼层
    本帖最后由 sxingbai 于 2012-5-31 21:34 编辑 0 T5 \  e  e3 r3 g
    ; E4 I6 d- ~8 l- L7 Z. k
    17# ifree64 * H; `- A- \7 N
    多谢,做得很好。

    该用户从未签到

    发表于 2012-6-5 07:57:23 | 显示全部楼层
    稍做整理,准备去除冗余
    - `9 e  Z3 b3 b/ q4 h2 d# k

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    开心
    2023-10-16 09:43
  • 签到天数: 1188 天

    [LV.10]以坛为家III

    发表于 2012-6-5 20:08:21 | 显示全部楼层
    感谢楼主的劳动
    # ^# l8 l; x& _, k待完善的地方:显示区单词条目、音标、词频没有,例句超过3条的都没显示,语法信息也无% c2 S2 ^5 n* A$ _$ v' M) {1 m

    ' ~- ~! T7 A" \/ Q* _的确这样,希望有改进!
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-4-25 13:18 , Processed in 0.061968 second(s), 12 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表