掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 849|回复: 3

[求助] 有關隨機抽樣 Reshuffling 單字字表

[复制链接]
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2019-5-30 00:20:21 | 显示全部楼层 |阅读模式
    本帖最后由 喬治兄 于 2019-5-30 14:48 编辑 / {3 i; |0 O5 [0 A2 @  S5 Z2 R
    5 I7 X. f2 d% a* c: H6 W- n! m
    問題如下:* z, S# c- b! O/ [. n5 z2 Q
    想從兩三個或多個 wordlists 隨機抽出一定數量的單字
    6 t8 t2 d4 d* t8 [- t( Q& z但又具有機率高點的不遺漏又能兼顧較偏的單字(隨機抽取)
    ' h/ j- w& y9 W) ^% U1 x6 P( W$ C
    想到一法似乎可行, 盼有興趣的同好指導之.............謝謝感恩
    - r$ H  @  i4 G  k$ ~. D6 r模型如 Excel 附件 按 F9 可隨機選取
    5 k$ }3 Y5 P+ f* \" L. v9 a缺點:
    # P+ H7 S. z6 d0 |
    當數量大時反應不及好像跑不動  5 w" \! j/ @% e* N
    您可以放多點字彙於B 欄
    " b6 B+ F$ p$ u2 A/ T1 H* A5 i其他欄位按每一欄的公式考背既可
    1 B) k9 ], y: c+ ^  j% E- G; Y+ s1 d5 N$ t( s' v

    . @  D9 O* o) g& L8 K7 j4 ^# K) t/ W, f; i, i9 Q% a" o
    ! X. k* r1 W2 X. q9 ]
    大概說明:
    / a* ]+ d4 ^6 {( F% bB 欄 為字表(為兩三個字典的字表)2 I6 `- p7 J! n* H  o
    F 欄, K 欄 為想抽取的字條* Y0 E7 {. f; p; G' E" m+ Q0 o
    若 B 欄有十萬(包含重複) ==> 字表若有重複字條則隨機抽出的機率也增加
    , e7 o6 H" a3 `/ b  p: Q( bF 欄, K 欄 可為任意數3 B# C* X5 o' B8 q, g
    + x# A" c8 e) W
    PS. 因是以 Random 的函數產生此屬於 uniform distribution 的分配) g- Q, ~/ h2 J# X' _( y
          或許應以 binomial distribution 的分配來抽取應該會正確一點
    2 Q3 s- A/ Z+ _6 h( p      原因是此為計數值而非計量值0 F) j+ f, |& ?  z6 V, M
    0 l1 e. f: R3 e2 _, T
    大概想法:
    ( B& W" X! W) p- A1. 是延續 辭典詞彙量估算匹配 https://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=33621&extra=3 L4 n* h% L6 V* V
    2. 想從幾個字表抽取出一定數量的單字來匹配
    & |& J0 r1 O* E- w& T0 L: `" N+ c& D3. 若隨機抽出 30 組再整在一起去重應該是匹配度能達到一定的吻合度9 e5 C- ~% d% f6 h7 g3 b* w
    ( ~- s& F6 ?1 X: y
    期盼有懂 VBA or Python 能搞一個自動化隨機抽取一個自定量的單字數.....謝謝
    7 c8 O3 e; D# y7 w+ w

    & c  e) ?. K# GSampling.zip 同4樓解釋的檔案
    5 P' r+ W8 R; P) e) x

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-5-30 14:26:55 | 显示全部楼层
    本帖最后由 喬治兄 于 2019-5-30 14:47 编辑 ( N. e, ~4 c- F7 E  F' _3 v5 E
    zzzz_sleep 发表于 2019-5-30 09:566 p1 Z5 C& }% O7 G& w' Q, Q* T
    我的思路:
    ; K$ S/ _4 t0 A# w; k- H% vpython,纯随机:
    ( I& h9 y8 M& y7 w1. python 读取 excel 数据,取得单词总行数

    ' ]1 y/ e: s# Q; o& G* n
    6 Q- T% }" v% S" {. |+ ~% Mzzzz_sleep 兄:) q1 F  M4 Q9 u4 |
    因我的 Excel 2007 分析工具箱 裝不起來
    , N2 N7 b% _& |用Excel 2000 分析工具箱解釋! C1 r  m! M4 K) z. z4 b
    最下面附上 Excel 檔案/ n5 s# R& x6 R  I7 O
    從 60000 多個單字隨機抽出 1000個3 t& `' G1 b- ?, u5 s, Z* \

    & b+ v4 P; N! P' l0 A: H

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情

    2020-8-15 10:40
  • 签到天数: 146 天

    [LV.7]常住居民III

    发表于 2019-5-30 09:56:09 | 显示全部楼层
    我的思路:
    9 S( @1 ^- x; E# V; Dpython,纯随机:
    # ^% e% ~8 m5 ^7 K! u) n1 ^1. python 读取 excel 数据,取得单词总行数$ u5 J+ t9 k% m/ D' I
    2. python rand() 取随机数,数字是 单词 行号6 T, T; M" R+ I! |1 d4 h7 I
    3. python 读取 行号上的单词
    ! d, U1 L' ^, l2 g8 _9 r4. 完成( Q' Q' u9 x% A  C& f6 Z# R' U3 N* G
    . Q% C0 E, e3 f
    excel ,参考抽样审计方法:
    ! }, W2 V" B( U1 r+ g7 d  j4 v1. 分组。比如 设每组 500 个单词,可分组数 N = 总单词数 / 5001 |3 G$ {4 f3 |* _8 G9 D, m
    2. 从 0 - 500 中取一个随机数,比如 128
    5 @# s+ h! z) G& _+ C4 q$ W3. 取单词。从第一组中取第 128 单词,从第二组中取 第 128 单词,...  第 N 组 中取第 128 单词
    ( g3 x) A4 f7 h) j4. 完毕
    ) y# `, a  O- C7 Y3 w, {- i当然,python 也可以用这个方法。Excel 计算能力较弱,减轻计算而已
    2 o5 x+ S1 ^" U) i* \' ^$ [$ z: T0 v( G; |
  • TA的每日心情
    开心
    2018-8-8 03:13
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2019-5-30 11:22:50 | 显示全部楼层
    本帖最后由 喬治兄 于 2019-5-30 11:52 编辑 ( u/ J4 u( x# K
    zzzz_sleep 发表于 2019-5-30 09:56
    ) I1 c2 p3 w% t. P4 }我的思路:
    , l' R( w3 C5 s) |9 ~' c: J4 Z8 a; Wpython,纯随机:
    / N5 ~1 k1 D# ]4 v# ^4 e1. python 读取 excel 数据,取得单词总行数
    $ r4 m; @1 C2 [7 x% i- z/ V1 l
    ( _) a# n6 M, J' O, }" U) T
    謝謝 zzzz_sleep 仁兄之思路% k5 d5 y7 p1 _" p1 w5 c9 Q; ^9 |
    剛發現 Excel 的分析工具箱可以搞定
    & |: k+ O/ `" p+ s! M' G, t可以抽取自訂的數量  T, Z5 q* }. `$ W1 y5 N
    只是抽取時需以數字基礎
    6 J6 W/ q* y: O! S: \' _  G# IA 欄 為數字
    8 X1 d* t# n: l$ [8 n) mB 欄 為字表
    , |- q1 }1 ?( I1 O) A9 S/ i抽取A 欄數字出來後去重再用 Vlookup A 欄就可以對映B 欄字表 搞定
    9 B9 E4 T* ]$ u3 f9 J. i% ^% i4 c" m! t' C
    Excel 的分析工具箱增益集需額外安裝
    3 Q- R# y, f, P4 E. n! h
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2025-5-25 05:36 , Processed in 0.021157 second(s), 24 queries .

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表