喬治兄 发表于 2019-5-30 00:20:21

有關隨機抽樣 Reshuffling 單字字表

本帖最后由 喬治兄 于 2019-5-30 14:48 编辑

問題如下:
想從兩三個或多個 wordlists 隨機抽出一定數量的單字
但又具有機率高點的不遺漏又能兼顧較偏的單字(隨機抽取)

想到一法似乎可行, 盼有興趣的同好指導之.............謝謝感恩
模型如 Excel 附件 按 F9 可隨機選取
缺點:
當數量大時反應不及好像跑不動{:4_91:}
您可以放多點字彙於B 欄
其他欄位按每一欄的公式考背既可




大概說明:
B 欄 為字表(為兩三個字典的字表)
F 欄, K 欄 為想抽取的字條
若 B 欄有十萬(包含重複) ==> 字表若有重複字條則隨機抽出的機率也增加
F 欄, K 欄 可為任意數

PS. 因是以 Random 的函數產生此屬於 uniform distribution 的分配
      或許應以 binomial distribution 的分配來抽取應該會正確一點
      原因是此為計數值而非計量值

大概想法:
1. 是延續 辭典詞彙量估算匹配 https://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=33621&extra=
2. 想從幾個字表抽取出一定數量的單字來匹配
3. 若隨機抽出 30 組再整在一起去重應該是匹配度能達到一定的吻合度

期盼有懂 VBA or Python 能搞一個自動化隨機抽取一個自定量的單字數.....謝謝

Sampling.zip 同4樓解釋的檔案

喬治兄 发表于 2019-5-30 14:26:55

本帖最后由 喬治兄 于 2019-5-30 14:47 编辑

zzzz_sleep 发表于 2019-5-30 09:56
我的思路:
python,纯随机:
1. python 读取 excel 数据,取得单词总行数


zzzz_sleep 兄:
因我的 Excel 2007 分析工具箱 裝不起來
用Excel 2000 分析工具箱解釋
最下面附上 Excel 檔案
從 60000 多個單字隨機抽出 1000個

zzzz_sleep 发表于 2019-5-30 09:56:09

我的思路:
python,纯随机:
1. python 读取 excel 数据,取得单词总行数
2. python rand() 取随机数,数字是 单词 行号
3. python 读取 行号上的单词
4. 完成

excel ,参考抽样审计方法:
1. 分组。比如 设每组 500 个单词,可分组数 N = 总单词数 / 500
2. 从 0 - 500 中取一个随机数,比如 128
3. 取单词。从第一组中取第 128 单词,从第二组中取 第 128 单词,...第 N 组 中取第 128 单词
4. 完毕
当然,python 也可以用这个方法。Excel 计算能力较弱,减轻计算而已

喬治兄 发表于 2019-5-30 11:22:50

本帖最后由 喬治兄 于 2019-5-30 11:52 编辑

zzzz_sleep 发表于 2019-5-30 09:56
我的思路:
python,纯随机:
1. python 读取 excel 数据,取得单词总行数


謝謝 zzzz_sleep 仁兄之思路
剛發現 Excel 的分析工具箱可以搞定
可以抽取自訂的數量
只是抽取時需以數字基礎
A 欄 為數字
B 欄 為字表
抽取A 欄數字出來後去重再用 Vlookup A 欄就可以對映B 欄字表 搞定
{:4_105:}
Excel 的分析工具箱在增益集需額外安裝
页: [1]
查看完整版本: 有關隨機抽樣 Reshuffling 單字字表