我正在创建一个伪随机数据集供应用程序用户进行训练。
我很惊讶如果我用 1、2、3 等为 RAND() 函数播种,我从播种函数得到的结果几乎相同。但是,当未提供种子时,这似乎是“适当随机”但可重复的值。
SELECT RAND(1) AS R1A, RAND() AS R1B, RAND(2) AS R2A, RAND() AS R2B,
RAND(3) AS R3A, RAND() AS R3B, RAND(4) AS R4A, RAND() AS R4B
0.713591993212924
0.472241415009636
0.713610626184182
0.217821139260039
0.71362925915544
0.963400850719992
0.713647892126698
0.708980575436056
乍一看,我似乎可以评估 RAND(@seed) 并丢弃结果,然后评估 RAND() 以获得我的训练数据的几个真正“随机”的数字——到目前为止,我计划每条记录使用四个;我可能还需要一些。
这个计划能正常运作吗?而且,我在这里看什么?而且,它应该在文档中吗?我还没有找到它。
文档说明了这一点,这可能是一个线索:
RAND 函数是一个伪随机数生成器,其操作方式类似于 C 运行时库 rand 函数。如果没有提供种子,系统会生成自己的可变种子数。
C 中的 rand 函数是否会为类似的种子输入产生类似的输出?
我认为文档还可以更清楚地说明 RAND(@number) 后跟 RAND() 总是生成相同的数字。但这就是我想要的,也是任何有经验的计算机程序员所期望的。
我想我可以用从https://www.random.org/获得的随机数据键填充一个表以 用于此目的 - 但这有缺点。
更新,暂定结论
我对 RAND() 有以下结论,现在我想我会继续下去,但要记住替代方案。
RAND(@int) 使用给定的整数值设置随机数生成器的种子,并返回在统计上不独立的浮点结果,因为 RAND(@int) 和 RAND(@int+1) 产生的结果几乎完全相同结果。
当然,RAND(@int) 总是产生相同的结果。
RAND(-@int) 和 RAND(@int) 产生相同的结果。
RAND(0) 是一个例外:可能还有其他例外。RAND(0) 总是产生结果 0.943597390424144,但它与 RAND(1) 的结果不同。
在 RAND(@int) 之后调用 n 次 RAND() 总是产生相同的 n 个数字。如果我们称第 n 个数字为“rand(@int, @n)” -
CREATE PROCEDURE sproc_rand(@seed int, @nth int, @rand float OUTPUT) AS
SET @rand = RAND(@seed);
WHILE ( @nth > 0 ) BEGIN SET @rand = RAND(); SET @nth = @nth - 1; END
rand(@int, @n) 和 rand(@int+1, @n) "模 1" 的区别 -
(1.0 + rand(@int, @n) - rand(@int+1, @n) % 1
是一个常数或接近常数;对于@n = 1,它大约是 0.75。对于@n = 5,它是 0.991。对于@n = 6,它是 0.91。对于@n = 100,它是 0.83。
所以,不,当使用简单的递增种子时,这些不是好的“随机”数字——尽管它们对于@n IN (1, 2, 3, 4) 反弹得很好。
我现在考虑的缓解措施不是使用 RAND(row_id) 但是,
RAND(row_id * @factor_1 + @factor_2)
其中@factor1 和@factor2 是常数项,@factor_1 约为 10,000。而对于不同的项目,不同的因素。
到目前为止,如果我想要可重复的结果,另一种可用的方法(除了乘法逆的东西,我还不太了解)是创建一个表并用其他方法之一的非重复随机数填充它,然后在需要时从该表中提取数字。