我正在创建一个伪随机数据集供应用程序用户进行训练。
我很惊讶如果我用 1、2、3 等为 RAND() 函数播种,我从播种函数得到的结果几乎相同。但是,当未提供种子时,这似乎是“适当随机”但可重复的值。
SELECT RAND(1) AS R1A, RAND() AS R1B, RAND(2) AS R2A, RAND() AS R2B,
RAND(3) AS R3A, RAND() AS R3B, RAND(4) AS R4A, RAND() AS R4B
0.713591993212924
0.472241415009636
0.713610626184182
0.217821139260039
0.71362925915544
0.963400850719992
0.713647892126698
0.708980575436056
乍一看,我似乎可以评估 RAND(@seed) 并丢弃结果,然后评估 RAND() 以获得我的训练数据的几个真正“随机”的数字——到目前为止,我计划每条记录使用四个;我可能还需要一些。
这个计划能正常运作吗?而且,我在这里看什么?而且,它应该在文档中吗?我还没有找到它。
文档说明了这一点,这可能是一个线索:
RAND 函数是一个伪随机数生成器,其操作方式类似于 C 运行时库 rand 函数。如果没有提供种子,系统会生成自己的可变种子数。
C 中的 rand 函数是否会为类似的种子输入产生类似的输出?
我认为文档还可以更清楚地说明 RAND(@number) 后跟 RAND() 总是生成相同的数字。但这就是我想要的,也是任何有经验的计算机程序员所期望的。
我想我可以用从https://www.random.org/获得的随机数据键填充一个表以 用于此目的 - 但这有缺点。
更新,暂定结论
我对 RAND() 有以下结论,现在我想我会继续下去,但要记住替代方案。
RAND(@int) 使用给定的整数值设置随机数生成器的种子,并返回在统计上不独立的浮点结果,因为 RAND(@int) 和 RAND(@int+1) 产生的结果几乎完全相同结果。
当然,RAND(@int) 总是产生相同的结果。
RAND(-@int) 和 RAND(@int) 产生相同的结果。
RAND(0) 是一个例外:可能还有其他例外。RAND(0) 总是产生结果 0.943597390424144,但它与 RAND(1) 的结果不同。
在 RAND(@int) 之后调用 n 次 RAND() 总是产生相同的 n 个数字。如果我们称第 n 个数字为“rand(@int, @n)” -
CREATE PROCEDURE sproc_rand(@seed int, @nth int, @rand float OUTPUT) AS
SET @rand = RAND(@seed);
WHILE ( @nth > 0 ) BEGIN SET @rand = RAND(); SET @nth = @nth - 1; END
rand(@int, @n) 和 rand(@int+1, @n) "模 1" 的区别 -
(1.0 + rand(@int, @n) - rand(@int+1, @n) % 1
是一个常数或接近常数;对于@n = 1,它大约是 0.75。对于@n = 5,它是 0.991。对于@n = 6,它是 0.91。对于@n = 100,它是 0.83。
所以,不,当使用简单的递增种子时,这些不是好的“随机”数字——尽管它们对于@n IN (1, 2, 3, 4) 反弹得很好。
我现在考虑的缓解措施不是使用 RAND(row_id) 但是,
RAND(row_id * @factor_1 + @factor_2)
其中@factor1 和@factor2 是常数项,@factor_1 约为 10,000。而对于不同的项目,不同的因素。
到目前为止,如果我想要可重复的结果,另一种可用的方法(除了乘法逆的东西,我还不太了解)是创建一个表并用其他方法之一的非重复随机数填充它,然后在需要时从该表中提取数字。
提供“种子”的唯一原因是,如果
RAND()
您想要完全相同的(伪)随机值序列用于测试目的。只需在没有种子的情况下调用它,这对于大多数用途来说已经足够了。
如果您确实需要一个可预测的序列,并且您只是对起始(随机)值不满意,则将
RAND()
种子从 -2,147,483,648 一直到 2,147,483,647(整数范围),所以尝试一些相差超过 1 的种子或 2。最后,如果您使用的是 SQL 2008 或更高版本,您还可以选择考虑CRYPT_GEN_RANDOM(警告,它返回一个 varbinary,而不是浮点数,因此您可能需要稍微更改您的代码):看这个文章中的一些分歧和讨论。
是的,
RAND()
使用种子调用会在所有/大多数 SQL Server 版本中产生相同的结果。我在 SQL Server 2012 上进行了测试,得到的结果与问题中的结果相同。此外,如果您运行以下命令,您应该会看到,RAND()
如果组中至少有一个,那么任何数量的没有种子每次都会产生相同的结果RAND(<seed>)
,即使它们是在不同的批次中:但是,如果您正在寻找以下伪随机数:
那么你需要看看使用模乘逆(MMI)。我在回答以下 StackOverflow 问题时更详细地解释了这一点:
在给定的时间间隔内生成不同的随机时间
这种技术也非常快并且不需要预生成(即不存储随机集)。它也适用于早期版本的 SQL Server(2000 和 2005),但这些版本
CRYPT_GEN_RANDOM
不可用。我还有一个关于这个主题的演示文稿,其中包括用于生成值的通用 T-SQL UDF。查看有效生成唯一的伪随机数演示文稿,网址为:
http://www.SqlQuantumLeap.com/presentations/
我可以用技术创造出非常好的随机性。如果您需要实际值,请尝试创建一个 tinyint 表等。显然,这对于大样本量来说并不是最佳选择。
SELECT TOP 1 [Value] FROM [TinyInt] ORDER BY NEWID();
我不只是将它用于随机数。我将它用于可能无法及时完成的任何事情,所以我想确保通过几批运行来完成所有事情。非常适合维护。