AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • 主页
  • 系统&网络
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • 主页
  • 系统&网络
    • 最新
    • 热门
    • 标签
  • Ubuntu
    • 最新
    • 热门
    • 标签
  • Unix
    • 最新
    • 标签
  • DBA
    • 最新
    • 标签
  • Computer
    • 最新
    • 标签
  • Coding
    • 最新
    • 标签
主页 / dba / 问题 / 175911
Accepted
Robert Carnegie
Robert Carnegie
Asked: 2017-06-10 08:44:47 +0800 CST2017-06-10 08:44:47 +0800 CST 2017-06-10 08:44:47 +0800 CST

如何从 RAND 函数(或其他地方)获得满意的随机数?

  • 772

我正在创建一个伪随机数据集供应用程序用户进行训练。

我很惊讶如果我用 1、2、3 等为 RAND() 函数播种,我从播种函数得到的结果几乎相同。但是,当未提供种子时,这似乎是“适当随机”但可重复的值。

SELECT   RAND(1) AS R1A, RAND() AS R1B, RAND(2) AS R2A, RAND() AS R2B,
         RAND(3) AS R3A, RAND() AS R3B, RAND(4) AS R4A, RAND() AS R4B

0.713591993212924

0.472241415009636  

0.713610626184182  

0.217821139260039  

0.71362925915544  

0.963400850719992  

0.713647892126698  

0.708980575436056

乍一看,我似乎可以评估 RAND(@seed) 并丢弃结果,然后评估 RAND() 以获得我的训练数据的几个真正“随机”的数字——到目前为止,我计划每条记录使用四个;我可能还需要一些。

这个计划能正常运作吗?而且,我在这里看什么?而且,它应该在文档中吗?我还没有找到它。

文档说明了这一点,这可能是一个线索:

RAND 函数是一个伪随机数生成器,其操作方式类似于 C 运行时库 rand 函数。如果没有提供种子,系统会生成自己的可变种子数。

C 中的 rand 函数是否会为类似的种子输入产生类似的输出?

我认为文档还可以更清楚地说明 RAND(@number) 后跟 RAND() 总是生成相同的数字。但这就是我想要的,也是任何有经验的计算机程序员所期望的。

我想我可以用从https://www.random.org/获得的随机数据键填充一个表以 用于此目的 - 但这有缺点。

更新,暂定结论

我对 RAND() 有以下结论,现在我想我会继续下去,但要记住替代方案。

RAND(@int) 使用给定的整数值设置随机数生成器的种子,并返回在统计上不独立的浮点结果,因为 RAND(@int) 和 RAND(@int+1) 产生的结果几乎完全相同结果。

当然,RAND(@int) 总是产生相同的结果。

RAND(-@int) 和 RAND(@int) 产生相同的结果。

RAND(0) 是一个例外:可能还有其他例外。RAND(0) 总是产生结果 0.943597390424144,但它与 RAND(1) 的结果不同。

在 RAND(@int) 之后调用 n 次 RAND() 总是产生相同的 n 个数字。如果我们称第 n 个数字为“rand(@int, @n)” -

CREATE PROCEDURE sproc_rand(@seed int, @nth int, @rand float OUTPUT) AS
SET @rand = RAND(@seed);
WHILE ( @nth > 0 ) BEGIN SET @rand = RAND(); SET @nth = @nth - 1; END

rand(@int, @n) 和 rand(@int+1, @n) "模 1" 的区别 -

(1.0 + rand(@int, @n) - rand(@int+1, @n) % 1

是一个常数或接近常数;对于@n = 1,它大约是 0.75。对于@n = 5,它是 0.991。对于@n = 6,它是 0.91。对于@n = 100,它是 0.83。

所以,不,当使用简单的递增种子时,这些不是好的“随机”数字——尽管它们对于@n IN (1, 2, 3, 4) 反弹得很好。

我现在考虑的缓解措施不是使用 RAND(row_id) 但是,

RAND(row_id * @factor_1 + @factor_2)

其中@factor1 和@factor2 是常数项,@factor_1 约为 10,000。而对于不同的项目,不同的因素。

到目前为止,如果我想要可重复的结果,另一种可用的方法(除了乘法逆的东西,我还不太了解)是创建一个表并用其他方法之一的非重复随机数填充它,然后在需要时从该表中提取数字。

sql-server sql-server-2014
  • 3 3 个回答
  • 3482 Views

3 个回答

  • Voted
  1. Best Answer
    BradC
    2017-06-10T08:59:46+08:002017-06-10T08:59:46+08:00

    提供“种子”的唯一原因是,如果RAND()您想要完全相同的(伪)随机值序列用于测试目的。

    只需在没有种子的情况下调用它,这对于大多数用途来说已经足够了。

    如果您确实需要一个可预测的序列,并且您只是对起始(随机)值不满意,则将RAND()种子从 -2,147,483,648 一直到 2,147,483,647(整数范围),所以尝试一些相差超过 1 的种子或 2。

    最后,如果您使用的是 SQL 2008 或更高版本,您还可以选择考虑CRYPT_GEN_RANDOM(警告,它返回一个 varbinary,而不是浮点数,因此您可能需要稍微更改您的代码):看这个文章中的一些分歧和讨论。

    • 5
  2. Solomon Rutzky
    2017-06-10T13:59:45+08:002017-06-10T13:59:45+08:00

    是的,RAND()使用种子调用会在所有/大多数 SQL Server 版本中产生相同的结果。我在 SQL Server 2012 上进行了测试,得到的结果与问题中的结果相同。此外,如果您运行以下命令,您应该会看到,RAND()如果组中至少有一个,那么任何数量的没有种子每次都会产生相同的结果RAND(<seed>),即使它们是在不同的批次中:

    SELECT RAND(), RAND(2), RAND(), RAND(),
                 RAND();
    GO
    SELECT RAND(), RAND();
    -- 0.302870228294199    0.713610626184182   0.217821139260039   0.570956802191052
    --           0.213689267406154
    -- 0.68442381362486 0.201630044636296
    

    但是,如果您正在寻找以下伪随机数:

    1. 保证独一无二
    2. 可重复的
    3. 模式可能因输入参数而异

    那么你需要看看使用模乘逆(MMI)。我在回答以下 StackOverflow 问题时更详细地解释了这一点:

    在给定的时间间隔内生成不同的随机时间

    这种技术也非常快并且不需要预生成(即不存储随机集)。它也适用于早期版本的 SQL Server(2000 和 2005),但这些版本CRYPT_GEN_RANDOM不可用。

    我还有一个关于这个主题的演示文稿,其中包括用于生成值的通用 T-SQL UDF。查看有效生成唯一的伪随机数演示文稿,网址为:

    http://www.SqlQuantumLeap.com/presentations/

    • 3
  3. Joshua Guttman
    2017-06-22T09:29:45+08:002017-06-22T09:29:45+08:00

    我可以用技术创造出非常好的随机性。如果您需要实际值,请尝试创建一个 tinyint 表等。显然,这对于大样本量来说并不是最佳选择。

    SELECT TOP 1 [Value] FROM [TinyInt] ORDER BY NEWID();

    我不只是将它用于随机数。我将它用于可能无法及时完成的​​任何事情,所以我想确保通过几批运行来完成所有事情。非常适合维护。

    • 0

相关问题

  • SQL Server - 使用聚集索引时如何存储数据页

  • 我需要为每种类型的查询使用单独的索引,还是一个多列索引可以工作?

  • 什么时候应该使用唯一约束而不是唯一索引?

  • 死锁的主要原因是什么,可以预防吗?

  • 如何确定是否需要或需要索引

Sidebar

Stats

  • 问题 205573
  • 回答 270741
  • 最佳答案 135370
  • 用户 68524
  • 热门
  • 回答
  • Marko Smith

    连接到 PostgreSQL 服务器:致命:主机没有 pg_hba.conf 条目

    • 12 个回答
  • Marko Smith

    如何让sqlplus的输出出现在一行中?

    • 3 个回答
  • Marko Smith

    选择具有最大日期或最晚日期的日期

    • 3 个回答
  • Marko Smith

    如何列出 PostgreSQL 中的所有模式?

    • 4 个回答
  • Marko Smith

    列出指定表的所有列

    • 5 个回答
  • Marko Smith

    如何在不修改我自己的 tnsnames.ora 的情况下使用 sqlplus 连接到位于另一台主机上的 Oracle 数据库

    • 4 个回答
  • Marko Smith

    你如何mysqldump特定的表?

    • 4 个回答
  • Marko Smith

    使用 psql 列出数据库权限

    • 10 个回答
  • Marko Smith

    如何从 PostgreSQL 中的选择查询中将值插入表中?

    • 4 个回答
  • Marko Smith

    如何使用 psql 列出所有数据库和表?

    • 7 个回答
  • Martin Hope
    Jin 连接到 PostgreSQL 服务器:致命:主机没有 pg_hba.conf 条目 2014-12-02 02:54:58 +0800 CST
  • Martin Hope
    Stéphane 如何列出 PostgreSQL 中的所有模式? 2013-04-16 11:19:16 +0800 CST
  • Martin Hope
    Mike Walsh 为什么事务日志不断增长或空间不足? 2012-12-05 18:11:22 +0800 CST
  • Martin Hope
    Stephane Rolland 列出指定表的所有列 2012-08-14 04:44:44 +0800 CST
  • Martin Hope
    haxney MySQL 能否合理地对数十亿行执行查询? 2012-07-03 11:36:13 +0800 CST
  • Martin Hope
    qazwsx 如何监控大型 .sql 文件的导入进度? 2012-05-03 08:54:41 +0800 CST
  • Martin Hope
    markdorison 你如何mysqldump特定的表? 2011-12-17 12:39:37 +0800 CST
  • Martin Hope
    Jonas 如何使用 psql 对 SQL 查询进行计时? 2011-06-04 02:22:54 +0800 CST
  • Martin Hope
    Jonas 如何从 PostgreSQL 中的选择查询中将值插入表中? 2011-05-28 00:33:05 +0800 CST
  • Martin Hope
    Jonas 如何使用 psql 列出所有数据库和表? 2011-02-18 00:45:49 +0800 CST

热门标签

sql-server mysql postgresql sql-server-2014 sql-server-2016 oracle sql-server-2008 database-design query-performance sql-server-2017

Explore

  • 主页
  • 问题
    • 最新
    • 热门
  • 标签
  • 帮助

Footer

AskOverflow.Dev

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve