我想运行一个查找素数的查询,并且我想永远运行它。
@Solomon Rutzky 在这个页面上给定范围内的素数,给我们一个关于埃拉托色尼筛的好例子。
DECLARE @RangeStart INT = 1,
@RangeEnd INT = 100000;
DECLARE @HowMany INT = CEILING((@RangeEnd - @RangeStart + 1) / 2.0);
;WITH frst AS
(
SELECT tmp.thing1
FROM (VALUES (0), (0), (0), (0), (0), (0), (0), (0), (0), (0)) tmp(thing1)
), scnd AS
(
SELECT 0 AS [thing2]
FROM frst t1
CROSS JOIN frst t2
CROSS JOIN frst t3
), base AS
(
SELECT TOP( CONVERT( INT, CEILING(SQRT(@RangeEnd)) ) )
ROW_NUMBER() OVER (ORDER BY (SELECT 1)) AS [num]
FROM scnd s1
CROSS JOIN scnd s2
), nums AS
(
SELECT TOP (@HowMany)
(ROW_NUMBER() OVER (ORDER BY (SELECT 1)) * 2) +
(@RangeStart - 1 - (@RangeStart%2)) AS [num]
FROM base b1
CROSS JOIN base b2
), divs AS
(
SELECT [num]
FROM base b3
WHERE b3.[num] > 4
AND b3.[num] % 2 <> 0
AND b3.[num] % 3 <> 0
)
SELECT given.[num] AS [Prime]
FROM (VALUES (2), (3)) given(num)
WHERE given.[num] >= @RangeStart
UNION ALL
SELECT n.[num] AS [Prime]
FROM nums n
WHERE n.[num] BETWEEN 5 AND @RangeEnd
AND n.[num] % 3 <> 0
AND NOT EXISTS (SELECT *
FROM divs d
WHERE d.[num] <> n.[num]
AND n.[num] % d.[num] = 0
);
所以我们可以很容易地生成一个从 0 到 100 的所有素数的列表。
但是假设我希望查询在接下来的 20 年内运行,所以我设置了一个非常大的数字:
DECLARE @RangeStart INT = 1,
@RangeEnd INT = 100000000000000000000000000000000000000000000000000;
这就是问题所在:我如何才能在接下来的 20 年内维护这个查询?
因为埃拉托色尼筛法有一个特点:
如果它被中断,你必须从头开始。
所以我的问题从这里开始:
- 我如何设法更换 CPU、升级 RAM、更换硬盘等...
- 如何管理故障转移灾难场景以避免该脚本停止?
- 故障转移会保证查询不会停止吗?
- 云冗余和故障转移到不同的提供商(Azure / AWS / GCE)这将确保脚本不会停止吗?
- 如果故障转移是从 Azure 到全球 2 个不同地区的 AWS 怎么办?此故障转移会保持存储过程运行吗?
现在是灾难恢复部分:
- 我可以备份,比如说每个月,该存储过程的状态,并最终从该映像恢复吗?
- 如果我在虚拟机上运行存储过程并拍摄快照,我可以恢复存储过程吗?
我确信有人在这样做:这个分解素数的在线数据库http://factordb.com/status.php已经成功地从 200MB(2014 年)增加到今天(2019 年)的近 800MB。
修改脚本会更容易,以便它写出最后一个值,或者每 n 次写出一个值,以便您可以在失败的情况下使用最后一个已知值重新启动脚本。Linux 硬件非常可靠,我有超过 4 年正常运行时间的服务器,但当然没有任何保证。
第一个想法
你有一个 XY 问题。您需要使用允许您从特定点重新启动的算法。
代码审查
Dividend.num <=@endnum
存在于两个地方。Divisor.num between 2 and sqrt(dividend.num) is more restrictive than
Divisor.num <= @endnum`。NOT EXISTS
对所有行使用适当的行范围Dividend
...Dividend.num <= @endnum
为Dividend.num between @startnum and @endnum
算法笔记
既然 SQL 语句定义了一个 RANGE……你可以运行 20 年
对于 A 和 B 之间的所有数字:
与分段筛法不同,您使用每个块的所有值,而不仅仅是已知的素数。
分段筛
实施分段筛所需的更改
DELETE FROM T16M WHERE num in ( .... )
)笔记
宇宙的寿命(以及所需的磁盘空间量)可能会限制你能找到多大的数字。
原始问题关注
Voyager 1/Voyager 2 是 40 年以来运行时间最长的计算机程序之一。
https://www.space.com/26041-nasa-voyager-probes-solar-system-legacy.html
可以通过 SAN 系统添加/更换磁盘。
热添加物理 CPU/RAM 可能需要非英特尔设备。
分块
Oracle 用户可以使用它
DMBS_PARALLEL_EXECUTE
来创建块并运行它们。其他 RDBMS 将需要实现自己的 API 来执行此操作。初步评论:关于改变方法的可行性有一些(现已删除)评论,该方法允许重新启动基于 Eratosthenes 筛子的素数搜索……
以下内容应该可以工作:
设置阶段/种子:
尽可能做好工作准备:
在行动中看到它:db<>fiddle。
注意:只是想法 - T-SQL 并不是我真正喜欢的...
如果需要调整/进一步详细信息,请发表评论。