关于【algorithm】的问题- 第1页

Frederik

Asked: 2024-05-12 17:57:21 +0800 CST

优化的磁盘数据结构，用于以最少的随机访问进行搜索

我有一个巨大的文件 (~16TB)，其中包含映射到 8 字节值的 8 字节键的列表。（2^40 对，每对 16 个字节）。

我现在想优化该文件，以便可以有效地搜索它。我目前已对文件进行排序并对其执行二进制搜索。这需要 30 次读取才能完成，但这些读取高度分布在文件周围，尤其是在开始时。

我知道我可以将 10 步后剩下的整个二分搜索分区加载到 16GB 内存中，并在那里继续搜索。但是，我的可用内存量可以忽略不计，因此这不是一个选择。

有没有一种方法可以安排磁盘上的数据，以便搜索文件所需的访问从一开始就紧密结合在一起？这将允许我加载需要读入内存的整个“范围”的值，以减少read总调用次数，并减少随机访问次数。

在初始构建之后，文件永远不会改变，因此插入和删除是不相关的，并且构建任何类型的索引都允许花费很长时间。此外，密钥（大致）均匀分布在 2^64 空间中。

user24714692

Asked: 2024-05-05 01:01:05 +0800 CST

Clique Connect：最小生成树（Kruskal 与 Prim）

问题陈述

给定一个带权无向图 G，有 N 个顶点，编号为 1 到 N。最初，G 没有边。

您将执行 M 次操作来向 G 添加边。第 i 次操作 (1≤i≤M) 如下：

给定一个由 K _{i个顶点组成的顶点子集 S}_i ={A _i,1 , A _i,2 , ,…,A _i,Ki } 。对于每对 u,v 使得 u,v ∈ S _i且 u<v，在顶点 u 和 v 之间添加一条权重为 C _{i 的}边。执行完所有M个操作后，判断G是否连通。如果是，求 G 的最小生成树中边的总权重。

代码

from collections import defaultdict


def solution(A):
    class Kruskal:
        def __init__(self, G):
            self.G = G
            self.parent = {}
            self.rank = {}
            self.make_sets()

        def make_sets(self):
            for u, v in self.G:
                if u not in self.parent:
                    self.parent[u] = u
                    self.rank[u] = 0
                if v not in self.parent:
                    self.parent[v] = v
                    self.rank[v] = 0

        def find(self, x):
            if self.parent[x] != x:
                self.parent[x] = self.find(self.parent[x])
            return self.parent[x]

        def union(self, u, v):
            su, sv = self.find(u), self.find(v)
            if su != sv:
                if self.rank[su] > self.rank[sv]:
                    self.parent[sv] = su
                else:
                    self.parent[su] = sv
                    if self.rank[su] == self.rank[sv]:
                        self.rank[sv] += 1

        def _mst(self):
            mst = []
            for edge in self.G.keys():
                u, v = edge
                if self.find(u) != self.find(v):
                    self.union(u, v)
                    mst.append((u, v, self.G[edge]))
            return mst

    N, M = A[0]
    graph = defaultdict(int)
    for i in range(1, len(A)):
        if i % 2 == 1:
            k, c = A[i]
        else:
            edges = A[i]
            for ii in range(len(edges)):
                for jj in range(ii + 1, len(edges)):
                    if edges[ii] < edges[jj]:
                        if (edges[jj], edges[ii]) not in graph or (edges[ii], edges[jj]) not in graph:
                            graph[(edges[jj], edges[ii])] = c
                            graph[(edges[ii], edges[jj])] = c
                            continue
                        if (edges[jj], edges[ii]) in graph and graph[(edges[jj], edges[ii])] > c:
                            graph[(edges[jj], edges[ii])] = c
                        if (edges[ii], edges[jj]) in graph and graph[(edges[ii], edges[jj])] > c:
                            graph[(edges[ii], edges[jj])] = c

    kruskal = Kruskal(graph)
    MST = kruskal._mst()
    res = 0
    nodes = set()
    # print(MST)
    for x, y, z in sorted(MST, key=lambda o: o[-1]):
        res += z
        nodes.update({x, y})

    if sorted(nodes) != list(range(1, N + 1)):
        print(-1)
    else:
        print(res)


A = [[10, 5], [6, 158260522], [1, 3, 6, 8, 9, 10], [10, 877914575], [1, 2, 3, 4, 5, 6, 7, 8, 9, 10],
     [4, 602436426], [2, 6, 7, 9], [6, 24979445], [2, 3, 4, 5, 8, 10], [4, 861648772], [2, 4, 8, 9]]

solution(A)

问题

它输出：4302960910. 预期输出是1202115217. 我错过了什么？

选择：

from collections import defaultdict
from heapq import heappush, heappop


def solution(A):
    def prim(G):
        vis = set()
        start, dest = next(iter(G))
        vis.add(start)
        Q, mst = [], []
        for (start, nei), w in G.items():
            heappush(Q, (w, start, nei))
        while Q:  # and len(vis) < len(G):
            # print(Q)
            w, src, dest = heappop(Q)
            if dest in vis:
                continue
            vis.add(dest)
            mst.append((src, dest, w))
            for w, nei in G[dest]:
                heappush(Q, (w, dest, nei))
        return mst

    N, M = A[0]
    graph = defaultdict(list)
    for i in range(1, len(A)):
        if i % 2 == 1:
            k, c = A[i]
        else:
            edges = A[i]
            for ii in range(len(edges)):
                for jj in range(ii + 1, len(edges)):
                    if edges[ii] < edges[jj]:
                        if (edges[jj], edges[ii]) not in graph:
                            graph[(edges[ii], edges[jj])] = c
                            graph[(edges[jj], edges[ii])] = c
                            continue

                        if (edges[jj], edges[ii]) in graph and graph[(edges[jj], edges[ii])] > c:
                            graph[(edges[jj], edges[ii])] = c
                        # if (edges[ii], edges[jj]) in graph and graph[(edges[ii], edges[jj])] > c:
                        #     graph[(edges[ii], edges[jj])] = c

    mst = prim(graph)
    res = 0
    s = set()
    for x, y, w in mst:
        res += w
        s.update({x, y})

    if sorted(s) != list(range(1, N + 1)):
        print(-1)
    else:
        print(res)


A = [[10, 5], [6, 158260522], [1, 3, 6, 8, 9, 10], [10, 877914575], [1, 2, 3, 4, 5, 6, 7, 8, 9, 10],
     [4, 602436426], [2, 6, 7, 9], [6, 24979445], [2, 3, 4, 5, 8, 10], [4, 861648772], [2, 4, 8, 9]]
solution(A)

替代算法似乎“部分”起作用，但我仍然不确定它是否已正确实现？

伪代码

algorithm Kruskal(G) is
    F:= ∅
    for each v in G.V do
        MAKE-SET(v)
    for each {u, v} in G.E ordered by weight({u, v}), increasing do
        if FIND-SET(u) ≠ FIND-SET(v) then
            F := F ∪ { {u, v} }
            UNION(FIND-SET(u), FIND-SET(v))
    return F

如何在线运行代码？

使用我的 Ideone 模板。
solution用你正确的方法改变方法solution。
在此链接中提交您的代码（需要登录用户名和密码）。

Catarina Nogueira

Asked: 2024-04-19 21:55:33 +0800 CST

列表中值总和最多为 K 的最大元素数

我有一个练习要求：

考虑一个具有 n 个正整数和一个整数 k 的向量 T。提出一种算法，从 T 中选择最大数量的元素，使得所选元素的总和小于或等于 k。

我所做的是：

 def findSumCount(L, k):
  L.sort()
  totalSum = L[0]
  count = 1
  for i in range(1, len(L), 1):
    if(totalSum + L[i] <= k):
      count = count + 1
      totalSum = totalSum + L[i]
    if(totalSum + L[i] > k): break

  return count

findSumCount([1, 2, 3, 4], 5)

我认为当我对条目上的数组进行排序时，这是有效的（如果您认为它不起作用，请给我一个反例）。但是，如果我之前没有排序（即在没有事先排序的情况下迭代数组），我就看不到前进的道路。有任何想法吗？

meow

Asked: 2024-04-19 16:31:56 +0800 CST

为什么计算概率问题时不同的方法会导致不同的结果

问题是

“每张彩票的中奖概率为0.005。你可以免费获得25张彩票。免费彩票后，你需要支付9.6美元才能购买一张彩票。”

抽到250张就保证中奖（也就是说如果有人运气很差，买了249张票，却没有得到任何奖励。那么当他买了第250张票时，商店可以直接给他奖励）。

请计算一下您中奖后的平均费用。”

方法1（最终得到-->525.48）：

for i in range(26, 250):
        probability_win = (0.995 \*\* (i - 1)) \* 0.005  #win at this draw
        cost_this_draw = 9.6 \* (i - 25)  # the overall cost at this time
        revised_total_cost += probability_this_draw \* cost_this_draw
return revised_total_cost

方法2（最终得到-->1014.5）：

max_draws = 250  
free_draws = 25  
cost_per_draw = 9.6
win_probability = 0.005
cumulative_probability_not_winning = 1.0
expected_total_cost = 0.0

for draw in range(1, max_draws + 1):
    if draw > free_draws:
    # only add cost when over the free draws
        expected_total_cost += cost_per_draw \* (1 - cumulative_probability_not_winning)

    # update the probability of not win at next time
    cumulative_probability_not_winning *= (1 - win_probability)
return expected_total_cost

我知道第一种方法是通过概率分布来计算。每次都是单独的。但我不明白为什么第二种方法不同。有人可以帮我解答这个问题吗？非常感谢。

VansFannel

Asked: 2024-04-11 15:37:23 +0800 CST

给定输入值，返回值如 1050、1150、1250、1350、1450、

我正在开发一种 C++ 算法，给定一个浮点数作为输入，它会返回最接近以 50 结尾的数字的值。抱歉，我不知道如何更好地解释它。举个例子，我的意思是，我需要这些数字：50、150、250、350、450、550 等。

换句话说，如果输入值介于之间，[1050, 1100)则返回 1050，但如果输入值介于之间[1100, 1150]，则返回 1150。

所以，这是我的算法，仅在输入值等于或大于 1000.0 时才有效：

将输入值除以 100.0。
取小数部分
如果分数部分大于或等于 0.0 且小于 0.5，则整数部分加 1。
整数部分乘以 100。
结果加上 50。

当输入为701.272时，它返回850.0，但它应该返回750.0。

如果输入数字小于 1000，则问题可能是除以 100 并乘以 100。

我该如何修复这个算法？

Giorgi Lagidze

Asked: 2024-03-16 06:13:11 +0800 CST

如果哈希函数不是常量，哈希表查找时间会令人困惑[重复]

在哈希表中，我们一般说插入/查找时间为O(1)。

我读过，只有当使用的散列函数具有恒定时间时，这才是正确的，并且据说恒定时间取决于我们使用的密钥的长度。在某些情况下，插入时间变为 O(k)。

如果编程语言使用 keccak256 或 sha 等哈希函数来确定哈希表中键的 hashCode，那么我同意哈希表中的插入时间可能会超过 O(1)。但我刚刚尝试了 keccak256 长度为 10000 的文本，它是即时的，这就引出了一个问题：长文本的散列如何将插入时间从 O(1) 增加到 O(k) ？我对哈希函数本身没有经验，因此无需解释该部分。只是一个概述解释为什么它是 O(k) 而不是 O(1) 而对于我的长文本来说它是即时的，将不胜感激。

Giorgi Lagidze

Asked: 2024-03-16 03:29:41 +0800 CST

不同情况下的数组与二分查找

我一直在研究二叉搜索树与数组，并且很好奇我的假设是否正确。所以我会解释一下我的理解，如果你这么认为，请纠正我。我们还假设我们想要创建一个数据结构，它可以：

问题： 不过，唯一的区别是，对于数组，插入更耗时 - 即 O(n) > O(log(n))。除此之外，甚至可以在 O(1) 时间内找到特定元素，并且找到最大/最小元素。排序数组的插入时间是我们决定使用二叉搜索树的原因吗？O(n) 真的对我们有影响吗，所以我们改用 O(log(n)) 的二叉搜索树？

Rohit_Yadav_

Asked: 2024-03-16 00:21:23 +0800 CST

违反禁止相邻花的规则

你有一个长长的花坛，其中有些地块种植了，有些则没有。但是，相邻的地块不能种植花卉。给定一个包含 0 和 1 的整数数组花坛，其中 0 表示空，1 表示非空，以及一个整数 n，如果可以在花坛中种植 n 朵新花而不违反无相邻花规则，则返回 true，否则返回 false。

示例 1：输入：flowerbed = [1,0,0,0,1], n = 1 输出：true 示例 2：输入：flowerbed = [1,0,0,0,1], n = 2 输出：false

有谁知道为什么在这种情况下输出 1 为真？输入：[0,0,1,0,0] 1 输出：false 预期：true

CallMeDave

Asked: 2024-03-08 20:35:24 +0800 CST

无向图 - 带顶点和边的最短路径

练习：

在无向图中，除了边的权重之外，顶点还可以有权重。
这个问题是编写算法，找到图G中顶点a和b之间最便宜的路径。
路径的成本是边的成本之和以及路径上遇到的顶点。

为了更容易理解，我们将其视为：顶点是一座城市，边是城市之间的道路。
我们可以这样考虑权重：
顶点的权重是进入城市之前在红绿灯处的等待时间，边权重是到达该红绿灯的时间（如果有的话）。

我的第一种方法是将每个顶点的权重添加到其连接的所有边上，然后运行 dijkstra，但这是错误的，例如：图形图像，您可以看到从“红色城市”到“绿色城市”的最短路径" 是较低的路径（成本为 11）
，但如果我们使用这种方法，那么我们将得到这个新图，其中最短路径是较高的路径。
我认为可行的第二种方法是创建新图，因此对于原始图中的每个无向边 (u,v)，在我们创建的新图中添加两条边： (u,v) 使得 w'(u, v)=w(v) 和 (v,u) 使得 w'(v,u)=w(u)。然后我们得到有向图，我们可以在它上面运行 dijkstra。如果我们看一下之前的例子，我们会得到这个图

它是否正确？有没有更简单的解决方案？
至于根据维基百科的时间复杂度，当使用斐波那契堆（我还没学过）时，总成本为 O(E+V log V)，但是构建有向图的时间复杂度是多少？如果我想证明\证明正确性，只说因为 dijkstra 的正确性就足够了吗？

PPenguin

Asked: 2024-03-02 07:24:46 +0800 CST

均匀随机生成一个由 k 个无符号整数组成的向量，总和为 N

另一种说法是：将N个相同的项目随机划分到k个桶中，并允许某些桶为空。

对于本次讨论：

为了匹配通常的定义和计数， “ N 的整数分区”可以被认为是：
- 正整数元组，按降序排列，总和为 N
如果无符号整数向量的元素之和（没有整数溢出）为 N，则它是 N 的“分区”。

我想编写一个函数 f(N,k) ，它随机且均匀地在长度为 k 的可能向量中进行选择，对 N 进行分区并返回所选向量。

如果有一个适用于所有 k>=1 的解决方案，那就太好了，但我对 k > N 特别感兴趣。因此，如果它有助于集中或限制该条件，那就可以了。如果我们必须深入研究近似/启发式方法，则可以考虑 k 足够大，以至于大多数向量条目必须为零（因此至少 k > 2N）。

我最初的想法是：

如果 N 足够小，可以合理地计算（或在表中查找？） N 的整数分区数，那么也许我们可以继续：
- 创建一个由 k 个无符号整数组成的向量，初始化为零
- 对 N 进行随机整数分区。令 m 为该元组的长度。
- 将这些值放置在向量的初始 m 个位置。
- 随机打乱向量。

这会天真地认为输出向量中包含 N 的一个条目的可能性与包含 1 的 N 个条目的可能性相同。这是不正确的。但也许有一个简单的权重可以应用于“制作 N 的随机整数分区”，这可以纠正这个问题？

另一种方法感觉更干净，但可能仍然需要在某个地方“重新加权”：
- 创建一个由 k 个无符号整数组成的向量，初始化为零
- 执行以下N次：
  - 随机选择向量的一个元素并递增它

虽然一开始感觉更干净，但我认为尝试“重新加权”会更加混乱。虽然第 1 部分的权重对我来说听起来像是一个困难的算法问题，但我至少可以想象需要计算什么。在这里，我什至不确定什么需要重新加权以及如何重新加权。

我认为它可能仍然需要重新加权的原因是，恰好有一个随机选择序列会导致向量看起来像 [N,0,0,...,0]，并且 N！随机选择序列将导致向量以 N 个 [1,1,...,1,0,0,...,0] 开头。计算最终结果的这些“不正确的权重”的比率听起来是可行的，但我不知道如何重新权衡各个步骤来纠正它。

或者也许还有另一种完全是我没有想到的方法？

优化的磁盘数据结构，用于以最少的随机访问进行搜索

Clique Connect：最小生成树（Kruskal 与 Prim）

问题陈述

代码

问题

选择：

伪代码

如何在线运行代码？

列表中值总和最多为 K 的最大元素数

为什么计算概率问题时不同的方法会导致不同的结果

给定输入值，返回值如 1050、1150、1250、1350、1450、

如果哈希函数不是常量，哈希表查找时间会令人困惑[重复]

不同情况下的数组与二分查找

违反禁止相邻花的规则

无向图 - 带顶点和边的最短路径

均匀随机生成一个由 k 个无符号整数组成的向量，总和为 N

为什么双破折号 (--) 会导致此 MariaDB 子句评估为 true？

AdMob：MobileAds.initialize() - 对于某些设备，“java.lang.Integer 无法转换为 java.lang.String”

ELF 重定位的应用顺序在哪里指定？

为什么 GCC 生成有条件执行 SIMD 实现的代码？

Selenium urllib.error.HTTPError：HTTP 错误 404：未找到

Box::new() 会从堆栈复制到堆吗？

sizeof("string") 的正确输出是什么？

使用 <font color="#xxx"> 突出显示 html 中的代码

我正在尝试仅使用海龟随机和数学模块来制作吃豆人游戏

C++17 中 std::byte 只能按位运算？

问题[algorithm](coding)

代码

问题

选择：

如何在线运行代码？