使用单个命令行命令，我将如何搜索数据库中的每个文本文件以找到 10 个最常用的单词？

Question

flow2k

Asked: 2019-01-26 16:58:57 +0800 CST2019-01-26 16:58:57 +0800 CST 2019-01-26 16:58:57 +0800 CST

random_source 文件的大小是否重要？

772

一些 GNU coreutils 实用程序喜欢sort并shuf使用文件作为有效地服务于种子的东西。文件大小重要吗？

推荐的方式https://www.gnu.org/software/coreutils/manual/html_node/Random-sources.html使用基于 openssl 的方法，需要相当长的时间。

如果我只使用如下 6 个字母的单词怎么办？这是否会影响所述实用程序创建伪随机性的能力？

shuf -i1-10 --random-source=<(echo durian)

2 个回答

Voted

Sparhawk · Answer 1 · 2019-01-26T17:26:30+08:00

如果您提供一个固定字符串作为随机源，那么它每次都会以相同的方式“随机化” 。为了证明这一点，让我们测试一下。

$ printf '%s\n' a b c | shuf --random-source=<(echo durian)
b
c
a

在我的系统上，每次运行上述命令时输出都是相同的。（我怀疑它可能会因实现而有所不同，但每次都应该是相同的。）根据这个 XKCD，您正在对随机性进行硬编码：

这不是真正随机的。它只是每次都产生相同的输出。固定字符串源的大小无关紧要。它仍然是固定的。

您提供的链接中有与随机源的随机质量相关的相关信息：

/dev/urandom对于大多数实际用途来说已经足够了，但是需要对私有数据进行高价值或长期保护的应用程序可能需要备用数据源，例如/dev/random或/dev/arandom.

后两个选项比第一个选项“更随机”。这意味着源越随机，改组越随机。因此，固定字符串不是特别健壮。

具体来说，shuf固定字符串的长度是相关的。例如，以下失败。

shuf -i1-19 --random-source=<(echo durian)

但是，如果将输出限制为-n16，它可以工作，但会-n17失败。我测试了几个不同的单词和排列，当我减少源中的字符数时，最大值-n会下降。

source length     max -n
7                 16
6                 13
5                 10
4                  8
3                  5
2                  3
1                  1
0                  0

我不确定直接关系，但大概额外的排序项目（在-n）需要更多的源字符作为种子。然而，shuf至少，一旦你通过了这个最小阈值，每个额外的字符对随机性本身没有任何影响。在上面的示例中，如果您更改第 50 个字符，则输出仍然相同。

Joachim Wagner · Answer 2 · 2020-12-06T04:36:35+08:00

是的，大小很重要shuf：大小必须与https://github.com/coreutils/coreutils/blob/master/gl/lib/randint.crandint_genmax()中所需的一样大，以派生使用的随机数算法需要（每个数字都可以从特定范围内挑选）。这个大小取决于两者

输入行数和
随机源文件中的字节值。

如果您更改随机源文件中的一个字节，它可以更改总共需要多少字节。例如，如果需要一个 0-254 范围内的数字，如果它恰好在这个范围内，则读取一个字节就足够了，但如果该字节是 '\xff'（255 作为一个无符号 8 位整数），则至少一个还需要更多字节。

这可用于构建一个即使提供了大量字节也会失败的示例：

shuf -i1-10 --random-source=<(echo $'\xff\xff\xff\xff\xff\xff\xff\xff')
shuf: ‘/dev/fd/63’: end of file

只需三个字节 'ab'+newline 就足够了：

shuf -i1-10 --random-source=<(echo ab) | md5sum
742a739ea959851f883ec692d6675cdf  -

为了提供带有种子的伪随机源，我没有找到仅命令行的解决方案，但至少这里是仅使用 bash 的草案解决方案（请参阅下面的已知问题）：

(1) 辅助脚本seed-and-counter.sh：

#!/bin/bash
SEED="$1"
COUNTER=0
while true; do
    echo $SEED $COUNTER
    COUNTER=$((COUNTER+1))
done

(2) 辅助脚本bin-hash-lines.sh：

#!/bin/bash
echo "$1" | md5sum | cut -c-32 | xxd -r -p

(3) 将它们组合起来产生一个可重现的随机字节序列：

./seed-and-counter.sh 320 | xargs -d'\n' -n 1 ./bin-hash-lines.sh | hexdump -C | head
00000000  02 56 8b 68 34 78 bd 98  6e 8d 42 d2 cb 7b 8d b4  |.V.h4x..n.B..{..|
00000010  7d d8 23 b9 89 f8 29 5b  6c 51 fb 9f b3 74 1d 03  |}.#...)[lQ...t..|
00000020  bc 1d 62 81 31 0b 5d 82  8c cb 37 4a b8 bc 85 70  |..b.1.]...7J...p|
00000030  88 3d 57 ae ef 77 28 aa  3a cf f7 49 ed 00 37 21  |.=W..w(.:..I..7!|
00000040  45 55 39 94 3f 30 90 49  4f f0 04 d5 1e c5 0c 1e  |EU9.?0.IO.......|
00000050  e4 e8 8e 72 84 58 3c 03  66 e5 bd af fb 87 78 6b  |...r.X<.f.....xk|
00000060  b0 40 e4 cb 6f 78 c0 90  f8 e6 0d 73 89 fe 0a 98  |[email protected]....|
00000070  04 45 39 0c e6 32 ae 26  c5 13 0e ca fb e6 bc f2  |.E9..2.&........|
00000080  49 57 65 da 79 c1 4f 03  f7 97 ec 8c 72 59 cf ac  |IWe.y.O.....rY..|
00000090  64 d6 fe 87 6e 18 5e 81  2c 9b a3 6a b5 10 12 da  |d...n.^.,..j....|

(4) 将此作为随机源：

shuf -i1-1000 --random-source=<(./seed-and-counter.sh 320 | xargs -d'\n' -n 1 ./bin-hash-lines.sh) | tail
430
854
890
580
441
960
944
332
687
703

已知问题：帮助脚本和xargs命令似乎一直在运行。

random_source 文件的大小是否重要？

模块 i915 可能缺少固件 /lib/firmware/i915/*

无法获取 jessie backports 存储库

如何将 GPG 私钥和公钥导出到文件

我们如何运行存储在变量中的命令？

如何配置 systemd-resolved 和 systemd-networkd 以使用本地 DNS 服务器来解析本地域和远程 DNS 服务器来解析远程域？

dist-upgrade 后 Kali Linux 中的 apt-get update 错误 [重复]

如何从 systemctl 服务日志中查看最新的 x 行

Nano - 跳转到文件末尾

grub 错误：你需要先加载内核

如何下载软件包而不是使用 apt-get 命令安装它？

random_source 文件的大小是否重要？

2 个回答

相关问题