我如何使用 Perl 的each 和列表？

Question

con

Asked: 2024-01-18 23:54:16 +0800 CST2024-01-18 23:54:16 +0800 CST 2024-01-18 23:54:16 +0800 CST

Perl：减少字符串长度会增加字符串数组中的内存使用量

772

我正在读取一个巨大的文件，以将数据存储在一个非常大的哈希中。我试图使 RAM 使用量尽可能小。

我有一个 MWE，它在 Perl 中表现出奇怪的行为：

#!/usr/bin/env perl

use 5.038;
use warnings FATAL => 'all';
use autodie ':default';
use DDP {output => 'STDOUT', array_max => 10, show_memsize => 1}; # pretty print with "p"

my @l = split /\s+/, 'OC   Pimascovirales; Iridoviridae; Betairidovirinae; Iridovirus.';
p @l;
$_ =~ s/[\.;]$// foreach @l; # single line keeps code shorter
p @l;

它有输出：

[
    [0] "OC",
    [1] "Pimascovirales;",
    [2] "Iridoviridae;",
    [3] "Betairidovirinae;",
    [4] "Iridovirus."
] (356B)
[
    [0] "OC",
    [1] "Pimascovirales",
    [2] "Iridoviridae",
    [3] "Betairidovirinae",
    [4] "Iridovirus"
] (400B)

虽然这个示例非常小，但我将多次执行此操作，因此 RAM 管理非常重要。

减少字符串长度如何将该数组的 RAM 大小从 356B增加到400B？

如果可能的话，我可以避免这样的增加吗？

3 个回答

Voted

choroba · Answer 1 · 2024-01-19T00:17:29+08:00

这是写时复制的结果。换句话说，在您开始更改字符串之前，Perl 只知道在原始字符串中查找它们的位置，但不会复制它们。

使用Devel::Peek查看：

use Devel::Peek qw{ Dump };
Dump @l;

替换前：

SV = PVAV(0x5565ec854f20) at 0x5565ec8d8dc8
  REFCNT = 1
  FLAGS = ()
  ARRAY = 0x5565ecde8350
  FILL = 400
  MAX = 473
  FLAGS = (REAL)
  Elt No. 0
  SV = PV(0x5565ec853de0) at 0x5565ec853220
    REFCNT = 1
    FLAGS = (POK,pPOK)
    PV = 0x5565ec8d6dd0 "OC"\0
    CUR = 2
    LEN = 10
  Elt No. 1
  SV = PV(0x5565ec853eb0) at 0x5565ec853418
    REFCNT = 1
    FLAGS = (POK,IsCOW,pPOK)
    PV = 0x5565eca6b9d0 "Pimascovirales;"\0
    CUR = 15
    LEN = 17
    COW_REFCNT = 0
  Elt No. 2
...

后：

SV = PVAV(0x5565ec854f20) at 0x5565ec8d8dc8
  REFCNT = 1
  FLAGS = ()
  ARRAY = 0x5565ecde8350
  FILL = 400
  MAX = 473
  FLAGS = (REAL)
  Elt No. 0
  SV = PV(0x5565ec853de0) at 0x5565ec853220
    REFCNT = 1
    FLAGS = (POK,pPOK)
    PV = 0x5565ec8d6dd0 "OC"\0
    CUR = 2
    LEN = 10
  Elt No. 1
  SV = PV(0x5565ec853eb0) at 0x5565ec853418
    REFCNT = 1
    FLAGS = (POK,pPOK)
    PV = 0x5565ecdf1030 "Pimascovirales"\0
    CUR = 14
    LEN = 32
  Elt No. 2
...

所有元素（除了第^一个元素）最初都有IsCOW标志。

ikegami · Answer 2 · 2024-01-19T02:37:22+08:00

为什么OP修改后的数据结构使用更多内存？

s///创建新标量而不是就地修改字符串，并且
s///碰巧创建了比splitOP示例中具有更大字符串缓冲区的新标量。

我在下面更详细地解释了这两个问题，但这确实是这样。

为什么不s///就地修改字符串？

至少在本文的重要方面，以下两个片段自 5.20 以来是等效的：

$_ =~ s/[\.;]$//

$_ = $_ =~ s/[\.;]$//r

这里的关键点是现有的标量正在被新的标量所取代。

但情况并非总是如此。曾几何时，Perl 在使用删除缓冲区末尾时会简单地减少缓冲区的已用大小s///，从而不会使用额外的内存。下面的简单程序证明了这一点：

$ 5.18t/bin/perl -MDevel::Peek -e'$_ = "abc"; $_ .= "d"; Dump($_); s/d\z//; Dump($_);'
SV = PV(0x55da3c065ce0) at 0x55da3c0a4830
  REFCNT = 1
  FLAGS = (POK,pPOK)
  PV = 0x55da3c08e7c0 "abcd"\0
  CUR = 4
  LEN = 16
SV = PV(0x55da3c065ce0) at 0x55da3c0a4830
  REFCNT = 1
  FLAGS = (POK,pPOK)
  PV = 0x55da3c08e7c0 "abc"\0
  CUR = 3
  LEN = 16

请注意，字符串缓冲区位于0x55da3c08e7c0之前和之后。仅缓冲区的使用量 ( CUR) 发生变化。

跳到 5.20，你会得到一些不同的东西。

$ 5.20t/bin/perl -MDevel::Peek -e'$_ = "abc"; $_ .= "d"; Dump($_); s/d\z//; Dump($_);'
SV = PV(0x55ee06d20d20) at 0x55ee06d61ee0
  REFCNT = 1
  FLAGS = (POK,pPOK)
  PV = 0x55ee06d4d530 "abcd"\0
  CUR = 4
  LEN = 10
SV = PV(0x55ee06d20d20) at 0x55ee06d61ee0
  REFCNT = 1
  FLAGS = (POK,pPOK)
  PV = 0x55ee06d3acf0 "abc"\0
  CUR = 3
  LEN = 10

请注意，字符串缓冲区从0x55ee06d4d530移至0x55ee06d3acf0。

正在制作缓冲区的副本，这至少会导致暂时的额外内存使用。

改变的是 5.20 引入了写时复制（“COW”）机制。由于这种机制，包含字符串的标量副本不再复制字符串缓冲区。仅复制指向缓冲区的指针，并将字符串缓冲区标记为与该IsCOW标志共享。

当您执行正则表达式匹配时，会生成所匹配标量的副本。该副本通过魔法附加到所有适用的捕获变量（$1等），包括$&和类似的。但由于新的 COW 机制，不会对字符串缓冲区进行任何复制。原始文件和副本都共享相同的字符串缓冲区，直到其中之一发生更改。

在我们的场景中，其中一个发生了更改，但过了一会儿，因为我们正在执行就地替换。$_因此获得一个新的缓冲区来保存修改后的值。这就是我在本答案开头描述的等价性。

如果我们避免改变原始标量，我们可以看到 COW 机制正在发挥作用。

$ 5.20t/bin/perl -MDevel::Peek -e'$_ = "abc"; $_ .= "d"; Dump($_); my $y = s/d\z//r; Dump($_); Dump($y);'
SV = PV(0x55b9dacc8d20) at 0x55b9dad09ee0
  REFCNT = 1
  FLAGS = (POK,pPOK)
  PV = 0x55b9dacf5790 "abcd"\0
  CUR = 4
  LEN = 10
SV = PV(0x55b9dacc8d20) at 0x55b9dad09ee0
  REFCNT = 1
  FLAGS = (POK,IsCOW,pPOK)
  PV = 0x55b9dacf5790 "abcd"\0
  CUR = 4
  LEN = 10
  COW_REFCNT = 1
SV = PV(0x55b9dacc8e50) at 0x55b9dacf4548
  REFCNT = 1
  FLAGS = (PADMY,POK,pPOK)
  PV = 0x55b9dacf5be0 "abc"\0
  CUR = 3
  LEN = 10

请注意，标量IsCOW在正则表达式匹配后设置了标志。它的 buffer( 0x55b9dacf5790) 与关联的标量共享$&。

使用 COW 捕获变量使代码更清晰、修复了错误并提高了性能。

下次在同一范围内进行匹配时，匹配字符串的副本使用的内存将被释放，因此该副本“丢失”的内存不会累积。@l这意味着由此丢失的内存与OP示例中的长度无关。

为什么s///创建具有比更大的字符串缓冲区的标量split？

因为s///“构建”字符串，所以split在为字符串创建标量之前，where 知道要返回的字符串。

Perl 注重速度，但以牺牲（通常是大量）内存为代价。实现此目的的一种方法是分配大于所需的字符串缓冲区。在这种情况下，将使用更大的缓冲区创建新标量。

split不会“构建”字符串。当它创建标量时，它知道要放入标量中的字符串的确切长度。

s///r不知道它将预先返回的字符串的最终长度。它通过附加到它创建的标量来“构建它”。当标量的字符串缓冲区变满时，它会经历大小扩展。

字符串构建方式的差异导致了缓冲区大小的差异。

split在 OP 的示例中分配缓冲区大小为 16、17、16、19、16 的标量。
s///在 OP 的示例中分配缓冲区大小为 16、40、16、40、16 的标量。

hobbs · Answer 3 · 2024-01-19T04:44:22+08:00

hobbs

2024-01-19T04:44:22+08:002024-01-19T04:44:22+08:00

要回答问题的第二部分：您可以使用split /[;.\s]+/，结果数组将为 354B，并包含您想要的值，无需进行后处理（也无需字符串复制）。

假设除了单词末尾之外的任何地方都没有分号或点；如果这是不正确的，您可以使用不太漂亮的（并且可能稍微慢一些）split /(?:[;.](?=\s))?\s+/。

1

Perl：减少字符串长度会增加字符串数组中的内存使用量

Vue 3：创建时出错“预期标识符但发现‘导入’”[重复]

为什么这个简单而小的 Java 代码在所有 Graal JVM 上的运行速度都快 30 倍，但在任何 Oracle JVM 上却不行？

具有指定基础类型但没有枚举器的“枚举类”的用途是什么？

如何修复未手动导入的模块的 MODULE_NOT_FOUND 错误？

`(表达式，左值) = 右值` 在 C 或 C++ 中是有效的赋值吗？为什么有些编译器会接受/拒绝它？

何时应使用 std::inplace_vector 而不是 std::vector？

在 C++ 中，一个不执行任何操作的空程序需要 204KB 的堆，但在 C 中则不需要

PowerBI 目前与 BigQuery 不兼容：Simba 驱动程序与 Windows 更新有关

AdMob：MobileAds.initialize() - 对于某些设备，“java.lang.Integer 无法转换为 java.lang.String”

我正在尝试仅使用海龟随机和数学模块来制作吃豆人游戏

Perl：减少字符串长度会增加字符串数组中的内存使用量

3 个回答

相关问题