AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • 主页
  • 系统&网络
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • 主页
  • 系统&网络
    • 最新
    • 热门
    • 标签
  • Ubuntu
    • 最新
    • 热门
    • 标签
  • Unix
    • 最新
    • 标签
  • DBA
    • 最新
    • 标签
  • Computer
    • 最新
    • 标签
  • Coding
    • 最新
    • 标签
主页 / coding / 问题 / 77840739
Accepted
con
con
Asked: 2024-01-18 23:54:16 +0800 CST2024-01-18 23:54:16 +0800 CST 2024-01-18 23:54:16 +0800 CST

Perl:减少字符串长度会增加字符串数组中的内存使用量

  • 772

我正在读取一个巨大的文件,以将数据存储在一个非常大的哈希中。我试图使 RAM 使用量尽可能小。

我有一个 MWE,它在 Perl 中表现出奇怪的行为:

#!/usr/bin/env perl

use 5.038;
use warnings FATAL => 'all';
use autodie ':default';
use DDP {output => 'STDOUT', array_max => 10, show_memsize => 1}; # pretty print with "p"

my @l = split /\s+/, 'OC   Pimascovirales; Iridoviridae; Betairidovirinae; Iridovirus.';
p @l;
$_ =~ s/[\.;]$// foreach @l; # single line keeps code shorter
p @l;

它有输出:

[
    [0] "OC",
    [1] "Pimascovirales;",
    [2] "Iridoviridae;",
    [3] "Betairidovirinae;",
    [4] "Iridovirus."
] (356B)
[
    [0] "OC",
    [1] "Pimascovirales",
    [2] "Iridoviridae",
    [3] "Betairidovirinae",
    [4] "Iridovirus"
] (400B)

虽然这个示例非常小,但我将多次执行此操作,因此 RAM 管理非常重要。

减少字符串长度如何将该数组的 RAM 大小从 356B增加到400B?

如果可能的话,我可以避免这样的增加吗?

perl
  • 3 3 个回答
  • 98 Views

3 个回答

  • Voted
  1. Best Answer
    choroba
    2024-01-19T00:17:29+08:002024-01-19T00:17:29+08:00

    这是写时复制的结果。换句话说,在您开始更改字符串之前,Perl 只知道在原始字符串中查找它们的位置,但不会复制它们。

    使用Devel::Peek查看:

    use Devel::Peek qw{ Dump };
    Dump @l;
    

    替换前:

    SV = PVAV(0x5565ec854f20) at 0x5565ec8d8dc8
      REFCNT = 1
      FLAGS = ()
      ARRAY = 0x5565ecde8350
      FILL = 400
      MAX = 473
      FLAGS = (REAL)
      Elt No. 0
      SV = PV(0x5565ec853de0) at 0x5565ec853220
        REFCNT = 1
        FLAGS = (POK,pPOK)
        PV = 0x5565ec8d6dd0 "OC"\0
        CUR = 2
        LEN = 10
      Elt No. 1
      SV = PV(0x5565ec853eb0) at 0x5565ec853418
        REFCNT = 1
        FLAGS = (POK,IsCOW,pPOK)
        PV = 0x5565eca6b9d0 "Pimascovirales;"\0
        CUR = 15
        LEN = 17
        COW_REFCNT = 0
      Elt No. 2
    ...
    

    后:

    SV = PVAV(0x5565ec854f20) at 0x5565ec8d8dc8
      REFCNT = 1
      FLAGS = ()
      ARRAY = 0x5565ecde8350
      FILL = 400
      MAX = 473
      FLAGS = (REAL)
      Elt No. 0
      SV = PV(0x5565ec853de0) at 0x5565ec853220
        REFCNT = 1
        FLAGS = (POK,pPOK)
        PV = 0x5565ec8d6dd0 "OC"\0
        CUR = 2
        LEN = 10
      Elt No. 1
      SV = PV(0x5565ec853eb0) at 0x5565ec853418
        REFCNT = 1
        FLAGS = (POK,pPOK)
        PV = 0x5565ecdf1030 "Pimascovirales"\0
        CUR = 14
        LEN = 32
      Elt No. 2
    ...
    

    所有元素(除了第一个元素)最初都有IsCOW标志。

    • 5
  2. ikegami
    2024-01-19T02:37:22+08:002024-01-19T02:37:22+08:00

    为什么OP修改后的数据结构使用更多内存?

    • s///创建新标量而不是就地修改字符串,并且
    • s///碰巧创建了比splitOP示例中具有更大字符串缓冲区的新标量。

    我在下面更详细地解释了这两个问题,但这确实是这样。


    为什么不s///就地修改字符串?

    至少在本文的重要方面,以下两个片段自 5.20 以来是等效的:

    $_ =~ s/[\.;]$//
    
    $_ = $_ =~ s/[\.;]$//r
    

    这里的关键点是现有的标量正在被新的标量所取代。

    但情况并非总是如此。曾几何时,Perl 在使用 删除缓冲区末尾时会简单地减少缓冲区的已用大小s///,从而不会使用额外的内存。下面的简单程序证明了这一点:

    $ 5.18t/bin/perl -MDevel::Peek -e'$_ = "abc"; $_ .= "d"; Dump($_); s/d\z//; Dump($_);'
    SV = PV(0x55da3c065ce0) at 0x55da3c0a4830
      REFCNT = 1
      FLAGS = (POK,pPOK)
      PV = 0x55da3c08e7c0 "abcd"\0
      CUR = 4
      LEN = 16
    SV = PV(0x55da3c065ce0) at 0x55da3c0a4830
      REFCNT = 1
      FLAGS = (POK,pPOK)
      PV = 0x55da3c08e7c0 "abc"\0
      CUR = 3
      LEN = 16
    

    请注意,字符串缓冲区位于0x55da3c08e7c0之前和之后。仅缓冲区的使用量 ( CUR) 发生变化。

    跳到 5.20,你会得到一些不同的东西。

    $ 5.20t/bin/perl -MDevel::Peek -e'$_ = "abc"; $_ .= "d"; Dump($_); s/d\z//; Dump($_);'
    SV = PV(0x55ee06d20d20) at 0x55ee06d61ee0
      REFCNT = 1
      FLAGS = (POK,pPOK)
      PV = 0x55ee06d4d530 "abcd"\0
      CUR = 4
      LEN = 10
    SV = PV(0x55ee06d20d20) at 0x55ee06d61ee0
      REFCNT = 1
      FLAGS = (POK,pPOK)
      PV = 0x55ee06d3acf0 "abc"\0
      CUR = 3
      LEN = 10
    

    请注意,字符串缓冲区从0x55ee06d4d530移至0x55ee06d3acf0。

    正在制作缓冲区的副本,这至少会导致暂时的额外内存使用。

    改变的是 5.20 引入了写时复制(“COW”)机制。由于这种机制,包含字符串的标量副本不再复制字符串缓冲区。仅复制指向缓冲区的指针,并将字符串缓冲区标记为与该IsCOW标志共享。

    当您执行正则表达式匹配时,会生成所匹配标量的副本。该副本通过魔法附加到所有适用的捕获变量($1等),包括$&和类似的。但由于新的 COW 机制,不会对字符串缓冲区进行任何复制。原始文件和副本都共享相同的字符串缓冲区,直到其中之一发生更改。

    在我们的场景中,其中一个发生了更改,但过了一会儿,因为我们正在执行就地替换。$_因此获得一个新的缓冲区来保存修改后的值。这就是我在本答案开头描述的等价性。

    如果我们避免改变原始标量,我们可以看到 COW 机制正在发挥作用。

    $ 5.20t/bin/perl -MDevel::Peek -e'$_ = "abc"; $_ .= "d"; Dump($_); my $y = s/d\z//r; Dump($_); Dump($y);'
    SV = PV(0x55b9dacc8d20) at 0x55b9dad09ee0
      REFCNT = 1
      FLAGS = (POK,pPOK)
      PV = 0x55b9dacf5790 "abcd"\0
      CUR = 4
      LEN = 10
    SV = PV(0x55b9dacc8d20) at 0x55b9dad09ee0
      REFCNT = 1
      FLAGS = (POK,IsCOW,pPOK)
      PV = 0x55b9dacf5790 "abcd"\0
      CUR = 4
      LEN = 10
      COW_REFCNT = 1
    SV = PV(0x55b9dacc8e50) at 0x55b9dacf4548
      REFCNT = 1
      FLAGS = (PADMY,POK,pPOK)
      PV = 0x55b9dacf5be0 "abc"\0
      CUR = 3
      LEN = 10
    

    请注意,标量IsCOW在正则表达式匹配后设置了标志。它的 buffer( 0x55b9dacf5790) 与 关联的标量共享$&。

    使用 COW 捕获变量使代码更清晰、修复了错误并提高了性能。

    下次在同一范围内进行匹配时,匹配字符串的副本使用的内存将被释放,因此该副本“丢失”的内存不会累积。@l这意味着由此丢失的内存与OP示例中的长度无关。


    为什么s///创建具有比 更大的字符串缓冲区的标量split?

    因为s///“构建”字符串,所以split在为字符串创建标量之前,where 知道要返回的字符串。

    Perl 注重速度,但以牺牲(通常是大量)内存为代价。实现此目的的一种方法是分配大于所需的字符串缓冲区。在这种情况下,将使用更大的缓冲区创建新标量。

    split不会“构建”字符串。当它创建标量时,它知道要放入标量中的字符串的确切长度。

    s///r不知道它将预先返回的字符串的最终长度。它通过附加到它创建的标量来“构建它”。当标量的字符串缓冲区变满时,它会经历大小扩展。

    字符串构建方式的差异导致了缓冲区大小的差异。

    • split在 OP 的示例中分配缓冲区大小为 16、17、16、19、16 的标量。
    • s///在 OP 的示例中分配缓冲区大小为 16、40、16、40、16 的标量。
    • 4
  3. hobbs
    2024-01-19T04:44:22+08:002024-01-19T04:44:22+08:00

    要回答问题的第二部分:您可以使用split /[;.\s]+/,结果数组将为 354B,并包含您想要的值,无需进行后处理(也无需字符串复制)。

    假设除了单词末尾之外的任何地方都没有分号或点;如果这是不正确的,您可以使用不太漂亮的(并且可能稍微慢一些)split /(?:[;.](?=\s))?\s+/。

    • 1

相关问题

  • 我如何使用 Perl 的each 和列表?

  • 尝试在文件末尾插入行时出现 perl 错误[重复]

  • 找不到 perl 模块

  • 如何在 Perl 中将电子邮件地址添加到字符串中?( “@“ 特点 )

  • 如何跳过 perl 中的其余部分作为 awk 中的下一个?

Sidebar

Stats

  • 问题 205573
  • 回答 270741
  • 最佳答案 135370
  • 用户 68524
  • 热门
  • 回答
  • Marko Smith

    Vue 3:创建时出错“预期标识符但发现‘导入’”[重复]

    • 1 个回答
  • Marko Smith

    为什么这个简单而小的 Java 代码在所有 Graal JVM 上的运行速度都快 30 倍,但在任何 Oracle JVM 上却不行?

    • 1 个回答
  • Marko Smith

    具有指定基础类型但没有枚举器的“枚举类”的用途是什么?

    • 1 个回答
  • Marko Smith

    如何修复未手动导入的模块的 MODULE_NOT_FOUND 错误?

    • 6 个回答
  • Marko Smith

    `(表达式,左值) = 右值` 在 C 或 C++ 中是有效的赋值吗?为什么有些编译器会接受/拒绝它?

    • 3 个回答
  • Marko Smith

    何时应使用 std::inplace_vector 而不是 std::vector?

    • 3 个回答
  • Marko Smith

    在 C++ 中,一个不执行任何操作的空程序需要 204KB 的堆,但在 C 中则不需要

    • 1 个回答
  • Marko Smith

    PowerBI 目前与 BigQuery 不兼容:Simba 驱动程序与 Windows 更新有关

    • 2 个回答
  • Marko Smith

    AdMob:MobileAds.initialize() - 对于某些设备,“java.lang.Integer 无法转换为 java.lang.String”

    • 1 个回答
  • Marko Smith

    我正在尝试仅使用海龟随机和数学模块来制作吃豆人游戏

    • 1 个回答
  • Martin Hope
    Aleksandr Dubinsky 为什么 InetAddress 上的 switch 模式匹配会失败,并出现“未涵盖所有可能的输入值”? 2024-12-23 06:56:21 +0800 CST
  • Martin Hope
    Phillip Borge 为什么这个简单而小的 Java 代码在所有 Graal JVM 上的运行速度都快 30 倍,但在任何 Oracle JVM 上却不行? 2024-12-12 20:46:46 +0800 CST
  • Martin Hope
    Oodini 具有指定基础类型但没有枚举器的“枚举类”的用途是什么? 2024-12-12 06:27:11 +0800 CST
  • Martin Hope
    sleeptightAnsiC `(表达式,左值) = 右值` 在 C 或 C++ 中是有效的赋值吗?为什么有些编译器会接受/拒绝它? 2024-11-09 07:18:53 +0800 CST
  • Martin Hope
    The Mad Gamer 何时应使用 std::inplace_vector 而不是 std::vector? 2024-10-29 23:01:00 +0800 CST
  • Martin Hope
    Chad Feller 在 5.2 版中,bash 条件语句中的 [[ .. ]] 中的分号现在是可选的吗? 2024-10-21 05:50:33 +0800 CST
  • Martin Hope
    Wrench 为什么双破折号 (--) 会导致此 MariaDB 子句评估为 true? 2024-05-05 13:37:20 +0800 CST
  • Martin Hope
    Waket Zheng 为什么 `dict(id=1, **{'id': 2})` 有时会引发 `KeyError: 'id'` 而不是 TypeError? 2024-05-04 14:19:19 +0800 CST
  • Martin Hope
    user924 AdMob:MobileAds.initialize() - 对于某些设备,“java.lang.Integer 无法转换为 java.lang.String” 2024-03-20 03:12:31 +0800 CST
  • Martin Hope
    MarkB 为什么 GCC 生成有条件执行 SIMD 实现的代码? 2024-02-17 06:17:14 +0800 CST

热门标签

python javascript c++ c# java typescript sql reactjs html

Explore

  • 主页
  • 问题
    • 最新
    • 热门
  • 标签
  • 帮助

Footer

AskOverflow.Dev

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve