通过命令的标准输出以编程方式导出环境变量[重复]

Question

ScottishTapWater

Asked: 2024-10-02 09:36:38 +0800 CST2024-10-02 09:36:38 +0800 CST 2024-10-02 09:36:38 +0800 CST

不使用临时文件替换文件中的字符串

772

我有一个多 GB 的文本文件，我想用替换utf8mb4_0900_ai_ci其中的所有utf8mb4_unicode_520_ci。

通常，我会sed -i按照这里的建议使用它：使用 SED 在文件中查找并替换字符串，而不使用临时文件

但是，这会在后台创建一个临时文件，而我需要在没有磁盘空间支持该操作的环境中进行此替换。

我如何才能就地修改文件？

1 个回答

Voted

meuh · Answer 1 · 2024-10-02T20:22:34+08:00

只是为了好玩，我尝试了一个就地替换 bash 脚本，myreplace。显然，在未先保存原始数据并进行大量测试的情况下，请勿使用此脚本。它可能会对超过 4G 字节的文件产生问题，因为数字超过 32 位。此外，如果有数百万个匹配项，tac将耗尽内存或临时文件空间。我还必须编写一个小的 perl 脚本来执行seek(2)，但肯定已经有一个了。

#!/bin/bash
# https://unix.stackexchange.com/q/784361/119298
file=${1?}
str1=utf8mb4_0900_ai_ci
str2=utf8mb4_unicode_520_ci

len1=${#str1}
len2=${#str2}
let len3=len2-len1
if [ "$len3" -lt 0 ]
then echo "bad len $len3. dont need this script"; exit 1
fi
echo "2nd str bigger by $len3"

# grep -c counts lines so ignores 2 matches on a line, not what we want
nummatches=$(grep -a -o -b -F "$str1" "$file" | wc -l)
let need=nummatches*len3
echo "$nummatches matches, need $need bytes"
filesize=$(stat --format=%s "$file")
echo "filesize $filesize"
let src=filesize
let dest=filesize+need
let i=nummatches

# open 2 filedescriptors on same file, to read from and write at
exec {fdr}<"$file" {fdw}<>"$file"
seek <&$fdr $src; seek <&$fdw $dest # seek to both eofs

blocksize=10240 # arbitrary optimisation
# move overlapping from,to,numbytes
domove(){
    local from=${1?} to=${2?} numbytes=${3?} partlen
    while [ $numbytes -gt 0 ]
    do  if [ $numbytes -gt $blocksize ]
        then    partlen=$blocksize
        else    partlen=$numbytes
        fi
        seek <&$fdr -$partlen; seek <&$fdw -$partlen
        dd <&$fdr >&$fdw ibs=$partlen count=1 iflag=fullblock status=none
        seek <&$fdr -$partlen; seek <&$fdw -$partlen
        let numbytes=numbytes-partlen
    done
    seek <&$fdw -$len2
    printf "%s" "$str2" >&$fdw
    seek <&$fdw -$len2
    seek <&$fdr -$len1
}

grep -a -o -b -F "$str1" "$file" |
sed 's/:.*//' |
tac |
while read offset
do  echo "match $i at src $offset"
    let tomove="src-(offset+len1)"
    echo "move all from $offset+$len1 .. $src ($tomove bytes) to $dest-$tomove"
    echo "insert $len2 bytes of 2nd string to $dest-$tomove-$len2"
    echo "skip back over $len1 bytes of 1st string"
    domove $(($offset+$len1)) $(($dest-$tomove)) $tomove
    let src=$offset
    let dest=dest-tomove-len2
    let i=i-1
done

原理是使用grep找到匹配的字节偏移量，然后使用tac反转此列表，以便我们从末尾开始。我们在文件上打开 2 个文件描述符。fdr将是我们当前的读取位置和fdw写入位置。它们都从文件末尾开始，但位于新的名义末尾，该末尾fdw比更远，即替换字符串的长度差为倍。nummatcheslen3

我们使用函数domove在读取器上回溯一个数量，在写入器上回溯相同的数量，读取并将该数量复制到写入器。然后我们需要再次回溯到我们的新位置。

我们在读取器中回溯以跳过旧字符串。在写入器中我们回溯，写入替换字符串，然后回溯覆盖它。

我创建了一个演示文件来测试（str1来自脚本）：

file=/tmp/myfile
man bash | sed 's/ brace / '"$str1"' /g' >"$file"
cp "$file" /tmp/orig
./myreplace "$file"
diff -u /tmp/orig "$file"

我的 perl 有点生疏了，但是这里是 perl 脚本“seek”：

#!/usr/bin/perl
# seek on stdin to given position
use strict;
use Fcntl 'SEEK_SET','SEEK_CUR';
sub usage{
    printf STDERR "usage: [+|-]9999  where sign means relative\n";
    exit 1;
}
my $offset = shift @ARGV;
my $flag = SEEK_SET;
my $sign = 1;
if($offset =~ s/^-//){$flag = SEEK_CUR; $sign = -1;}
elsif($offset =~ s/^\+//){$flag = SEEK_CUR;}
if($offset!~/^\d+$/){ usage(); }
usage() if(scalar @ARGV!=0);
$offset *= $sign;
if(!seek(STDIN,$offset,$flag)){
    printf STDERR "failed to seek to $offset: $!\n";
    exit 2;
}

不使用临时文件替换文件中的字符串

模块 i915 可能缺少固件 /lib/firmware/i915/*

无法获取 jessie backports 存储库

如何将 GPG 私钥和公钥导出到文件

我们如何运行存储在变量中的命令？

如何配置 systemd-resolved 和 systemd-networkd 以使用本地 DNS 服务器来解析本地域和远程 DNS 服务器来解析远程域？

dist-upgrade 后 Kali Linux 中的 apt-get update 错误 [重复]

如何从 systemctl 服务日志中查看最新的 x 行

Nano - 跳转到文件末尾

grub 错误：你需要先加载内核

如何下载软件包而不是使用 apt-get 命令安装它？

不使用临时文件替换文件中的字符串

1 个回答

相关问题