grep 从 $START 到 $END 的一组行并且在 $MIDDLE 中包含匹配项

Question

FaxMax

Asked: 2017-11-28 02:24:54 +0800 CST2017-11-28 02:24:54 +0800 CST 2017-11-28 02:24:54 +0800 CST

将字符串列表更改为小写

772

我有两个文件，一个文件包含一个字符串列表。

+stringa +Dog +Cat
+cat +Tux +elephant

第二个文件（csv）包含以下内容：

"123456 Abc","+Stringx +123","something"
"23456 dEf","+cat +Tux +elephant","Other something"
"34524 xyz","+stringa +Dog +Cat","third something"

结果应该是：

"123456 Abc","+Stringx +123","something"
"23456 dEf","+cat +tux +elephant","Other something"
"34524 xyz","+stringa +dog +cat","third something"

如何将与我的模式列表匹配的字符串更改为小写？

我的逗号分隔值文件有大约 30 列和大约 1500 行。

3 个回答

Voted

Sundeep · Answer 1 · 2017-11-28T03:02:17+08:00

With GNU sed, 假设您在字符串列表中没有任何元字符，+不是具有默认 BRE 的元字符

$ # create substitute command for each line
$ sed 's/.*/s|"&"|\\L\&|gi/' f1
s|"+stringa +Dog +Cat"|\L&|gi
s|"+cat +Tux +elephant"|\L&|gi

$ # pass those commands as sed script
$ sed -f <(sed 's/.*/s|"&"|\\L\&|gi/' f1) ip.csv
"123456 Abc","+Stringx +123","something"
"23456 dEf","+cat +tux +elephant","Other something"
"34524 xyz","+stringa +dog +cat","third something"

$ # or save them in a file and use
$ sed 's/.*/s|"&"|\\L\&|gi/' f1 > f2
$ sed -f f2 ip.csv

\L将字符串转换为小写
g用于替换一行中的所有匹配项，i用于不区分大小写的匹配

如果你没有GNU sed

$ # \Q to quote metacharacters
$ # but will have issues if you have \ or $ or @
$ sed 's/.*/s|\\Q"&"|\\L$\&|gi;/' f1
s|\Q"+stringa +Dog +Cat"|\L$&|gi;
s|\Q"+cat +Tux +elephant"|\L$&|gi;

$ perl -p <(sed 's/.*/s|\\Q"&"|\\L$\&|gi;/' f1) ip.csv 
"123456 Abc","+Stringx +123","something"
"23456 dEf","+cat +tux +elephant","Other something"
"34524 xyz","+stringa +dog +cat","third something"

正如 Stéphane Chazelas 所指出的，如果内容不受控制，这可能会导致代码注入f1漏洞

RomanPerekhrest · Answer 2 · 2017-11-28T02:50:44+08:00

RomanPerekhrest

2017-11-28T02:50:44+08:002017-11-28T02:50:44+08:00

AWK解决方案（针对您当前的输入）：

假设第二个字段是主要兴趣并且搜索文件中的值是双引号。

awk 'NR==FNR{ $0="\042"$0"\042"; a[$0]; next }
     $2 in a{ $2=tolower($2) }1' patterns FS=',' OFS=',' file.csv

$0="\042"$0"\042"-在遍历文件行时用双引号包裹模式行patterns
a[$0]- 将图案线捕获到数组中a
$2 in a{ $2=tolower($2) }- 如果文件行的第二个字段值file.csv在模式列表中（即数组a） - 将其中的所有字符转换为小写$2=tolower($2)

输出：

"123456 Abc","+Stringx +123","something"
"23456 dEf","+cat +tux +elephant","Other something"
"34524 xyz","+stringa +dog +cat","third something"

2

Stéphane Chazelas · Answer 3 · 2017-11-28T03:14:59+08:00

使用perl，假设您希望将第一个文件中的每个单词都转换为小写：

perl -pe '
 BEGIN {local $/ = undef; $regex = join "|", map qr{\Q$_\E}i, split " ", <>}
 s/$regex/\L$&/g' file1.words file2.csv

local $/ = undef使 BEGIN 块的记录分隔符未定义，以便对<>那里的一次调用，将整个第一个文件 ( file1.words) 吞入其中。我们在空格上拆分它（与is in相同split " "的特殊方式），并将结果单词与在正则表达式引用它们并使它们不区分大小写之后。perlawk -F " "awk|

所以我们有一个巨大的正则表达式，就像(?i:word1)|(?i:word2)|...我们在其余代码的第二个文件的每一行上应用的一样。

如果是第一个文件的每一行中的每个字符串，那么可以简化为：

perl -pe '
 BEGIN {chomp (@strings = <STDIN>); $regex = join "|", map qr{\Q$_\E}i, @strings}
 s/$regex/\L$&/g' < file1.strings file2.csv

在那里，我们在标准输入上打开第一个文件，而不是将其作为参数传递。<STDIN>返回它的行列表，我们从中删除分隔符chomp，并加入|如上所述。

如果您不希望它仅限于 ASCII 字符，请添加该-Mopen=locale选项。

将字符串列表更改为小写

JSON数组使用jq来bash变量

日期可以为 GMT 时区格式化当前时间吗？[复制]

bash + 通过 bash 脚本从文件中读取变量和值

如何复制目录并在同一命令中重命名它？

ssh 连接。X11 连接因身份验证错误而被拒绝

如何下载软件包而不是使用 apt-get 命令安装它？

systemctl 命令在 RHEL 6 中不起作用

rsync 端口 22 和 873 使用

以 100% 的利用率捕捉 /dev/loop -- 没有可用空间

jq 打印子对象中所有的键和值

将字符串列表更改为小写

3 个回答

相关问题