我有一个包含 17 列和百万行的 csv 文件。我想在第 16 列中搜索特定字符串,并将该字符串的所有实例替换为另一个字符串。由于我的程序的其余部分使用 bash 脚本,我想使用 awk 而不是 Python 搜索和替换。我目前的操作系统是 Rhel6。
以下是我的数据的示例输出:
SUBSCRIBER_ID|ACCOUNT_CATEGORY|ACCOUNT_ACTIVATION_DATE|PACKAGE_NAME|PACKAGE_TYPE|DURATION|ACTIVE_DATE|INACTIVE_DATE|STB_NO|PRIMARY_SECONDARY|MODEL_TYPE|VC_NO|MULTIROOM|STB_TYPE|IPKG|SERVICE_STATE|CURRENT_STATUS
1001098068|ResidentialRegular|01/20/2007|Annual package 199 May17 pack|Basic Package|Annual|08/28/2017||027445053518|Primary|Pace - 31|000223871682|Yes|AMP|Package 199 pack|Market1|Active
1001098068|ResidentialRegular|01/20/2007|Annual Pack|Premium Package|Annual|08/28/2017||027445053518|Primary|Pace - 31|000223871682|Yes|AMP|English Movies pack|Market1|Active
1001098068|ResidentialRegular|01/20/2007|Annual SingleUnit Jun17 Pack|Secondary Pack|Annual|08/28/2017||032089364015|Secondary|Kaon|000017213968|Yes|AMP|SingleUnit|Market2|Active
在这第 16 列是市场,我想将其中的 更改Market1
为MarketPrime
。文件名是marketinfo_2018-06-26.csv
我尝试了以下代码:
awk -F '| +' '{gsub("Market1","MarketPrime",$16); print}' OFS="|" marketinfo_2018-06-26.csv > marketinfo_2018-06-26.csv
这运行没有任何输出,但字符串Market1
仍然存在。
您的代码中唯一真正的问题是您不仅将输入文件分隔符设置为空格,还设置
|
为空格。这将使空格算作数据中的字段分隔符,并且很难弄清楚正确的字段编号是什么(因为某些字段包含可变数量的空格)。您也不能重定向到与您用于读取的文件名相同的文件名。这样做会导致 shell 首先截断(清空)输出文件,并且您的
awk
程序将没有数据可读取。您的代码执行正则表达式替换。这没关系,但您需要注意,如果第 16 个字段恰好是
Market12
orTheMarket1
,它会由于缺少锚点而触发替换。^Market1$
用作替换的表达式或使用字符串比较会更安全。上面的
awk
命令仅用|
作字段分隔符,然后与第 16 个字段进行字符串比较。如果该字段是Market1
,则将其设置为MarketPrime
。1
代码末尾的尾随awk
导致打印每条记录(修改或未修改)。问题在于输入字段分隔符。
由于您要使用多个字段分隔符(这不是必需的),因此每行中的字段数是不同的,如下所示。
如果您仅用
|
作 IFS,那么您的代码将起作用。由于每行有 17 个字段,如下所示。解决方案 1:使用多个 IFS。
解决方案 2:使用固定字段 16
为了让其他可能面临类似问题的人更清楚:
这两个答案都适用于这种情况:
库萨兰南达的回答:
我根据 Kusalananda 的回答修改了答案:
您可以使用以下
使用它,您可以更改车道中与 Market1 匹配的任何单词,例如,如果您想更改第 17 个单词,只需将其更改为