AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • 主页
  • 系统&网络
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • 主页
  • 系统&网络
    • 最新
    • 热门
    • 标签
  • Ubuntu
    • 最新
    • 热门
    • 标签
  • Unix
    • 最新
    • 标签
  • DBA
    • 最新
    • 标签
  • Computer
    • 最新
    • 标签
  • Coding
    • 最新
    • 标签
主页 / unix / 问题 / 452148
Accepted
Apricot
Apricot
Asked: 2018-06-27 22:21:50 +0800 CST2018-06-27 22:21:50 +0800 CST 2018-06-27 22:21:50 +0800 CST

awk 在 CSV 文件的特定列中搜索和替换字符串

  • 772

我有一个包含 17 列和百万行的 csv 文件。我想在第 16 列中搜索特定字符串,并将该字符串的所有实例替换为另一个字符串。由于我的程序的其余部分使用 bash 脚本,我想使用 awk 而不是 Python 搜索和替换。我目前的操作系统是 Rhel6。

以下是我的数据的示例输出:

SUBSCRIBER_ID|ACCOUNT_CATEGORY|ACCOUNT_ACTIVATION_DATE|PACKAGE_NAME|PACKAGE_TYPE|DURATION|ACTIVE_DATE|INACTIVE_DATE|STB_NO|PRIMARY_SECONDARY|MODEL_TYPE|VC_NO|MULTIROOM|STB_TYPE|IPKG|SERVICE_STATE|CURRENT_STATUS
1001098068|ResidentialRegular|01/20/2007|Annual package 199 May17 pack|Basic Package|Annual|08/28/2017||027445053518|Primary|Pace - 31|000223871682|Yes|AMP|Package 199 pack|Market1|Active
1001098068|ResidentialRegular|01/20/2007|Annual Pack|Premium Package|Annual|08/28/2017||027445053518|Primary|Pace - 31|000223871682|Yes|AMP|English Movies pack|Market1|Active
1001098068|ResidentialRegular|01/20/2007|Annual SingleUnit Jun17 Pack|Secondary Pack|Annual|08/28/2017||032089364015|Secondary|Kaon|000017213968|Yes|AMP|SingleUnit|Market2|Active

在这第 16 列是市场,我想将其中的 更改Market1为MarketPrime。文件名是marketinfo_2018-06-26.csv

我尝试了以下代码:

awk -F '| +' '{gsub("Market1","MarketPrime",$16); print}' OFS="|" marketinfo_2018-06-26.csv > marketinfo_2018-06-26.csv

这运行没有任何输出,但字符串Market1仍然存在。

awk text-processing
  • 4 4 个回答
  • 21478 Views

4 个回答

  • Voted
  1. Best Answer
    Kusalananda
    2018-06-27T22:29:14+08:002018-06-27T22:29:14+08:00
    awk -F '|' -v OFS='|' '$16 == "Market1" { $16 = "MarketPrime" }1' file.csv >new-file.csv
    

    您的代码中唯一真正的问题是您不仅将输入文件分隔符设置为空格,还设置|为空格。这将使空格算作数据中的字段分隔符,并且很难弄清楚正确的字段编号是什么(因为某些字段包含可变数量的空格)。

    您也不能重定向到与您用于读取的文件名相同的文件名。这样做会导致 shell 首先截断(清空)输出文件,并且您的awk程序将没有数据可读取。

    您的代码执行正则表达式替换。这没关系,但您需要注意,如果第 16 个字段恰好是Market12or TheMarket1,它会由于缺少锚点而触发替换。^Market1$用作替换的表达式或使用字符串比较会更安全。

    上面的awk命令仅用|作字段分隔符,然后与第 16 个字段进行字符串比较。如果该字段是Market1,则将其设置为MarketPrime。

    1代码末尾的尾随awk导致打印每条记录(修改或未修改)。

    • 10
  2. Siva
    2018-06-27T22:29:05+08:002018-06-27T22:29:05+08:00

    问题在于输入字段分隔符。

    由于您要使用多个字段分隔符(这不是必需的),因此每行中的字段数是不同的,如下所示。

    $ awk -F '[| +]' '{print NF}' test.csv
    17
    26
    23
    21
    

    如果您仅用| 作 IFS,那么您的代码将起作用。由于每行有 17 个字段,如下所示。

    awk -F "|" '{print NF}' test.csv
    17
    17
    17
    17 
    

    解决方案 1:使用多个 IFS。

    awk -F '[| +]' '{gsub("Market1","MarketPrime",$(NF-1)); print}' OFS="|" test.csv
    
    SUBSCRIBER_ID|ACCOUNT_CATEGORY|ACCOUNT_ACTIVATION_DATE|PACKAGE_NAME|PACKAGE_TYPE|DURATION|ACTIVE_DATE|INACTIVE_DATE|STB_NO|PRIMARY_SECONDARY|MODEL_TYPE|VC_NO|MULTIROOM|STB_TYPE|IPKG|SERVICE_STATE|CURRENT_STATUS
    1001098068|ResidentialRegular|01/20/2007|Annual|package|199|May17|pack|Basic|Package|Annual|08/28/2017||027445053518|Primary|Pace|-|31|000223871682|Yes|AMP|Package|199|pack|MarketPrime|Active
    1001098068|ResidentialRegular|01/20/2007|Annual|Pack|Premium|Package|Annual|08/28/2017||027445053518|Primary|Pace|-|31|000223871682|Yes|AMP|English|Movies|pack|MarketPrime|Active
    1001098068|ResidentialRegular|01/20/2007|Annual SingleUnit Jun17 Pack|Secondary Pack|Annual|08/28/2017||032089364015|Secondary|Kaon|000017213968|Yes|AMP|SingleUnit|Market2|Active
    

    解决方案 2:使用固定字段 16

    awk -F '|' '{gsub("Market1","MarketPrime",$16); print}' OFS="|" test.csv
    
    SUBSCRIBER_ID|ACCOUNT_CATEGORY|ACCOUNT_ACTIVATION_DATE|PACKAGE_NAME|PACKAGE_TYPE|DURATION|ACTIVE_DATE|INACTIVE_DATE|STB_NO|PRIMARY_SECONDARY|MODEL_TYPE|VC_NO|MULTIROOM|STB_TYPE|IPKG|SERVICE_STATE|CURRENT_STATUS
    1001098068|ResidentialRegular|01/20/2007|Annual package 199 May17 pack|Basic Package|Annual|08/28/2017||027445053518|Primary|Pace - 31|000223871682|Yes|AMP|Package 199 pack|MarketPrime|Active
    1001098068|ResidentialRegular|01/20/2007|Annual Pack|Premium Package|Annual|08/28/2017||027445053518|Primary|Pace - 31|000223871682|Yes|AMP|English Movies pack|MarketPrime|Active
    1001098068|ResidentialRegular|01/20/2007|Annual SingleUnit Jun17 Pack|Secondary Pack|Annual|08/28/2017||032089364015|Secondary|Kaon|000017213968|Yes|AMP|SingleUnit|Market2|Active
    
    • 2
  3. Apricot
    2018-06-27T22:43:47+08:002018-06-27T22:43:47+08:00

    为了让其他可能面临类似问题的人更清楚:

    这两个答案都适用于这种情况:

    库萨兰南达的回答:

    awk -F '|' -v OFS='|' '$16 == "Market1" { $16 = "MarketPrime" }1' file.csv >new-file.csv
    

    我根据 Kusalananda 的回答修改了答案:

    awk -F '|' '{gsub("Market1","MarketPrime",$16); print}' OFS="|" marketinfo_2018-06-26.csv > marketinfo_2018-06-26.csv
    
    • 0
  4. venkat
    2021-08-14T07:10:00+08:002021-08-14T07:10:00+08:00

    您可以使用以下

    awk -F '|' -v OFS='|' '{if($16=="Market1") $16="MarketPrime" ; print }' marketinfo_2018-06-26.csv > marketinfo_2018-06-26.csv
    

    使用它,您可以更改车道中与 Market1 匹配的任何单词,例如,如果您想更改第 17 个单词,只需将其更改为

    awk -F '|' -v OFS='|' '{if($16=="Market1") $17="Thisiscool" ; print }' marketinfo_2018-06-26.csv > marketinfo_2018-06-26.csv
    
    • 0

相关问题

  • 重新排列字母并比较两个单词

  • 在awk中的两行之间减去相同的列

  • 多行文件洗牌

  • 如何更改字符大小写(从小到大,反之亦然)?同时[重复]

Sidebar

Stats

  • 问题 205573
  • 回答 270741
  • 最佳答案 135370
  • 用户 68524
  • 热门
  • 回答
  • Marko Smith

    如何将 GPG 私钥和公钥导出到文件

    • 4 个回答
  • Marko Smith

    ssh 无法协商:“找不到匹配的密码”,正在拒绝 cbc

    • 4 个回答
  • Marko Smith

    我们如何运行存储在变量中的命令?

    • 5 个回答
  • Marko Smith

    如何配置 systemd-resolved 和 systemd-networkd 以使用本地 DNS 服务器来解析本地域和远程 DNS 服务器来解析远程域?

    • 3 个回答
  • Marko Smith

    如何卸载内核模块“nvidia-drm”?

    • 13 个回答
  • Marko Smith

    dist-upgrade 后 Kali Linux 中的 apt-get update 错误 [重复]

    • 2 个回答
  • Marko Smith

    如何从 systemctl 服务日志中查看最新的 x 行

    • 5 个回答
  • Marko Smith

    Nano - 跳转到文件末尾

    • 8 个回答
  • Marko Smith

    grub 错误:你需要先加载内核

    • 4 个回答
  • Marko Smith

    如何下载软件包而不是使用 apt-get 命令安装它?

    • 7 个回答
  • Martin Hope
    rocky 如何将 GPG 私钥和公钥导出到文件 2018-11-16 05:36:15 +0800 CST
  • Martin Hope
    Wong Jia Hau ssh-add 返回:“连接代理时出错:没有这样的文件或目录” 2018-08-24 23:28:13 +0800 CST
  • Martin Hope
    Evan Carroll systemctl 状态显示:“状态:降级” 2018-06-03 18:48:17 +0800 CST
  • Martin Hope
    Tim 我们如何运行存储在变量中的命令? 2018-05-21 04:46:29 +0800 CST
  • Martin Hope
    Ankur S 为什么 /dev/null 是一个文件?为什么它的功能不作为一个简单的程序来实现? 2018-04-17 07:28:04 +0800 CST
  • Martin Hope
    user3191334 如何从 systemctl 服务日志中查看最新的 x 行 2018-02-07 00:14:16 +0800 CST
  • Martin Hope
    Marko Pacak Nano - 跳转到文件末尾 2018-02-01 01:53:03 +0800 CST
  • Martin Hope
    Kidburla 为什么真假这么大? 2018-01-26 12:14:47 +0800 CST
  • Martin Hope
    Christos Baziotis 在一个巨大的(70GB)、一行、文本文件中替换字符串 2017-12-30 06:58:33 +0800 CST
  • Martin Hope
    Bagas Sanjaya 为什么 Linux 使用 LF 作为换行符? 2017-12-20 05:48:21 +0800 CST

热门标签

linux bash debian shell-script text-processing ubuntu centos shell awk ssh

Explore

  • 主页
  • 问题
    • 最新
    • 热门
  • 标签
  • 帮助

Footer

AskOverflow.Dev

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve