grep 从 $START 到 $END 的一组行并且在 $MIDDLE 中包含匹配项

Question

Chuck

Asked: 2018-05-04 15:47:05 +0800 CST2018-05-04 15:47:05 +0800 CST 2018-05-04 15:47:05 +0800 CST

如何标准化文本文件中的电话号码？

772

我会定期收到一个文本文件，其中的电话号码格式各不相同：##########、###-###-####、(###) ###-###等。通常有十位数字，但我见过+1 (###) ###-####.

最终该文件被导入到数据库中，但由于我不会进入的原因，让电话号码具有标准格式会很方便，(###) ###-####.

唯一不变的是电话号码总是落在每行的第二个和第三个制表符之间。

有没有办法从命令行做到这一点？

3 个回答

Voted

steeldriver · Answer 1 · 2018-05-04T17:18:41+08:00

您可以构造一个匹配任何格式的正则表达式，并捕获数字，然后将它们重新替换为您想要的格式。

例如，要使用扩展正则表达式 (ERE) 匹配和捕获可选用括号括起来的三个十进制数字序列，您可以编写$?([0-9]{3})$?while[- ]?匹配可选的连字符或空格。以这种方式建立

\(?([0-9]{3})\)?[- ]?([0-9]{3})[- ]?([0-9]{4})

将匹配可选用括号括起来的 3 位数字，可选地后跟连字符或空格，然后匹配更多位可选地后跟连字符或空格，后跟 4 位数字。

sed在替换中应用表达式：

$ cat <<EOF | sed -E 's/\(?([0-9]{3})\)?[- ]?([0-9]{3})[- ]?([0-9]{4})/(\1) \2-\3/g'
I periodically receive a text file with phone numbers formatted 
in wildly different ways: 123 456-7890, 123 456-7890, 123 456-7890, 
etc. Usually there's ten digits, but I've seen +1 555 456-7890.
EOF
I periodically receive a text file with phone numbers formatted 
in wildly different ways: (123) 456-7890, (123) 456-7890, (123) 456-7890, 
etc. Usually there's ten digits, but I've seen +1 (555) 456-7890.

Jeff · Answer 2 · 2018-05-04T17:30:54+08:00

只要文件与您描述的一样，这应该涵盖您。该命令保留电话号码前后的信息，并按照您要求的方式对其进行格式化。如果输出看起来不错，请添加-i选项以sed在适当的位置对其进行编辑或在最后使用输出重定向提供它> output_file。

sed -E "s/(.*\t.*\t)\+?1?[[:space:]]?\(?([0-9]{3})\)?.*([0-9]{3}).*([0-9]{4})(.*)/\1\(\2\)\ \3-\4\5/g" filename

我在包含此文本的文件上对其进行了测试：

    jfk 902-765-9292 hat jump cat
    jk  902 819 2244 hat jump cat
    98  902 823-4456 hat jump cat
    78h +1 075 242 1566 hat jump cat
jklj    kjlj    +1 075-242-1566 hat jump cat
jk  jkj +1 (075) 242-1566 hat jump cat
    kj  (204) 799-9810 hat jump cat
kj  89  (204)-799-9810 hat jump cat

输出是：

    jfk (902) 765-9292 hat jump cat
    jk  (902) 819-2244 hat jump cat
    98  (902) 823-4456 hat jump cat
    78h (075) 242-1566 hat jump cat
jklj    kjlj    (075) 242-1566 hat jump cat
jk  jkj (075) 242-1566 hat jump cat
    kj  (204) 799-9810 hat jump cat
kj  89  (204) 799-9810 hat jump cat

Jeff Schaller · Answer 3 · 2018-05-04T18:05:15+08:00

Jeff Schaller

2018-05-04T18:05:15+08:002018-05-04T18:05:15+08:00

您需要匹配该字段并重新格式化它；这是一个 awk 脚本，它查找三个变体并重新格式化它们（在默认打印重组行之前）：

$3 ~ /^[0-9][0-9][0-9][0-9][0-9][0-9][0-9][0-9][0-9][0-9]$/ {
        $3="(" substr($3, 1, 3) ") " substr($3, 4, 3) "-" substr($3, 7, 4)
}

$3 ~ /^[0-9][0-9][0-9]-[0-9][0-9][0-9]-[0-9][0-9][0-9][0-9]$/ {
        $3="(" substr($3, 1, 3) ") " substr($3, 5, 3) "-" substr($3, 9, 4)
}

$3 ~ /^\+1 \([0-9][0-9][0-9]\) [0-9][0-9][0-9]-[0-9][0-9][0-9][0-9]$/ {
        $3="(" substr($3, 5, 3) ") " substr($3, 10, 3) "-" substr($3, 14, 4)
}

1

将其保存到文件中，也许是phone.awk，然后使用：调用它awk -F $'\t' -f phone.awk < input。

1

如何标准化文本文件中的电话号码？

如何将 GPG 私钥和公钥导出到文件

ssh 无法协商：“找不到匹配的密码”，正在拒绝 cbc

我们如何运行存储在变量中的命令？

如何配置 systemd-resolved 和 systemd-networkd 以使用本地 DNS 服务器来解析本地域和远程 DNS 服务器来解析远程域？

如何卸载内核模块“nvidia-drm”？

dist-upgrade 后 Kali Linux 中的 apt-get update 错误 [重复]

如何从 systemctl 服务日志中查看最新的 x 行

Nano - 跳转到文件末尾

grub 错误：你需要先加载内核

如何下载软件包而不是使用 apt-get 命令安装它？

如何标准化文本文件中的电话号码？

3 个回答

相关问题