从文本文件传递变量的奇怪问题

Question

jonny b

Asked: 2019-01-21 09:36:34 +0800 CST2019-01-21 09:36:34 +0800 CST 2019-01-21 09:36:34 +0800 CST

如何删除包含 2 个匹配字符串但保留其余的重复文件？

772

我有一个我想不出如何解决的问题。我有一个目录，其中包含 1000 个文件，每个文件都包含一个带有 URL 参数的 URL：

文件 1：

example.com/car/?wheel=tyre

文件 2：

example.com/car/?wheel=rim

文件 3：

test.com/food/?fruit=apple

文件 4：

test.com/food/?fruit=banana

文件 5：

test.co.uk/car/interior=chair

文件 6：

example.co.uk/car/interior=chair

我想删除包含相同域名和参数但保留第一个的重复文件。参数内的项目，例如。轮胎、轮辋、苹果、香蕉和椅子应该被忽略。所以所需的输出如下：

文件 1：

example.com/car/?wheel=tyre

文件 3：

test.com/food/?fruit=apple

文件 5：

test.co.uk/car/interior=chair

文件 6：

example.co.uk/car/interior=chair

文件 2 已被删除，因为它与文件 1 的域名和 URL 参数名称相同。文件 4 已被删除，因为它与文件 3 的域名和 URL 参数名称相同。文件 5 和 6 被保留，因为它们使用不同的域，即使它们使用相同的 URL 参数。

我在想我需要先遍历目录中的所有文件：

FILES=data/urls/*
for i in $FILES
do
  cat $i | *Check for matching domain, then matching parameter*
else
 rm $i
fi
done

或者可能使用 for 循环搜索域名，然后使用嵌套的 for 循环来检查使用 uniq 的参数。但是我不知道该怎么做。

有什么想法我该怎么做？

编辑： 我已将所有 url 添加到一个文件中，以使它们更易于使用：

sed -i -e '$a\' *.txt
cat * > all.txt

编辑 2： 某些 URL 在路径中包含多个文件夹，例如。

www.example.com/1/2/3/4/5/?l=123
www.example.com/1/2/3/?1=AAA

2 个回答

Voted

ozzy · Answer 1 · 2019-01-21T12:15:18+08:00

Best Answer

ozzy

2019-01-21T12:15:18+08:002019-01-21T12:15:18+08:00

像这样的小 Bash 脚本应该可以：

#!/bin/bash

declare -A a                             # declare associative array 
for i in *; do                           # loop through files in directory

  read -r url < "$i"                     # read the url from the file
  domain=${url%%/*}                      # delete longest match from back
  param=${url##*/}                       # delete longest match from start
  param=${param%%=*}                     # delete "=value" from param
  k=$domain$param                        # construct key

  if [[ -n $k && -z ${a[$k]} ]]; then    # check its prior use as key k
    a[$k]=1                              # new key: mark it as such
  else                                   # known/faulty key: delete the file
    echo Delete "$i"                     # Replace with: rm "$i" if satisfied
  fi
done

2

user147505 · Answer 2 · 2019-01-21T11:57:00+08:00

将所有行放在一个文件中，您可以使用以下 Perl 代码：

perl -nle '($d,$p)=m{^(\S+?)/\S+/\??(\w+)=}; $a{"$d$p"}=$_ if "$d$p";
END {print $a{$_} for (keys %a)}' input

input是数据文件，但您可以改为通过管道输入此 Perl 命令。工作很简单。正则表达式首先用于隔离域和每个条目的第一个参数。然后将整行写入字典，其中较早的孤立部分是关键。任何较早的值都会被覆盖。最后打印哈希。

它产生这个输出：

test.co.uk/car/interior=chair
www.example.com/1/1/?l=spanish
example.com/car/?wheel=rim
www.example.com/1/1/?selectedTab=live&selectedStream=1
example.co.uk/car/interior=chair
test.com/food/?fruit=banana

从这个输入：

example.com/car/?wheel=tyre
example.com/car/?wheel=rim
test.com/food/?fruit=apple
test.com/food/?fruit=banana
test.co.uk/car/interior=chair
example.co.uk/car/interior=chair
www.example.com/1/1/?l=thai 
www.example.com/1/1/?l=thai
www.example.com/1/1/?l=ukrainian
www.example.com/1/1/?l=turkish
www.example.com/1/1/?selectedTab=live&selectedStream=1
www.example.com/1/1/?l=ukrainian
www.example.com/1/1/?l=turkish
www.example.com/store/?l=turkish
www.example.com/1/1/storecommon.js?v=aHpFwmVHuavD&l=dutch
www.example.com/1/1/2/0/?l=english
www.example.com/1/1/9/0/?l=english
www.example.com/1/1/?l=spanish

有一个故障?v=aHpFwmVHuavD&l=dutch，它由两个参数组成。它们可能应该被一一分解和处理，这使事情变得更加复杂。确保不是这种情况。另请注意，domain.com和www.domain.com实际上并不相同。

如何删除包含 2 个匹配字符串但保留其余的重复文件？

模块 i915 可能缺少固件 /lib/firmware/i915/*

无法获取 jessie backports 存储库

如何将 GPG 私钥和公钥导出到文件

我们如何运行存储在变量中的命令？

如何配置 systemd-resolved 和 systemd-networkd 以使用本地 DNS 服务器来解析本地域和远程 DNS 服务器来解析远程域？

dist-upgrade 后 Kali Linux 中的 apt-get update 错误 [重复]

如何从 systemctl 服务日志中查看最新的 x 行

Nano - 跳转到文件末尾

grub 错误：你需要先加载内核

如何下载软件包而不是使用 apt-get 命令安装它？

如何删除包含 2 个匹配字符串但保留其余的重复文件？

2 个回答

相关问题