kaur提出的问题 -unix

kaur

Asked: 2024-01-13 05:58:23 +0800 CST

grep 文件中的 20k 个单词

4

我的文件夹中有 5000 个文件。这些文件被命名为 XX0000001 到 XX0005000

我正在尝试从每个文件中获取单词，然后 grep 它们以及另一个文件中的下一行（target.txt）

我的一些 XX* 文件中有大约 30,000 个单词

有什么办法可以做到这一点吗？

我努力了：

start_number=0000001
end_number=0005000
words_file=target.txt
output_folder="output_results"
mkdir -p "$output_folder"
for ((i=start_number; i <=end_number; i++)); do
   filename="XX$(printf "%07d" "$i")"
   output_file="$output_folder/output_${filename}.txt"
   while read -r word; do
      awk -v word="$word" '{for (i=1; i<=NF; i++) if($1 ~ word) {print; next}}' "$filename" >> "$output_file"
   done < "$words_file"
done

有没有更快的方法来做到这一点？我的目标文件有数百万行需要搜索；精确目标文件大小为 20 GB，106441678 行

例如：XX0000001 文件看起来像：
Big1 Big5 Big7 Big10 Big11（还有更多的单词；某些 XX 文件甚至可能有多达 30k 单词）

Target.txt 文件如下所示：

#大1

这_是_文件_包含_xxxxx

#大2

这_是_文件_包含_xxxxx

#Big3

这_是_文件_包含_xxxxx

#Big4

这_是_文件_包含_xxxxx

#Big5

这_是_文件_包含_xxxxx

#Big6

这_是_文件_包含_xxxxx

#Big7

这_是_文件_包含_xxxxx

#Big8

这_是_文件_包含_xxxxx

#Big9

这_是_文件_包含_xxxxx

#Big10

这_是_文件_包含_xxxxx

#Big11

这_是_文件_包含_xxxxx

#Big12

这_是_文件_包含_xxxxx

kaur

Asked: 2024-01-12 03:53:53 +0800 CST

将文件名的前 5 个字符添加到文件中的每一行

5

我的文件夹中有许多“.txt”文件。

对于每个 .txt 文件，我需要获取文件名中的前 5 个字符，并将它们添加到文件中每行的开头。我还需要在新文件中每行的开头添加一个“*”符号。

我尝试使用以下命令，但它在文件中每行都有多个空格的文件中给出了错误的输出。

awk 'FNR == 1 {chr =substr(FILENAME, 0,5); name = FILENAME ".new" }{ printf("%s %s\n", "*"chr$1, $2) >name}' *.txt

有人可以修改代码或给我一个更简单的方法来执行此操作。

kaur

Asked: 2023-12-05 06:20:29 +0800 CST

根据列的内容创建新目录/文件夹

5

我需要创建包含如下数据的文件夹。

该文件夹应根据第 1 列进行唯一命名，例如。A、B、C、D 每个文件夹的内容应为第 2 列中对应的值

另外我还想要每个文件夹中的条目总数

例如。名为“B”的文件夹应将“B、B1 和 B2”作为不同的行数“3”作为文件夹“B”中最后一行的总数

数据看起来像：

col1    col2
A       A
B       B
B       B1
B       B2
C       C1
C       C2
C       C3
D       D1
D       D2

grep 文件中的 20k 个单词

将文件名的前 5 个字符添加到文件中的每一行

根据列的内容创建新目录/文件夹

模块 i915 可能缺少固件 /lib/firmware/i915/*

无法获取 jessie backports 存储库

如何将 GPG 私钥和公钥导出到文件

我们如何运行存储在变量中的命令？

如何配置 systemd-resolved 和 systemd-networkd 以使用本地 DNS 服务器来解析本地域和远程 DNS 服务器来解析远程域？

dist-upgrade 后 Kali Linux 中的 apt-get update 错误 [重复]

如何从 systemctl 服务日志中查看最新的 x 行

Nano - 跳转到文件末尾

grub 错误：你需要先加载内核

如何下载软件包而不是使用 apt-get 命令安装它？

kaur's questions