AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • 主页
  • 系统&网络
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • 主页
  • 系统&网络
    • 最新
    • 热门
    • 标签
  • Ubuntu
    • 最新
    • 热门
    • 标签
  • Unix
    • 最新
    • 标签
  • DBA
    • 最新
    • 标签
  • Computer
    • 最新
    • 标签
  • Coding
    • 最新
    • 标签
主页 / unix / 问题 / 553674
Accepted
Akhil
Akhil
Asked: 2019-11-23 11:24:02 +0800 CST2019-11-23 11:24:02 +0800 CST 2019-11-23 11:24:02 +0800 CST

如何使用bash从文件夹中选择一个随机文件而不重复?

  • 772

我可以使用此命令选择一个随机文件

find ./ -type f | shuf -n 1

但它有时会显示相同的文件。
是否可以停止选择重复文件?
这个任务还有其他实用程序吗?

我在一个可能有递归子文件夹的文件夹中有大约 50k txt 文件,我想选择一个随机文件来查看它,我不想再看到它+每天都有新文件添加到文件夹中......

bash find
  • 4 4 个回答
  • 9135 Views

4 个回答

  • Voted
  1. Kusalananda
    2019-11-23T13:15:04+08:002019-11-23T13:15:04+08:00

    您的代码的问题是您每次都重新生成列表以选择新的路径名。只要您在生成列表的目录中保留相同的文件,这可能会一遍又一遍地为您提供相同的路径名。

    对于偶尔运行脚本的情况,简单的答案是将进程文件移走(或删除它们)。这样,下次运行脚本并重新生成随机列表时,已处理的文件将不会成为列表的一部分。

    例如,假设所有文件都位于目录中或目录$HOME/newfiles下,以下将选择一个文件,然后将其移动到$HOME/oldfiles:

    myfile=$( find "$HOME/newfiles" -type f -print0 | shuf -z -n 1 )
    
    # use "$myfile" here
    
    # later... move "$myfile" to somewhere else:
    mv "$myfile" "$HOME/oldfiles"
    

    该答案的其余部分与您希望在一次和相同的脚本调用中循环随机路径名的情况有关。


    假设您的文件和目录不包含嵌入的换行符,这显示了 Jeff Schaller在评论中建议的内容:

    find ./ -type f | shuf |
    while IFS= read -r pathname; do
        # do work with "$pathname"
    done
    

    这将为您提供当前目录中或当前目录下的常规文件的随机路径名,如果正如我所提到的,层次结构中的路径名都不包含换行符(在这种情况下shuf会打乱这些名称)。

    一个安全的变体是用一个以 nul 结尾的列表来打乱列表:

    readarray -t -d '' pathnames < <( find . -type f -print0 | shuf -z )
    for pathname in "${pathnames[@]}"; do
        # use "$pathname" here
    done
    

    此示例(以及下一个示例)改编自https://unix.stackexchange.com/a/543188/116858


    在zsh外壳中,你可以做

    for pathname in ./**/*(.DNnoe['REPLY=$RANDOM'])
    do
       # use $pathname here
    done
    

    这与上面的代码类似,不同之处在于它使用 shell glob 并且没有面向行的文本过滤工具,文件名中的换行符不会成为问题(并且您不必传递以 nul 结尾的列表)。

    这样做的好处zsh是您不需要调用任何外部工具。

    • 3
  2. Jason K Lai
    2019-11-23T13:19:41+08:002019-11-23T13:19:41+08:00

    如果我正确理解了这个问题,OP 可以做的一件事就是将列表打乱到一个文件中(或变量,如果在BASH脚本中),然后从该列表中提取元素。这样,OP 将不会调用同一个文件两次,直到完整列表的末尾。

    例如,

    find ./ -type f | shuf > shuffled.txt
    

    在文件中创建列表,然后通过以下方式调用它,

    cat shuffled.txt | head -1 | tail -1
    cat shuffled.txt | head -2 | tail -1
    cat shuffled.txt | head -3 | tail -1
    ...
    

    或与sedor等​​效的行awk。

    或者,如果这一切都被放入BASH脚本中,也可以执行以下操作:

    for filename in $(find ./ -type f | shuf)
    do
        echo ${filename}
        ... do something to ${filename}
    done
    
    • 2
  3. bu5hman
    2019-11-24T00:16:57+08:002019-11-24T00:16:57+08:00

    inode与...一起工作怎么样?

    [[ ! -f seen ]] && touch seen && ls -i seen > seen                       
    file=$(find . -type f -printf %i"\n" | sort | join -j 1 -v 1 - seen | shuf -n 1)
    echo $file >> seen
    sort -o seen seen
    find -inum $file -exec cat {} \; #or whatever you want to do with the file
    

    文件是否在您的搜索路径中无关紧要seen,如果是,则只需将其自己添加inode到自身以被筛选掉。

    对于单个检查会话,只需遍历列表

    [[ ! -f seen ]] && touch seen && ls -i seen > seen
    sort -o seen seen
    list=$(mktemp)                        
    find . -type f -printf %i"\n" | sort | join -j 1 -v 1 - seen | shuf -o $list
    while read file; do
        echo $file >> seen
        find -inum $file -exec sh -c 'echo -e "$1 contains ....\n"; cat "$1"; echo -e "\n\n"' sh {} \;
        sleep 1
    done < $list
    

    注意: 假设文件没有被删除。如果它们是和inodes 被重用,那么它们将不得不从seen

    在发现sed复制和重写文件并更改文件之后inode,seen这种方法变得更加复杂......删除问题的解决方案可能是使用ed而不是sed.

    删除文件touch wood

    d="touch wood"; find . -iname "$d" -printf %i"\n%p\n" | while read i ; do read f; rm "$f" ;printf "%s\n" "/$i/d" wq | ed -s seen; done;
    
    • 1
  4. Best Answer
    Akhil
    2019-11-23T21:14:25+08:002019-11-23T21:14:25+08:00
    1. @使用find
    find ./ -type f | shuf |
    while IFS= read -r pathname; do
        if ! grep -xF "$pathname" ~/shuffled.txt; then
          # do work with "$pathname"
          echo "$pathname" >> ~/shuffled.txt
        fi
    done
    

    在这里它将跟踪洗牌的文件。

    1. @使用mlocate

    每次使用find都需要更多时间...相反,最好在此处使用 mlocate 实用程序...

    #!/bin/bash
    set -e
    sudo updatedb -U ./ -o mlocate.db && locate -d mlocate.db '*' | shuf |
    while IFS= read -r pathname; do
      if [ -f "$pathname" ]; then
        if ! grep -xF "$pathname" ~/shuffled.txt; then
          # do work with "$pathname"
          echo "$pathname" >> ~/shuffled.txt
        fi
      fi
    done
    

    以这种方式updatedb仅查找新文件而不是重新扫描所有文件

    • 0

相关问题

  • 通过命令的标准输出以编程方式导出环境变量[重复]

  • 从文本文件传递变量的奇怪问题

  • 虽然行读取保持转义空间?

  • `tee` 和 `bash` 进程替换顺序

  • 运行一个非常慢的脚本直到它成功

Sidebar

Stats

  • 问题 205573
  • 回答 270741
  • 最佳答案 135370
  • 用户 68524
  • 热门
  • 回答
  • Marko Smith

    模块 i915 可能缺少固件 /lib/firmware/i915/*

    • 3 个回答
  • Marko Smith

    无法获取 jessie backports 存储库

    • 4 个回答
  • Marko Smith

    如何将 GPG 私钥和公钥导出到文件

    • 4 个回答
  • Marko Smith

    我们如何运行存储在变量中的命令?

    • 5 个回答
  • Marko Smith

    如何配置 systemd-resolved 和 systemd-networkd 以使用本地 DNS 服务器来解析本地域和远程 DNS 服务器来解析远程域?

    • 3 个回答
  • Marko Smith

    dist-upgrade 后 Kali Linux 中的 apt-get update 错误 [重复]

    • 2 个回答
  • Marko Smith

    如何从 systemctl 服务日志中查看最新的 x 行

    • 5 个回答
  • Marko Smith

    Nano - 跳转到文件末尾

    • 8 个回答
  • Marko Smith

    grub 错误:你需要先加载内核

    • 4 个回答
  • Marko Smith

    如何下载软件包而不是使用 apt-get 命令安装它?

    • 7 个回答
  • Martin Hope
    user12345 无法获取 jessie backports 存储库 2019-03-27 04:39:28 +0800 CST
  • Martin Hope
    Carl 为什么大多数 systemd 示例都包含 WantedBy=multi-user.target? 2019-03-15 11:49:25 +0800 CST
  • Martin Hope
    rocky 如何将 GPG 私钥和公钥导出到文件 2018-11-16 05:36:15 +0800 CST
  • Martin Hope
    Evan Carroll systemctl 状态显示:“状态:降级” 2018-06-03 18:48:17 +0800 CST
  • Martin Hope
    Tim 我们如何运行存储在变量中的命令? 2018-05-21 04:46:29 +0800 CST
  • Martin Hope
    Ankur S 为什么 /dev/null 是一个文件?为什么它的功能不作为一个简单的程序来实现? 2018-04-17 07:28:04 +0800 CST
  • Martin Hope
    user3191334 如何从 systemctl 服务日志中查看最新的 x 行 2018-02-07 00:14:16 +0800 CST
  • Martin Hope
    Marko Pacak Nano - 跳转到文件末尾 2018-02-01 01:53:03 +0800 CST
  • Martin Hope
    Kidburla 为什么真假这么大? 2018-01-26 12:14:47 +0800 CST
  • Martin Hope
    Christos Baziotis 在一个巨大的(70GB)、一行、文本文件中替换字符串 2017-12-30 06:58:33 +0800 CST

热门标签

linux bash debian shell-script text-processing ubuntu centos shell awk ssh

Explore

  • 主页
  • 问题
    • 最新
    • 热门
  • 标签
  • 帮助

Footer

AskOverflow.Dev

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve