exportar variáveis env programaticamente, via stdout do comando [duplicado]

Question

Akhil

Asked: 2019-11-23 11:24:02 +0800 CST2019-11-23 11:24:02 +0800 CST 2019-11-23 11:24:02 +0800 CST

Como escolher um arquivo aleatório de uma pasta sem repetição usando o bash?

772

Eu posso selecionar um arquivo aleatório usando este comando

find ./ -type f | shuf -n 1

Mas está mostrando o mesmo arquivo algumas vezes.
É possível parar de escolher arquivos duplicados?
Existe algum outro utilitário para esta tarefa?

Eu tenho cerca de 50 mil arquivos txt em uma pasta que pode ter subpastas recursivas e quero escolher um arquivo aleatório para vê-lo e não quero vê-lo novamente + há novos arquivos adicionados à pasta todos os dias ...

4 respostas

Voted

Kusalananda · Answer 1 · 2019-11-23T13:15:04+08:00

O problema com seu código é que você está gerando novamente a lista toda vez para escolher um novo nome de caminho. Isso potencialmente forneceria os mesmos nomes de caminho repetidamente, desde que você mantivesse os mesmos arquivos nos diretórios sobre os quais você gera a lista.

A resposta simples para o caso em que você ocasionalmente executa seu script é mover os arquivos do processo (ou excluí-los). Dessa forma, na próxima vez que você executar o script e gerar novamente a lista aleatória, os arquivos já processados não farão parte da lista.

Por exemplo, supondo que todos os arquivos estejam localizados dentro ou abaixo do diretório $HOME/newfiles, o seguinte selecionaria um arquivo e o moveria para $HOME/oldfiles:

myfile=$( find "$HOME/newfiles" -type f -print0 | shuf -z -n 1 )

# use "$myfile" here

# later... move "$myfile" to somewhere else:
mv "$myfile" "$HOME/oldfiles"

O restante desta resposta é referente ao caso em que você deseja fazer um loop sobre nomes de caminhos aleatórios em uma e mesma invocação do script.

Supondo que seus arquivos e diretórios não contenham novas linhas incorporadas, isso mostra o que Jeff Schaller sugeriu em um comentário :

find ./ -type f | shuf |
while IFS= read -r pathname; do
    # do work with "$pathname"
done

Isso lhe daria nomes de caminho aleatórios de arquivos regulares dentro ou abaixo do diretório atual, se, como mencionei, nenhum dos nomes de caminho na hierarquia contivesse novas linhas (nesse caso shuf, embaralharia esses nomes).

Uma variante segura seria embaralhar a lista com uma lista terminada em nulo:

readarray -t -d '' pathnames < <( find . -type f -print0 | shuf -z )
for pathname in "${pathnames[@]}"; do
    # use "$pathname" here
done

Este exemplo (e o próximo) é adaptado de https://unix.stackexchange.com/a/543188/116858

No zshshell, você poderia fazer

for pathname in ./**/*(.DNnoe['REPLY=$RANDOM'])
do
   # use $pathname here
done

Isso funciona de maneira semelhante ao código acima com a diferença de que, como está usando um shell glob e nenhuma ferramenta de filtragem de texto orientada por linha, as novas linhas nos nomes dos arquivos não seriam um problema (e você não precisa passar listas terminadas em nul ).

O legal de fazer isso zshé que você não precisa chamar nenhuma ferramenta externa.

Jason K Lai · Answer 2 · 2019-11-23T13:19:41+08:00

Jason K Lai

2019-11-23T13:19:41+08:002019-11-23T13:19:41+08:00

Se estou entendendo a pergunta corretamente, uma coisa que o OP pode fazer é embaralhar a lista em um arquivo (ou variável, se estiver em um BASHscript) e extrair elementos dessa lista. Dessa forma, o OP não chamará o mesmo arquivo duas vezes até o final da lista completa.

Por exemplo,

find ./ -type f | shuf > shuffled.txt

para criar a lista em um arquivo e chamá-la por meio de algo como,

cat shuffled.txt | head -1 | tail -1
cat shuffled.txt | head -2 | tail -1
cat shuffled.txt | head -3 | tail -1
...

Ou uma linha equivalente com sedou awk.

Como alternativa, se tudo isso estiver sendo colocado em um BASHscript, também é possível fazer algo assim:

for filename in $(find ./ -type f | shuf)
do
    echo ${filename}
    ... do something to ${filename}
done

2

bu5hman · Answer 3 · 2019-11-24T00:16:57+08:00

Que tal trabalhar apenas com o inode....

[[ ! -f seen ]] && touch seen && ls -i seen > seen                       
file=$(find . -type f -printf %i"\n" | sort | join -j 1 -v 1 - seen | shuf -n 1)
echo $file >> seen
sort -o seen seen
find -inum $file -exec cat {} \; #or whatever you want to do with the file

Não importa se o seenarquivo está no seu caminho de pesquisa e, se estiver, basta adicionar o seu próprio arquivo inodepara ser excluído.

Para uma única sessão de inspeção, basta percorrer a lista

[[ ! -f seen ]] && touch seen && ls -i seen > seen
sort -o seen seen
list=$(mktemp)                        
find . -type f -printf %i"\n" | sort | join -j 1 -v 1 - seen | shuf -o $list
while read file; do
    echo $file >> seen
    find -inum $file -exec sh -c 'echo -e "$1 contains ....\n"; cat "$1"; echo -e "\n\n"' sh {} \;
    sleep 1
done < $list

Nota: A suposição é que os arquivos não são excluídos. Se eles forem e inodes forem reutilizados, eles terão que ser excluídos doseen

Depois de descobrir que sedcopia e reescreve arquivos e altera o inodepara o seenarquivo, essa abordagem fica mais complicada .... uma solução para o problema de exclusão pode ser usar edem vez de sed.

Para excluir o arquivotouch wood

d="touch wood"; find . -iname "$d" -printf %i"\n%p\n" | while read i ; do read f; rm "$f" ;printf "%s\n" "/$i/d" wq | ed -s seen; done;

Akhil · Answer 4 · 2019-11-23T21:14:25+08:00

Best Answer

Akhil

2019-11-23T21:14:25+08:002019-11-23T21:14:25+08:00

@usandofind

find ./ -type f | shuf |
while IFS= read -r pathname; do
    if ! grep -xF "$pathname" ~/shuffled.txt; then
      # do work with "$pathname"
      echo "$pathname" >> ~/shuffled.txt
    fi
done

aqui ele manterá o controle de arquivos embaralhados.

@usandomlocate

toda vez que usar findleva mais tempo... em vez disso, é melhor usar o utilitário mlocate aqui...

#!/bin/bash
set -e
sudo updatedb -U ./ -o mlocate.db && locate -d mlocate.db '*' | shuf |
while IFS= read -r pathname; do
  if [ -f "$pathname" ]; then
    if ! grep -xF "$pathname" ~/shuffled.txt; then
      # do work with "$pathname"
      echo "$pathname" >> ~/shuffled.txt
    fi
  fi
done

desta forma updatedbprocura novos ficheiros apenas em vez de voltar a verificar todos os ficheiros

0

Como escolher um arquivo aleatório de uma pasta sem repetição usando o bash?

Possível firmware ausente /lib/firmware/i915/* para o módulo i915

Falha ao buscar o repositório de backports jessie

Como exportar uma chave privada GPG e uma chave pública para um arquivo

Como podemos executar um comando armazenado em uma variável?

Como configurar o systemd-resolved e o systemd-networkd para usar o servidor DNS local para resolver domínios locais e o servidor DNS remoto para domínios remotos?

apt-get update error no Kali Linux após a atualização do dist [duplicado]

Como ver as últimas linhas x do log de serviço systemctl

Nano - pule para o final do arquivo

erro grub: você precisa carregar o kernel primeiro

Como baixar o pacote não instalá-lo com o comando apt-get?

Como escolher um arquivo aleatório de uma pasta sem repetição usando o bash?

4 respostas

relate perguntas