AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • Início
  • system&network
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • Início
  • system&network
    • Recentes
    • Highest score
    • tags
  • Ubuntu
    • Recentes
    • Highest score
    • tags
  • Unix
    • Recentes
    • tags
  • DBA
    • Recentes
    • tags
  • Computer
    • Recentes
    • tags
  • Coding
    • Recentes
    • tags
Início / coding / Perguntas / 76985268
Accepted
Fravadona
Fravadona
Asked: 2023-08-27 08:03:33 +0800 CST2023-08-27 08:03:33 +0800 CST 2023-08-27 08:03:33 +0800 CST

como classificar um grande número de arquivos com um programa obscuro que apenas exibe sua ordem

  • 772

Um colega meu queria executar um programa FORTRAN que pegasse argumentos de arquivos e gerasse sua ordenação (melhor primeiro) de acordo com algum critério biofísico-químico obscuro. O que ele precisava eram dos 10 melhores resultados.

Embora os arquivos não sejam grandes, o problema é que ele recebeu um bash: /home/progs/bin/ardock: Argument list too long, então criei links simbólicos de 6 dígitos para os arquivos e os dei como argumento, o que funcionou ;-)

Agora, se o número de arquivos for realmente muito grande para que o truque acima funcione, o que você pode fazer para obter o melhor de todos eles? Você precisa classificar os arquivos por partes e comparar os melhores com os melhores com algo assim?

#!/bin/bash

best10() { ardock "$@" | head -n 10; }
export -f best10

find . -name '*.dat' -exec bash -c 'best10 "$@"' _ {} + |
xargs bash -c 'best10 "$@"' _ |
xargs bash -c 'best10 "$@"' _ |
xargs bash -c ... | ... | ...

O problema aqui é que o número necessário xargsnão é conhecido antecipadamente, então como você pode fazer um loop?

bash
  • 2 2 respostas
  • 82 Views

2 respostas

  • Voted
  1. Nick ODell
    2023-08-27T09:38:39+08:002023-08-27T09:38:39+08:00

    Eu sugeriria resolver esse problema por meio de um torneio iterativo.

    A ideia é que na primeira rodada você divida arbitrariamente toda a sua produção em grupos de N. Os 10 primeiros colocados de cada grupo avançam para a próxima rodada, onde você os divide novamente em grupos de N.

    Isso garante que você esteja entre os 10 primeiros, assumindo que Ardock seja determinístico e forneça um pedido total.

    Aqui está o código. Comecei criando uma versão de teste do seu programa Ardock. Ele classifica os argumentos dados pelo hash e os imprime. Isso é só para que eu tenha algo para testar.

    import sys
    import hashlib
    def md5(s):
        m = hashlib.md5(s.encode('utf8'))
        return m.hexdigest()
    args = sys.argv[1:]
    args = sorted(args, key=md5)
    print('\n'.join(args))
    

    A seguir, aqui está o script Bash que administra o torneio.

    #!/bin/bash
    
    # Maximum number of arguments ardock can accept at once
    export MAX_ARGS=20
    # How many of the top candidates should be kept?
    export KEEP=10
    # How many parallel copies of ardock to run.
    # Use 0 to run one for every core you have.
    CORES=1
    
    ardock() {
        python3 test462_ardock_substitute.py "$@"
    }
    ardock_wrapper() {
        # Run ardock, outputting best $KEEP lines
        ardock "$@" | head -n "$KEEP"
    }
    export -f ardock
    export -f ardock_wrapper
    
    # Create temp dir
    dir="$(mktemp -d)"
    echo "Created temp dir $dir"
    
    level=0
    # Make list of all candidates
    seq 1 1000 > "$dir/$level.candidates"
    
    while true; do
        # 1) Read in $level candidates
        # 2) Split into groups of $MAX_ARGS and run ardock
        # 3) Output to $level + 1 candidates file
        < "$dir/$level.candidates" \
            xargs -P "$CORES" -n "$MAX_ARGS" bash -c 'ardock_wrapper "$@"' _ > \
            "$dir/$((level + 1)).candidates"
        ((level+=1))
        # Count lines in output
        linecount="$(wc -l < "$dir/$level.candidates")"
        echo "There are $linecount molecules remaining"
        if [[ "$linecount" -le "$KEEP" ]]; then
            break
        fi
    done
    
    echo "Final winners:"
    cat "$dir/$level.candidates"
    

    Explicação:

    • Em cada rodada, um arquivo 0.candidatesé criado. Contém os nomes de todos os arquivos possíveis que você deseja testar, separados por novas linhas. No meu caso, são apenas os primeiros 1.000 números inteiros. Como se trata de um arquivo, ele pode ser do tamanho que você desejar.
    • Este arquivo é dividido usando xargs, dando no máximo $MAX_ARGScada invocação do ardock.
    • (Observação sobre $MAX_ARGS: ​​Isso deve ser maior $KEEPpara progredir, mas não precisa ser muito maior. Por exemplo, se forem 20 e 10, a cada rodada do torneio, o número de candidatos diminui por um fator de 2. Aumentar $MAX_ARGStorna o algoritmo mais rápido.)
    • ardock_wrapperé responsável por obter as $KEEPlinhas superiores de cada saída do ardock.
    • A saída é concatenada em outro arquivo, 1.candidates.
    • Repita.
    • Se sobrarem linhas menores ou iguais a $KEEP, o torneio estará encerrado.

    Este código foi testado em Linux usando Bash 5.0.17.

    • 5
  2. Best Answer
    Ed Morton
    2023-08-27T20:12:16+08:002023-08-27T20:12:16+08:00

    Talvez algo assim (não testado):

    #!/usr/bin/env bash
    
    best10() { ardock "$@" | head -n 10; }
    export -f best10
    
    readarray -t files < <(find . -name '*.dat' -exec bash -c 'best10 "$@"' _ {} +)
    while (( ${#files[@]} > 10 )); do
        readarray -t files < <(printf '%s\n' "${files[@]}" | xargs bash -c 'best10 "$@"' _)
    done
    printf '%s\n' "${files[@]}"
    

    Isso pressupõe que seus nomes de arquivos não contenham novas linhas, pois suas chamadas existentes heade xargsfalhariam se o fizessem. Ele também pressupõe que você esteja usando o shell builtin printf, em vez de uma versão externa dele, portanto não haverá um problema de ARG_MAX.

    • 3

relate perguntas

  • (macOS Bash) 2 strings aparentemente idênticas não são iguais, mostrando apenas diferenças com "set -x"

  • Xargs: a substituição do alias falha apesar de expandir o alias

  • Diferença entre $PATH e ${PATH:+:${PATH}} em ambientes Linux

  • awk localize e substitua por regex e variável de ambiente

  • Como preencher nomes de arquivo com zeros de strings alfanuméricas numeradas e delimitadas de comprimento arbitrário no bash?

Sidebar

Stats

  • Perguntas 205573
  • respostas 270741
  • best respostas 135370
  • utilizador 68524
  • Highest score
  • respostas
  • Marko Smith

    destaque o código em HTML usando <font color="#xxx">

    • 2 respostas
  • Marko Smith

    Por que a resolução de sobrecarga prefere std::nullptr_t a uma classe ao passar {}?

    • 1 respostas
  • Marko Smith

    Você pode usar uma lista de inicialização com chaves como argumento de modelo (padrão)?

    • 2 respostas
  • Marko Smith

    Por que as compreensões de lista criam uma função internamente?

    • 1 respostas
  • Marko Smith

    Estou tentando fazer o jogo pacman usando apenas o módulo Turtle Random e Math

    • 1 respostas
  • Marko Smith

    java.lang.NoSuchMethodError: 'void org.openqa.selenium.remote.http.ClientConfig.<init>(java.net.URI, java.time.Duration, java.time.Duratio

    • 3 respostas
  • Marko Smith

    Por que 'char -> int' é promoção, mas 'char -> short' é conversão (mas não promoção)?

    • 4 respostas
  • Marko Smith

    Por que o construtor de uma variável global não é chamado em uma biblioteca?

    • 1 respostas
  • Marko Smith

    Comportamento inconsistente de std::common_reference_with em tuplas. Qual é correto?

    • 1 respostas
  • Marko Smith

    Somente operações bit a bit para std::byte em C++ 17?

    • 1 respostas
  • Martin Hope
    fbrereto Por que a resolução de sobrecarga prefere std::nullptr_t a uma classe ao passar {}? 2023-12-21 00:31:04 +0800 CST
  • Martin Hope
    比尔盖子 Você pode usar uma lista de inicialização com chaves como argumento de modelo (padrão)? 2023-12-17 10:02:06 +0800 CST
  • Martin Hope
    Amir reza Riahi Por que as compreensões de lista criam uma função internamente? 2023-11-16 20:53:19 +0800 CST
  • Martin Hope
    Michael A formato fmt %H:%M:%S sem decimais 2023-11-11 01:13:05 +0800 CST
  • Martin Hope
    God I Hate Python std::views::filter do C++20 não filtrando a visualização corretamente 2023-08-27 18:40:35 +0800 CST
  • Martin Hope
    LiDa Cute Por que 'char -> int' é promoção, mas 'char -> short' é conversão (mas não promoção)? 2023-08-24 20:46:59 +0800 CST
  • Martin Hope
    jabaa Por que o construtor de uma variável global não é chamado em uma biblioteca? 2023-08-18 07:15:20 +0800 CST
  • Martin Hope
    Panagiotis Syskakis Comportamento inconsistente de std::common_reference_with em tuplas. Qual é correto? 2023-08-17 21:24:06 +0800 CST
  • Martin Hope
    Alex Guteniev Por que os compiladores perdem a vetorização aqui? 2023-08-17 18:58:07 +0800 CST
  • Martin Hope
    wimalopaan Somente operações bit a bit para std::byte em C++ 17? 2023-08-17 17:13:58 +0800 CST

Hot tag

python javascript c++ c# java typescript sql reactjs html

Explore

  • Início
  • Perguntas
    • Recentes
    • Highest score
  • tag
  • help

Footer

AskOverflow.Dev

About Us

  • About Us
  • Contact Us

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve