Como divido o loop for em 3 quadros de dados individuais?

Question

Max

Asked: 2024-09-03 23:38:28 +0800 CST2024-09-03 23:38:28 +0800 CST 2024-09-03 23:38:28 +0800 CST

Lendo linhas em determinado intervalo de um arquivo em python: alternativas para readline()

772

Percebo que como ler linhas de um arquivo no intervalo [início, fim] é uma pergunta comum, no entanto muitas das respostas padrão não funcionam bem para meu conjunto de dados.

Especificamente, tenho arquivos de dados com 500 mil linhas e 100 mil colunas. Cada bloco de 50 linhas é um conjunto de dados separado que preciso ler como um bloco, analisar e, então, passar para o próximo bloco. Usar readlines() para criar um objeto de dados que eu possa amostrar em incrementos de 50 não funcionará, porque os objetos de dados ocupam muita memória.

Achei que algo como o seguinte funcionaria (para o exemplo abaixo, criei um arquivo de teste com 150 linhas (3 réplicas de 50). "myfunction()" é apenas um espaço reservado para o processamento de cada linha)

infile = open("test_file", "r")
outfile = open("out_test_file", "w")

for rep in range(0:3):
    to_sample = list(range(rep*50, rep*50+50))
    i = 0
    for line in infile:
        if i in to_sample:
            something_useful = my_function(line)
    i=i+1
    outfile.write(str(something_useful))

 outfile.close()

O script me ajuda a passar pela primeira iteração de 50, mas depois não pode prosseguir, provavelmente porque o

for line infile

O loop não inicia no início do arquivo durante a próxima iteração de rep, pois ele já leu a última linha do infile.

Como eu disse, se os arquivos de dados fossem de tamanho gerenciável, eu poderia usar apenas readlines e então amostrar a matriz nos intervalos desejados usando o loop sobre rep e número de linha, mas isso não é viável para este conjunto de dados. Qual seria uma alternativa eficiente?

2 respostas

Voted

Barmar · Answer 1 · 2024-09-03T23:46:16+08:00

Best Answer

Barmar

2024-09-03T23:46:16+08:002024-09-03T23:46:16+08:00

O loop interno lê o arquivo inteiro. Quando você repete o loop externo, não sobra nada no arquivo para ler.

Use um loop de intervalo para o loop interno e chame readline().

for _ in range(3):
    for i in range(50):
        line = infile.readline()
        something_useful = my_function(line)
    outfile.write(something_useful)

1

John Gordon · Answer 2 · 2024-09-03T23:52:49+08:00

John Gordon

2024-09-03T23:52:49+08:002024-09-03T23:52:49+08:00

Se você quiser processar apenas certos números de linha, você pode fazer isto:

target_lines = range(5, 100) # or whatever lines you want to process
line_number = 0
for line in file:
    line_number += 1
    if line_number in target_lines:
        # process this line

0

Lendo linhas em determinado intervalo de um arquivo em python: alternativas para readline()

Vue 3: Erro na criação "Identificador esperado, mas encontrado 'import'" [duplicado]

Por que esse código Java simples e pequeno roda 30x mais rápido em todas as JVMs Graal, mas não em nenhuma JVM Oracle?

Qual é o propósito de `enum class` com um tipo subjacente especificado, mas sem enumeradores?

Como faço para corrigir um erro MODULE_NOT_FOUND para um módulo que não importei manualmente?

`(expression, lvalue) = rvalue` é uma atribuição válida em C ou C++? Por que alguns compiladores aceitam/rejeitam isso?

Quando devo usar um std::inplace_vector em vez de um std::vector?

Um programa vazio que não faz nada em C++ precisa de um heap de 204 KB, mas não em C

PowerBI atualmente quebrado com BigQuery: problema de driver Simba com atualização do Windows

AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos

Estou tentando fazer o jogo pacman usando apenas o módulo Turtle Random e Math

Lendo linhas em determinado intervalo de um arquivo em python: alternativas para readline()

2 respostas

relate perguntas