Como divido o loop for em 3 quadros de dados individuais?

Question

linkey apiacess

Asked: 2024-08-07 11:10:05 +0800 CST2024-08-07 11:10:05 +0800 CST 2024-08-07 11:10:05 +0800 CST

escrever e ler dados binários em python

772

Estou tentando escrever uma matriz de dados em um arquivo binário com a intenção de acessar posteriormente esse arquivo para localizar dados. Procurei online e encontrei vários métodos para salvar dados usando df.to_pickle, struct.pack, np.to_bytes(). Agora vem a parte de lê-lo. Encontrei outros posts solicitando leitura, mas até agora nenhum ajudou na recuperação dos dados. Tenho a impressão de que isso pode ter a ver com a forma como comprimo os dados.

formato de dados

      0      1      2     3     .      .      .    n
0   
1  -0.111 
2   0.84   0.1
3   0.25   0.6   -0.2
.
.
.
n

Este é um conjunto de dados de comparação, portanto, no cruzamento das variáveis, é 1. Devido a restrições de alocação de memória e tamanho dos dados, resultou na geração de uma tabela de dados como esta em um arquivo de texto. Armazenar na memória não foi possível porque n pode ser muito grande.

Para converter para binário, leio cada linha do texto, converto os valores para o formato correto e uso numpy.array.tobytes()

save_path = Path(save_loc)
save_data = save_path.open()
with load_data_path.open() as data_chunk:
    for idx, data in enumerate(data_chunk,0):
        if idx == 0:
           save_data.write(b"\n")
           continue
        dlist = data.strip("\n").split(",")
        d_array = [np.float64(x) for x in dlist]
        save_data.write(d_array.tobytes())
save_data.close()

para ler os dados, tentei usar np.frombuffer e struct.unpack mas ambos resultaram em erros. Além disso, pelo que entendi, a leitura colocaria todos os dados na memória, o que não funcionaria para os meus dados. Optei por abrir o binário usando path, localizando a linha e lendo diretamente. Aqui está o código

find_line = 7984
load_data = Path(data_loc)
with load_data.open("rb") as data_chunk:
     for idx, data in enumerate(data_chunk,0):
         if idx < find_line:
              continue
         else:
              my_line = np.frombuffer(data, "f", idx)
              break

isso, no entanto, resulta em um erro

ValueError: buffer is smaller than requested size

editar: Após uma investigação mais aprofundada, encontrei três problemas em meu código. 1 é que minha formatação estava incorreta ao usar o frombuffer. Como codifico como np.float64, chamar "f" tenta retornar um float32.

a segunda é que presumi que escrever o arquivo binário manteria os blocos de escrita (com um "\n" como delimitador para cada bloco), mas este não é o caso, pois quando tentei olhar minhas primeiras linhas, cada uma delas tinha 2.000 bits quando deveriam ter apenas ~ 16.

finalmente, parece que "\n" está sendo adicionado em algum lugar do processo, pois ao carregar mais abaixo na lista, encontro mais valores "\n" que dividem os bytes. Eu deveria ter cerca de 60.000 bytes para serem carregados, mas uma quebra de linha retorna apenas cerca de 2.500 bytes

1 respostas

Voted

Mark Tolonen · Answer 1 · 2024-08-07T13:03:55+08:00

Em um arquivo binário, o b'\n'caractere (valor de byte 0x0A) pode ocorrer nos dados flutuantes binários, portanto, delimitadores não são necessários ou desejados.

De acordo com os comentários esclarecedores na pergunta do OP, cada linha (numerada de 0) contém colunas "line#". A numpy.float64tem 8 bytes de comprimento. Leia os bytes "line# * 8" e acompanhe o número da linha.

Use csv.readerpara simplificar a leitura da entrada.

input.csv (exemplo, observe a primeira linha em branco intencional):


-4.0
-3.0,-2.875
-2.0,-1.875,-1.75
-1.0,-0.875,-0.75,-0.625
0.0,0.125,0.25,0.375,0.5
1.0,1.125,1.25,1.375,1.5,1.625
2.0,2.125,2.25,2.375,2.5,2.625,2.75
3.0,3.125,3.25,3.375,3.5,3.625,3.75,3.875
4.0,4.125,4.25,4.375,4.5,4.625,4.75,4.875,5.0

Código (Python 3.12):

import csv
import numpy as np

# Convert data to binary file.
# Row 0 writes nothing.
# Row 1 writes one 8-byte float.
# Row 2 writes two 8-byte floats.
# etc.
with (
    open('input.csv', newline='') as fin,
    open('output.bin', 'wb') as fout
):
    reader = csv.reader(fin)
    for row in reader:
        data = np.array(row, dtype=np.float64)
        fout.write(data.tobytes())

# Find and display specific line in the file as float64 values.
find_line = 5  # int(input(line))  # ask for line
line = 0
row = b''      # Initialize to handle row 0 case

with open('output.bin', 'rb') as fin:
    # line 0 is empty so skip read
    # Read until nothing is read after that.
    while line==0 or (row := fin.read(8 * line)):  # float64 size(8) times number of columns in line
        if line < find_line:
            line += 1
        else:
            my_line = np.frombuffer(row, dtype=np.float64)
            print(my_line)
            break
    else:
        print('not found')

Saída:

[0.    0.125 0.25  0.375 0.5  ]

escrever e ler dados binários em python

Vue 3: Erro na criação "Identificador esperado, mas encontrado 'import'" [duplicado]

Por que esse código Java simples e pequeno roda 30x mais rápido em todas as JVMs Graal, mas não em nenhuma JVM Oracle?

Qual é o propósito de `enum class` com um tipo subjacente especificado, mas sem enumeradores?

Como faço para corrigir um erro MODULE_NOT_FOUND para um módulo que não importei manualmente?

`(expression, lvalue) = rvalue` é uma atribuição válida em C ou C++? Por que alguns compiladores aceitam/rejeitam isso?

Quando devo usar um std::inplace_vector em vez de um std::vector?

Um programa vazio que não faz nada em C++ precisa de um heap de 204 KB, mas não em C

PowerBI atualmente quebrado com BigQuery: problema de driver Simba com atualização do Windows

AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos

Estou tentando fazer o jogo pacman usando apenas o módulo Turtle Random e Math

escrever e ler dados binários em python

1 respostas

relate perguntas