Como divido o loop for em 3 quadros de dados individuais?

Question

Swawa

Asked: 2025-03-05 15:56:40 +0800 CST2025-03-05 15:56:40 +0800 CST 2025-03-05 15:56:40 +0800 CST

csv para dataframe com vários delimitadores e bug de software

772

Gostaria de ler em um arquivo csv. Infelizmente, isso é criado por um software com bugs: Minha linha de cabeçalho contém vários separadores ";" e ",". O que não seria um problema se meu conjunto de dados não tivesse um decimal ",".

Gostaria de ler os arquivos automaticamente sem alterar o cabeçalho manualmente, mas não encontrei nada de acordo com a documentação do Pandas.

Os dados de exemplo:

some file header row number 1
some file header row number two
some more information about data in that file
column1;column2;column3,column4,column5
1,234;2,665;0,888;3,891;3,762
2,232;1,233;0,888;3,789;3,524

Posso especificar um separador diferente para o cabeçalho do que para o próprio conjunto de dados? Meu código:

df = pd.read_csv(
    "mypath\test.csv", 
    skiprows = 3;header= 0, delimiter=';,', decimal = ",")

o que resulta na leitura de tudo em uma coluna

    column1;column2;column3,column4,column5
0   1,234;2,665;0,888;3,891;3,762
1   2,232;1,233;0,888;3,789;3,524

Mas o resultado deve ser cinco colunas:

    column1     column2     column3     column4     column5
0   1.234   2.665   0.888   3.891   3.762
1   2.232   1.233   0.888   3.789   3.524

1 respostas

Voted

ouroboros1 · Answer 1 · 2025-03-05T16:12:06+08:00

Supondo que seus cabeçalhos comecem com uma letra de [A-Za-z]você pode passar uma regex com um lookahead positivo para a opção vírgula sepdentro pd.read_csv:

import pandas as pd
from io import StringIO

csv = """some file header row number 1
some file header row number two
some more information about data in that file
column1;column2;column3,column4,column5
1,234;2,665;0,888;3,891;3,762
2,232;1,233;0,888;3,789;3,524"""

df = pd.read_csv(StringIO(csv), 
                 sep=r';|,(?=[A-Za-z])', 
                 skiprows=3, 
                 engine='python', 
                 decimal=',')

Saída:

   column1  column2  column3  column4  column5
0    1.234    2.665    0.888    3.891    3.762
1    2.232    1.233    0.888    3.789    3.524

Explicação de Regex . Ou use: r';|,(?=[^\d])'(não seguido por um dígito).

É claro que você pode ajustar a regex se precisar de uma solução mais rigorosa para garantir que a opção para a vírgula não corresponda às linhas subsequentes.

Edição: para esclarecer, o equivalente para o caminho do seu arquivo é:

pd.read_csv("mypath\test.csv", sep=r';|,(?=[A-Za-z])', ...)

# replacing `StringIO(csv)` with `"mypath\test.csv"`

Não :

pd.read_csv(StringIO("mypath\test.csv"), sep=r';|,(?=[A-Za-z])', ...)

que gera o erro mencionado no comentário :

EmptyDataError: No columns to parse from file

csv para dataframe com vários delimitadores e bug de software

Reformatar números, inserindo separadores em posições fixas

Por que os conceitos do C++20 causam erros de restrição cíclica, enquanto o SFINAE antigo não?

Problema com extensão desinstalada automaticamente do VScode (tema Material)

Vue 3: Erro na criação "Identificador esperado, mas encontrado 'import'" [duplicado]

Qual é o propósito de `enum class` com um tipo subjacente especificado, mas sem enumeradores?

Como faço para corrigir um erro MODULE_NOT_FOUND para um módulo que não importei manualmente?

`(expression, lvalue) = rvalue` é uma atribuição válida em C ou C++? Por que alguns compiladores aceitam/rejeitam isso?

Um programa vazio que não faz nada em C++ precisa de um heap de 204 KB, mas não em C

PowerBI atualmente quebrado com BigQuery: problema de driver Simba com atualização do Windows

AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos

csv para dataframe com vários delimitadores e bug de software

1 respostas

relate perguntas