Como divido o loop for em 3 quadros de dados individuais?

Question

cicciodevoto

Asked: 2023-12-20 20:07:09 +0800 CST2023-12-20 20:07:09 +0800 CST 2023-12-20 20:07:09 +0800 CST

Erro ao ler uma única coluna de um arquivo CSV enorme com mecanismo Pandas e PyArrow

772

Estou tentando ler no Pandas uma única coluna de um enorme arquivo CSV usando a resposta de outra pergunta :

import pandas as pd

test_df = pd.read_csv("test.csv", usecols=["id_str"], engine="pyarrow")

e obtenho este erro:

pyarrow.lib.ArrowInvalid: CSV parse error: Expected 4 columns, got 3

Usando um arquivo muito menor, posso lê-lo sem pd.read_csvnenhuma opção.

Lendo em volta parece que esse problema está relacionado ao fato do arquivo CSV possuir células vazias, que são preenchidas NaNquando pd.read_csvusado sem opções, mas criam problemas no outro caso.

Ainda não encontrei nenhuma solução para esse problema, alguma sugestão?

Quero ler apenas algumas colunas, porque o arquivo é muito grande e preciso apenas delas para a análise que tenho que fazer.

1 respostas

Voted

KingOtto · Answer 1 · 2023-12-20T20:17:25+08:00

Best Answer

KingOtto

2023-12-20T20:17:25+08:002023-12-20T20:17:25+08:00

Seu arquivo CSV está quebrado. Em algum lugar no arquivo, você tem um número incorreto de vírgulas... então há menos colunas do que o pandas esperaria. Você não pode reproduzir esse erro com um arquivo menor (diferente), porque esses dados menores (por exemplo, apenas as 100 primeiras linhas) estão formatados corretamente - portanto, seu código funciona. Em algum lugar abaixo do arquivo original, pelo menos uma linha não se parece com as linhas acima e isso causa o erro (apenas no arquivo original).

Não se trata de valores ausentes (por exemplo, np.NaNrepresentado em csv como ",,"). Eles podem ser analisados. Trata-se do número incorreto de vírgulas seguidas.

Suponha que você queira consertar o arquivo, você precisará encontrar a linha quebrada (e removê-la ou corrigir o conteúdo). Tente ler apenas um certo número de linhas (100, 500, 1000, ..) até encontrar o erro. Isso permitirá que você encontre a linha. Ou faça uma cópia do arquivo e exclua os 90% inferiores, os 80% inferiores, .. até que o erro apareça.

0

Erro ao ler uma única coluna de um arquivo CSV enorme com mecanismo Pandas e PyArrow

destaque o código em HTML usando <font color="#xxx">

Por que a resolução de sobrecarga prefere std::nullptr_t a uma classe ao passar {}?

Você pode usar uma lista de inicialização com chaves como argumento de modelo (padrão)?

Por que as compreensões de lista criam uma função internamente?

Estou tentando fazer o jogo pacman usando apenas o módulo Turtle Random e Math

java.lang.NoSuchMethodError: 'void org.openqa.selenium.remote.http.ClientConfig.<init>(java.net.URI, java.time.Duration, java.time.Duratio

Por que 'char -> int' é promoção, mas 'char -> short' é conversão (mas não promoção)?

Por que o construtor de uma variável global não é chamado em uma biblioteca?

Comportamento inconsistente de std::common_reference_with em tuplas. Qual é correto?

Somente operações bit a bit para std::byte em C++ 17?

Erro ao ler uma única coluna de um arquivo CSV enorme com mecanismo Pandas e PyArrow

1 respostas

relate perguntas