Qual é a diferença entre polars.read_csv
vs polars.read_csv_batched
vs polars.scan_csv
?
polars.read_csv
parece equivalente porque pandas.read_csv
eles têm o mesmo nome.
Qual usar em qual cenário e como eles são semelhantes/diferentes pandas.read_csv
?
polars.read_csv_batched
é bastante equivalente apandas.read_csv(iterator=True)
.polars.scan_csv
não faz nada até que você execute uma operação no dataframe comodask.dataframe.read_csv
(carregamento lento).Cenários:
Eu uso
pandas.read_csv
quando meus dados são confusos ou complexos em estrutura e os dados não são muito grandesEu uso
polars.read_csv
quando meu arquivo de dados é muito grande (> 10 GB).Esta é uma resposta baseada apenas na minha (humilde) opinião.