Nos pandas, posso criar uma série com um tipo pyarrow da seguinte maneira:
>>> import pandas as pd
>>> s = pd.Series([1,2,3]).astype("int64[pyarrow]")
>>> s.dtype
int64[pyarrow]
Não encontrei como fazer isso com o Dask.
Tentei:
>>> import dask.config
>>> import dask.array as da
>>> dask.config.set({"array.pyarrow_dtype": True})
>>> s = da.array([1,2,3])
>>> s
Que retorna uma matriz com um tipo numpy int 64 dtype.
Também tentei o seguinte:
>>> import dask.array as da
>>> s = da.array([1,2,3], dtype="int64[pyarrow]")
TypeError: data type 'int64[pyarrow]' not understood
e
>>> import dask.array as da
>>> import pyarrow as pa
>>> s = da.array([1,2,3], pa.int64())
TypeError: Cannot interpret 'DataType(int64)' as a data type
É possível?
dask.array não suporta diretamente pyarrow. Na verdade, uma vez que representarão matrizes numpy (regulares), arrow não traria nenhum benefício.
Há suporte IS para back-end de array arbitrário com suporte para NEP18 (
__array_function__
), permitindo que numpy seja trocado por cupy, por exemplo. No entanto, não acredito que isso inclua qualquer estrutura de seta - ou não sei como conseguir isso.As referências que você vê ao suporte de setas no dask são específicas para dataframes e geralmente (sempre?) para strings.