Se eu tiver um tipo Column of Array de comprimentos variáveis, como:
[ [1,2,3,4,6] ]
[ [0,4,5,4,6,8,9,1] ]
[ [1,2,3,4,6,2,4,5,6] ]
...
Como posso dividir isso de forma que o primeiro índice seja separado do restante, como:
[ [1] ], [ [2,3,4,6] ]
[ [0] ], [ [4,5,4,6,8,9,1] ]
[ [1] ], [ [2,3,4,6,2,4,5,6] ]
Em python puro eu poderia fazer algo como:
new_list = list[0]
second_list = list[1:]
No PySpark, você pode conseguir essa transformação usando expr()
Código:-
SAÍDA:-