Como divido o loop for em 3 quadros de dados individuais?

Question

MariaT

Asked: 2025-04-22 20:05:03 +0800 CST2025-04-22 20:05:03 +0800 CST 2025-04-22 20:05:03 +0800 CST

udf retornando Ljava.lang.Object;@

772

Eu tenho um PySpark UDF que quando tento aplicar a cada linha para uma das colunas df e obtenho uma nova coluna, obtenho um [Ljava.lang.Object;@7e44638d (valor diferente após o @ para cada linha)

Veja o udf abaixo:

def getLocCoordinates(property_address):
    url = "https://maps.googleapis.com/maps/api/geocode/json"
    querystring = {f"address":property_address},"key":"THE_API_KEY"}
    response = requests.get(url, params=querystring)
    response_json = json.loads(response.text)

    for adr in response_json['results']:
        geometry = adr['geometry']
        coor = geometry['location']
        lat = coor['lat']
        lng = coor['lng']
        coors = lat, lng
        return coors

getCoorsUDF = udf(lambda x:getLocCoordinates(x))

df = df.withColumn("AddressCoordinates", getCoorsUDF(col("FullAddress") ) )

Tentei:

getCoorsUDF = udf(getLocCoordinates, FloatType()) --> retorna NULL para cada linha da coluna "AddressCoordinates" recém-criada.
getCoorsUDF = udf(getLocCoordinates, StringType()) --> retorna [Ljava.lang.Object;@
getCoorsUDF = udf(getLocCoordinates) --> retorna [Ljava.lang.Object;@

O resultado é assim:

Número de referência	Endereço completo	Coordenadas de Endereço
1234	Alguns endereços	[Ljava.lang.Object;@

Isso é retornado para cada linha no dataframe.

Inicialmente, eu estava usando a função em um notebook Python e estava funcionando bem, com lat e lng retornando para cada endereço. No entanto, tive que migrar para o PySpark e estou batendo em um obstáculo aqui.

1 respostas

Voted

Camilla Giuliani · Answer 1 · 2025-04-22T20:42:08+08:00

Acho que você está vendo a [Ljava.lang.Object;@...saída porque sua UDF está retornando uma tupla Python ( (lat, lng)), e o PySpark não sabe como serializar isso em uma coluna DataFrame, a menos que você defina explicitamente um esquema de retorno que o Spark entenda.

Você deve retornar um StructTypecom campos para late lng. Por exemplo, você pode fazer algo assim:

from pyspark.sql.functions import udf, col
from pyspark.sql.types import StructType, StructField, DoubleType
import requests
import json

# defining return type for the UDF
location_schema = StructType([
    StructField("lat", DoubleType(), True),
    StructField("lng", DoubleType(), True)
])

def getLocCoordinates(property_address):
    url = "https://maps.googleapis.com/maps/api/geocode/json"
    params = {
        "address": property_address,
        "key": "YOUR_API_KEY"
    }
    try:
        response = requests.get(url, params=params)
        data = response.json()
        if data['results']:
            location = data['results'][0]['geometry']['location']
            return {"lat": location['lat'], "lng": location['lng']}
    except Exception as e:
        print(f"Error: {e}")
    return None

# registering the UDF with schema
getCoorsUDF = udf(getLocCoordinates, location_schema)

# now you apply the UDF
df = df.withColumn("AddressCoordinates", getCoorsUDF(col("FullAddress")))

# an option would be to extract lat and lng as separate columns
df = df.withColumn("Latitude", col("AddressCoordinates.lat")) \
       .withColumn("Longitude", col("AddressCoordinates.lng"))

udf retornando Ljava.lang.Object;@

Reformatar números, inserindo separadores em posições fixas

Por que os conceitos do C++20 causam erros de restrição cíclica, enquanto o SFINAE antigo não?

Problema com extensão desinstalada automaticamente do VScode (tema Material)

Vue 3: Erro na criação "Identificador esperado, mas encontrado 'import'" [duplicado]

Qual é o propósito de `enum class` com um tipo subjacente especificado, mas sem enumeradores?

Como faço para corrigir um erro MODULE_NOT_FOUND para um módulo que não importei manualmente?

`(expression, lvalue) = rvalue` é uma atribuição válida em C ou C++? Por que alguns compiladores aceitam/rejeitam isso?

Um programa vazio que não faz nada em C++ precisa de um heap de 204 KB, mas não em C

PowerBI atualmente quebrado com BigQuery: problema de driver Simba com atualização do Windows

AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos

udf retornando Ljava.lang.Object;@

1 respostas

relate perguntas