Adicionar número de série para atividade de cópia ao blob

Question

the-mad-statter

Asked: 2025-04-08 05:27:58 +0800 CST2025-04-08 05:27:58 +0800 CST 2025-04-08 05:27:58 +0800 CST

Como mapear valores de coeficientes para nomes do pipeline ajustado {sparklyr}?

772

Depois de ajustar um modelo linear generalizado usando {sparklyr} em um notebook do Azure Databricks, como mapear os valores dos coeficientes do modelo para nomes de preditores?

Aqui está um exemplo de ajuste de um modelo e extração dos coeficientes. Gostaria de determinar os nomes associados a cada coeficiente.

library(sparklyr)

sc <- spark_connect(method = "databricks")

data <- copy_to(sc, mtcars, "mtcars", overwrite = TRUE)

pipeline <- ml_pipeline(sc) %>%
  ft_r_formula(vs ~ cyl + carb) %>%
  ml_generalized_linear_regression(family = "binomial")

partitioned_data <- sdf_random_split(data, train = 0.80, test = 0.20, seed = 42)

fitted_pipeline <- ml_fit(pipeline, partitioned_data$train)

glrm_transformer <- ml_stage(fitted_pipeline, length(fitted_pipeline$stages))

with(glrm_transformer, c(intercept, coefficients))

Esta pergunta é bem parecida com esta , mas em R em vez de Python.

1 respostas

Voted

the-mad-statter · Answer 1 · 2025-04-10T07:36:13+08:00

Adotei a abordagem de criar uma classe filha do S3 'ml_generalized_linear_regression_model_enhanced', que é uma extensão da classe pai 'ml_generalized_linear_regression_model'.

Esta nova classe filha adiciona quatro funções ao objeto de resumo pai:

imprimir()
- imprime a tabela de regressão usando o método toString() do objeto java
feature_names(intercept = FALSO)
- retorna um vetor de nomes de recursos na ordem dos coeficientes
feature_count(intercept = FALSO)
- retorna uma contagem do número de recursos
coeficientes(intercepto = FALSO)
- retorna os valores dos coeficientes na ordem dos nomes dos recursos

as.ml_generalized_linear_regression_model_enhanced <- function(x, ...) {
  UseMethod("as.ml_generalized_linear_regression_model_enhanced", x)
}

as.ml_generalized_linear_regression_model_enhanced.ml_generalized_linear_regression_model <- function(x) {
  # 1. print()
  x$summary$print <- function() {
    x$summary$.jobj |>
      sparklyr::invoke("toString") |>
      cat()
  }
  
  # 2. feature_names()
  x$summary$feature_names <- function(intercept = FALSE) {
    feature_names <- x$summary$.jobj |>
      sparklyr::invoke("featureNames") |>
      unlist()
    
    if (intercept)
      feature_names <- c("(Intercept)", feature_names)
    
    return(feature_names)
  }

  # 3. feature_count()
  x$summary$feature_count <- function(intercept = FALSE) {
    length(x$summary$feature_names(intercept))
  }

  # 4. coefficients()
  x$summary$coefficients <- function(intercept = FALSE) {
    coefficients <- x$coefficients

    if(intercept)
      coefficients <- c(x$intercept, coefficients)

    return(coefficients)
  }

  # amend class
  class(x) <- c("ml_generalized_linear_regression_model_enhanced", class(x))

  # return object
  return(x)
}

Então você pode fazer algo como o seguinte:

library(sparklyr)

sc <- spark_connect(method = "databricks")

data <- copy_to(sc, mtcars, "mtcars", overwrite = TRUE)

pipeline <- ml_pipeline(sc) %>%
  ft_r_formula(vs ~ cyl + carb) %>%
  ml_generalized_linear_regression(family = "binomial")

partitioned_data <- sdf_random_split(data, train = 0.80, test = 0.20, seed = 42)

fitted_pipeline <- ml_fit(pipeline, partitioned_data$train)

glrm_transformer <- ml_stage(fitted_pipeline, length(fitted_pipeline$stages))

glrm_transformer_enhanced <- as.ml_generalized_linear_regression_model_enhanced(glrm_transformer)

with(
  glrm_transformer_enhanced$summary, 
  data.frame(
    Feature = feature_names(intercept = TRUE), 
    Estimate = coefficients(intercept = TRUE),
    'Std Error' = coefficient_standard_errors(),
    'T Value' = t_values(),
    'P Value' = p_values()
  )
) %>% 
copy_to(sc, ., "model_summary", overwrite = TRUE)

O que resulta em:

# Source: spark<model_summary> [?? x 5]
  Feature     Estimate Std_Error T_Value P_Value
  <chr>          <dbl>     <dbl>   <dbl>   <dbl>
1 (Intercept)    8.80      3.27    2.69  0.00712
2 cyl           -1.31      0.537  -2.44  0.0148 
3 carb          -0.387     0.488  -0.792 0.428

Como mapear valores de coeficientes para nomes do pipeline ajustado {sparklyr}?

Reformatar números, inserindo separadores em posições fixas

Por que os conceitos do C++20 causam erros de restrição cíclica, enquanto o SFINAE antigo não?

Problema com extensão desinstalada automaticamente do VScode (tema Material)

Vue 3: Erro na criação "Identificador esperado, mas encontrado 'import'" [duplicado]

Qual é o propósito de `enum class` com um tipo subjacente especificado, mas sem enumeradores?

Como faço para corrigir um erro MODULE_NOT_FOUND para um módulo que não importei manualmente?

`(expression, lvalue) = rvalue` é uma atribuição válida em C ou C++? Por que alguns compiladores aceitam/rejeitam isso?

Um programa vazio que não faz nada em C++ precisa de um heap de 204 KB, mas não em C

PowerBI atualmente quebrado com BigQuery: problema de driver Simba com atualização do Windows

AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos

Como mapear valores de coeficientes para nomes do pipeline ajustado {sparklyr}?

1 respostas

relate perguntas