Adicionar número de série para atividade de cópia ao blob

Question

Ben

Asked: 2025-04-25 03:46:24 +0800 CST2025-04-25 03:46:24 +0800 CST 2025-04-25 03:46:24 +0800 CST

Por que spec() retorna NULL após subdividir um tibble? (E como evito isso?)

772

Após ler meus dados usando read_csv()from readr , o comando spec()retorna "especificação de coluna completa" para o tibble resultante:

> spec(steps)
cols(
  duration = col_double(),
  version_code = col_double(),
  run_step = col_double(),
  walk_step = col_double(),
  start_time = col_datetime(format = ""),
  sample_position_type = col_logical(),
  custom = col_logical(),
  update_time = col_datetime(format = ""),
  create_time = col_datetime(format = ""),
  count = col_double(),
  speed = col_double(),
  distance = col_double(),
  calorie = col_double(),
  time_offset = col_character(),
  deviceuuid = col_character(),
  pkg_name = col_character(),
  end_time = col_datetime(format = ""),
  datauuid = col_character(),
  x = col_logical()
)

Mas se eu subdividir o tibble essa informação será perdida:

> spec(subset(steps, select = c(1, 5, 10, 11, 12, 17)))
NULL

Por quê? E como faço para mantê-lo?

2 respostas

Voted

r2evans · Answer 1 · 2025-04-25T04:15:41+08:00

Os dados para spec()são preenchidos quando são lidos ou importados e armazenados em um atributo do quadro. Por isso, você não os verá no console, a menos que procure especificamente por eles:

library(readr)
mt <- read_csv(readr_example("mtcars.csv"))
# Rows: 32 Columns: 11
# ── Column specification ───────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────
# Delimiter: ","
# dbl (11): mpg, cyl, disp, hp, drat, wt, qsec, vs, am, gear, carb
# ℹ Use `spec()` to retrieve the full column specification for this data.
# ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.
attributes(mt)
# $row.names
#  [1]  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32
# $names
#  [1] "mpg"  "cyl"  "disp" "hp"   "drat" "wt"   "qsec" "vs"   "am"   "gear" "carb"
# $spec
# cols(
#   mpg = col_double(),
#   cyl = col_double(),
#   disp = col_double(),
#   hp = col_double(),
#   drat = col_double(),
#   wt = col_double(),
#   qsec = col_double(),
#   vs = col_double(),
#   am = col_double(),
#   gear = col_double(),
#   carb = col_double()
# )
# $problems
# <pointer: 0x6000034121c0>
# $class
# [1] "spec_tbl_df" "tbl_df"      "tbl"         "data.frame"

Como os dplyrpacotes amigáveis gostam de reter esse tipo de informação, eles as reaplicam explicitamente quando o quadro é filtrado ou significativamente alterado. Algumas funções as mantêm (como filter) e outras não ( select):

filter(mt, cyl > 7) |>
  spec()
# cols(
#   mpg = col_double(),
#   cyl = col_double(),
#   disp = col_double(),
#   hp = col_double(),
#   drat = col_double(),
#   wt = col_double(),
#   qsec = col_double(),
#   vs = col_double(),
#   am = col_double(),
#   gear = col_double(),
#   carb = col_double()
# )

select(mt, c(1,3,5)) |>
  spec()
# NULL

Filtrar ações com dplyr::filter()mantém a especificação, mas filtrar com base::subset(subset=)não. A seleção de colunas em dplyr::selectfunções como e não tidyverse base::subset(select=)sempre (ou quase sempre?) removerá o "spec"atributo.

Se você precisar manter a especificação por algum motivo, armazene-a imediatamente após a leitura:

mt_spec <- attr(mt, "spec")
mt_spec
# cols(
#   mpg = col_double(),
#   cyl = col_double(),
#   disp = col_double(),
#   hp = col_double(),
#   drat = col_double(),
#   wt = col_double(),
#   qsec = col_double(),
#   vs = col_double(),
#   am = col_double(),
#   gear = col_double(),
#   carb = col_double()
# )

jpsmith · Answer 2 · 2025-04-25T04:16:30+08:00

Best Answer

jpsmith

2025-04-25T04:16:30+08:002025-04-25T04:16:30+08:00

Não tenho certeza do porquê esse comportamento ocorre, mas é intencional e explicitamente definido no readr changelog . Se você olhar a versão 1.3, verá que ele afirma (ênfase minha):

O readr 1.3.0 retorna resultados com uma spec_tbl_dfsubclasse. A única diferença em relação a um tibble comum é que o specatributo (que contém a especificação da coluna) é perdido assim que o objeto é subconjunto (e um objeto normal tbl_dfé retornado).

Você pode adicionar os specatributos novamente usando attr(subseted_df, "spec") <- attr(original_df, "spec")- por exemplo:

Dados

x <- readr::read_csv(readr::readr_example("mtcars.csv"))
readr::spec(x) # works normal

y <- x[x$mpg < 20,]

readr::spec(y)
# NULL

# add in specs
attr(y, "spec") <- attr(x, "spec")

readr::spec(y)

cols(
  mpg = col_double(),
  cyl = col_double(),
  disp = col_double(),
  hp = col_double(),
  drat = col_double(),
  wt = col_double(),
  qsec = col_double(),
  vs = col_double(),
  am = col_double(),
  gear = col_double(),
  carb = col_double()
)

2

Por que spec() retorna NULL após subdividir um tibble? (E como evito isso?)

Reformatar números, inserindo separadores em posições fixas

Por que os conceitos do C++20 causam erros de restrição cíclica, enquanto o SFINAE antigo não?

Problema com extensão desinstalada automaticamente do VScode (tema Material)

Vue 3: Erro na criação "Identificador esperado, mas encontrado 'import'" [duplicado]

Qual é o propósito de `enum class` com um tipo subjacente especificado, mas sem enumeradores?

Como faço para corrigir um erro MODULE_NOT_FOUND para um módulo que não importei manualmente?

`(expression, lvalue) = rvalue` é uma atribuição válida em C ou C++? Por que alguns compiladores aceitam/rejeitam isso?

Um programa vazio que não faz nada em C++ precisa de um heap de 204 KB, mas não em C

PowerBI atualmente quebrado com BigQuery: problema de driver Simba com atualização do Windows

AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos

Por que spec() retorna NULL após subdividir um tibble? (E como evito isso?)

2 respostas

relate perguntas