Adicionar número de série para atividade de cópia ao blob

Question

Joshua Shew

Asked: 2024-03-15 22:59:44 +0800 CST2024-03-15 22:59:44 +0800 CST 2024-03-15 22:59:44 +0800 CST

Como ler colunas específicas de um CSV quando o cabeçalho é fornecido como um vetor

772

Eu tenho um arquivo CSV grande sem uma linha de cabeçalho e o cabeçalho está disponível como um vetor. Quero usar um subconjunto das colunas do arquivo sem carregar o arquivo inteiro. O subconjunto de colunas necessárias é fornecido como uma lista separada.

Editar: neste caso, os nomes das colunas fornecidos na lista de cabeçalho são importantes. Este MRE possui apenas 4 nomes de colunas, mas a solução deve funcionar para um grande conjunto de dados com nomes de colunas pré-especificados. O problema é que os nomes das colunas são fornecidos apenas externamente, não como um cabeçalho no arquivo CSV.

1,2,3,4
5,6,7,8
9,10,11,12

header <- c("A", "B", "C", "D")
subset <- c("D", "B")

Até agora, tenho lido os dados da seguinte maneira, o que me dá o resultado desejado, mas carrego o arquivo inteiro primeiro.

# Setup

library(readr)

write.table(
  structure(list(V1 = c(1L, 5L, 9L), V2 = c(2L, 6L, 10L), V3 = c(3L, 7L, 11L), V4 = c(4L, 8L, 12L)), class = "data.frame", row.names = c(NA, -3L)),
  file="sample-data.csv",
  row.names=FALSE,
  col.names=FALSE,
  sep=","
)

header <- c("A", "B", "C", "D")
subset <- c("D", "B")

# Current approach

df1 <- read_csv(
  "sample-data.csv",
  col_names = header
)[subset]

df1

# A tibble: 3 × 2
      D     B
  <dbl> <dbl>
1     4     2
2     8     6
3    12    10

Como posso obter o mesmo resultado sem carregar primeiro o arquivo inteiro?

Perguntas relacionadas

Somente a leitura de colunas selecionadas inclui o cabeçalho na primeira linha.
Maneiras de ler apenas colunas selecionadas de um arquivo em R? (Um meio-termo entre read.tablee scan?) [duplicado] não especifica nomes de colunas fora do arquivo e as respostas não se aplicam a esta situação.
como pular a leitura de certas colunas em readr [duplicado] é diferente porque parece ser sobre pular uma primeira coluna desconhecida e ler uma segunda e terceira colunas conhecidas em vários arquivos. Os tipos de dados não são necessariamente conhecidos antecipadamente nesta questão.
Existe uma maneira de omitir a primeira coluna ao ler um csv [duplicado] : a coluna é ignorada com base na posição, não na posição em uma lista fornecida externamente de nomes de colunas.

4 respostas

Voted

stefan_aus_hannover · Answer 1 · 2024-03-15T23:06:40+08:00

stefan_aus_hannover

2024-03-15T23:06:40+08:002024-03-15T23:06:40+08:00

antes da edição do OP sobre o cabeçalho

Você não precisa ler o arquivo inteiro de uma vez, pois há um argumento com a read_csv()função. Você só precisaria modificar seu código para

df1 <- read_csv(
  "sample-data.csv",
  col_select=c("D","B")
)

Depois de editar

df1 <- read_csv(
  "c:/data/56791/originals/test.csv",
  col_names = c("A","B","C","D"),
  col_select = c(4,2)
)

se você fornecer os argumentos definidos como vetores como na pergunta dos OPs, você precisará seguir a resposta de Darren usando any_ofou receberá a mensagem de aviso


Using an external vector in selections was deprecated in tidyselect 1.1.0.
ℹ Please use `all_of()` or `any_of()` instead.

Nota importante: col_names=deve ser fornecido um cabeçalho com o comprimento da coluna do arquivo csv ou você receberá o erro

! Names repair functions cant return `NA` values.

2

Darren Tsai · Answer 2 · 2024-03-15T23:28:44+08:00

Best Answer

Darren Tsai

2024-03-15T23:28:44+08:002024-03-15T23:28:44+08:00

Você pode usar argumentos readr::read_csvwith col_namese .col_select

header <- c("A", "B", "C", "D")
subset <- c("D", "B")

readr::read_csv("sample_data.csv",
                col_names = header,
                col_select = any_of(subset))

# # A tibble: 3 × 2
#       D     B
#   <dbl> <dbl>
# 1     4     2
# 2     8     6
# 3    12    10

2

Théodore Targerian · Answer 3 · 2024-03-15T23:09:34+08:00

Théodore Targerian

2024-03-15T23:09:34+08:002024-03-15T23:09:34+08:00

Se você usar o read_csvdo readrpacote você terá o argumento col_selectonde poderá selecionar as colunas para ler.

0

cristian-vargas · Answer 4 · 2024-03-15T23:11:20+08:00

cristian-vargas

2024-03-15T23:11:20+08:002024-03-15T23:11:20+08:00

A readr::read_csv()função possui um argumento chamado col_selectque permite especificar quais colunas ler usando a mesma linguagem do dplyr::select(). Então, na prática, isso se parece com:

df1 <- readr::read_csv(
  file = "sample-data.csv",
  col_names = header,
  col_select = c(D, B)
)

O que então fornece a saída desejada:

# A tibble: 3 × 2
      D     B
  <dbl> <dbl>
1     4     2
2     8     6
3    12    10

Você também pode ligar attr(df1, "spec")para confirmar se as colunas Aforam Cignoradas durante a leitura do arquivo.

0

Como ler colunas específicas de um CSV quando o cabeçalho é fornecido como um vetor

Vue 3: Erro na criação "Identificador esperado, mas encontrado 'import'" [duplicado]

Por que esse código Java simples e pequeno roda 30x mais rápido em todas as JVMs Graal, mas não em nenhuma JVM Oracle?

Qual é o propósito de `enum class` com um tipo subjacente especificado, mas sem enumeradores?

Como faço para corrigir um erro MODULE_NOT_FOUND para um módulo que não importei manualmente?

`(expression, lvalue) = rvalue` é uma atribuição válida em C ou C++? Por que alguns compiladores aceitam/rejeitam isso?

Quando devo usar um std::inplace_vector em vez de um std::vector?

Um programa vazio que não faz nada em C++ precisa de um heap de 204 KB, mas não em C

PowerBI atualmente quebrado com BigQuery: problema de driver Simba com atualização do Windows

AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos

Estou tentando fazer o jogo pacman usando apenas o módulo Turtle Random e Math

Como ler colunas específicas de um CSV quando o cabeçalho é fornecido como um vetor

4 respostas

relate perguntas