AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • Início
  • system&network
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • Início
  • system&network
    • Recentes
    • Highest score
    • tags
  • Ubuntu
    • Recentes
    • Highest score
    • tags
  • Unix
    • Recentes
    • tags
  • DBA
    • Recentes
    • tags
  • Computer
    • Recentes
    • tags
  • Coding
    • Recentes
    • tags
Início / coding / Perguntas / 78167849
Accepted
Joshua Shew
Joshua Shew
Asked: 2024-03-15 22:59:44 +0800 CST2024-03-15 22:59:44 +0800 CST 2024-03-15 22:59:44 +0800 CST

Como ler colunas específicas de um CSV quando o cabeçalho é fornecido como um vetor

  • 772

Eu tenho um arquivo CSV grande sem uma linha de cabeçalho e o cabeçalho está disponível como um vetor. Quero usar um subconjunto das colunas do arquivo sem carregar o arquivo inteiro. O subconjunto de colunas necessárias é fornecido como uma lista separada.

Editar: neste caso, os nomes das colunas fornecidos na lista de cabeçalho são importantes. Este MRE possui apenas 4 nomes de colunas, mas a solução deve funcionar para um grande conjunto de dados com nomes de colunas pré-especificados. O problema é que os nomes das colunas são fornecidos apenas externamente, não como um cabeçalho no arquivo CSV.

1,2,3,4
5,6,7,8
9,10,11,12
header <- c("A", "B", "C", "D")
subset <- c("D", "B")

Até agora, tenho lido os dados da seguinte maneira, o que me dá o resultado desejado, mas carrego o arquivo inteiro primeiro.

# Setup

library(readr)

write.table(
  structure(list(V1 = c(1L, 5L, 9L), V2 = c(2L, 6L, 10L), V3 = c(3L, 7L, 11L), V4 = c(4L, 8L, 12L)), class = "data.frame", row.names = c(NA, -3L)),
  file="sample-data.csv",
  row.names=FALSE,
  col.names=FALSE,
  sep=","
)

header <- c("A", "B", "C", "D")
subset <- c("D", "B")

# Current approach

df1 <- read_csv(
  "sample-data.csv",
  col_names = header
)[subset]

df1
# A tibble: 3 × 2
      D     B
  <dbl> <dbl>
1     4     2
2     8     6
3    12    10

Como posso obter o mesmo resultado sem carregar primeiro o arquivo inteiro?

Perguntas relacionadas

  • Somente a leitura de colunas selecionadas inclui o cabeçalho na primeira linha.
  • Maneiras de ler apenas colunas selecionadas de um arquivo em R? (Um meio-termo entre read.tablee scan?) [duplicado] não especifica nomes de colunas fora do arquivo e as respostas não se aplicam a esta situação.
  • como pular a leitura de certas colunas em readr [duplicado] é diferente porque parece ser sobre pular uma primeira coluna desconhecida e ler uma segunda e terceira colunas conhecidas em vários arquivos. Os tipos de dados não são necessariamente conhecidos antecipadamente nesta questão.
  • Existe uma maneira de omitir a primeira coluna ao ler um csv [duplicado] : a coluna é ignorada com base na posição, não na posição em uma lista fornecida externamente de nomes de colunas.
  • 4 4 respostas
  • 75 Views

4 respostas

  • Voted
  1. stefan_aus_hannover
    2024-03-15T23:06:40+08:002024-03-15T23:06:40+08:00

    antes da edição do OP sobre o cabeçalho

    Você não precisa ler o arquivo inteiro de uma vez, pois há um argumento com a read_csv()função. Você só precisaria modificar seu código para

    df1 <- read_csv(
      "sample-data.csv",
      col_select=c("D","B")
    )
    

    Depois de editar

    df1 <- read_csv(
      "c:/data/56791/originals/test.csv",
      col_names = c("A","B","C","D"),
      col_select = c(4,2)
    )
    
    

    se você fornecer os argumentos definidos como vetores como na pergunta dos OPs, você precisará seguir a resposta de Darren usando any_ofou receberá a mensagem de aviso

    
    Using an external vector in selections was deprecated in tidyselect 1.1.0.
    ℹ Please use `all_of()` or `any_of()` instead.
    

    Nota importante: col_names=deve ser fornecido um cabeçalho com o comprimento da coluna do arquivo csv ou você receberá o erro

    ! Names repair functions cant return `NA` values.
    
    • 2
  2. Best Answer
    Darren Tsai
    2024-03-15T23:28:44+08:002024-03-15T23:28:44+08:00

    Você pode usar argumentos readr::read_csvwith col_namese .col_select

    header <- c("A", "B", "C", "D")
    subset <- c("D", "B")
    
    readr::read_csv("sample_data.csv",
                    col_names = header,
                    col_select = any_of(subset))
    
    # # A tibble: 3 × 2
    #       D     B
    #   <dbl> <dbl>
    # 1     4     2
    # 2     8     6
    # 3    12    10
    
    • 2
  3. Théodore Targerian
    2024-03-15T23:09:34+08:002024-03-15T23:09:34+08:00

    Se você usar o read_csvdo readrpacote você terá o argumento col_selectonde poderá selecionar as colunas para ler.

    • 0
  4. cristian-vargas
    2024-03-15T23:11:20+08:002024-03-15T23:11:20+08:00

    A readr::read_csv()função possui um argumento chamado col_selectque permite especificar quais colunas ler usando a mesma linguagem do dplyr::select(). Então, na prática, isso se parece com:

    df1 <- readr::read_csv(
      file = "sample-data.csv",
      col_names = header,
      col_select = c(D, B)
    )
    

    O que então fornece a saída desejada:

    # A tibble: 3 × 2
          D     B
      <dbl> <dbl>
    1     4     2
    2     8     6
    3    12    10
    

    Você também pode ligar attr(df1, "spec")para confirmar se as colunas Aforam Cignoradas durante a leitura do arquivo.

    • 0

relate perguntas

  • Adicionar número de série para atividade de cópia ao blob

  • A fonte dinâmica do empacotador duplica artefatos

  • Selecione linhas por grupo com 1s consecutivos

  • Lista de chamada de API de gráfico subscritoSkus estados Privilégios insuficientes enquanto os privilégios são concedidos

  • Função para criar DFs separados com base no valor da coluna

Sidebar

Stats

  • Perguntas 205573
  • respostas 270741
  • best respostas 135370
  • utilizador 68524
  • Highest score
  • respostas
  • Marko Smith

    Vue 3: Erro na criação "Identificador esperado, mas encontrado 'import'" [duplicado]

    • 1 respostas
  • Marko Smith

    Por que esse código Java simples e pequeno roda 30x mais rápido em todas as JVMs Graal, mas não em nenhuma JVM Oracle?

    • 1 respostas
  • Marko Smith

    Qual é o propósito de `enum class` com um tipo subjacente especificado, mas sem enumeradores?

    • 1 respostas
  • Marko Smith

    Como faço para corrigir um erro MODULE_NOT_FOUND para um módulo que não importei manualmente?

    • 6 respostas
  • Marko Smith

    `(expression, lvalue) = rvalue` é uma atribuição válida em C ou C++? Por que alguns compiladores aceitam/rejeitam isso?

    • 3 respostas
  • Marko Smith

    Quando devo usar um std::inplace_vector em vez de um std::vector?

    • 3 respostas
  • Marko Smith

    Um programa vazio que não faz nada em C++ precisa de um heap de 204 KB, mas não em C

    • 1 respostas
  • Marko Smith

    PowerBI atualmente quebrado com BigQuery: problema de driver Simba com atualização do Windows

    • 2 respostas
  • Marko Smith

    AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos

    • 1 respostas
  • Marko Smith

    Estou tentando fazer o jogo pacman usando apenas o módulo Turtle Random e Math

    • 1 respostas
  • Martin Hope
    Aleksandr Dubinsky Por que a correspondência de padrões com o switch no InetAddress falha com 'não cobre todos os valores de entrada possíveis'? 2024-12-23 06:56:21 +0800 CST
  • Martin Hope
    Phillip Borge Por que esse código Java simples e pequeno roda 30x mais rápido em todas as JVMs Graal, mas não em nenhuma JVM Oracle? 2024-12-12 20:46:46 +0800 CST
  • Martin Hope
    Oodini Qual é o propósito de `enum class` com um tipo subjacente especificado, mas sem enumeradores? 2024-12-12 06:27:11 +0800 CST
  • Martin Hope
    sleeptightAnsiC `(expression, lvalue) = rvalue` é uma atribuição válida em C ou C++? Por que alguns compiladores aceitam/rejeitam isso? 2024-11-09 07:18:53 +0800 CST
  • Martin Hope
    The Mad Gamer Quando devo usar um std::inplace_vector em vez de um std::vector? 2024-10-29 23:01:00 +0800 CST
  • Martin Hope
    Chad Feller O ponto e vírgula agora é opcional em condicionais bash com [[ .. ]] na versão 5.2? 2024-10-21 05:50:33 +0800 CST
  • Martin Hope
    Wrench Por que um traço duplo (--) faz com que esta cláusula MariaDB seja avaliada como verdadeira? 2024-05-05 13:37:20 +0800 CST
  • Martin Hope
    Waket Zheng Por que `dict(id=1, **{'id': 2})` às vezes gera `KeyError: 'id'` em vez de um TypeError? 2024-05-04 14:19:19 +0800 CST
  • Martin Hope
    user924 AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos 2024-03-20 03:12:31 +0800 CST
  • Martin Hope
    MarkB Por que o GCC gera código que executa condicionalmente uma implementação SIMD? 2024-02-17 06:17:14 +0800 CST

Hot tag

python javascript c++ c# java typescript sql reactjs html

Explore

  • Início
  • Perguntas
    • Recentes
    • Highest score
  • tag
  • help

Footer

AskOverflow.Dev

About Us

  • About Us
  • Contact Us

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve