AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • 主页
  • 系统&网络
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • 主页
  • 系统&网络
    • 最新
    • 热门
    • 标签
  • Ubuntu
    • 最新
    • 热门
    • 标签
  • Unix
    • 最新
    • 标签
  • DBA
    • 最新
    • 标签
  • Computer
    • 最新
    • 标签
  • Coding
    • 最新
    • 标签
主页 / coding / 问题 / 78167849
Accepted
Joshua Shew
Joshua Shew
Asked: 2024-03-15 22:59:44 +0800 CST2024-03-15 22:59:44 +0800 CST 2024-03-15 22:59:44 +0800 CST

当标题作为向量给出时,如何读取 CSV 的特定列

  • 772

我有一个没有标题行的大型 CSV 文件,并且标题可以作为向量提供给我。我想使用文件列的子集而不加载整个文件。所需列的子集作为单独的列表提供。

编辑:在这种情况下,标题列表中提供的列名称很重要。该 MRE 只有 4 个列名称,但该解决方案应该适用于具有预先指定列名称的大型数据集。问题是列名称仅在外部提供,而不是作为 CSV 文件中的标题。

1,2,3,4
5,6,7,8
9,10,11,12
header <- c("A", "B", "C", "D")
subset <- c("D", "B")

到目前为止,我一直以以下方式读取数据,这得到了我想要的结果,但首先加载整个文件。

# Setup

library(readr)

write.table(
  structure(list(V1 = c(1L, 5L, 9L), V2 = c(2L, 6L, 10L), V3 = c(3L, 7L, 11L), V4 = c(4L, 8L, 12L)), class = "data.frame", row.names = c(NA, -3L)),
  file="sample-data.csv",
  row.names=FALSE,
  col.names=FALSE,
  sep=","
)

header <- c("A", "B", "C", "D")
subset <- c("D", "B")

# Current approach

df1 <- read_csv(
  "sample-data.csv",
  col_names = header
)[subset]

df1
# A tibble: 3 × 2
      D     B
  <dbl> <dbl>
1     4     2
2     8     6
3    12    10

如何在不先加载整个文件的情况下获得相同的结果?

相关问题

  • 仅读取选定的列,包括第一行中的标题。
  • 如何将文件中的选定列读入 R?read.table(和之间的折衷方案scan?) [重复]未指定文件外部的列名称,答案不适用于这种情况。
  • 如何跳过读取 readr [重复] 中的某些列是不同的,因为它似乎是跳过未知的第一列并跨多个文件读取已知的第二和第三列。在这个问题中,数据类型不一定是事先知道的。
  • 有没有办法在读取 csv [重复] 时省略第一列:根据位置跳过列,而不是根据外部提供的列名称列表中的位置跳过列。
  • 4 4 个回答
  • 75 Views

4 个回答

  • Voted
  1. stefan_aus_hannover
    2024-03-15T23:06:40+08:002024-03-15T23:06:40+08:00

    在 OP 编辑​​标题之前

    您不必立即读取整个文件,因为该函数有一个参数read_csv()。您只需要修改您的代码即可

    df1 <- read_csv(
      "sample-data.csv",
      col_select=c("D","B")
    )
    

    编辑后

    df1 <- read_csv(
      "c:/data/56791/originals/test.csv",
      col_names = c("A","B","C","D"),
      col_select = c(4,2)
    )
    
    

    如果您像OPs问题中那样给出参数定义的向量,则需要遵循Darren的答案,any_of否则您将收到警告消息

    
    Using an external vector in selections was deprecated in tidyselect 1.1.0.
    ℹ Please use `all_of()` or `any_of()` instead.
    

    重要提示: col_names=必须为 csv 文件的列长度指定标题,否则会出现错误

    ! Names repair functions cant return `NA` values.
    
    • 2
  2. Best Answer
    Darren Tsai
    2024-03-15T23:28:44+08:002024-03-15T23:28:44+08:00

    您可以使用readr::read_csvwithcol_names和col_select参数。

    header <- c("A", "B", "C", "D")
    subset <- c("D", "B")
    
    readr::read_csv("sample_data.csv",
                    col_names = header,
                    col_select = any_of(subset))
    
    # # A tibble: 3 × 2
    #       D     B
    #   <dbl> <dbl>
    # 1     4     2
    # 2     8     6
    # 3    12    10
    
    • 2
  3. Théodore Targerian
    2024-03-15T23:09:34+08:002024-03-15T23:09:34+08:00

    如果您使用包read_csv中的 ,readr您将拥有col_select可以选择要读取的列的参数。

    • 0
  4. cristian-vargas
    2024-03-15T23:11:20+08:002024-03-15T23:11:20+08:00

    该readr::read_csv()函数有一个名为 的参数col_select,允许您指定使用与 相同的语言读取哪些列dplyr::select()。所以在实践中,这看起来像:

    df1 <- readr::read_csv(
      file = "sample-data.csv",
      col_names = header,
      col_select = c(D, B)
    )
    

    然后给出所需的输出:

    # A tibble: 3 × 2
          D     B
      <dbl> <dbl>
    1     4     2
    2     8     6
    3    12    10
    

    您还可以调用它来确认读取文件时跳过attr(df1, "spec")的列A和列。C

    • 0

相关问题

  • 将复制活动的序列号添加到 Blob

  • Packer 动态源重复工件

  • 选择每组连续 1 的行

  • 图形 API 调用列表 subscribedSkus 状态权限不足,但已授予权限

  • 根据列值创建单独的 DF 的函数

Sidebar

Stats

  • 问题 205573
  • 回答 270741
  • 最佳答案 135370
  • 用户 68524
  • 热门
  • 回答
  • Marko Smith

    Vue 3:创建时出错“预期标识符但发现‘导入’”[重复]

    • 1 个回答
  • Marko Smith

    为什么这个简单而小的 Java 代码在所有 Graal JVM 上的运行速度都快 30 倍,但在任何 Oracle JVM 上却不行?

    • 1 个回答
  • Marko Smith

    具有指定基础类型但没有枚举器的“枚举类”的用途是什么?

    • 1 个回答
  • Marko Smith

    如何修复未手动导入的模块的 MODULE_NOT_FOUND 错误?

    • 6 个回答
  • Marko Smith

    `(表达式,左值) = 右值` 在 C 或 C++ 中是有效的赋值吗?为什么有些编译器会接受/拒绝它?

    • 3 个回答
  • Marko Smith

    何时应使用 std::inplace_vector 而不是 std::vector?

    • 3 个回答
  • Marko Smith

    在 C++ 中,一个不执行任何操作的空程序需要 204KB 的堆,但在 C 中则不需要

    • 1 个回答
  • Marko Smith

    PowerBI 目前与 BigQuery 不兼容:Simba 驱动程序与 Windows 更新有关

    • 2 个回答
  • Marko Smith

    AdMob:MobileAds.initialize() - 对于某些设备,“java.lang.Integer 无法转换为 java.lang.String”

    • 1 个回答
  • Marko Smith

    我正在尝试仅使用海龟随机和数学模块来制作吃豆人游戏

    • 1 个回答
  • Martin Hope
    Aleksandr Dubinsky 为什么 InetAddress 上的 switch 模式匹配会失败,并出现“未涵盖所有可能的输入值”? 2024-12-23 06:56:21 +0800 CST
  • Martin Hope
    Phillip Borge 为什么这个简单而小的 Java 代码在所有 Graal JVM 上的运行速度都快 30 倍,但在任何 Oracle JVM 上却不行? 2024-12-12 20:46:46 +0800 CST
  • Martin Hope
    Oodini 具有指定基础类型但没有枚举器的“枚举类”的用途是什么? 2024-12-12 06:27:11 +0800 CST
  • Martin Hope
    sleeptightAnsiC `(表达式,左值) = 右值` 在 C 或 C++ 中是有效的赋值吗?为什么有些编译器会接受/拒绝它? 2024-11-09 07:18:53 +0800 CST
  • Martin Hope
    The Mad Gamer 何时应使用 std::inplace_vector 而不是 std::vector? 2024-10-29 23:01:00 +0800 CST
  • Martin Hope
    Chad Feller 在 5.2 版中,bash 条件语句中的 [[ .. ]] 中的分号现在是可选的吗? 2024-10-21 05:50:33 +0800 CST
  • Martin Hope
    Wrench 为什么双破折号 (--) 会导致此 MariaDB 子句评估为 true? 2024-05-05 13:37:20 +0800 CST
  • Martin Hope
    Waket Zheng 为什么 `dict(id=1, **{'id': 2})` 有时会引发 `KeyError: 'id'` 而不是 TypeError? 2024-05-04 14:19:19 +0800 CST
  • Martin Hope
    user924 AdMob:MobileAds.initialize() - 对于某些设备,“java.lang.Integer 无法转换为 java.lang.String” 2024-03-20 03:12:31 +0800 CST
  • Martin Hope
    MarkB 为什么 GCC 生成有条件执行 SIMD 实现的代码? 2024-02-17 06:17:14 +0800 CST

热门标签

python javascript c++ c# java typescript sql reactjs html

Explore

  • 主页
  • 问题
    • 最新
    • 热门
  • 标签
  • 帮助

Footer

AskOverflow.Dev

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve