将复制活动的序列号添加到 Blob

Question

Joshua Shew

Asked: 2024-03-15 22:59:44 +0800 CST2024-03-15 22:59:44 +0800 CST 2024-03-15 22:59:44 +0800 CST

当标题作为向量给出时，如何读取 CSV 的特定列

772

我有一个没有标题行的大型 CSV 文件，并且标题可以作为向量提供给我。我想使用文件列的子集而不加载整个文件。所需列的子集作为单独的列表提供。

编辑：在这种情况下，标题列表中提供的列名称很重要。该 MRE 只有 4 个列名称，但该解决方案应该适用于具有预先指定列名称的大型数据集。问题是列名称仅在外部提供，而不是作为 CSV 文件中的标题。

1,2,3,4
5,6,7,8
9,10,11,12

header <- c("A", "B", "C", "D")
subset <- c("D", "B")

到目前为止，我一直以以下方式读取数据，这得到了我想要的结果，但首先加载整个文件。

# Setup

library(readr)

write.table(
  structure(list(V1 = c(1L, 5L, 9L), V2 = c(2L, 6L, 10L), V3 = c(3L, 7L, 11L), V4 = c(4L, 8L, 12L)), class = "data.frame", row.names = c(NA, -3L)),
  file="sample-data.csv",
  row.names=FALSE,
  col.names=FALSE,
  sep=","
)

header <- c("A", "B", "C", "D")
subset <- c("D", "B")

# Current approach

df1 <- read_csv(
  "sample-data.csv",
  col_names = header
)[subset]

df1

# A tibble: 3 × 2
      D     B
  <dbl> <dbl>
1     4     2
2     8     6
3    12    10

如何在不先加载整个文件的情况下获得相同的结果？

4 个回答

Voted

stefan_aus_hannover · Answer 1 · 2024-03-15T23:06:40+08:00

stefan_aus_hannover

2024-03-15T23:06:40+08:002024-03-15T23:06:40+08:00

在 OP 编辑标题之前

您不必立即读取整个文件，因为该函数有一个参数read_csv()。您只需要修改您的代码即可

df1 <- read_csv(
  "sample-data.csv",
  col_select=c("D","B")
)

编辑后

df1 <- read_csv(
  "c:/data/56791/originals/test.csv",
  col_names = c("A","B","C","D"),
  col_select = c(4,2)
)

如果您像OPs问题中那样给出参数定义的向量，则需要遵循Darren的答案，any_of否则您将收到警告消息


Using an external vector in selections was deprecated in tidyselect 1.1.0.
ℹ Please use `all_of()` or `any_of()` instead.

重要提示： col_names=必须为 csv 文件的列长度指定标题，否则会出现错误

! Names repair functions cant return `NA` values.

2

Darren Tsai · Answer 2 · 2024-03-15T23:28:44+08:00

Best Answer

Darren Tsai

2024-03-15T23:28:44+08:002024-03-15T23:28:44+08:00

您可以使用readr::read_csvwithcol_names和col_select参数。

header <- c("A", "B", "C", "D")
subset <- c("D", "B")

readr::read_csv("sample_data.csv",
                col_names = header,
                col_select = any_of(subset))

# # A tibble: 3 × 2
#       D     B
#   <dbl> <dbl>
# 1     4     2
# 2     8     6
# 3    12    10

2

Théodore Targerian · Answer 3 · 2024-03-15T23:09:34+08:00

Théodore Targerian

2024-03-15T23:09:34+08:002024-03-15T23:09:34+08:00

如果您使用包read_csv中的，readr您将拥有col_select可以选择要读取的列的参数。

0

cristian-vargas · Answer 4 · 2024-03-15T23:11:20+08:00

cristian-vargas

2024-03-15T23:11:20+08:002024-03-15T23:11:20+08:00

该readr::read_csv()函数有一个名为的参数col_select，允许您指定使用与相同的语言读取哪些列dplyr::select()。所以在实践中，这看起来像：

df1 <- readr::read_csv(
  file = "sample-data.csv",
  col_names = header,
  col_select = c(D, B)
)

然后给出所需的输出：

# A tibble: 3 × 2
      D     B
  <dbl> <dbl>
1     4     2
2     8     6
3    12    10

您还可以调用它来确认读取文件时跳过attr(df1, "spec")的列A和列。C

0

当标题作为向量给出时，如何读取 CSV 的特定列

Vue 3：创建时出错“预期标识符但发现‘导入’”[重复]

为什么这个简单而小的 Java 代码在所有 Graal JVM 上的运行速度都快 30 倍，但在任何 Oracle JVM 上却不行？

具有指定基础类型但没有枚举器的“枚举类”的用途是什么？

如何修复未手动导入的模块的 MODULE_NOT_FOUND 错误？

`(表达式，左值) = 右值` 在 C 或 C++ 中是有效的赋值吗？为什么有些编译器会接受/拒绝它？

何时应使用 std::inplace_vector 而不是 std::vector？

在 C++ 中，一个不执行任何操作的空程序需要 204KB 的堆，但在 C 中则不需要

PowerBI 目前与 BigQuery 不兼容：Simba 驱动程序与 Windows 更新有关

AdMob：MobileAds.initialize() - 对于某些设备，“java.lang.Integer 无法转换为 java.lang.String”

我正在尝试仅使用海龟随机和数学模块来制作吃豆人游戏

当标题作为向量给出时，如何读取 CSV 的特定列

4 个回答

相关问题