如何使 CNN 对 DNA 序列中模式的位置保持不变？

Question

Simon

Asked: 2024-09-25 03:51:17 +0800 CST2024-09-25 03:51:17 +0800 CST 2024-09-25 03:51:17 +0800 CST

如何将 LabelEncoder 应用于 Polars DataFrame 列？

772

我正在尝试使用 scikit-learnLabelEncoder和 Polars DataFrame 来编码分类列。我正在使用以下代码。

import polars as pl

from sklearn.preprocessing import LabelEncoder

df = pl.DataFrame({
    "Color" : ["red","white","blue"]
})

enc = LabelEncoder()

但是，会出现错误。

ValueError: y should be a 1d array, got an array of shape () instead.

接下来，我尝试将该列转换为 NumPy。

df.with_columns(
    enc.fit_transform(pl.col("Color").to_numpy()) 
)

现在，出现了一个不同的错误。

AttributeError: 'Expr' object has no attribute 'to_numpy'

注意。我发现.cast(pl.Categorical).to_physical()可以使用来获得所需的结果。不过，我更喜欢transform()在我的测试数据集上使用类似的东西。

df.with_columns(
    pl.col("Color").cast(pl.Categorical).to_physical().alias("Color_encoded")
)

1 个回答

Voted

Hericks · Answer 1 · 2024-09-25T06:06:54+08:00

Best Answer

Hericks

2024-09-25T06:06:54+08:002024-09-25T06:06:54+08:00

对于这种对外部 API 的调用，可以使用采用整个值序列（例如enc.fit_transform）。pl.Expr.map_batches

df.with_columns(
    pl.col("Color").map_batches(enc.fit_transform)
)

shape: (3, 1)
┌───────┐
│ Color │
│ ---   │
│ i64   │
╞═══════╡
│ 1     │
│ 2     │
│ 0     │
└───────┘

注意。enc.set_output("polars")如果（如本答案中所述）可用于，那就太好了LabelEncoder。但是，这尚未实现。

您已经分享了一种使用 polars 的原生表达式 API 对列进行标签编码的方法。更简洁的方法可以依赖于密集排名，如下所示。

df.with_columns(
    pl.col("Color").rank("dense") - 1
)

减法仅用于获得最低标签为 0 的输出。

2

如何将 LabelEncoder 应用于 Polars DataFrame 列？

Vue 3：创建时出错“预期标识符但发现‘导入’”[重复]

为什么这个简单而小的 Java 代码在所有 Graal JVM 上的运行速度都快 30 倍，但在任何 Oracle JVM 上却不行？

具有指定基础类型但没有枚举器的“枚举类”的用途是什么？

如何修复未手动导入的模块的 MODULE_NOT_FOUND 错误？

`(表达式，左值) = 右值` 在 C 或 C++ 中是有效的赋值吗？为什么有些编译器会接受/拒绝它？

何时应使用 std::inplace_vector 而不是 std::vector？

在 C++ 中，一个不执行任何操作的空程序需要 204KB 的堆，但在 C 中则不需要

PowerBI 目前与 BigQuery 不兼容：Simba 驱动程序与 Windows 更新有关

AdMob：MobileAds.initialize() - 对于某些设备，“java.lang.Integer 无法转换为 java.lang.String”

我正在尝试仅使用海龟随机和数学模块来制作吃豆人游戏

如何将 LabelEncoder 应用于 Polars DataFrame 列？

1 个回答

相关问题