从重复行中提取字符串，删除重复项，给出字符串计数[重复]

Question

Sun Jar

Asked: 2024-12-07 22:36:34 +0800 CST2024-12-07 22:36:34 +0800 CST 2024-12-07 22:36:34 +0800 CST

Pandas 数据框使用列名重塑

772

我有一个像这样的数据框：

>>> df
  TYPE    A    B    C    D
0   IN  550  350  600  360
1  OUT  340  270  420  190

我想将其重塑为这种形状：

       AIN AOUT  BIN BOUT  CIN COUT  DIN DOUT
       550  340  350  270  600  420  360  190

所以我使用这些代码来实现它：

ds = df.melt().T.iloc[1:,2:]
ds.columns = ['AIN','AOUT','BIN','BOUT','CIN','COUT','DIN','DOUT']
>>> ds
       AIN AOUT  BIN BOUT  CIN COUT  DIN DOUT
value  550  340  350  270  600  420  360  190

它确实有效，但看起来很愚蠢，列名是手动输入的，我想知道是否有更好的、更符合 Python 风格的方法来做到这一点。有什么想法吗？

PS 输出数据框中的“值”并不重要。

3 个回答

Voted

PaulS · Answer 1 · 2024-12-07T22:47:32+08:00

PaulS

2024-12-07T22:47:32+08:002024-12-07T22:47:32+08:00

一种可能的解决方案，其步骤如下：

该方法从数据框中drop删除该列，从而产生一个新的数据框。TYPEdf
该方法从修改后的数据框中values提取底层数组。numpy
该reshape方法将数组重塑为具有一行且列数与原始数据框相同的二维数组。
该columns参数设置为列表推导生成的字符串列表。每个字符串都是列名df和列值的串联TYPE。
最后，使用重塑后的数组和新的列名创建一个新的数据框。

pd.DataFrame(
    df.drop('TYPE', axis=1).values.reshape(1,-1, order='A'),
    columns=[f'{x}{y}' for x in df.columns[1:] for y in df['TYPE']],
    index=['value'])

输出：

       AIN  AOUT  BIN  BOUT  CIN  COUT  DIN  DOUT
value  550   340  350   270  600   420  360   190

2

Panda Kim · Answer 2 · 2024-12-07T23:14:47+08:00

Best Answer

Panda Kim

2024-12-07T23:14:47+08:002024-12-07T23:14:47+08:00

代码

将join函数（python）与map函数（pandas）应用于多索引。

out = df.assign(index=0).pivot(index='index', columns='TYPE')
out.columns = out.columns.map(''.join)

出去：

       AIN  AOUT  BIN  BOUT  CIN  COUT  DIN  DOUT
index                                            
0      550   340  350   270  600   420  360   190

我选择pivot函数是因为创建 1 行数据框时不方便，因为melt和都stack需要T。（如果我要创建系列或 1 列数据框，我会选择melt或stack。）

示例代码

import pandas as pd
data = {'TYPE': ['IN', 'OUT'], 
        'A': [550, 340],
        'B': [350, 270],
        'C': [600, 420],
        'D': [360, 190]}
df = pd.DataFrame(data)

2

samhita · Answer 3 · 2024-12-08T08:25:20+08:00

samhita

2024-12-08T08:25:20+08:002024-12-08T08:25:20+08:00

df.columns[1:]循环遍历 A,B,C,D 列，排除该TYPE列。
该循环loc用于过滤行TYPE，然后提取每列的相应值。

然后通过将变量名（例如 A、B 等）与 IN 和 OUT 后缀组合来构造新列。

for col in df.columns[1:]:
     reshaped_df[f'{col}IN'] = df.loc[df['TYPE'] == 'IN', col].values
     reshaped_df[f'{col}OUT'] = df.loc[df['TYPE'] == 'OUT', col].values

输出

   AIN  AOUT  BIN  BOUT  CIN  COUT  DIN  DOUT
0  550   340  350   270  600   420  360   190

0

Pandas 数据框使用列名重塑

Vue 3：创建时出错“预期标识符但发现‘导入’”[重复]

为什么这个简单而小的 Java 代码在所有 Graal JVM 上的运行速度都快 30 倍，但在任何 Oracle JVM 上却不行？

具有指定基础类型但没有枚举器的“枚举类”的用途是什么？

如何修复未手动导入的模块的 MODULE_NOT_FOUND 错误？

`(表达式，左值) = 右值` 在 C 或 C++ 中是有效的赋值吗？为什么有些编译器会接受/拒绝它？

何时应使用 std::inplace_vector 而不是 std::vector？

在 C++ 中，一个不执行任何操作的空程序需要 204KB 的堆，但在 C 中则不需要

PowerBI 目前与 BigQuery 不兼容：Simba 驱动程序与 Windows 更新有关

AdMob：MobileAds.initialize() - 对于某些设备，“java.lang.Integer 无法转换为 java.lang.String”

我正在尝试仅使用海龟随机和数学模块来制作吃豆人游戏

Pandas 数据框使用列名重塑

3 个回答

相关问题