如何将 for 循环拆分为 3 个单独的数据框？

Question

Varga

Asked: 2024-04-20 14:45:35 +0800 CST2024-04-20 14:45:35 +0800 CST 2024-04-20 14:45:35 +0800 CST

在 Python 中处理大量 csv 文件中的数据

772

我有 101 个 .csv 文件，每个文件有 10001 对值（图中此类文件的一个示例是频谱功率密度对频率的依赖性 -示例）。我需要以某种方式对每个文件中第二列的值进行平方，然后对这些值进行平均（平均发生在一行号的值之间。即，我们从所有 101 个文件中获取一行第二列的平方值，对它们进行平均，对于所有其他行也是如此。换句话说，依赖性应该在频谱功率密度上进行平均。

如何才能做到这一点？

到目前为止，目前我只能处理一个文件，同时，一个文件的依赖关系图（没有平方）看起来就像一场噩梦。

import pandas as pd
import matplotlib.pyplot as plt

data = pd.read_csv(r'C:\Users\Den\Desktop\SPD\tek0000MTH.csv', sep = ';')


x = data['W'].to_numpy()
y = data['S'].to_numpy()

plt.xlabel('w') 
plt.ylabel('S') 
plt.title('SPD') 
plt.plot(x, y)
plt.grid() 
plt.show()

阴谋

同时，我无法想象如何执行上述所有任务，例如平方和平均，同时处理 101 个文件。

1 个回答

Voted

BERA · Answer 1 · 2024-04-20T15:17:37+08:00

将所有 csv 文件连接到一个数据帧中，groupby：

import os
import pandas as pd
csv_folder = r"/home/bera/Desktop/gistest/csvs/" #The folder with the 102 csv files, and nothing else.

#Find and create a dataframe of each csv file
frame_list = []
for root, folder, files in os.walk(csv_folder):
    for file in files:
        if file.endswith("csv"):
            fullname = os.path.join(root, file)
            df = pd.read_csv(fullname, sep=";")
            df["filename"] = file #Store the filename as a value
            frame_list.append(df) 
print(len(frame_list))
#102

megaframe = pd.concat(frame_list, axis=0) #Concatenate the 102 frames into one
print(megaframe.shape)
#(1020000, 3)

print(megaframe.sample(3))
#                  w         s     filename
# 3940    884.419539  0.018198  file_93.csv
# 6314   1526.922029  0.013237   file_4.csv
# 3322  18177.653004  0.003916  file_51.csv

megaframe["s_sq"] = megaframe["s"]**2
df_means = megaframe.groupby("filename", as_index=False)["s_sq"].mean()
print(df_means.head())
#        filename      s_sq
# 0    file_0.csv  0.000134
# 1    file_1.csv  0.000135
# 2   file_10.csv  0.000132
# 3  file_100.csv  0.000135
# 4  file_101.csv  0.000132

在 Python 中处理大量 csv 文件中的数据

Vue 3：创建时出错“预期标识符但发现‘导入’”[重复]

为什么这个简单而小的 Java 代码在所有 Graal JVM 上的运行速度都快 30 倍，但在任何 Oracle JVM 上却不行？

具有指定基础类型但没有枚举器的“枚举类”的用途是什么？

如何修复未手动导入的模块的 MODULE_NOT_FOUND 错误？

`(表达式，左值) = 右值` 在 C 或 C++ 中是有效的赋值吗？为什么有些编译器会接受/拒绝它？

何时应使用 std::inplace_vector 而不是 std::vector？

在 C++ 中，一个不执行任何操作的空程序需要 204KB 的堆，但在 C 中则不需要

PowerBI 目前与 BigQuery 不兼容：Simba 驱动程序与 Windows 更新有关

AdMob：MobileAds.initialize() - 对于某些设备，“java.lang.Integer 无法转换为 java.lang.String”

我正在尝试仅使用海龟随机和数学模块来制作吃豆人游戏

在 Python 中处理大量 csv 文件中的数据

1 个回答

相关问题