如何将 for 循环拆分为 3 个单独的数据框？

Question

Viktor

Asked: 2023-12-12 06:55:13 +0800 CST2023-12-12 06:55:13 +0800 CST 2023-12-12 06:55:13 +0800 CST

Pandas 根据具有选定索引和 shift() 的切片更改 pandas 数据框中的值

772

假设我有一个数据框df。首先我对其进行过滤，然后我需要找到满足条件的所有行，然后在原始数据帧的特定 bool 列中标记所有这些行以及每行的前 2 行：

df = pd.DataFrame({{'A': {0: nan, 1: nan, 2: 1944.09, 3: nan, 4: nan, 5: 1926.0, 6: nan, 7: 1930.31, 8: nan, 9: nan, 10: nan, 11: nan, 12: nan, 13: nan, 14: nan, 15: 1917.66, 16: 1920.43, 17: nan, 18: 1909.04, 19: nan, 20: nan, 21: nan, 22: nan, 23: nan, 24: 1920.05, 25: nan, 26: 1915.4, 27: 1921.87, 28: nan, 29: nan, 30: nan, 31: 1912.42, 32: 1920.08, 33: 1915.8, 34: nan, 35: nan, 36: nan, 37: nan, 38: 1919.71, 39: 1916.2, 40: nan, 41: 1926.79, 42: nan, 43: 1918.66, 44: nan, 45: 1925.5, 46: 1922.22, 47: nan, 48: nan, 49: 1927.87, 50: 1923.24, 51: nan, 52: 1929.53, 53: nan, 54: nan, 55: nan, 56: nan, 57: nan, 58: nan, 59: nan, 60: nan, 61: 1918.37, 62: nan, 63: nan, 64: 1923.61, 65: nan, 66: 1917.1, 67: nan, 68: nan, 69: nan, 70: nan, 71: nan, 72: nan, 73: nan, 74: nan, 75: nan, 76: nan, 77: nan, 78: nan, 79: nan, 80: nan, 81: 1924.48, 82: nan, 83: nan, 84: 1923.03, 85: nan, 86: nan, 87: nan, 88: nan, 89: 1926.87, 90: nan, 91: nan, 92: nan, 93: 1921.79, 94: nan, 95: 1925.27, 96: nan, 97: 1919.0, 98: nan, 99: nan, 100: 1923.74, 101: nan, 102: nan, 103: nan, 104: nan, 105: 1911.61, 106: nan, 107: 1923.33, 108: nan, 109: nan, 110: nan, 111: 1912.0, 112: nan, 113: 1915.8, 114: nan, 115: 1913.05, 116: nan, 117: nan, 118: nan, 119: nan, 120: nan, 121: nan, 122: 1916.93, 123: nan, 124: 1913.69, 125: nan, 126: nan, 127: nan, 128: nan, 129: 1918.38, 130: 1913.7, 131: nan, 132: nan, 133: nan, 134: nan, 135: nan, 136: 1919.5, 137: nan, 138: 1916.14, 139: nan, 140: nan, 141: nan, 142: nan, 143: nan, 144: 1921.28, 145: nan, 146: nan, 147: nan, 148: nan, 149: nan, 150: 1915.0, 151: nan, 152: nan, 153: nan, 154: nan, 155: nan, 156: 1927.48, 157: 1889.17, 158: nan, 159: 1921.91, 160: 1917.67, 161: 1923.23, 162: nan, 163: nan, 164: nan, 165: 1909.88, 166: nan, 167: 1913.82, 168: 1902.51, 169: nan, 170: nan, 171: nan, 172: nan, 173: nan, 174: nan, 175: nan, 176: nan, 177: nan, 178: nan, 179: 1920.15}, 'C': {0: False, 1: False, 2: True, 3: False, 4: False, 5: False, 6: False, 7: False, 8: False, 9: False, 10: False, 11: False, 12: False, 13: False, 14: False, 15: False, 16: False, 17: False, 18: False, 19: False, 20: False, 21: False, 22: False, 23: False, 24: False, 25: False, 26: False, 27: True, 28: False, 29: False, 30: False, 31: False, 32: True, 33: False, 34: False, 35: False, 36: False, 37: False, 38: False, 39: False, 40: False, 41: True, 42: False, 43: False, 44: False, 45: False, 46: False, 47: False, 48: False, 49: False, 50: False, 51: False, 52: True, 53: False, 54: False, 55: False, 56: False, 57: False, 58: False, 59: False, 60: False, 61: False, 62: False, 63: False, 64: False, 65: False, 66: False, 67: False, 68: False, 69: False, 70: False, 71: False, 72: False, 73: False, 74: False, 75: False, 76: False, 77: False, 78: False, 79: False, 80: False, 81: False, 82: False, 83: False, 84: False, 85: False, 86: False, 87: False, 88: False, 89: True, 90: False, 91: False, 92: False, 93: False, 94: False, 95: False, 96: False, 97: False, 98: False, 99: False, 100: False, 101: False, 102: False, 103: False, 104: False, 105: False, 106: False, 107: True, 108: False, 109: False, 110: False, 111: False, 112: False, 113: False, 114: False, 115: False, 116: False, 117: False, 118: False, 119: False, 120: False, 121: False, 122: False, 123: False, 124: False, 125: False, 126: False, 127: False, 128: False, 129: False, 130: False, 131: False, 132: False, 133: False, 134: False, 135: False, 136: False, 137: False, 138: False, 139: False, 140: False, 141: False, 142: False, 143: False, 144: False, 145: False, 146: False, 147: False, 148: False, 149: False, 150: False, 151: False, 152: False, 153: False, 154: False, 155: False, 156: True, 157: False, 158: False, 159: False, 160: False, 161: True, 162: False, 163: False, 164: False, 165: False, 166: False, 167: False, 168: False, 169: False, 170: False, 171: False, 172: False, 173: False, 174: False, 175: False, 176: False, 177: False, 178: False, 179: False}})

df2 = df[df.C]
print(df2)

2      1944.09
27     1921.87
32     1920.08
41     1926.79
52     1929.53
89     1926.87
107    1923.33
156    1927.48
161    1923.23
Name: A, dtype: float64

df3 = df2[(df2.A > df2.A.shift(1)) & (df2.A.shift(1) > df2.A.shift(2))]
print(df3)

52    1929.53
Name: A, dtype: float64

df[FROM_2nd_PREVIOUS_TO_EVERY_ROW_OF_df3_IN_df2:TO_EVERY_ROW_IN_df3, 'B'] = True
print(df)
           A        B
0        NaN    False
..       ...      ...
31   1234.56    False
32   1920.08    True
33   1234.56    True
..       ...      ...
41   1926.79    True
40   1234.56    True
..       ...      ...
51   1234.56    True
52   1929.53    True
52   1234.56    False
..       ...      ...
176      NaN    False
177      NaN    False
178      NaN    False
179  1920.15    False

正确的做法是什么？

1 个回答

Voted

Nick · Answer 1 · 2023-12-12T09:11:33+08:00

一种方法是根据升序值条件创建一个掩码，然后使用它来查找其中np.flatnonzero所有值的索引；True然后可以使用这些结果对过滤后的值进行索引，以查找需要设置的值的范围True：

df = {'A': [nan, nan, 1944.09, nan, nan, 1926.0, nan, 1930.31, nan, nan, nan, nan, nan, nan, nan, 1917.66, 1920.43, nan, 1909.04, nan, nan, nan, nan, nan, 1920.05, nan, 1915.4, 1921.87, nan, nan, nan, 1912.42, 1920.08, 1915.8, nan, nan, nan, nan, 1919.71, 1916.2, nan, 1926.79, nan, 1918.66, nan, 1925.5, 1922.22, nan, nan, 1927.87, 1923.24, nan, 1929.53, nan, nan, nan, nan, nan, nan, nan, nan, 1918.37, nan, nan, 1923.61, nan, 1917.1, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, 1924.48, nan, nan, 1923.03, nan, nan, nan, nan, 1926.87, nan, nan, nan, 1921.79, nan, 1925.27, nan, 1919.0, nan, nan, 1923.74, nan, nan, nan, nan, 1911.61, nan, 1923.33, nan, nan, nan, 1912.0, nan, 1915.8, nan, 1913.05, nan, nan, nan, nan, nan, nan, 1916.93, nan, 1913.69, nan, nan, nan, nan, 1918.38, 1913.7, nan, nan, nan, nan, nan, 1919.5, nan, 1916.14, nan, nan, nan, nan, nan, 1921.28, nan, nan, nan, nan, nan, 1915.0, nan, nan, nan, nan, nan, 1927.48, 1889.17, nan, 1921.91, 1917.67, 1923.23, nan, nan, nan, 1909.88, nan, 1913.82, 1902.51, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, 1920.15], 'C': [False, False, True, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, True, False, False, False, False, True, False, False, False, False, False, False, False, False, True, False, False, False, False, False, False, False, False, False, False, True, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, True, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, True, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, True, False, False, False, False, True, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False, False]}

# filter by df.C
a = df[df.C]['A']

# generate mask
mask = (a > a.shift(1)) & (a.shift(1) > a.shift(2))

# get indexes of values which need to be true
idxs = itertools.chain.from_iterable(range(a.index[i-2], a.index[i]+1) for i in np.flatnonzero(mask))

# and set B
df['B'] = df.index.isin(idxs)

输出：

           A      C      B
0        NaN  False  False
1        NaN  False  False
...
31   1912.42  False  False
32   1920.08   True   True
33   1915.80  False   True
...
51       NaN  False   True
52   1929.53   True   True
53       NaN  False  False
...
178      NaN  False  False
179  1920.15  False  False

Pandas 根据具有选定索引和 shift() 的切片更改 pandas 数据框中的值

使用 <font color="#xxx"> 突出显示 html 中的代码

为什么在传递 {} 时重载解析更喜欢 std::nullptr_t 而不是类？

您可以使用花括号初始化列表作为（默认）模板参数吗？

为什么列表推导式在内部创建一个函数？

我正在尝试仅使用海龟随机和数学模块来制作吃豆人游戏

java.lang.NoSuchMethodError: 'void org.openqa.selenium.remote.http.ClientConfig.<init>(java.net.URI, java.time.Duration, java.time.Duratio

为什么 'char -> int' 是提升，而 'char -> Short' 是转换（但不是提升）？

为什么库中不调用全局变量的构造函数？

std::common_reference_with 在元组上的行为不一致。哪个是对的？

C++17 中 std::byte 只能按位运算？

Pandas 根据具有选定索引和 shift() 的切片更改 pandas 数据框中的值

1 个回答

相关问题