Sun Jar提出的问题 -coding

Sun Jar

Asked: 2025-02-04 17:28:01 +0800 CST

Pandas aplicam função retorna uma lista para uma nova coluna

10

Eu tenho um dataframe pandas:

import pandas as pd
import numpy as np

np.random.seed(150)
df = pd.DataFrame(np.random.randint(0, 10, size=(10, 2)), columns=['A', 'B'])

Quero adicionar uma nova coluna "C" cujos valores são a lista combinada de cada três linhas na coluna "B". Então, uso o método a seguir para atingir minhas necessidades, mas esse método é lento quando os dados são grandes.

>>> df['C'] = [df['B'].iloc[i-2:i+1].tolist() if i >= 2 else None for i in range(len(df))]
>>> df
   A  B          C
0  4  9       None
1  0  2       None
2  4  5  [9, 2, 5]
3  7  9  [2, 5, 9]
4  8  3  [5, 9, 3]
5  8  1  [9, 3, 1]
6  1  4  [3, 1, 4]
7  4  1  [1, 4, 1]
8  1  9  [4, 1, 9]
9  3  7  [1, 9, 7]

Quando tento usar a função df.apply, recebo uma mensagem de erro:

df['C'] = df['B'].rolling(window=3).apply(lambda x: list(x), raw=False)

TypeError: must be real number, not list

Lembro que o pandas apply não parece retornar uma lista, então há uma maneira melhor? Procurei no fórum, mas não consegui encontrar um tópico adequado sobre apply e return.

Sun Jar

Asked: 2025-01-18 22:57:11 +0800 CST

Pandas dataframe adiciona uma coluna de marca por duas outras colunas condição

6

Existe um dataframe como este:

import numpy as np
import pandas as pd

df = pd.DataFrame({'x':np.arange(1,29),'y':[5.69, 6.03, 6.03, 6.03, 6.03, 6.03, 6.03, 5.38, 5.21, 5.4 , 5.24,
       5.4 , 5.36, 5.47, 5.58, 5.5 , 5.61, 5.53, 5.4 , 5.51, 5.47, 5.44,5.39, 5.27, 5.38, 5.35, 5.32, 5.09],
          'valley':[1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1],
          'peak':[0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0,0, 0, 0, 0, 0, 0]})

>>> df
     x     y  valley  peak
0    1  5.69       1     0
1    2  6.03       0     0
2    3  6.03       0     1
3    4  6.03       0     0
4    5  6.03       0     0
5    6  6.03       0     0
6    7  6.03       0     0
7    8  5.38       0     0
8    9  5.21       1     0
9   10  5.40       0     0
10  11  5.24       0     0
11  12  5.40       0     0
12  13  5.36       0     0
13  14  5.47       0     0
14  15  5.58       0     0
15  16  5.50       0     0
16  17  5.61       0     1
17  18  5.53       0     0
18  19  5.40       0     0
19  20  5.51       0     0
20  21  5.47       0     0
21  22  5.44       0     0
22  23  5.39       0     0
23  24  5.27       0     0
24  25  5.38       0     0
25  26  5.35       0     0
26  27  5.32       0     0
27  28  5.09       1     0

Espero adicionar uma nova coluna 'grp' a este dataframe, com o requisito de que para cada linha que começa com "1" na coluna do vale e termina com "1" na coluna do pico, o valor na coluna adicionada seja "A" e, inversamente, para cada linha que começa com "1" na coluna do pico e termina com "1" na coluna do vale, o valor na coluna adicionada seja 'B'.

O resultado desejado é:

>>> out
     x     y  valley  peak  grp
0    1  5.69       1     0  A
1    2  6.03       0     0  A
2    3  6.03       0     1  B
3    4  6.03       0     0  B
4    5  6.03       0     0  B
5    6  6.03       0     0  B
6    7  6.03       0     0  B
7    8  5.38       0     0  B
8    9  5.21       1     0  A
9   10  5.40       0     0  A
10  11  5.24       0     0  A
11  12  5.40       0     0  A
12  13  5.36       0     0  A
13  14  5.47       0     0  A
14  15  5.58       0     0  A
15  16  5.50       0     0  A
16  17  5.61       0     1  B
17  18  5.53       0     0  B
18  19  5.40       0     0  B
19  20  5.51       0     0  B
20  21  5.47       0     0  B
21  22  5.44       0     0  B
22  23  5.39       0     0  B
23  24  5.27       0     0  B
24  25  5.38       0     0  B
25  26  5.35       0     0  B
26  27  5.32       0     0  B
27  28  5.09       1     0  A

Se não usarmos apply com uma função e loops for, existe uma maneira nativa de fazer isso usando pandas?

Sun Jar

Asked: 2024-12-07 22:36:34 +0800 CST

Remodelagem do dataframe Pandas com nome de colunas

5

Eu tenho um dataframe como este:

>>> df
  TYPE    A    B    C    D
0   IN  550  350  600  360
1  OUT  340  270  420  190

Quero remodelá-lo para este formato:

       AIN AOUT  BIN BOUT  CIN COUT  DIN DOUT
       550  340  350  270  600  420  360  190

Então eu uso esses códigos para fazer isso:

ds = df.melt().T.iloc[1:,2:]
ds.columns = ['AIN','AOUT','BIN','BOUT','CIN','COUT','DIN','DOUT']
>>> ds
       AIN AOUT  BIN BOUT  CIN COUT  DIN DOUT
value  550  340  350  270  600  420  360  190

Funciona, mas parece estúpido, o nome das colunas foi inserido manualmente, gostaria de saber se há uma maneira melhor, mais pythonic, de fazer isso. Alguma ideia?

PS: o "valor" no dataframe de saída é insignificante.

Sun Jar

Asked: 2024-11-19 20:19:41 +0800 CST

Pandas reamostram dados de estoque de 5 minutos não alinhados

6

Tenho alguns dados de estoque de 5 minutos, como:

                  Date   Open   High    Low  Close    Volume
0  2024-11-19 09:35:00  11.75  11.79  11.55  11.78  32673600
1  2024-11-19 09:40:00  11.78  11.81  11.73  11.79  14802700
2  2024-11-19 09:45:00  11.79  11.84  11.79  11.82  13837400
3  2024-11-19 09:50:00  11.81  11.83  11.76  11.82   8534200
4  2024-11-19 09:55:00  11.82  11.87  11.80  11.87   8540500
5  2024-11-19 10:00:00  11.87  11.96  11.87  11.90  20659800
6  2024-11-19 10:05:00  11.89  11.90  11.82  11.82  11691000
7  2024-11-19 10:10:00  11.82  11.82  11.73  11.74   8762900
8  2024-11-19 10:15:00  11.74  11.74  11.71  11.73   6870500
9  2024-11-19 10:20:00  11.73  11.73  11.68  11.70   6244800
10 2024-11-19 10:25:00  11.70  11.70  11.66  11.69   5083000
11 2024-11-19 10:30:00  11.70  11.73  11.69  11.71   5342400
12 2024-11-19 10:35:00  11.72  11.74  11.71  11.73   3311800
13 2024-11-19 10:40:00  11.73  11.74  11.71  11.72   2331900
14 2024-11-19 10:45:00  11.72  11.72  11.70  11.72   3024100
15 2024-11-19 10:50:00  11.71  11.74  11.70  11.71   2774200
16 2024-11-19 10:55:00  11.70  11.72  11.70  11.71   1313000
17 2024-11-19 11:00:00  11.72  11.75  11.71  11.74   1737400
18 2024-11-19 11:05:00  11.75  11.75  11.73  11.75   1690600
19 2024-11-19 11:10:00  11.74  11.76  11.73  11.76   1751800
20 2024-11-19 11:15:00  11.76  11.76  11.72  11.73   2248700
21 2024-11-19 11:20:00  11.73  11.73  11.70  11.71   2464200
22 2024-11-19 11:25:00  11.71  11.71  11.69  11.70   1033600
23 2024-11-19 11:30:00  11.69  11.70  11.67  11.69   2063600

Eu uso df.resample para convertê-los em dados de 30m, o código é:

df = df.set_index('Date')
df = df.resample('30T').agg({'Open':'first', 'High':'max', 'Low':'min','Close':'last',
                                 'Volume':'sum'}, closed='right', label = 'right').dropna()

Mas obtive resultados estranhos como estes:

                      Open   High    Low  Close    Volume
Date                                                     
2024-11-19 09:30:00  11.75  11.87  11.55  11.87  78388400
2024-11-19 10:00:00  11.87  11.96  11.66  11.69  59312000
2024-11-19 10:30:00  11.70  11.74  11.69  11.71  18097400
2024-11-19 11:00:00  11.72  11.76  11.69  11.70  10926300
2024-11-19 11:30:00  11.69  11.70  11.67  11.69   2063600

Aqui estão os dados corretos exportados de 30m do meu software de negociação:

Time    Open    High    Low Close   Volume
 2024/11/19-10:00   11.75   11.96   11.55   11.9    99048200
 2024/11/19-10:30   11.89   11.9    11.66   11.71   43994600
 2024/11/19-11:00   11.72   11.75   11.7    11.74   14492400
 2024/11/19-11:30   11.75   11.76   11.67   11.69   11252500

Os dados às 9:30 são irrelevantes, principalmente porque os dados a seguir não estão corretos. mas não encontrei mais parâmetros de df.sample. Como posso agregar os dados corretamente?

Pandas aplicam função retorna uma lista para uma nova coluna

Pandas dataframe adiciona uma coluna de marca por duas outras colunas condição

Remodelagem do dataframe Pandas com nome de colunas

Pandas reamostram dados de estoque de 5 minutos não alinhados

Reformatar números, inserindo separadores em posições fixas

Por que os conceitos do C++20 causam erros de restrição cíclica, enquanto o SFINAE antigo não?

Problema com extensão desinstalada automaticamente do VScode (tema Material)

Vue 3: Erro na criação "Identificador esperado, mas encontrado 'import'" [duplicado]

Qual é o propósito de `enum class` com um tipo subjacente especificado, mas sem enumeradores?

Como faço para corrigir um erro MODULE_NOT_FOUND para um módulo que não importei manualmente?

`(expression, lvalue) = rvalue` é uma atribuição válida em C ou C++? Por que alguns compiladores aceitam/rejeitam isso?

Um programa vazio que não faz nada em C++ precisa de um heap de 204 KB, mas não em C

PowerBI atualmente quebrado com BigQuery: problema de driver Simba com atualização do Windows

AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos

Sun Jar's questions