AmirX

Asked: 2024-04-12 14:24:34 +0800 CST2024-04-12 14:24:34 +0800 CST 2024-04-12 14:24:34 +0800 CST

Qual é a melhor maneira de dividir um dataframe incluindo a primeira instância de uma máscara?

Este é o meu DataFrame:

import pandas as pd
import numpy as np
df = pd.DataFrame(
    {
        'a': [np.nan, np.nan, np.nan, 20, 12, 42, 33, 32, 31],
        'b': [np.nan, np.nan, np.nan, np.nan, 2333, np.nan, np.nan, 12323, np.nan]
    }
)

Máscara é:

mask = (
    (df.a.notna()) &
    (df.b.notna())
)

Resultado esperado: fatiar dfaté a primeira instância do mask. Observe que a primeira linha do maskestá INCLUÍDA:

      a        b
0   NaN      NaN
1   NaN      NaN
2   NaN      NaN
3  20.0      NaN
4  12.0   2333.0

Esta primeira instância maské row 4. Portanto, dividi-lo nesse índice é o objetivo.

Estas são minhas tentativas. O primeiro funciona, mas não tenho certeza se a abordagem está correta:

# attempt 1
idx = df.loc[mask.cumsum().eq(1) & mask].index[0]
df = df.loc[:idx]
print(df)
# attempt 2
out = df[~mask.cummax()]

1 respostas

Voted

Best Answer

jezrael

2024-04-12T14:27:01+08:002024-04-12T14:27:01+08:00

Adicione DataFrame.shiftà sua segunda solução:

out = df[~mask.shift(fill_value=False).cummax()]
print (out)
      a       b
0   NaN     NaN
1   NaN     NaN
2   NaN     NaN
3  20.0     NaN
4  12.0  2333.0

Qual é a melhor maneira de dividir um dataframe incluindo a primeira instância de uma máscara?

Vue 3: Erro na criação "Identificador esperado, mas encontrado 'import'" [duplicado]

Por que esse código Java simples e pequeno roda 30x mais rápido em todas as JVMs Graal, mas não em nenhuma JVM Oracle?

Qual é o propósito de `enum class` com um tipo subjacente especificado, mas sem enumeradores?

Como faço para corrigir um erro MODULE_NOT_FOUND para um módulo que não importei manualmente?

`(expression, lvalue) = rvalue` é uma atribuição válida em C ou C++? Por que alguns compiladores aceitam/rejeitam isso?

Quando devo usar um std::inplace_vector em vez de um std::vector?

Um programa vazio que não faz nada em C++ precisa de um heap de 204 KB, mas não em C

PowerBI atualmente quebrado com BigQuery: problema de driver Simba com atualização do Windows

AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos

Estou tentando fazer o jogo pacman usando apenas o módulo Turtle Random e Math

Qual é a melhor maneira de dividir um dataframe incluindo a primeira instância de uma máscara?

1 respostas

relate perguntas