Extraia a string da linha duplicada, remova a duplicata, forneça a contagem de strings [duplicada]

Question

MuhammedYunus StopTheGenocide

Asked: 2024-12-21 23:37:19 +0800 CST2024-12-21 23:37:19 +0800 CST 2024-12-21 23:37:19 +0800 CST

Como encadear operações no Pandas totalmente em linha?

772

Muitas vezes, desejo manipular displayum dataframe durante uma sequência de operações encadeadas, para as quais eu usaria*:

df = (
  df

  #Modify the dataframe:
  .assign(new_column=...)

  #View result (without killing the chain)
  .pipe(lambda df_: display(df_) or df_)

  #...further chaining is possible
)

O bloco de código acima adiciona new_columnao dataframe, exibe o novo dataframe e finalmente o retorna. O encadeamento funciona aqui porque displayretorna None**.

Minha pergunta é sobre cenários onde eu quero substituir displaypor plt.plotou alguma função que não retorna None. Nesses casos, df_não se propagaria mais pela cadeia.

Atualmente, minha tarefa é definir uma função externa transparent_pipeque possa ser executada plt.plotou qualquer outro método, ao mesmo tempo em que garanto que o dataframe seja propagado:

def transparent_pipe(df, *funcs):
  [func(df) for func in funcs]
  return df

df = (
  df

  #Modify the dataframe:
  .assign(new_column=...)

  #Visualise a column from the modified df, without killing the chain
  .pipe(lambda df_: transparent_pipe(df_, plt.ecdf(df_.new_column), display(df_), ...)

  #...further chaining is possible
)

Pergunta

Existe uma maneira totalmente integrada de fazer isso, sem precisar definir transparent_pipe?

De preferência usando apenas pandas.

*Dica do Effective Pandas 2: Padrões opinativos para manipulação de dados , M. Harrison, 2024.

**A .pipeoperação retorna df_desde que seja display(df_) or df_avaliada None or df_como df_.

2 respostas

Voted

mozway · Answer 1 · 2024-12-21T23:42:43+08:00

Com pyjanitor, você pode usar also:

# pip install pyjanitor
import janitor

df = (pd.DataFrame({'col1': [1, 2, 3], 'col2': [4, 5, 6]})
        .also(display)
        .mul(10)
     )

Alternativamente, com uma função wrapper para ocultar a saída de qualquer função e substituí-la pelo seu primeiro parâmetro (=o DataFrame):

def hide(f):
    """The inner function should accept the DataFrame as first parameter"""
    def inner(df, *args, **kwargs):
        f(df, *args, **kwargs)
        return df
    return inner

df = (pd.DataFrame({'col1': [1, 2, 3], 'col2': [4, 5, 6]})
        .pipe(hide(display))
        .mul(10)
     )

Ou, seguindo a abordagem original com curto-circuito:

df = (pd.DataFrame({'col1': [1, 2, 3], 'col2': [4, 5, 6]})
        .pipe(lambda x: plt.ecdf(x['col1']) and False or x) # truthy output
        .pipe(lambda x: display(x['col1']) and False or x)  # falsy output
        .mul(10)
     )

Ou forçando uma verdade com uma tupla:

df = (pd.DataFrame({'col1': [1, 2, 3], 'col2': [4, 5, 6]})
        # example 1
        .pipe(lambda x: (display(x),) and x)
        # example 2
        .pipe(lambda x: (display(x), plt.ecdf(x['col1'])) and x)
        .mul(10)
     )

MuhammedYunus StopTheGenocide · Answer 2 · 2024-12-21T23:37:19+08:00

MuhammedYunus StopTheGenocide

2024-12-21T23:37:19+08:002024-12-21T23:37:19+08:00

Em vez disso, você pode compor um listdentro da .pipe()operação e, em seguida, extrair o dataframe dessa lista:.pipe(lambda x: [x, funcA(x), funcB(x), ...][0])

df = (
  df

  #Modify the dataframe:
  .assign(new_column=...)

  #Various visualisations, without killing the chain
  .pipe(lambda df_: [display(df_), plt.ecdf(df_.new_column), ..., df_)[-1]

  #...further chaining is possible
)

Isso permite que você defina e execute operações arbitrárias em linha, ao mesmo tempo em que garante que o dataframe modificado será propagado.

Selecionei a resposta de @mozway em vez desta resposta, embora elas sejam bem parecidas.

A quarta sugestão do @mozway é:

.pipe(lambda x: (funcA(x), funcB(x), ...) and x)

Eu prefiro isso ao meu porque não há necessidade de indexar o dataframe, que é retornado automaticamente por meio de avaliação de verdade.

0

Como encadear operações no Pandas totalmente em linha?

Pergunta

Vue 3: Erro na criação "Identificador esperado, mas encontrado 'import'" [duplicado]

Por que esse código Java simples e pequeno roda 30x mais rápido em todas as JVMs Graal, mas não em nenhuma JVM Oracle?

Qual é o propósito de `enum class` com um tipo subjacente especificado, mas sem enumeradores?

Como faço para corrigir um erro MODULE_NOT_FOUND para um módulo que não importei manualmente?

`(expression, lvalue) = rvalue` é uma atribuição válida em C ou C++? Por que alguns compiladores aceitam/rejeitam isso?

Quando devo usar um std::inplace_vector em vez de um std::vector?

Um programa vazio que não faz nada em C++ precisa de um heap de 204 KB, mas não em C

PowerBI atualmente quebrado com BigQuery: problema de driver Simba com atualização do Windows

AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos

Estou tentando fazer o jogo pacman usando apenas o módulo Turtle Random e Math

Como encadear operações no Pandas totalmente em linha?

Pergunta

2 respostas

relate perguntas