Como divido o loop for em 3 quadros de dados individuais?

Question

sguo

Asked: 2025-02-15 02:43:08 +0800 CST2025-02-15 02:43:08 +0800 CST 2025-02-15 02:43:08 +0800 CST

Devemos pré-calcular cálculos escalares antes de aplicá-los às colunas do dataframe?

772

Só por curiosidade, se a opção (b) é mais eficiente que a opção (a)? À primeira vista, a opção (a) terá várias vezes mais operações que a opção (b). Mas eu fiz algumas simulações para um milhão de linhas em df , a opção (b) é apenas uma fração mais rápida em média. Isso significa que o Pandas agrupará todas as operações escalares na opção (a) automaticamente?

(a) As variáveis a, b, c, d, e, f são todas escalares.

    df['val2'] = (a*b+c*d)*df['val1']*e/f

(b)

    x = (a*b+c*d)*e/f
    df['val2'] = df['val1']*x

1 respostas

Voted

mozway · Answer 1 · 2025-02-15T03:42:29+08:00

Sim, é melhor pré-computar x. Na verdade, o que importa é a precedência do operador e a ordem em que as operações são realizadas.

Assumindo ssua Series, quando você executa, (a*b+c*d)*s*e/fvocê realiza duas multiplicações e uma divisão da Series completa. Se você pré-calcular ou usar (a*b+c*d)*e/f*s, então há apenas uma operação envolvendo a Series.

Exemplo:

%timeit x*s
1.19 ms ± 73.9 µs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)

%timeit (a*b+c*d)*s*e/f
3.45 ms ± 133 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

%timeit s*(a*b+c*d)*e/f
3.63 ms ± 84.6 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

# now let's force the scalar operation to be grouped
%timeit s*((a*b+c*d)*e/f)
1.21 ms ± 29.2 µs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)

%timeit (a*b+c*d)*e/f*s
1.14 ms ± 80.6 µs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)

Configurar:

s = pd.Series(np.arange(1_000_000))
a=b=c=d=e=f=2
x = (a*b+c*d)*e/f

Na inicial (a*b+c*d)*df['val1']*e/f, a ordem das operações é:

a*b       # ab      #
c*d       # cd      # scalars
ab + cd   # abcd    #
s * abcd  # sabcd      #
e * sabcd # esabcd     # Series
esabcd / f             #

Devemos pré-calcular cálculos escalares antes de aplicá-los às colunas do dataframe?

Vue 3: Erro na criação "Identificador esperado, mas encontrado 'import'" [duplicado]

Por que esse código Java simples e pequeno roda 30x mais rápido em todas as JVMs Graal, mas não em nenhuma JVM Oracle?

Qual é o propósito de `enum class` com um tipo subjacente especificado, mas sem enumeradores?

Como faço para corrigir um erro MODULE_NOT_FOUND para um módulo que não importei manualmente?

`(expression, lvalue) = rvalue` é uma atribuição válida em C ou C++? Por que alguns compiladores aceitam/rejeitam isso?

Quando devo usar um std::inplace_vector em vez de um std::vector?

Um programa vazio que não faz nada em C++ precisa de um heap de 204 KB, mas não em C

PowerBI atualmente quebrado com BigQuery: problema de driver Simba com atualização do Windows

AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos

Estou tentando fazer o jogo pacman usando apenas o módulo Turtle Random e Math

Devemos pré-calcular cálculos escalares antes de aplicá-los às colunas do dataframe?

1 respostas

relate perguntas