Como divido o loop for em 3 quadros de dados individuais?

Question

usdn

Asked: 2024-12-28 10:24:15 +0800 CST2024-12-28 10:24:15 +0800 CST 2024-12-28 10:24:15 +0800 CST

asof-join com múltiplas condições de desigualdade

772

Tenho dois dataframes: a (~600M linhas) e b (~2M linhas) . Qual é a melhor abordagem para unir b em a, ao usar 1 condição de igualdade e 2 condições de desigualdade nas respectivas colunas?

a_1 = b_1
a_2 >= b_2
a_3 >= b_3

Até agora explorei os seguintes caminhos:

Polares :
- join_asof(): permite apenas 1 condição de desigualdade
- join_where() com filter(): mesmo com uma pequena janela de tolerância, a instalação padrão do Polars fica sem linhas (limite de 4,3 bilhões de linhas) durante a junção, e a instalação do polars-u64-idx fica sem memória (512 GB)
DuckDB : ASOF LEFT JOIN: também permite apenas 1 condição de desigualdade
Numba : Como o acima não funcionou, tentei criar minha própria função join_asof() - veja o código abaixo. Ela funciona bem, mas com o aumento do comprimento de a, ela se torna proibitivamente lenta. Tentei várias configurações diferentes de loops for/while e filtragem, todas com resultados semelhantes.

Agora estou ficando sem ideias... Qual seria uma maneira mais eficiente de implementar isso?

Obrigado

import numba as nb
import numpy as np
import polars as pl
import time


@nb.njit(nb.int32[:](nb.int32[:], nb.int32[:], nb.int32[:], nb.int32[:], nb.int32[:], nb.int32[:], nb.int32[:]), parallel=True)
def join_multi_ineq(a_1, a_2, a_3, b_1, b_2, b_3, b_4):
    output = np.zeros(len(a_1), dtype=np.int32)

    for i in nb.prange(len(a_1)):

        for j in range(len(b_1) - 1, -1, -1):

            if a_1[i] == b_1[j]:

                if a_2[i] >= b_2[j]:

                    if a_3[i] >= b_3[j]:
                        output[i] = b_4[j]
                        break

    return output


length_a = 5_000_000
length_b = 2_000_000

start_time = time.time()
output = join_multi_ineq(a_1=np.random.randint(1, 1_000, length_a, dtype=np.int32),
                         a_2=np.random.randint(1, 1_000, length_a, dtype=np.int32),
                         a_3=np.random.randint(1, 1_000, length_a, dtype=np.int32),
                         b_1=np.random.randint(1, 1_000, length_b, dtype=np.int32),
                         b_2=np.random.randint(1, 1_000, length_b, dtype=np.int32),
                         b_3=np.random.randint(1, 1_000, length_b, dtype=np.int32),
                         b_4=np.random.randint(1, 1_000, length_b, dtype=np.int32))
print(f"Duration: {(time.time() - start_time):.2f} seconds")

2 respostas

Voted

roman · Answer 1 · 2024-12-28T19:58:00+08:00

Você pode usar distinct ona cláusula DuckDB (Postgresql):

import duckdb

df_res = duckdb.sql("""
    select distinct on (a.a1, a.a2, a.a3)
        a.a1,
        a.a2,
        a.a3,
        b.b4
    from df_a as a
        inner join df_b as b on
            a.a1 = b.b1 and
            a.a2 >= b.b2 and
            a.a3 >= b.b3
    order by
        b.b2 desc,
        b.b3 desc
""").pl()

Você também pode tentar usar pl.DataFrame.join_where()mas no modo lazy. Estou assumindo que seu dataframe 'a' tem uma chave única, neste caso de exemplo - a1,a2,a3.

pl.DataFrame.lazy()para tratar DataFrame como LazyFrame.
pl.LazyFrame.join_where()para unir quadros preguiçosos.
pl.LazyFrame.sort()para classificar os resultados.
pl.LazyFrame.drop()para remover b2,b3colunas.
pl.LazyFrame.unique()para deixar apenas uma linha por a1,a2,a3.
pl.LazyFrame.collect().

df_res = (
    df_a.lazy()
    .join_where(
        df_b.lazy(),
        pl.col.a1 == pl.col.b1,
        pl.col.a2 >= pl.col.b2,
        pl.col.a3 >= pl.col.b3
    )
    .sort(["a1","a2","a3","b2","b3"])
    .drop(["b2","b3"])
    .unique(["a1","a2","a3"], keep="first")
).collect()

Se nada disso funcionar, você pode tentar dividir um dos quadros em N pedaços com pl.DataFrame.partition_by(), processar os pedaços separadamente e então usar pl.concat()para concatená-los novamente.

N = 20

df_a_list = (
    df_a
    .with_columns(r = pl.int_range(pl.len()) * N // pl.len())
    .partition_by("r", include_key=False)
)

df_res = pl.concat([
    df_a_t.join_where(
        df_b,
        pl.col.a1 == pl.col.b1,
        pl.col.a2 >= pl.col.b2,
        pl.col.a3 >= pl.col.b3
    )
    .sort(["a1","a2","a3","b2","b3"])
    .drop(["b2","b3"])
    .unique(["a1","a2","a3"], keep="first")
    for df_a_t in df_a_list
])

Jérôme Richard · Answer 2 · 2024-12-29T01:35:55+08:00

Usar Numba aqui é uma boa ideia, já que a operação é particularmente cara. Dito isso, a complexidade do algoritmo é, O(n²)embora não seja fácil fazer muito melhor (sem tornar o código muito mais complexo). Além disso, o array b_1, que pode não caber no cache L3, é lido completamente 5_000_000 vezes, tornando o código bastante limitado à memória.

Podemos acelerar bastante o código construindo um índice para não percorrer todo o array b_1, mas apenas os valores where a_1[i] == b_1[j]. Isso não é suficiente para melhorar a complexidade, pois muitos jvalores atendem a essa condição. Podemos melhorar a complexidade (média) construindo um tipo de árvore para todos os nós do índice, mas, na prática, isso torna o código muito mais complexo e o tempo para construir a árvore seria tão grande que, na verdade, não vale a pena fazer isso na prática. De fato, um índice básico é suficiente para reduzir bastante o tempo de execução no conjunto de dados aleatório fornecido (com números uniformemente distribuídos). Aqui está o código resultante:

import numba as nb
import numpy as np
import time

length_a = 5_000_000
length_b = 2_000_000

a_1=np.random.randint(1, 1_000, length_a, dtype=np.int32)
a_2=np.random.randint(1, 1_000, length_a, dtype=np.int32)
a_3=np.random.randint(1, 1_000, length_a, dtype=np.int32)
b_1=np.random.randint(1, 1_000, length_b, dtype=np.int32)
b_2=np.random.randint(1, 1_000, length_b, dtype=np.int32)
b_3=np.random.randint(1, 1_000, length_b, dtype=np.int32)
b_4=np.random.randint(1, 1_000, length_b, dtype=np.int32)

IntList = nb.types.ListType(nb.types.int32)

@nb.njit(nb.int32[:](nb.int32[:], nb.int32[:], nb.int32[:], nb.int32[:], nb.int32[:], nb.int32[:], nb.int32[:]), parallel=True)
def join_multi_ineq_fast(a_1, a_2, a_3, b_1, b_2, b_3, b_4):
    output = np.zeros(len(a_1), dtype=np.int32)
    b1_indices = nb.typed.Dict.empty(key_type=nb.types.int32, value_type=IntList)
    for j in range(len(b_1)):
        val = b_1[j]
        if val in b1_indices:
            b1_indices[val].append(j)
        else:
            lst = nb.typed.List.empty_list(item_type=np.int32)
            lst.append(j)
            b1_indices[val] = lst
    kmean = 0
    for i in nb.prange(len(a_1)):
        if a_1[i] in b1_indices:
            indices = b1_indices[a_1[i]]
            v2 = a_2[i]
            v3 = a_3[i]
            for k in range(len(indices) - 1, -1, -1):
                j = indices[np.uint32(k)]
                #assert a_1[i] == b_1[j]
                if v2 >= b_2[j] and v3 >= b_3[j]:
                    output[i] = b_4[j]
                    break
    return output

%time join_multi_ineq_fast(a_1, a_2, a_3, b_1, b_2, b_3, b_4)

Note que, em média, apenas 32 kvalores são testados (o que é razoável o suficiente para não construir uma estrutura de dados mais eficiente/complicada). Observe também que o resultado é estritamente idêntico ao fornecido pela implementação ingênua.

Referência

Aqui estão os resultados na minha CPU i5-9600KF (6 núcleos):

Roman's code:        >120.00 sec     (require a HUGE amount of RAM: >16 GiB)
Naive Numba code:      24.85 sec
This implementation:    0.83 sec     <-----

Portanto, essa implementação é cerca de 30 vezes mais rápida que o código inicial.

asof-join com múltiplas condições de desigualdade

Referência

Vue 3: Erro na criação "Identificador esperado, mas encontrado 'import'" [duplicado]

Por que esse código Java simples e pequeno roda 30x mais rápido em todas as JVMs Graal, mas não em nenhuma JVM Oracle?

Qual é o propósito de `enum class` com um tipo subjacente especificado, mas sem enumeradores?

Como faço para corrigir um erro MODULE_NOT_FOUND para um módulo que não importei manualmente?

`(expression, lvalue) = rvalue` é uma atribuição válida em C ou C++? Por que alguns compiladores aceitam/rejeitam isso?

Quando devo usar um std::inplace_vector em vez de um std::vector?

Um programa vazio que não faz nada em C++ precisa de um heap de 204 KB, mas não em C

PowerBI atualmente quebrado com BigQuery: problema de driver Simba com atualização do Windows

AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos

Estou tentando fazer o jogo pacman usando apenas o módulo Turtle Random e Math

asof-join com múltiplas condições de desigualdade

2 respostas

Referência

relate perguntas