Falcondance提出的问题 -coding

Falcondance

Asked: 2025-04-05 08:16:08 +0800 CST

Contagem eficiente de listas de substrings de polares

Tenho um dataframe Polars corpuscom uma coluna de string e milhões de linhas.
Também tenho uma lista de substrings substrings.

Posso pegar uma substring e consultar em quantas linhas essa substring aparece com:

corpus.select(pl.col('contents').str.contains(substrings[0]).sum()).item()

Isso funciona bem para uma substring, mas tenho 10.000 substrings para verificar. Qual é a maneira mais eficiente em Polars de verificar todas elas?

Considerei converter substringsem seu próprio dataframe polars e, então, executar um inner-join na presença de substring, agrupando por palavra-chave e, então, contando o tamanho dos grupos. No entanto, isso parece muito caro de uma perspectiva de sobrecarga de RAM, e estou limitado em RAM.

Existe uma maneira melhor/mais limpa?

Abordagem lenta atual:

import polars as pl

substrings = pl.DataFrame({'substring': ['a', 'b', 'c']})
corpus = pl.DataFrame({'contents': ['aBMMmcICmY', 'ORqkIJCwjV', 'JTQHufYApo', 'SNoqiJxpMY', 'SYbEsasrzt', 'XLinDPSRld', 'iInkOGqBDU', 'vBtykwGOqN', 'ZIpOdkkXBd', 'iUokuiefBS']})

def count_occurrences(substring):
    return corpus.select(pl.col('contents').str.contains(substring).sum()).item()

substrings = substrings.with_columns(pl.col('substring').map_elements(count_occurrences).alias('frequency'))

Saída:

shape: (3, 2)  
┌───────────┬───────────┐  
│ substring ┆ frequency │  
│ ---       ┆ ---       │  
│ str       ┆ i64       │  
╞═══════════╪═══════════╡  
│ a         ┆ 2         │  
│ b         ┆ 1         │  
│ c         ┆ 1         │  
└───────────┴───────────┘

Falcondance

Asked: 2024-11-27 00:02:39 +0800 CST

Argsort mascarado eficiente em Numpy

Eu tenho um array numpy como este:

arr = np.array([
    [1, 2, 3],
    [4, -5, 6],
    [-1, -1, -1]
])

E eu gostaria de argsortá-lo, mas com uma arr <= 0máscara. A saída deve ser:

array([[0, 1, 2],
       [0, 2],       # (Note that the indices are still relative to original un-masked array)
       []])

Entretanto, a saída que obtenho usando np.ma.argsort()é:

array([[0, 1, 2],
       [0, 2, 1],
       [0, 1, 2]])

A abordagem precisa ser muito eficiente porque o array real tem milhões de colunas. Estou pensando que isso precisa ser uma síntese de algumas operações, mas não sei quais.

Contagem eficiente de listas de substrings de polares

Argsort mascarado eficiente em Numpy

Reformatar números, inserindo separadores em posições fixas

Por que os conceitos do C++20 causam erros de restrição cíclica, enquanto o SFINAE antigo não?

Problema com extensão desinstalada automaticamente do VScode (tema Material)

Vue 3: Erro na criação "Identificador esperado, mas encontrado 'import'" [duplicado]

Qual é o propósito de `enum class` com um tipo subjacente especificado, mas sem enumeradores?

Como faço para corrigir um erro MODULE_NOT_FOUND para um módulo que não importei manualmente?

`(expression, lvalue) = rvalue` é uma atribuição válida em C ou C++? Por que alguns compiladores aceitam/rejeitam isso?

Um programa vazio que não faz nada em C++ precisa de um heap de 204 KB, mas não em C

PowerBI atualmente quebrado com BigQuery: problema de driver Simba com atualização do Windows

AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos

Falcondance's questions