Como divido o loop for em 3 quadros de dados individuais?

Question

Erik Carstensen

Asked: 2025-03-29 04:05:06 +0800 CST2025-03-29 04:05:06 +0800 CST 2025-03-29 04:05:06 +0800 CST

Previsão do consumo de memória de regexp `re`

772

Tenho um arquivo grande (gigabyte) onde uma expressão S aparece, e quero pular para o final da expressão S. A profundidade da expressão S é limitada a 2, então tentei usar uma expressão regular Python ( b'\\((?:[^()]|\\((?:[^()]|)*\\))*\\)'). Isso acabou consumindo muita RAM, e pesquisando mais a fundo descobri que o consumo de memória de expressões regulares moderadamente complexas parece altamente imprevisível se a correspondência for grande. Por exemplo, as quatro expressões regulares equivalentes a seguir correspondem a uma string completa de dez megabytes. A quarta (indiscutivelmente a mais complexa) usa uma quantidade razoável (30 M) de RAM, enquanto as outras consomem um gigabyte:

import re
dot = b'[' + b''.join(b'\\x%02x' % (c,) for c in range(256)) + b']'
assert re.match(b'(?:.|.)*', b'a'*10000000).end() > 1000000
assert re.match(b'(?:.|.|a)*', b'a'*10000000).end() > 1000000
assert re.match(b'(?:%s|%s)*' % (dot,dot), b'a'*10000000).end() > 1000000
assert re.match(b'(?:%s|%s|a)*' % (dot,dot), b'a'*10000000).end() > 1000000

(usando Python 3.12.3)

Existe uma maneira razoável de prever se o desempenho de uma regexp Python pode ser escalável? E, em particular, existem alguns princípios de design que eu possa seguir se quiser evitar armadilhas de desempenho?

(Esta pergunta é especificamente sobre o remódulo, porque prefiro usar bibliotecas Python padrão; suspeito que isso não seria um problema se eu mudasse para uma biblioteca de terceiros como regex)

1 respostas

Voted

Tim Peters · Answer 1 · 2025-03-29T11:54:48+08:00

Best Answer

Tim Peters

2025-03-29T11:54:48+08:002025-03-29T11:54:48+08:00

No Python 3.11 (ou posterior), tente usar "quantificadores possessivos" em vez disso. Ou seja, no seu exemplo, substituir instâncias de *por *+.

Sua regexp não requer backtracking, e um quantificador possessivo diz ao mecanismo de correspondência para não se preocupar em salvar nenhuma informação de backtracking para começar. Isso pode economizar muita RAM e tempo.

Um mecanismo mais capaz poderia deduzir por si só que o backtracking não é útil no seu caso, mas isso está além do que o mecanismo do Python pode fazer.

Da mesma forma, quando o backtracking não é útil, também pode ajudar a substituir grupos não-capturadores ( (?:) por grupos atômicos ( (?>), Grupos atômicos também não são capturadores, mas também pulam a informação de backtracking salva. Quantificadores possessivos são, na verdade, açúcar sintático para escrever um grupo atômico mais longo.

2

Previsão do consumo de memória de regexp `re`

Reformatar números, inserindo separadores em posições fixas

Por que os conceitos do C++20 causam erros de restrição cíclica, enquanto o SFINAE antigo não?

Problema com extensão desinstalada automaticamente do VScode (tema Material)

Vue 3: Erro na criação "Identificador esperado, mas encontrado 'import'" [duplicado]

Qual é o propósito de `enum class` com um tipo subjacente especificado, mas sem enumeradores?

Como faço para corrigir um erro MODULE_NOT_FOUND para um módulo que não importei manualmente?

`(expression, lvalue) = rvalue` é uma atribuição válida em C ou C++? Por que alguns compiladores aceitam/rejeitam isso?

Um programa vazio que não faz nada em C++ precisa de um heap de 204 KB, mas não em C

PowerBI atualmente quebrado com BigQuery: problema de driver Simba com atualização do Windows

AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos

Previsão do consumo de memória de regexp `re`

1 respostas

relate perguntas