Adicionar número de série para atividade de cópia ao blob

Question

Ben

Asked: 2025-02-18 16:05:43 +0800 CST2025-02-18 16:05:43 +0800 CST 2025-02-18 16:05:43 +0800 CST

Conte com que frequência as palavras de um vetor ocorrem em uma string

772

Tenho uma sequência de texto e um vetor de palavras:

String: "Auch ein blindes Huhn findet einmal ein Korn."
Vector: "auch", "ein"

Quero verificar com que frequência cada palavra no vetor está contida na string e calcular a soma das frequências. Para o exemplo, o resultado correto seria 3 .

Cheguei ao ponto de poder verificar quais palavras ocorrem na string e calcular a soma:

library(stringr)
deu <- c("\\bauch\\b", "\\bein\\b")
str_detect(tolower("Auch ein blindes Huhn findet einmal ein Korn."), deu)

[1] TRUE TRUE

sum(str_detect(tolower("Auch ein blindes Huhn findet einmal ein Korn."), deu))

[1] 2

Infelizmente str_detectnão retorna o número de ocorrências ( 1, 2), mas apenas se uma palavra ocorre em uma string ( TRUE, TRUE), então a soma da saída de str_detectnão é igual ao número de palavras.

Existe alguma função em R semelhante à preg_match_alldo PHP?

preg_match_all("/\bauch\b|\bein\b/i", "Auch ein blindes Huhn findet einmal ein Korn.", $matches);
print_r($matches);

Array
(
    [0] => Array
        (
            [0] => Auch
            [1] => ein
            [2] => ein
        )

)

echo preg_match_all("/\bauch\b|\bein\b/i", "Auch ein blindes Huhn findet einmal ein Korn.", $matches);

3

Gostaria de evitar loops.

Eu olhei para muitas perguntas semelhantes, mas elas não contam o número de ocorrências ou não usam um vetor de padrões para pesquisar. Posso ter esquecido uma pergunta que responde à minha, mas antes de marcar isso como duplicado, certifique-se de que o "duplicado" realmente pergunte exatamente a mesma coisa. Obrigado.

4 respostas

Voted

score 5 · Answer 1 · 2025-02-18T16:38:00+08:00

Best Answer

2025-02-18T16:38:00+08:002025-02-18T16:38:00+08:00

Você pode usar str_countcomo

stringr::str_count(tolower("Auch ein blindes Huhn findet mal ein Korn"), paste0("\\b", tolower(c("ein","Huhn")), "\\b"))
[1] 2 1

5

jay.sf · Answer 2 · 2025-02-18T16:20:24+08:00

jay.sf

2025-02-18T16:20:24+08:002025-02-18T16:20:24+08:00

Você pode criar sprintfum padrão adicionando \\bbordas e usar lengthsem gregexpr.

> vp <- v |> sprintf(fmt='\\b%s\\b') |> setNames(v) |> print()
        auch          ein 
"\\bauch\\b"  "\\bein\\b" 
> lapply(vp, gregexpr, text=tolower(string)) |> unlist(recursive=FALSE) |> lengths()
auch  ein 
   1    2

Ele |> print()serve apenas para atribuir e imprimir simultaneamente e pode ser removido.

Dados:

string <- "Auch ein blindes Huhn findet einmal ein Korn."
v <- c("auch", "ein")

3

ThomasIsCoding · Answer 3 · 2025-02-18T16:44:10+08:00

ThomasIsCoding

2025-02-18T16:44:10+08:002025-02-18T16:44:10+08:00

Dada a sequência e o padrão abaixo

s <- "Auch ein blindes Huhn findet einmal ein Korn."
p <- c("auch", "ein")

você pode tentar strsplit+ %in%:

Opção 1 (para obter a soma das ocorrências)

> sum(gsub("\\W", "", strsplit(tolower(s), " ")[[1]]) %in% p)
[1] 3

Opção 2 (use tablese quiser ver o resumo das contagens)

> table(gsub("\\W", "", strsplit(tolower(s), " ")[[1]]))[p]

auch  ein
   1    2

2

Friede · Answer 4 · 2025-02-18T19:55:39+08:00

Friede

2025-02-18T19:55:39+08:002025-02-18T19:55:39+08:00

Processamento de sequência de caracteres

Se a base R for muito complexa em sua sintaxe, eu iria com{stringi}

stringi::stri_count_regex(tolower(String), sprintf('\\b%s\\b', Vector)) |> 
  setNames(Vector) # optional

auch  ein 
   1    2

Dados

String = 'Auch ein blindes Huhn findet einmal ein Korn.'
Vector = c('auch', 'ein')

1

Conte com que frequência as palavras de um vetor ocorrem em uma string

Reformatar números, inserindo separadores em posições fixas

Por que os conceitos do C++20 causam erros de restrição cíclica, enquanto o SFINAE antigo não?

Problema com extensão desinstalada automaticamente do VScode (tema Material)

Vue 3: Erro na criação "Identificador esperado, mas encontrado 'import'" [duplicado]

Qual é o propósito de `enum class` com um tipo subjacente especificado, mas sem enumeradores?

Como faço para corrigir um erro MODULE_NOT_FOUND para um módulo que não importei manualmente?

`(expression, lvalue) = rvalue` é uma atribuição válida em C ou C++? Por que alguns compiladores aceitam/rejeitam isso?

Um programa vazio que não faz nada em C++ precisa de um heap de 204 KB, mas não em C

PowerBI atualmente quebrado com BigQuery: problema de driver Simba com atualização do Windows

AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos

Conte com que frequência as palavras de um vetor ocorrem em uma string

4 respostas

relate perguntas