Adicionar número de série para atividade de cópia ao blob

Question

small_lebowski

Asked: 2025-02-06 19:54:07 +0800 CST2025-02-06 19:54:07 +0800 CST 2025-02-06 19:54:07 +0800 CST

Agrupar strings e somá-las

772

Tenho um problema muito parecido para resolver assim . No entanto, não estou interessado em classificar. Estou interessado em agrupar (palavra errada talvez) os mesmos objetos de string juntos e somar o valor anexado com string. Em segundo lugar, gostaria de remover uma string das linhas. Preparei um quadro de dados de exemplo. Preparei isso o mais próximo possível do post que mencionei anteriormente.

branch <- c("OL", "CA", "PL", "OR", "FL")
perf <- c("Mattheu (12), Jessica (32), Mattheu (22), Tom (10), HQ", 
          "Tobias (13), Kurt (22), Mathias (44), HQ, Tobias (55)",
          "Tom (30), HQ, Giti (88), Patel (54), Tom (12), Tom (10)",
          "Harry (1), Potter (32), Harry (2)",
          "Timothy (3), HQ, Sara (44), HQ"
          )
> performance <- data.frame(branch, perf)
> performance
  branch                                                    perf
1     OL  Mattheu (12), Jessica (32), Mattheu (22), Tom (10), HQ
2     CA   Tobias (13), Kurt (22), Mathias (44), HQ, Tobias (55)
3     PL Tom (30), HQ, Giti (88), Patel (54), Tom (12), Tom (10)
4     OR                       Harry (1), Potter (32), Harry (2)
5     FL                          Timothy (3), HQ, Sara (44), HQ

Na primeira linha, tenho Mattheu duas vezes. Quero tê-lo uma vez com os números somados. Isso significa que deve ser Mattheu (34). Em segundo lugar, gostaria de remover a string HQ.

Esta é a expectativa de saída da segunda coluna:

[1] "Mattheu (34), Jessica (32), Tom (10)"
[2] "Tobias (68), Kurt (22), Mathias (44)"
[3] "Tom (52), Giti (88), Patel (54)"     
[4] "Harry (3), Potter (32)"              
[5] "Timothy (3), Sara (44)"

Como obter o resultado esperado?

4 respostas

Voted

Ronak Shah · Answer 1 · 2025-02-06T20:06:28+08:00

Aqui está uma opção usando dplyruma tidyrbiblioteca.

library(dplyr)
library(tidyr)

performance %>%
  separate_longer_delim(perf, ", ") %>%
  filter(perf != "HQ") %>%
  separate_wider_regex(perf, 
                      c(name = "[A-Za-z]+", "\\s+\\(", score = "\\d+", "\\)")) %>%
  type.convert(as.is = TRUE) %>%
  summarise(score = sum(score), .by = c(branch, name)) %>%
  summarise(perf = paste(name, '(', score, ')', collapse = ","), .by = branch)

# A tibble: 5 × 2
#  branch perf                                    
#  <chr>  <chr>                                   
#1 OL     Mattheu ( 34 ),Jessica ( 32 ),Tom ( 10 )
#2 CA     Tobias ( 68 ),Kurt ( 22 ),Mathias ( 44 )
#3 PL     Tom ( 52 ),Giti ( 88 ),Patel ( 54 )     
#4 OR     Harry ( 3 ),Potter ( 32 )               
#5 FL     Timothy ( 3 ),Sara ( 44 )

Divida os dados em linhas separadas usando separate_longer_delimcom base em ", "
remova as linhas "HQ"
separe o nome e o número em duas colunas diferentes ( namee score). O regex usado aqui é importante para identificar corretamente os valores namee score.
sumos valores para cada um nameebranch
combine as linhas de cada uma namepara obter o formato original.

score 3 · Answer 2 · 2025-02-06T20:19:26+08:00

Na base R você poderia fazer

sum_similar <- function(row){
  matches <- regmatches(row, gregexpr("([A-Za-z]+) \\((\\d+)\\)", row))[[1]]
  df <- data.frame(
    names = gsub(" \\(\\d+\\)", "", matches),  # Extract names
    count = as.numeric(gsub("[^0-9]", "", matches))  # Extract numbers
  )
  result <- aggregate(count ~ names, data = df, FUN = sum) # Aggregate by sum
  paste0(result$names, " (", result$count, ")", collapse = ", ") # output
}    
performance$perf <- sapply(performance$perf, sum_similar)

dando

filial	desempenho
OL	Jéssica (32), Mateus (34), Tom (10)
CA	Kurt (22), Mathias (44), Tobias (68)
PL	Giti (88), Patel (54), Tom (52)
OU	Harry (3), Oleiro (32)
FL	Sara (44), Timóteo (3)

regmatchesencontra todos os elementos que têm algum texto e depois algum número entre colchetes() e os armazena em um vetor: "Mattheu (12)" "Jessica (32)" "Mattheu (22)" "Tom (10)"
gsub(" \$\\d+\$", "", matches)substitui todos os "(número)" por nada (""), de modo que apenas os nomes permaneçam: "Mattheu (22)" -> "Mattheu"
as.numeric(gsub("[^0-9]", "", matches))extrai qualquer número de uma string e o converte em um número R "Tom (10)" --> 10
Ambos são armazenados em um dataframe.
aggregate(count ~ names, data = df, FUN = sum)resume nomes semelhantes em uma célula de contagem. Ele basicamente resume linhas com nomes semelhantes
paste0(result$names, " (", result$count, ")", collapse = ", ")finalmente cola todos os nomes agregados e conta novamente como uma string: paste0(c("name1", "name2"), " (", c(1, 2), ")", collapse = ", ") --> "nome1 (1), nome2 (2)"
sapply(performance$perf, sum_similar)finalmente aplica esta função a todas as linhas (cada string da coluna "perf")

Explicação

> t <- regmatches("Mattheu (12), Jessica (32), Mattheu (22), Tom (10), HQ", gregexpr("([A-Za-z]+) \\((\\d+)\\)", "Mattheu (12), Jessica (32), Mattheu (22), Tom (10), HQ"))[[1]]
> t
[1] "Mattheu (12)" "Jessica (32)" "Mattheu (22)" "Tom (10)"    
> gsub("[^A-Za-z]", "", t) # replace everything except Text or text with ""
[1] "Mattheu" "Jessica" "Mattheu" "Tom"    
> gsub(" \\(\\d+\\)", "", t)
[1] "Mattheu" "Jessica" "Mattheu" "Tom"    
> as.numeric(gsub("[^0-9]", "", t))
[1] 12 32 22 10
> 
> aggregate(count ~ names, data = data.frame(count = as.numeric(gsub("[^0-9]", "", t)), names = gsub("[^A-Za-z]", "", t)), FUN = sum)
    names count
1 Jessica    32
2 Mattheu    34
3     Tom    10

jay.sf · Answer 3 · 2025-02-06T22:53:47+08:00

Primeiro, poderíamos strsplitem ', '. Sobre a lista resultante, temos sapplyuma função g()que gsubs os parênteses afastados, greps aqueles com números, strsplits em espaços, rbinds e type.converts, xtabs, e finalmente sprintfs o resultado desejado separado por vírgulas usando `toString().

> f <- \(x) {
+   s <- strsplit(x, ', ')
+   x <- s[[1]]
+   g <- \(x) {
+     a <- gsub('\\(|\\)', '', x[grep('\\d', x)]) |> 
+       strsplit(' ') |> 
+       do.call(what='rbind.data.frame') |> 
+       setNames(c('u', 'n')) |> 
+       type.convert(as.is=TRUE) |> 
+       xtabs(fo=n ~ u)
+     sprintf('%s (%s)', names(a), a) |> 
+       toString()
+   }
+   sapply(s, g)
+ }
> 
> performance |> 
+   transform(perf=f(perf))
  branch                                 perf
1     OL Jessica (32), Mattheu (34), Tom (10)
2     CA Kurt (22), Mathias (44), Tobias (68)
3     PL      Giti (88), Patel (54), Tom (52)
4     OR               Harry (3), Potter (32)
5     FL               Sara (44), Timothy (3)

O OP não especificou realmente como as strings deveriam ser classificadas, então aqui está a classificação alfabética.

Phil · Answer 4 · 2025-02-06T23:27:21+08:00

branch <- c("OL", "CA", "PL", "OR", "FL")
perf <- c("Mattheu (12), Jessica (32), Mattheu (22), Tom (10), HQ", 
          "Tobias (13), Kurt (22), Mathias (44), HQ, Tobias (55)",
          "Tom (30), HQ, Giti (88), Patel (54), Tom (12), Tom (10)",
          "Harry (1), Potter (32), Harry (2)",
          "Timothy (3), HQ, Sara (44), HQ"
)
performance <- data.frame(branch, perf)

performance$performance2 <- sapply(
  performance$perf,
  \(x) {
    # split by space and exclude "HQ"  
    line=setdiff(strsplit(x,",\\s?", perl=TRUE)[[1]],"HQ")

    mydf <- as.data.frame(
      matrix(
        # to flatten strsplit()
        unlist(
          strsplit(
            # split "Mytext (mynumber)" into \1 My Text and \2 My Number without parenthesis 
            gsub("([a-zA-Z]+)\\s\\((\\d+)\\)","\\1 \\2",line),"\\s")),
        #My Text , My Number therefore number of column of the matrix by row =2 
        ncol = 2, 
        byrow = TRUE, 
        # dimnames : row name mandatory 1:,length(line), col name: somebody, mynumb
        dimnames=list(1:(length(line)),c("somebody","mynumb"))
      ) 
    )

    # convert mynumb as numeric
    mydf$mynumb <- as.numeric(mydf$mynumb)

    # sum (mynumb) group by somebody 
    myagg<- aggregate(mynumb ~ somebody, data=mydf,FUN=sum)

    paste0(myagg$somebody," (",myagg$mynumb,")",collapse =", ")

  },
  simplify = FALSE, 
  USE.NAMES = FALSE
)

performance[,c("branch","performance2")]
#>   branch                         performance2
#> 1     OL Jessica (32), Mattheu (34), Tom (10)
#> 2     CA Kurt (22), Mathias (44), Tobias (68)
#> 3     PL      Giti (88), Patel (54), Tom (52)
#> 4     OR               Harry (3), Potter (32)
#> 5     FL               Sara (44), Timothy (3)

^{Criado em 2025-02-06 com reprex v2.1.1}

Agrupar strings e somá-las

Explicação

Reformatar números, inserindo separadores em posições fixas

Por que os conceitos do C++20 causam erros de restrição cíclica, enquanto o SFINAE antigo não?

Problema com extensão desinstalada automaticamente do VScode (tema Material)

Vue 3: Erro na criação "Identificador esperado, mas encontrado 'import'" [duplicado]

Qual é o propósito de `enum class` com um tipo subjacente especificado, mas sem enumeradores?

Como faço para corrigir um erro MODULE_NOT_FOUND para um módulo que não importei manualmente?

`(expression, lvalue) = rvalue` é uma atribuição válida em C ou C++? Por que alguns compiladores aceitam/rejeitam isso?

Um programa vazio que não faz nada em C++ precisa de um heap de 204 KB, mas não em C

PowerBI atualmente quebrado com BigQuery: problema de driver Simba com atualização do Windows

AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos

Agrupar strings e somá-las

4 respostas

Explicação

relate perguntas