JontroPothon提出的问题 -coding

JontroPothon

Asked: 2025-02-13 03:17:56 +0800 CST

Separando string alfanumérica usando tidyr separate broadex

8

Tenho os seguintes dados,

id <- c("case1", "case19", "case88", "case77")
vec <- c("One_20 (19)",
         "tWo_20 (290)",
         "Three_38 (399)",
         NA)

df <- data.frame(id, vec)

> df
      id            vec
1  case1    One_20 (19)
2 case19   tWo_20 (290)
3 case88 Three_38 (399)
4 case77           <NA>

Quero separar o vecvetor em duas variáveis, a saber: txte num. Estou preferindo usar tidyrdesta forma,

df |> tidyr::separate_wider_regex(vec, 
                                   c(txt = "[A-Za-z]+", num = "\\d+"),
                                   too_few = "align_start")
# A tibble: 4 × 3
  id     txt   num  
  <chr>  <chr> <chr>
1 case1  One   NA   
2 case19 tWo   NA   
3 case88 Three NA   
4 case77 NA    NA

Porém, não é isso que eu quero. Tenho a seguinte expectativa:

      id      txt num
1  case1   One_20  19
2 case19   tWo_20 290
3 case88 Three_38 399
4 case77     <NA>  NA

Estou cometendo erros na parte regex. Alguém pode me ajudar a corrigir esses erros para que eu possa ter a tabela esperada como saída?

JontroPothon

Asked: 2025-02-13 00:58:53 +0800 CST

Ignorando NAs ao agregar vetores de caracteres

6

Eu tenho esse conjunto de dados muito simples.

id <- c(12, 13, 26, 45, 55, 66)
group <- c("one", "one", "two", "two", "three", "three")
txt <- c("quick", "brown", NA, "fox", NA, NA)

df <- data.frame(id, group, txt)
df
> df
  id group   txt
1 12   one quick
2 13   one brown
3 26   two  <NA>
4 45   two   fox
5 55 three  <NA>
6 66 three  <NA>

Quero agregar por grupo. Estou tentando isso,

df |> 
  dplyr::group_by(group) |> 
  dplyr::summarise(txt = paste(txt, collapse = ", "))

# A tibble: 3 × 2
  group txt         
  <chr> <chr>       
1 one   quick, brown
2 three NA, NA      
3 two   NA, fox

Como vemos, eles NAsão revelados como personagens. Em segundo lugar, três vem depois de um na coluna do grupo. Eu quero ter algo assim,

  group          txt
1   one quick, brown
2   two          fox
3 three         <NA>

Alguma ideia de como resolver esse problema simples?

JontroPothon

Asked: 2025-02-04 18:11:43 +0800 CST

Reorganizar elementos de string pelo número anexado a eles em linhas

6

Eu tenho esse quadro de dados,

set.seed(124)
id <- rnorm(5, mean = 100, sd = 59)
charVar <- c("Eeny (2), meeny (10), miny (21), moe (1)",
  "Catch (112), a (2), tiger (33), by (44), the (2), toe (24)",
  NA,
  "If (2), he (33), hollers (15), let (66), him (1), go (55)",
  "Eeny (224), meeny (44), miny (50), moe (76)")
df <- data.frame(id, charVar)
df
> df
         id                                                    charVar
1  18.28083                   Eeny (2), meeny (10), miny (21), moe (1)
2 102.26107 Catch (112), a (2), tiger (33), by (44), the (2), toe (24)
3  54.98122                                                       <NA>
4 112.52606  If (2), he (33), hollers (15), let (66), him (1), go (55)
5 184.10674                Eeny (224), meeny (44), miny (50), moe (76)

Quero classificar cada elemento nas linhas pelos números com ele. A saída esperada deve ser parecida com esta:

> df
         id                                                     charVar
1  18.28083                    miny (21), meeny (10), Eeny (2), moe (1)
2 102.26107 Catch (112), by (44), tiger (33), toe (24), a (2),  the (2)
3  54.98122                                                        <NA>
4 112.52606   let (66), go (55), he (33), hollers (15), If (2), him (1)
5 184.10674                 Eeny (224), moe (76), miny (50), meeny (44)

Alguma ideia de como atingir o resultado esperado? Qualquer ajuda seria muito apreciada.

JontroPothon

Asked: 2025-01-08 23:36:34 +0800 CST

Renomear múltiplas variáveis com base em um vetor

8

Eu tenho esse quadro de dados,

set.seed(123)
dataf <- data.frame( id = seq(1:5), 
                     A_1 = rnorm(5),
                     A_2 = rnorm(5),
                     A_3 = rnorm(5),
                     A_4 = rnorm(5),
                     A_5 = rnorm(5))

> dataf 
  id         A_1        A_2        A_3        A_4        A_5
1  1 -0.56047565  1.7150650  1.2240818  1.7869131 -1.0678237
2  2 -0.23017749  0.4609162  0.3598138  0.4978505 -0.2179749
3  3  1.55870831 -1.2650612  0.4007715 -1.9666172 -1.0260044
4  4  0.07050839 -0.6868529  0.1106827  0.7013559 -0.7288912
5  5  0.12928774 -0.4456620 -0.5558411 -0.4727914 -0.6250393

E eu tenho um vetor como o seguinte, com base no qual quero renomear as variáveis do quadro de dados acima.

sep <- c(0, 1, 1, 0, 0)

Neste vetor, tenho o marcador com base no qual as variáveis devem ser renomeadas. Se o marcador disser 0, nenhuma alteração. Se o marcador disser 1, adicionamos um prefixo ao nome da variável, digamos, _mod. Por exemplo, o segundo elemento de sepé 1, isso significa que preciso renomear a segunda variável A_2para A_2_mod. A tabela resultante deve ficar assim:

  id         A_1    A_2_mod    A_3_mod        A_4        A_5
1  1 -0.56047565  1.7150650  1.2240818  1.7869131 -1.0678237
2  2 -0.23017749  0.4609162  0.3598138  0.4978505 -0.2179749
3  3  1.55870831 -1.2650612  0.4007715 -1.9666172 -1.0260044
4  4  0.07050839 -0.6868529  0.1106827  0.7013559 -0.7288912
5  5  0.12928774 -0.4456620 -0.5558411 -0.4727914 -0.6250393

Posso fazer isso facilmente renomeando por posição. No entanto, estou pensando em como tornar a renomeação escalável no caso de, digamos, eu ter milhares de colunas.

JontroPothon

Asked: 2025-01-08 05:21:45 +0800 CST

Agregar por grupo em valores lógicos

7

Eu tenho este quadro de dados:

dataf <- tibble(A = sample(c(TRUE, FALSE), 10, replace = T), 
+                B = sample(c(TRUE, FALSE), 10, replace = T), 
+                C = sample(c(TRUE, FALSE), 10, replace = T), 
+                group = c(rep("grp1", 3), rep("grp2", 3), rep("grp3", 4)))

> dataf
# A tibble: 10 × 4
   A     B     C     group
   <lgl> <lgl> <lgl> <chr>
 1 TRUE  TRUE  TRUE  grp1 
 2 FALSE TRUE  TRUE  grp1 
 3 TRUE  TRUE  TRUE  grp1 
 4 TRUE  TRUE  TRUE  grp2 
 5 FALSE TRUE  TRUE  grp2 
 6 TRUE  FALSE TRUE  grp2 
 7 TRUE  FALSE FALSE grp3 
 8 TRUE  FALSE TRUE  grp3 
 9 FALSE FALSE TRUE  grp3 
10 FALSE FALSE  FALSE grp3

Quero agregar as linhas pelo grupo de variáveis. Se em uma coluna existir um TRUE, a TRUEestará lá, caso contrário FALSE. Por exemplo, na grp1coluna A tem TRUE, FALSEe TRUE. Como tem um TRUE, o agregado deve ser TRUEpara grp1a coluna A. Da mesma forma, grp3, a coluna B deve, FALSEpois não tem TRUEnela.

O quadro de dados resultante deve ficar assim:

 A     B     C     groupp
  <lgl> <lgl> <lgl> <chr> 
1 TRUE  TRUE  TRUE  grp1  
2 TRUE  TRUE  TRUE grp2  
3 TRUE  FALSE  TRUE  grp3

Alguma ideia de como conseguir isso?

JontroPothon

Asked: 2024-11-13 16:02:02 +0800 CST

Pesquise várias palavras-chave em uma coluna e crie colunas para cada uma

9

Tenho os seguintes dados.

stringstosearch <- c("to", "and", "at", "from", "is", "of")

set.seed(199)
datatxt <- data.frame(id = c(rnorm(5)), 
                       x = c("Contrary to popular belief, Lorem Ipsum is not simply random text.",
       "A Latin professor at Hampden-Sydney College in Virginia",
       "It has roots in a piece of classical Latin ", 
       "literature from 45 BC, making it over 2000 years old.", 
       "The standard chunk of Lorem Ipsum used since"))

Quero pesquisar as palavras-chave listadas stringtosearche criar colunas para cada uma com resultados.

tentei

library(stringr)
datatxt$result <- str_detect(datatxt$x, paste0(stringstosearch, collapse = '|'))

que retorna

> datatxt$result
[1] TRUE TRUE TRUE TRUE TRUE

No entanto, estou procurando uma abordagem que crie um vetor booleano para cada palavra em stringstosearch, ou seja

          id                                                                  x    to   and    at  from    is    of
1 -1.9091427 Contrary to popular belief, Lorem Ipsum is not simply random text.  TRUE FALSE FALSE FALSE  TRUE  TRUE
2  0.5551667            A Latin professor at Hampden-Sydney College in Virginia FALSE FALSE  TRUE FALSE FALSE FALSE
3 -2.2163365                        It has roots in a piece of classical Latin  FALSE FALSE FALSE FALSE FALSE FALSE
4  0.4941455              literature from 45 BC, making it over 2000 years old. FALSE FALSE FALSE  TRUE FALSE FALSE
5 -0.5805710                       The standard chunk of Lorem Ipsum used since FALSE FALSE FALSE FALSE FALSE FALSE

Alguma ideia de como conseguir isso?

JontroPothon

Asked: 2024-09-03 17:27:49 +0800 CST

Filtrar para selecionar pares de linhas

7

Estou tentando filtrar pares (identificados por id) com base em condições. Tenho o seguinte data frame,

id <- c(1,1,2,2,1,1,3,3,4,4)

PorF <- c("start","fail","start","pass","start","pass","start","pass","start","fail")

timest <- c(as.POSIXct("2021-05-08 08:15:07"),
            as.POSIXct("2021-05-08 08:15:45"),
            as.POSIXct("2021-05-28 08:17:09"),
            as.POSIXct("2021-05-28 08:17:25"),
            as.POSIXct("2021-05-28 08:32:07"),
            as.POSIXct("2021-05-28 08:32:12"),
            as.POSIXct("2021-05-28 08:33:14"),
            as.POSIXct("2021-05-28 08:33:45"),
            as.POSIXct("2021-05-28 08:34:12"),
            as.POSIXct("2021-05-28 08:34:56"))


testdf <- data.frame(id, PorF, timest)
testdf

> testdf
   id  PorF              timest
1   1 start 2021-05-08 08:15:07
2   1  fail 2021-05-08 08:15:45
3   2 start 2021-05-28 08:17:09
4   2  pass 2021-05-28 08:17:25
5   1 start 2021-05-28 08:32:07
6   1  pass 2021-05-28 08:32:12
7   3 start 2021-05-28 08:33:14
8   3  pass 2021-05-28 08:33:45
9   4 start 2021-05-28 08:34:12
10  4  fail 2021-05-28 08:34:56

Quero filtrar aqueles IDs que têm um start e um pass. Todos os pares com start e fail devem ser filtrados.

Minha saída esperada deve ser semelhante a esta,

> filtered_testdf
id  PorF              timest
2 start 2021-05-28 08:17:09
2  pass 2021-05-28 08:17:25
1 start 2021-05-28 08:32:07
1  pass 2021-05-28 08:32:12
3 start 2021-05-28 08:33:14
3  pass 2021-05-28 08:33:45

O que estou tentando é isso que não está dando o que eu quero,

testdf |> 
  group_by(id) |> 
  filter(PorF == "start" & PorF == "pass")

Alguma ideia de como atingir o resultado esperado?

Separando string alfanumérica usando tidyr separate broadex

Ignorando NAs ao agregar vetores de caracteres

Reorganizar elementos de string pelo número anexado a eles em linhas

Renomear múltiplas variáveis com base em um vetor

Agregar por grupo em valores lógicos

Pesquise várias palavras-chave em uma coluna e crie colunas para cada uma

Filtrar para selecionar pares de linhas

Reformatar números, inserindo separadores em posições fixas

Por que os conceitos do C++20 causam erros de restrição cíclica, enquanto o SFINAE antigo não?

Problema com extensão desinstalada automaticamente do VScode (tema Material)

Vue 3: Erro na criação "Identificador esperado, mas encontrado 'import'" [duplicado]

Qual é o propósito de `enum class` com um tipo subjacente especificado, mas sem enumeradores?

Como faço para corrigir um erro MODULE_NOT_FOUND para um módulo que não importei manualmente?

`(expression, lvalue) = rvalue` é uma atribuição válida em C ou C++? Por que alguns compiladores aceitam/rejeitam isso?

Um programa vazio que não faz nada em C++ precisa de um heap de 204 KB, mas não em C

PowerBI atualmente quebrado com BigQuery: problema de driver Simba com atualização do Windows

AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos

JontroPothon's questions