AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • Início
  • system&network
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • Início
  • system&network
    • Recentes
    • Highest score
    • tags
  • Ubuntu
    • Recentes
    • Highest score
    • tags
  • Unix
    • Recentes
    • tags
  • DBA
    • Recentes
    • tags
  • Computer
    • Recentes
    • tags
  • Coding
    • Recentes
    • tags
Início / coding / Perguntas / 76920154
Accepted
mto23
mto23
Asked: 2023-08-17 17:25:49 +0800 CST2023-08-17 17:25:49 +0800 CST 2023-08-17 17:25:49 +0800 CST

Selecione linhas por grupo com 1s consecutivos

  • 772

Eu tenho um dataframe que desejo subconjunto selecionando apenas valores consecutivos de "1".

Especificamente, eu tenho um dataframe que se parece com isso:

library(tidyverse)
library(zoo)

df <- data.frame(matrix(ncol = 3, nrow = 17))
colnames(df) <- c("row_id","id", "k_yes")
df$row_id <- c(1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17)
df$id <- c("1_1","1_1","1_1","1_1","1_1","1_1","1_2","1_2","1_2","1_2","1_2","1_2","1_3","1_3","1_3","1_3","1_3")
df$k_yes <- c(1,1,1,0,1,1,0,0,0,1,1,0,1,0,1,0,1)
df
   row_id    id  k_yes
1       1   1_1      1
2       2   1_1      1
3       3   1_1      1
4       4   1_1      0
5       5   1_1      1
6       6   1_1      1
7       7   1_2      0
8       8   1_2      0
9       9   1_2      0
10     10   1_2      1
11     11   1_2      1
12     12   1_2      0
13     13   1_3      1
14     14   1_3      0 
15     15   1_3      1
16     16   1_3      0
17     17   1_3      1

E eu quero criar dois conjuntos de dados :

1) Aquele que, por grupo ( id), tem apenas "1"'s, mas sempre dois ou mais consecutivos. Assim, se houver um "0" entre dois "1", pelo menos o último "1" deve ser descartado. Portanto, aceitaria sequências como, por exemplo 1-1, 1-1-1, e assim por diante, mas não 0-1-1ou1-1-1-0

Então, também gostaria que fosse adicionada uma coluna para saber qual novo grupo/sequência foi formado, pois nem sempre será igual ao id (caso existam dois subgrupos/sequências dentro do id). Basicamente, esta coluna deve ter um código único por sequência para todo o dataframe (agora, acabei de vincular o id com uma letra, mas pode ser um número/letra consecutivo, por exemplo)

Este dataframe ficaria assim:

  row_id    id k_yes  new_group
1      1   1_1     1      1_1_A
2      2   1_1     1      1_1_A
3      3   1_1     1      1_1_A
4      5   1_1     1      1_1_B
5      6   1_1     1      1_1_B
6     10   1_2     1      1_2_A
7     11   1_2     1      1_2_A

2) Outro que, por grupo ( id), aceita um "0" entre os "1"s, mas não se não houver outros "1"s depois do "0". Então aceitaria sequências como por exemplo 1-0-1, 1-1-0-1, 1-1-0-1-1, 1-1-0-1-0-1, e assim por diante, mas não sequências como 0-1-1ou 1-1-0ou 1-1-0-0-1(no último, manteria apenas os primeiros 1's). E o mesmo de antes para a coluna "new_group".

A saída desejada de df seria:

   row_id    id k_yes  new_group
1       1   1_1     1      1_1_A
2       2   1_1     1      1_1_A
3       3   1_1     1      1_1_A
4       4   1_1     0      1_1_A
5       5   1_1     1      1_1_A
6       6   1_1     1      1_1_A
7      10   1_2     1      1_2_A
8      11   1_2     1      1_2_A
9      12   1_3     1      1_3_A
10     14   1_3     0      1_3_A
11     15   1_3     1      1_3_A
12     16   1_3     0      1_3_A
13     17   1_3     1      1_3_A

Nesse caso, id "1_1" obtém apenas um valor para "novo grupo" (1_1_A) porque é tudo a mesma sequência (com o 0 incluído)

Eu tentei seguir esta resposta , mas não funcionou, pois tentei:

> df |>
     group_by(id) |> 
     mutate(b = c(first(k_yes) , zoo::rollsum(k_yes, 1))) |>
     summarise(groups_to_keep = id[which(b >= 2)]) -> gk

Error in `mutate()`:
ℹ In argument: `b = c(first(k_yes), zoo::rollsum(k_yes, 1))`.
ℹ In group 1: `id = "1_1"`.
Caused by error:
! `b` must be size 5 or 1, not 6.

Acho que o problema é a rollsum()função, mas depois de verificar a página de ajuda ainda não ficou claro para mim como essa função deve ser aplicada.

Qualquer ajuda é apreciada!

Atualizar:

Adicionei uma nova versão do conjunto de dados, que criaria dois valores para "novo grupo" no primeiro conjunto de dados (1).

  • 1 1 respostas
  • 49 Views

1 respostas

  • Voted
  1. Best Answer
    2023-08-17T17:55:42+08:002023-08-17T17:55:42+08:00

    Para o conjunto de dados nº 1:

    df |>
      filter(k_yes & (lag(k_yes) | lead(k_yes)), .by = id) |>
      mutate(new_group = row_number() == 1 | row_id - 1 != lag(row_id), .by = id) |>
      mutate(new_group = paste0(id, "_", LETTERS[cumsum(new_group)]), .by = id)
    

    Conjunto de dados 2:

    df |>
      filter(k_yes | (!k_yes & lag(k_yes) & lead(k_yes)), .by = id) |> 
      mutate(new_group = row_number() == 1 | row_id - 1 != lag(row_id), .by = id) |>
      mutate(new_group = paste0(id, "_", LETTERS[cumsum(new_group)]), .by = id)
    
    • 1

relate perguntas

  • Lista de chamada de API de gráfico subscritoSkus estados Privilégios insuficientes enquanto os privilégios são concedidos

  • Função para criar DFs separados com base no valor da coluna

Sidebar

Stats

  • Perguntas 205573
  • respostas 270741
  • best respostas 135370
  • utilizador 68524
  • Highest score
  • respostas
  • Marko Smith

    destaque o código em HTML usando <font color="#xxx">

    • 2 respostas
  • Marko Smith

    Por que a resolução de sobrecarga prefere std::nullptr_t a uma classe ao passar {}?

    • 1 respostas
  • Marko Smith

    Você pode usar uma lista de inicialização com chaves como argumento de modelo (padrão)?

    • 2 respostas
  • Marko Smith

    Por que as compreensões de lista criam uma função internamente?

    • 1 respostas
  • Marko Smith

    Estou tentando fazer o jogo pacman usando apenas o módulo Turtle Random e Math

    • 1 respostas
  • Marko Smith

    java.lang.NoSuchMethodError: 'void org.openqa.selenium.remote.http.ClientConfig.<init>(java.net.URI, java.time.Duration, java.time.Duratio

    • 3 respostas
  • Marko Smith

    Por que 'char -> int' é promoção, mas 'char -> short' é conversão (mas não promoção)?

    • 4 respostas
  • Marko Smith

    Por que o construtor de uma variável global não é chamado em uma biblioteca?

    • 1 respostas
  • Marko Smith

    Comportamento inconsistente de std::common_reference_with em tuplas. Qual é correto?

    • 1 respostas
  • Marko Smith

    Somente operações bit a bit para std::byte em C++ 17?

    • 1 respostas
  • Martin Hope
    fbrereto Por que a resolução de sobrecarga prefere std::nullptr_t a uma classe ao passar {}? 2023-12-21 00:31:04 +0800 CST
  • Martin Hope
    比尔盖子 Você pode usar uma lista de inicialização com chaves como argumento de modelo (padrão)? 2023-12-17 10:02:06 +0800 CST
  • Martin Hope
    Amir reza Riahi Por que as compreensões de lista criam uma função internamente? 2023-11-16 20:53:19 +0800 CST
  • Martin Hope
    Michael A formato fmt %H:%M:%S sem decimais 2023-11-11 01:13:05 +0800 CST
  • Martin Hope
    God I Hate Python std::views::filter do C++20 não filtrando a visualização corretamente 2023-08-27 18:40:35 +0800 CST
  • Martin Hope
    LiDa Cute Por que 'char -> int' é promoção, mas 'char -> short' é conversão (mas não promoção)? 2023-08-24 20:46:59 +0800 CST
  • Martin Hope
    jabaa Por que o construtor de uma variável global não é chamado em uma biblioteca? 2023-08-18 07:15:20 +0800 CST
  • Martin Hope
    Panagiotis Syskakis Comportamento inconsistente de std::common_reference_with em tuplas. Qual é correto? 2023-08-17 21:24:06 +0800 CST
  • Martin Hope
    Alex Guteniev Por que os compiladores perdem a vetorização aqui? 2023-08-17 18:58:07 +0800 CST
  • Martin Hope
    wimalopaan Somente operações bit a bit para std::byte em C++ 17? 2023-08-17 17:13:58 +0800 CST

Hot tag

python javascript c++ c# java typescript sql reactjs html

Explore

  • Início
  • Perguntas
    • Recentes
    • Highest score
  • tag
  • help

Footer

AskOverflow.Dev

About Us

  • About Us
  • Contact Us

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve