Adicionar número de série para atividade de cópia ao blob

Question

Ben

Asked: 2025-02-19 16:32:51 +0800 CST2025-02-19 16:32:51 +0800 CST 2025-02-19 16:32:51 +0800 CST

Remover duplicatas em vários vetores

772

Quero remover todas as duplicatas em vários vetores, sem deixar nenhuma. Por exemplo, para estes vetores:

a <- c("dog", "fish", "cow")
b <- c("dog", "horse", "mouse")
c <- c("cat", "sheep", "mouse")

o resultado esperado seria:

a <- c("fish", "cow")
b <- c("horse")
c <- c("cat", "sheep")

Existe uma maneira de fazer isso sem concatenar os vetores e dividi-los novamente?

7 respostas

Voted

tmfmnk · Answer 1 · 2025-02-19T16:38:37+08:00

Best Answer

tmfmnk

2025-02-19T16:38:37+08:002025-02-19T16:38:37+08:00

Talvez você possa fazer:

vec <- c(a, b, c)
sapply(list(a, b, c), function(x) x[!x %in% vec[duplicated(vec)]])

[[1]]
[1] "fish" "cow" 

[[2]]
[1] "horse"

[[3]]
[1] "cat"   "sheep"

Se você precisar de variáveis individuais no ambiente global, com a adição de lst()from tibble:

vec <- c(a, b, c)
l <- sapply(lst(a, b, c), function(x) x[!x %in% vec[duplicated(vec)]])
list2env(l, envir = .GlobalEnv)

12

ThomasIsCoding · Answer 2 · 2025-02-19T16:41:10+08:00

ThomasIsCoding

2025-02-19T16:41:10+08:002025-02-19T16:41:10+08:00

Dados fornecidos em uma lista, por exemplo lst <- list(a = a, b = b, c = c), você pode tentar

Opção 1

> unstack(subset(stack(lst), ave(seq_along(values), values, FUN = length) == 1))
$a
[1] "fish" "cow"

$b
[1] "horse"

$c
[1] "cat"   "sheep"

Opção 2

> lapply(seq_along(lst), \(k) setdiff(lst[[k]], unlist(lst[-k])))
[[1]]
[1] "fish" "cow"

[[2]]
[1] "horse"

[[3]]
[1] "cat"   "sheep"

Opção 3

> v <- names(which(table(unlist(lst)) == 1))

> lapply(lst, intersect, v)
$a
[1] "fish" "cow"

$b
[1] "horse"

$c
[1] "cat"   "sheep"

8

Maël · Answer 3 · 2025-02-19T17:34:23+08:00

Outra possibilidade com collapse::fduplicated(x, all = TRUE). Diferentemente do R base duplicated, esta função permite que você inclua todos os valores que aparecem mais de uma vez:

lst <- list(a = a, b = b, c = c)
unstack(subset(stack(lst), !collapse::fduplicated(values, all = TRUE)))

# $a
# [1] "fish" "cow" 
# 
# $b
# [1] "horse"
# 
# $c
# [1] "cat"   "sheep"

Benchmark em uma lista de 100 elementos de comprimento 10: minha resposta usando collapseé a mais rápida (tempo relativo mostrado). A resposta base R de @Friede é igualmente rápida.

  expression     min  median itr/sec mem_alloc n_itr
1     tmfmnk    5.51    5.95  445.47     44.72    10
2       Tic1    2.87    3.06  879.08      2.12    10
3       Tic2   27.05   26.28   98.60     59.35    10
4       Tic3    4.43    4.28  504.72      2.78    10
5     jay.sf 2931.20 2785.01    1.00   5925.16    10
6     Edward   28.03   27.67   98.86     56.71    10
7       Maël    1.00    1.00 2699.28      1.00    10
8     Friede    1.03    1.00 2568.27      1.25    10

código:

lst <- lapply(setNames(as.list(replicate(100, sample(combn(letters, m = 2, paste, collapse = ""), size = 10, replace = TRUE), simplify = FALSE)), paste0('A', 1:100)), c)
vec <- unlist(lst, use.names = FALSE)

bench::mark(
  tmfmnk = sapply(lst, function(x) x[!x %in% vec[duplicated(vec)]]),
  Tic1 = unstack(subset(stack(lst), ave(seq_along(values), values, FUN = length) == 1)),
  Tic2 = lapply(seq_along(lst), \(k) setdiff(lst[[k]], unlist(lst[-k]))),
  Tic3 = {v <- names(which(table(unlist(lst)) == 1))
  lapply(lst, intersect, v)},
  jay.sf = outer(seq_along(lst), seq_along(lst), Vectorize(\(i, j) setdiff(lst[[i]], unlist(lst[-j])))) |>
    diag(),
  Edward = lapply(seq_along(lst), \(x) lst[[x]][!lst[[x]] %in% unlist(lst[setdiff(seq_along(lst)[-x], x)])]),
  Maël = unstack(subset(stack(lst), !collapse::fduplicated(values, all = TRUE))),
  Friede = unstack(subset(stack(lst), !duplicated(values) & !duplicated(values, fromLast=TRUE))),
  check = FALSE,
  iterations = 10,
  relative = TRUE
)

Friede · Answer 4 · 2025-02-19T18:23:09+08:00

Friede

2025-02-19T18:23:09+08:002025-02-19T18:23:09+08:00

Chegando atrasado para a festa de respostas.

Base R, fazendo !duplicated()duas vezes.

unstack(subset(stack(l), !duplicated(values) & !duplicated(values, fromLast=TRUE)))

$a
[1] "fish" "cow" 

$b
[1] "horse"

$c
[1] "cat"   "sheep"

Isso evita *applyfunções -, Vectorize()(que são mapply()) e outer().

Dados

l = list(a = c("dog", "fish", "cow"), b = c("dog", "horse", "mouse"), c = c("cat", "sheep", "mouse"))

8

Edward · Answer 5 · 2025-02-19T17:01:16+08:00

Edward

2025-02-19T17:01:16+08:002025-02-19T17:01:16+08:00

lst <- list(a,b,c)

lapply(seq_along(lst), \(x) lst[[x]][!lst[[x]] %in% unlist(lst[setdiff(seq_along(lst)[-x], x)])])

[[1]]
[1] "fish" "cow" 

[[2]]
[1] "horse"

[[3]]
[1] "cat"   "sheep"

Esta solução mantém duplicatas dentro do mesmo vetor e só as remove se houver duplicatas em vários vetores , conforme declarado na pergunta. Por exemplo, aplicando a função a

a <- c("dog", "fish", "dog")
b <- c("cow", "horse", "mouse")
c <- c("cat", "sheep", "mouse")

lst <- list(a,b,c); lst

dá

[[1]]
[1] "dog"  "fish" "dog" 

[[2]]
[1] "cow"   "horse"

[[3]]
[1] "cat"   "sheep"

enquanto outras respostas dão

[[1]]
[1] "fish"

[[2]]
[1] "cow"   "horse"

[[3]]
[1] "cat"   "sheep"

6

jay.sf · Answer 6 · 2025-02-19T17:19:19+08:00

jay.sf

2025-02-19T17:19:19+08:002025-02-19T17:19:19+08:00

Usar setdiffin outer. diagfornece o resultado.

> lst <- list(a, b, c)
> outer(seq_along(lst), seq_along(lst), 
+       Vectorize(\(i, j) setdiff(lst[[i]], unlist(lst[-j])))) |>
+   diag()
[[1]]
[1] "fish" "cow" 

[[2]]
[1] "horse"

[[3]]
[1] "cat"   "sheep"

6

Roland · Answer 7 · 2025-02-20T14:02:36+08:00

Roland

2025-02-20T14:02:36+08:002025-02-20T14:02:36+08:00

Se o conceito de "duplicado" se aplicar, esses vetores são, na verdade, um conjunto de dados. Você deve apenas colocá-los em uma estrutura de dados e criar "dados organizados". Eu sugiro usar o pacote data.table, especialmente se seu conjunto de dados for grande:

library(data.table)
DT <- data.table(a, b, c)
DT <- melt(DT, measure.vars = 1:3)

Então você pode remover facilmente valores duplicados.

DT[!duplicated(value) & !duplicated(value, fromLast = TRUE)]
#   variable  value
#     <fctr> <char>
#1:        a   fish
#2:        a    cow
#3:        b  horse
#4:        c    cat
#5:        c  sheep

Essa abordagem pressupõe que seu conjunto de dados não seja tão grande a ponto de a demanda de memória para a variablecoluna ser um problema.

1

Remover duplicatas em vários vetores

Reformatar números, inserindo separadores em posições fixas

Por que os conceitos do C++20 causam erros de restrição cíclica, enquanto o SFINAE antigo não?

Problema com extensão desinstalada automaticamente do VScode (tema Material)

Vue 3: Erro na criação "Identificador esperado, mas encontrado 'import'" [duplicado]

Qual é o propósito de `enum class` com um tipo subjacente especificado, mas sem enumeradores?

Como faço para corrigir um erro MODULE_NOT_FOUND para um módulo que não importei manualmente?

`(expression, lvalue) = rvalue` é uma atribuição válida em C ou C++? Por que alguns compiladores aceitam/rejeitam isso?

Um programa vazio que não faz nada em C++ precisa de um heap de 204 KB, mas não em C

PowerBI atualmente quebrado com BigQuery: problema de driver Simba com atualização do Windows

AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos

Remover duplicatas em vários vetores

7 respostas

relate perguntas