Adicionar número de série para atividade de cópia ao blob

Question

fe108

Asked: 2024-01-04 00:02:02 +0800 CST2024-01-04 00:02:02 +0800 CST 2024-01-04 00:02:02 +0800 CST

Combinando pessoas com nomes semelhantes: R

772

Estou trabalhando em R

Meus dados possuem 500.000 linhas, mas um pequeno exemplo é usado aqui.

Tenho alguns dados sobre funcionários que trabalham em escolas. Algumas pessoas trabalham em uma escola, outras em duas, outras em três, etc. Cada escola em que trabalham é uma linha de dados.

As escolas nem sempre registram os primeiros nomes iguais para um indivíduo. por exemplo, uma escola registra como Will, outra como William.

Também tenho esta suposição: para um indivíduo que trabalha em mais de uma escola, o segundo nome e a data de nascimento são sempre registrados iguais em cada escola.

Com base na semelhança do primeiro nome, quero uma maneira de identificar as pessoas que provavelmente são a mesma pessoa e, em seguida, atribuir-lhes um ID.

Haverá algum tipo de corte, por exemplo, greg e griffin provavelmente não serão a mesma pessoa, embora compartilhem as mesmas duas primeiras letras.

dados de amostra:

data_current <- data.frame(first_name = c("will", "william", "william", "laura", "jessica", "jessicalouise", "james", "greg", "griffin"), 
                           last_name = c("smith", "smith", "smith", "maxwell", "maxwell", "maxwell", "lead", "jones", "jones"),
                           date_of_birth = c("2000-01-02","2000-01-02", "2000-01-02", "2007-01-02","2007-01-02","2007-01-02","1999-01-02","2004-01-02","2004-01-02"), 
                           school_id = c(1, 2, 3, 4, 5, 6, 7, 8, 9))

primeiro nome	segundo nome	data de nascimento	id_escola
vai	ferreiro	02/01/2000	1
William	ferreiro	02/01/2000	2
William	ferreiro	02/01/2000	3
Laura	maxwell	02-01-2007	4
Jéssica	maxwell	02-01-2007	5
jessicalouise	maxwell	02-01-2007	6
James	liderar	02/01/1999	7
Greg	Jones	02-01-2004	8
grifo	Jones	02-01-2004	9

dados desejados:

É provável que as três primeiras pessoas sejam a mesma pessoa, portanto recebam o mesmo person_id e assim por diante...

data_desired <- data.frame(first_name = c("will", "william", "william", "laura", "jessica", "jessicalouise", "james", "greg", "griffin"), 
                           last_name = c("smith", "smith", "smith", "maxwell", "maxwell", "maxwell", "lead", "jones", "jones"),
                           date_of_birth = c("2000-01-02","2000-01-02", "2000-01-02", "2007-01-02","2007-01-02","2007-01-02","1999-01-02","2004-01-02","2004-01-02"), 
                           school_id = c(1, 2, 3, 4, 5, 6, 7, 8, 9),
                           person_id = c(1, 1, 1, 2, 3, 3, 4, 5, 6))

primeiro nome	segundo nome	data de nascimento	id_escola	id_pessoa
vai	ferreiro	02/01/2000	1	1
William	ferreiro	02/01/2000	2	1
William	ferreiro	02/01/2000	3	1
Laura	maxwell	02-01-2007	4	2
Jéssica	maxwell	02-01-2007	5	3
jessicalouise	maxwell	02-01-2007	6	3
James	liderar	02/01/1999	7	4
Greg	Jones	02-01-2004	8	5
grifo	Jones	02-01-2004	9	6

Alguém tem alguma sugestão de como resolver isso?

1 respostas

Voted

LMc · Answer 1 · 2024-01-04T02:32:35+08:00

Aqui está uma possibilidade usando similaridade de strings. Funciona bem no seu exemplo porque você tem separação completa em seus dados. No entanto, com mais de 500 mil linhas, você pode encontrar alguns problemas com isso, mas pode começar:

library(stringdist)
library(dplyr)
library(purrr)

group_first <- function(dat, cutoff = 0.5) {
  M <- stringsimmatrix(dat$first_name, dat$first_name, method = "cosine", q = 2)
  l <- unique(lapply(seq_len(nrow(M)), \(x) dat$first_name[M[x, ] > cutoff]))
  
  person_id <- map(dat$first_name, ~ which(grepl(.x, l, fixed = T))) |>
    modify_if(~ length(.x) > 1, ~ 0)
  
  return(unlist(person_id))
}

data_current |>
  mutate(person_id = group_first(pick(everything())), .by = c(date_of_birth, last_name)) |>
  # review output before running next mutate
  mutate(person_id = cur_group_id(), .by = c(date_of_birth, last_name, person_id))

Saída

     first_name last_name date_of_birth school_id person_id
1          will     smith    2000-01-02         1         1
2       william     smith    2000-01-02         2         1
3       william     smith    2000-01-02         3         1
4         laura   maxwell    2007-01-02         4         2
5       jessica   maxwell    2007-01-02         5         3
6 jessicalouise   maxwell    2007-01-02         6         3
7         james      lead    1999-01-02         7         4
8          greg     jones    2004-01-02         8         5
9       griffin     jones    2004-01-02         9         6

Como funciona

Pegue cada grupo de sobrenome e data de nascimento e calcule uma pontuação de similaridade de cosseno de caractere bigrama. Se esta pontuação de similaridade estiver acima de 0,5 (por padrão), os primeiros nomes serão agrupados.
É possível que um nome esteja em mais de um agrupamento de nomes; nesse caso, um zero será retornado e esses casos especiais precisarão de revisão adicional. Por exemplo, “jess” pode corresponder a “jessica” e “jesse”, mas “jesse” pode não corresponder necessariamente a “jessica”.
Após a revisão na etapa 2 (isso será algo que você precisará fazer com um algoritmo mais refinado ou manualmente), os IDs serão recalculados para que sejam distintos.

Conforme mencionado nos comentários, isso pode ser complicado para nomes que possuem bigramas semelhantes, mas não são iguais. Esses casos serão difíceis de distinguir. Além disso, esta é apenas uma comparação lexical e provavelmente não funcionará bem para nomes abreviados. Por exemplo, como "Bob" é a abreviação de "Robert" ou "Dick" é a abreviação de "Richard".

Você também pode considerar o uso de outras medidas de similaridade de strings. Por exemplo, você pode especificar a similaridade Jaro–Winkler ( method = 'jw') com um peso ( p = 0.10). Isso ponderará os primeiros nomes que começam da mesma forma ("will" versus "william"), resultando em uma pontuação de similaridade mais alta e possível separação.

Combinando pessoas com nomes semelhantes: R

Vue 3: Erro na criação "Identificador esperado, mas encontrado 'import'" [duplicado]

Por que esse código Java simples e pequeno roda 30x mais rápido em todas as JVMs Graal, mas não em nenhuma JVM Oracle?

Qual é o propósito de `enum class` com um tipo subjacente especificado, mas sem enumeradores?

Como faço para corrigir um erro MODULE_NOT_FOUND para um módulo que não importei manualmente?

`(expression, lvalue) = rvalue` é uma atribuição válida em C ou C++? Por que alguns compiladores aceitam/rejeitam isso?

Quando devo usar um std::inplace_vector em vez de um std::vector?

Um programa vazio que não faz nada em C++ precisa de um heap de 204 KB, mas não em C

PowerBI atualmente quebrado com BigQuery: problema de driver Simba com atualização do Windows

AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos

Estou tentando fazer o jogo pacman usando apenas o módulo Turtle Random e Math

Combinando pessoas com nomes semelhantes: R

1 respostas

relate perguntas