percorrendo colunas para gerar countplot () seaborn

Question

Bantha Hunter

Asked: 2023-08-24 23:39:33 +0800 CST2023-08-24 23:39:33 +0800 CST 2023-08-24 23:39:33 +0800 CST

Extraia a string da linha duplicada, remova a duplicata, forneça a contagem de strings [duplicada]

772

Sou relativamente novo em Python/panda. Aqui está o meu problema: eu tenho um df parecido com este:

df = pd.DataFrame({
    'ZIP Code': ['1234','1234', '5678', '9101'],
    'City Name': ['City A', 'City A', 'City B', 'City C'],
    'Newspaper': ['City A News', 'City A Newspaper', 'News for City B', 'C News'],
})

Como você pode ver, para a Cidade A, existem dois Jornais, mas eles estão listados em duas linhas diferentes. No meu DF real, tenho vários casos de cidades, listadas em linhas separadas, completamente idênticas entre si, exceto o jornal listado.

Então, eu quero criar um df parecido com isto:

df_wanted = pd.DataFrame({
'ZIP Code': ['1234', '5678', '9101'],
'City Name': ['City A', 'City B', 'City C'],
'Newspaper': ['City A News, City A Newspaper', 'News for City B', 'C News'],
'Number of Newspapers': [2, 1, 0]

})

Basicamente, quero remover as linhas duplicadas e adicionar a string do jornal não duplicado à primeira entrada da cidade.

Além disso, quero criar uma coluna que conte o número de jornais para que possa usar os números para análises posteriores.

Espero que você possa me ajudar com meu problema! Desde já, obrigado :)

Até agora não encontrei solução para meu problema.

1 respostas

Voted

Quang Hoang · Answer 1 · 2023-08-24T23:43:55+08:00

Best Answer

Quang Hoang

2023-08-24T23:43:55+08:002023-08-24T23:43:55+08:00

Você pode usar groupby chamado agg:

df.groupby('ZIP Code').agg(**{
    'City Name': ('City Name', 'first'),
    'Newspaper': ('Newspaper', ', '.join),
    'No. Newspaper': ('Newspaper', 'size')
})

Saída:

         City Name                      Newspaper  No. Newspaper
ZIP Code                                                        
1234        City A  City A News, City A Newspaper              2
5678        City B                News for City B              1
9101        City C                         C News              1

0

Extraia a string da linha duplicada, remova a duplicata, forneça a contagem de strings [duplicada]

destaque o código em HTML usando <font color="#xxx">

Por que a resolução de sobrecarga prefere std::nullptr_t a uma classe ao passar {}?

Você pode usar uma lista de inicialização com chaves como argumento de modelo (padrão)?

Por que as compreensões de lista criam uma função internamente?

Estou tentando fazer o jogo pacman usando apenas o módulo Turtle Random e Math

java.lang.NoSuchMethodError: 'void org.openqa.selenium.remote.http.ClientConfig.<init>(java.net.URI, java.time.Duration, java.time.Duratio

Por que 'char -> int' é promoção, mas 'char -> short' é conversão (mas não promoção)?

Por que o construtor de uma variável global não é chamado em uma biblioteca?

Comportamento inconsistente de std::common_reference_with em tuplas. Qual é correto?

Somente operações bit a bit para std::byte em C++ 17?

Extraia a string da linha duplicada, remova a duplicata, forneça a contagem de strings [duplicada]

1 respostas

relate perguntas