Extraia a string da linha duplicada, remova a duplicata, forneça a contagem de strings [duplicada]

Question

Giampaolo Levorato

Asked: 2024-08-23 20:32:16 +0800 CST2024-08-23 20:32:16 +0800 CST 2024-08-23 20:32:16 +0800 CST

Como classificar um dataframe do pandas por uma coluna binned

772

Eu criei o seguinte dataframe do pandas:

import pandas as pd
ds = {'col1' : ['(-9999999, 550.0]','(13700.0, 23700.0]','(23700.0, 414580.0]','(4000.0, 8000.0]','(414580.0, 9999999]','(550.0, 4000.0]','(8000.0, 13700.0]'],                                                                                                                             
      'col2' : [905317.3,   606156.5,   586349.6,   665779.1,   0,  803824.4,   628475.2]}

df = pd.DataFrame(data=ds)

O quadro de dados fica assim:

print(df)
                  col1      col2
0    (-9999999, 550.0]  905317.3
1   (13700.0, 23700.0]  606156.5
2  (23700.0, 414580.0]  586349.6
3     (4000.0, 8000.0]  665779.1
4  (414580.0, 9999999]       0.0
5      (550.0, 4000.0]  803824.4
6    (8000.0, 13700.0]  628475.2

Preciso classificar o dataframe por coluna col1em ordem crescente. O dataframe resultante ficaria assim:

                  col1      col2
0    (-9999999, 550.0]  905317.3
1      (550.0, 4000.0]  803824.4
2     (4000.0, 8000.0]  665779.1
3    (8000.0, 13700.0]  628475.2
4   (13700.0, 23700.0]  606156.5
5  (23700.0, 414580.0]  586349.6
6  (414580.0, 9999999]       0.0

Alguém pode me ajudar, por favor?

2 respostas

Voted

Panda Kim · Answer 1 · 2024-08-23T20:44:52+08:00

Best Answer

Panda Kim

2024-08-23T20:44:52+08:002024-08-23T20:44:52+08:00

Código

out = df.sort_values(
    'col1', key=lambda x: x.str.extract(r'\(([^,]+),')[0].astype('float')
)

fora:

                  col1      col2
0    (-9999999, 550.0]  905317.3
5      (550.0, 4000.0]  803824.4
3     (4000.0, 8000.0]  665779.1
6    (8000.0, 13700.0]  628475.2
1   (13700.0, 23700.0]  606156.5
2  (23700.0, 414580.0]  586349.6
4  (414580.0, 9999999]       0.0

2

e-motta · Answer 2 · 2024-08-23T20:44:20+08:00

e-motta

2024-08-23T20:44:20+08:002024-08-23T20:44:20+08:00

Se 'col1'tiver valores de string, você pode usar regex para extrair os limites inferiores e usá-los para classificar. Você pode fazer isso usando uma chave personalizada com sort_values:

df = df.sort_values(
    "col1", key=lambda x: x.str.extract(r"\((-?\d*\.?\d*),")[0].astype(float)
)

                  col1      col2
0    (-9999999, 550.0]  905317.3
5      (550.0, 4000.0]  803824.4
3     (4000.0, 8000.0]  665779.1
6    (8000.0, 13700.0]  628475.2
1   (13700.0, 23700.0]  606156.5
2  (23700.0, 414580.0]  586349.6
4  (414580.0, 9999999]       0.0

1

Como classificar um dataframe do pandas por uma coluna binned

Vue 3: Erro na criação "Identificador esperado, mas encontrado 'import'" [duplicado]

Por que esse código Java simples e pequeno roda 30x mais rápido em todas as JVMs Graal, mas não em nenhuma JVM Oracle?

Qual é o propósito de `enum class` com um tipo subjacente especificado, mas sem enumeradores?

Como faço para corrigir um erro MODULE_NOT_FOUND para um módulo que não importei manualmente?

`(expression, lvalue) = rvalue` é uma atribuição válida em C ou C++? Por que alguns compiladores aceitam/rejeitam isso?

Quando devo usar um std::inplace_vector em vez de um std::vector?

Um programa vazio que não faz nada em C++ precisa de um heap de 204 KB, mas não em C

PowerBI atualmente quebrado com BigQuery: problema de driver Simba com atualização do Windows

AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos

Estou tentando fazer o jogo pacman usando apenas o módulo Turtle Random e Math

Como classificar um dataframe do pandas por uma coluna binned

2 respostas

relate perguntas