AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • Início
  • system&network
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • Início
  • system&network
    • Recentes
    • Highest score
    • tags
  • Ubuntu
    • Recentes
    • Highest score
    • tags
  • Unix
    • Recentes
    • tags
  • DBA
    • Recentes
    • tags
  • Computer
    • Recentes
    • tags
  • Coding
    • Recentes
    • tags
Início / coding / Perguntas / 77169204
Accepted
Mark
Mark
Asked: 2023-09-25 06:47:55 +0800 CST2023-09-25 06:47:55 +0800 CST 2023-09-25 06:47:55 +0800 CST

Maneira Python de descartar colunas usadas na atribuição (ou seja, equivalente do Pandas a `.keep = "unused"`)

  • 772

No pacote dplyr do R, existe a opção .keep = "unused"de criar novas colunas com a função mutate()(que é equivalente a assign).

Um exemplo, para quem ainda não usou:

> head(iris)
  Sepal.Length Sepal.Width Petal.Length Petal.Width Species
1          5.1         3.5          1.4         0.2  setosa
2          4.9         3.0          1.4         0.2  setosa
3          4.7         3.2          1.3         0.2  setosa
4          4.6         3.1          1.5         0.2  setosa
5          5.0         3.6          1.4         0.2  setosa
6          5.4         3.9          1.7         0.4  setosa

# any column used in creating `new_col` is dropped afterwards automatically
> mutate(.data = head(iris), new_col = Sepal.Length + Petal.Length * Petal.Width, .keep = "unused")
  Sepal.Width Species new_col
1         3.5  setosa    5.38
2         3.0  setosa    5.18
3         3.2  setosa    4.96
4         3.1  setosa    4.90
5         3.6  setosa    5.28
6         3.9  setosa    6.08

Eu digo que eles são equivalentes, mas não parece haver a opção de fazer isso assignna documentação do Pandas , então presumo que não exista. Eu estava curioso em criar uma maneira de fazer algo semelhante.

Uma maneira de fazer isso é criar uma lista de nomes com antecedência e eliminá-los depois, assim:

from sklearn import datasets
import pandas as pd

used_columns = ['sepal length (cm)', 'petal length (cm)', 'petal width (cm)']

iris = pd.DataFrame(datasets.load_iris().data, columns=datasets.load_iris().feature_names)

iris.assign(new_col = lambda x: x['sepal length (cm)'] + x['petal length (cm)'] * x['petal width (cm)']).drop(used_columns, axis=1)

ou

iris.assign(new_col = lambda x: x[used_columns[0]] + x[used_columns[1]] * x[used_columns[2]]).drop(used_columns, axis=1)

O que parece ~ bom ~, mas requer uma lista separada, e com a primeira, mantendo duas coisas atualizadas, e com a segunda, a carga cognitiva de acompanhar qual é o enésimo item da lista na minha cabeça.

Então, fiquei curioso para saber se existe outra maneira que não conheço de fazer isso, que seria mais fácil de manter? Ambos os itens acima não parecem muito pitônicos?

Pesquisa que fiz: pesquisei bastante sobre isso no Google, sem sorte. Parece que há muitas maneiras de descartar columns , mas nenhuma que encontrei parece particularmente adequada para esse tipo de situação. Qualquer ajuda que você possa fornecer será muito apreciada! Respostas que usam outros pacotes Python (por exemplo ) também são aceitáveis. janitor

python
  • 2 2 respostas
  • 37 Views

2 respostas

  • Voted
  1. Best Answer
    Timeless
    2023-09-25T07:06:33+08:002023-09-25T07:06:33+08:00

    Nunca usei R, mas com base na definição de unusede AFIK, para simular o mesmo comportamento em pandas, você precisará de popcada coluna de um copydo DataFrame original:

    "unused" retém apenas as colunas não utilizadas em ... para criar novas colunas. Isto é útil se você gerar novas colunas, mas não precisar mais das colunas usadas para gerá-las.

    DataFrame.pop(item) retorna o item e sai do quadro. Gera KeyError se não for encontrado.


    (
        iris.copy().assign(
            new_col= lambda x: x.pop('sepal length (cm)')
            + x.pop('petal length (cm)') * x.pop('petal width (cm)'))
    )
    

    Saída :

         sepal width (cm)  new_col
    0                 3.5     5.38
    1                 3.0     5.18
    2                 3.2     4.96
    3                 3.1     4.90
    4                 3.6     5.28
    ..                ...      ...
    145               3.0    18.66
    146               2.5    15.80
    147               3.0    16.90
    148               3.4    18.62
    149               3.0    15.08
    
    [150 rows x 2 columns]
    
    • 6
  2. Andrej Kesely
    2023-09-25T07:08:43+08:002023-09-25T07:08:43+08:00

    Semelhante à resposta do @Timeless:

    iris["new_col"] = iris.pop("sepal length (cm)") + iris.pop("petal length (cm)") * iris.pop("petal width (cm)")
    print(iris.head())
    

    Impressões:

       sepal width (cm)  new_col
    0               3.5     5.38
    1               3.0     5.18
    2               3.2     4.96
    3               3.1     4.90
    4               3.6     5.28
    
    • 4

relate perguntas

  • Como divido o loop for em 3 quadros de dados individuais?

  • Como verificar se todas as colunas flutuantes em um Pandas DataFrame são aproximadamente iguais ou próximas

  • Como funciona o "load_dataset", já que não está detectando arquivos de exemplo?

  • Por que a comparação de string pandas.eval() retorna False

  • Python tkinter/ ttkboostrap dateentry não funciona quando no estado somente leitura

Sidebar

Stats

  • Perguntas 205573
  • respostas 270741
  • best respostas 135370
  • utilizador 68524
  • Highest score
  • respostas
  • Marko Smith

    destaque o código em HTML usando <font color="#xxx">

    • 2 respostas
  • Marko Smith

    Por que a resolução de sobrecarga prefere std::nullptr_t a uma classe ao passar {}?

    • 1 respostas
  • Marko Smith

    Você pode usar uma lista de inicialização com chaves como argumento de modelo (padrão)?

    • 2 respostas
  • Marko Smith

    Por que as compreensões de lista criam uma função internamente?

    • 1 respostas
  • Marko Smith

    Estou tentando fazer o jogo pacman usando apenas o módulo Turtle Random e Math

    • 1 respostas
  • Marko Smith

    java.lang.NoSuchMethodError: 'void org.openqa.selenium.remote.http.ClientConfig.<init>(java.net.URI, java.time.Duration, java.time.Duratio

    • 3 respostas
  • Marko Smith

    Por que 'char -> int' é promoção, mas 'char -> short' é conversão (mas não promoção)?

    • 4 respostas
  • Marko Smith

    Por que o construtor de uma variável global não é chamado em uma biblioteca?

    • 1 respostas
  • Marko Smith

    Comportamento inconsistente de std::common_reference_with em tuplas. Qual é correto?

    • 1 respostas
  • Marko Smith

    Somente operações bit a bit para std::byte em C++ 17?

    • 1 respostas
  • Martin Hope
    fbrereto Por que a resolução de sobrecarga prefere std::nullptr_t a uma classe ao passar {}? 2023-12-21 00:31:04 +0800 CST
  • Martin Hope
    比尔盖子 Você pode usar uma lista de inicialização com chaves como argumento de modelo (padrão)? 2023-12-17 10:02:06 +0800 CST
  • Martin Hope
    Amir reza Riahi Por que as compreensões de lista criam uma função internamente? 2023-11-16 20:53:19 +0800 CST
  • Martin Hope
    Michael A formato fmt %H:%M:%S sem decimais 2023-11-11 01:13:05 +0800 CST
  • Martin Hope
    God I Hate Python std::views::filter do C++20 não filtrando a visualização corretamente 2023-08-27 18:40:35 +0800 CST
  • Martin Hope
    LiDa Cute Por que 'char -> int' é promoção, mas 'char -> short' é conversão (mas não promoção)? 2023-08-24 20:46:59 +0800 CST
  • Martin Hope
    jabaa Por que o construtor de uma variável global não é chamado em uma biblioteca? 2023-08-18 07:15:20 +0800 CST
  • Martin Hope
    Panagiotis Syskakis Comportamento inconsistente de std::common_reference_with em tuplas. Qual é correto? 2023-08-17 21:24:06 +0800 CST
  • Martin Hope
    Alex Guteniev Por que os compiladores perdem a vetorização aqui? 2023-08-17 18:58:07 +0800 CST
  • Martin Hope
    wimalopaan Somente operações bit a bit para std::byte em C++ 17? 2023-08-17 17:13:58 +0800 CST

Hot tag

python javascript c++ c# java typescript sql reactjs html

Explore

  • Início
  • Perguntas
    • Recentes
    • Highest score
  • tag
  • help

Footer

AskOverflow.Dev

About Us

  • About Us
  • Contact Us

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve