Como divido o loop for em 3 quadros de dados individuais?

Question

sdbbs

Asked: 2024-03-09 00:38:25 +0800 CST2024-03-09 00:38:25 +0800 CST 2024-03-09 00:38:25 +0800 CST

Quebrar/quebrar texto longo de nomes de colunas na saída de texto simples do dataframe do Pandas para_string?

772

Considere este exemplo:

import pandas as pd

df = pd.DataFrame({
  "LIDSA": [0, 1, 2, 3],
  "CAE": [3, 5, 7, 9],
  "FILA": [1, 2, 3, 4], # 2 is default, so table idx 1 is default
  "VUAMA": [0.5, 1.0, 1.5, 2.0],
})
df_colnames = { # https://stackoverflow.com/q/48243818
  "LIDSA": "Lorem ipsum dolor sit amet",
  "CAE": "Consectetur adipiscing elit",
  "FILA": "Fusce imperdiet libero arcu",
  "VUAMA": "Vitae ultricies augue molestie ac",
}

# "Pandas autodetects the size of your terminal window if you set pd.options.display.width = 0" https://stackoverflow.com/q/11707586
with pd.option_context('display.max_rows', None, 'display.max_columns', None, 'display.width', 0, 'max_colwidth', 20, 'display.float_format', "{:.2f}".format):
  df_str = df.rename(df_colnames,axis=1).to_string()

print(df_str)

Isso resulta na impressão do terminal stdout, no momento com 111 caracteres de largura:

   Lorem ipsum dolor sit amet  Consectetur adipiscing elit  Fusce imperdiet libero arcu  Vitae ultricies augue
 molestie ac
0                           0                            3                            1
        0.50
1                           1                            5                            2
        1.00
2                           2                            7                            3
        1.50
3                           3                            9                            4
        2.00

Portanto, apenas a última coluna foi quebrada (e correspondentemente, os valores para ela). Eu teria preferido que cada nome de coluna longo fosse quebrado por linha/quebrado em palavras com, digamos, 20 caracteres e, em seguida, os valores fossem gerados de forma correspondente, algo como:

   Lorem ipsum dolor      Consectetur  Fusce imperdiet    Vitae ultricies
            sit amet  adipiscing elit      libero arcu  augue molestie ac
0                  0                3                1               0.50
1                  1                5                2               1.00
2                  2                7                3               1.50
3                  3                9                4               2.00

Eu pensei 'max_colwidth', 20que faria isso, mas aparentemente não faz.

Eu até tentei adicionar quebras de linha explícitas nos nomes longos das colunas, mas elas são renderizadas como \ne o nome da coluna ainda está em uma linha (conforme observado também em Quebras de linha nos nomes das colunas do pandas )

Então, é possível "quebrar palavras"/"quebra de linha" em nomes de colunas longas no Pandas para saída de string de texto simples?

2 respostas

Voted

mozway · Answer 1 · 2024-03-09T00:50:57+08:00

Você poderia usar textwrap.wrape tabulate:

#  pip install tabulate
from textwrap import wrap
from tabulate import tabulate

df_colnames_wrap = {k: '\n'.join(wrap(v, 20))
                    for k,v in df_colnames.items()}

print(tabulate(df.rename(columns=df_colnames_wrap),
               headers='keys', tablefmt='plain'))

Saída:

      Lorem ipsum dolor        Consectetur    Fusce imperdiet      Vitae ultricies
               sit amet    adipiscing elit        libero arcu    augue molestie ac
 0                    0                  3                  1                  0.5
 1                    1                  5                  2                  1
 2                    2                  7                  3                  1.5
 3                    3                  9                  4                  2

Com formatação flutuante:

print(tabulate(df.rename(columns=df_colnames_wrap)
                 .convert_dtypes(),
               headers='keys', tablefmt='plain',
               floatfmt='.2f'
              ))

Saída:

      Lorem ipsum dolor        Consectetur    Fusce imperdiet      Vitae ultricies
               sit amet    adipiscing elit        libero arcu    augue molestie ac
 0                    0                  3                  1                 0.50
 1                    1                  5                  2                 1.00
 2                    2                  7                  3                 1.50
 3                    3                  9                  4                 2.00

user3369545 · Answer 2 · 2024-03-09T00:48:25+08:00

O Pandas não oferece uma maneira integrada de agrupar ou quebrar automaticamente nomes longos de colunas entre linhas quando você transforma um DataFrame em uma string. A configuração chamada max_colwidth afeta apenas os dados dentro da tabela, não os próprios títulos das colunas. Se você tentou adicionar suas próprias quebras de linha nos nomes das colunas, notou que elas não alteram realmente a forma como o título é exibido; em vez disso, você vê caracteres "\n" na sua saída, o que não é o que você deseja.

Para que os nomes das colunas sejam agrupados em várias linhas, você terá que ser um pouco criativo e fazer isso sozinho. Você precisará:

Escreva uma função que possa receber um nome de coluna longo e dividi-la em partes menores, sendo cada parte curta o suficiente (por exemplo, não mais que 20 caracteres) para caber em sua própria linha. Use esta função para processar todos os nomes de colunas e, em seguida, ajuste como seu DataFrame é exibido para que esses nomes de múltiplas linhas pareçam corretos. Este método envolve alterar manualmente os nomes das colunas para incluir quebras de linha onde você deseja e, em seguida, certificar-se de que a representação de string do DataFrame (quando você imprimi-lo) respeita essas quebras. Trata-se mais de preparar seus dados e configurações de exibição antes de imprimir ou mostrar seu DataFrame.

import pandas as pd

# Original DataFrame
df = pd.DataFrame({
    "LIDSA": [0, 1, 2, 3],
    "CAE": [3, 5, 7, 9],
    "FILA": [1, 2, 3, 4],
    "VUAMA": [0.5, 1.0, 1.5, 2.0],
})

# Dictionary with long column names
df_colnames = {
    "LIDSA": "Lorem ipsum dolor sit amet",
    "CAE": "Consectetur adipiscing elit",
    "FILA": "Fusce imperdiet libero arcu",
    "VUAMA": "Vitae ultricies augue molestie ac",
}

# Custom function to word-wrap text
def word_wrap(text, max_width):
    """
    Word-wrap text at a specified width. Attempts to break lines at word boundaries
    where possible.
    """
    words = text.split()
    lines = []
    current_line = []
    current_length = 0

    for word in words:
        if current_length + len(word) <= max_width:
            current_line.append(word)
            current_length += len(word) + 1  # +1 for space
        else:
            lines.append(' '.join(current_line))
            current_line = [word]
            current_length = len(word) + 1
    lines.append(' '.join(current_line))  # Add the last line

    return '\n'.join(lines)

# Apply word-wrap to column names
wrapped_colnames = {col: word_wrap(name, 20) for col, name in df_colnames.items()}

# Rename DataFrame columns
df = df.rename(columns=wrapped_colnames)

# Print the DataFrame with modified display settings
with pd.option_context('display.max_rows', None, 'display.max_columns', None, 'display.width', 0, 'max_colwidth', 20, 'display.float_format', "{:.2f}".format):
    print(df.to_string())

Quebrar/quebrar texto longo de nomes de colunas na saída de texto simples do dataframe do Pandas para_string?

Vue 3: Erro na criação "Identificador esperado, mas encontrado 'import'" [duplicado]

Por que esse código Java simples e pequeno roda 30x mais rápido em todas as JVMs Graal, mas não em nenhuma JVM Oracle?

Qual é o propósito de `enum class` com um tipo subjacente especificado, mas sem enumeradores?

Como faço para corrigir um erro MODULE_NOT_FOUND para um módulo que não importei manualmente?

`(expression, lvalue) = rvalue` é uma atribuição válida em C ou C++? Por que alguns compiladores aceitam/rejeitam isso?

Quando devo usar um std::inplace_vector em vez de um std::vector?

Um programa vazio que não faz nada em C++ precisa de um heap de 204 KB, mas não em C

PowerBI atualmente quebrado com BigQuery: problema de driver Simba com atualização do Windows

AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos

Estou tentando fazer o jogo pacman usando apenas o módulo Turtle Random e Math

Quebrar/quebrar texto longo de nomes de colunas na saída de texto simples do dataframe do Pandas para_string?

2 respostas

relate perguntas