Tom Bennett提出的问题 -coding

Tom Bennett

Asked: 2025-03-22 12:57:12 +0800 CST

Existe alguma maneira idiomática de retornar um DataFrame do pandas vazio quando não há dados?

Um problema com um DataFrame pandas é que ele precisa de alguns dados para criar sua estrutura. Portanto, pode ser um problema representar o caso no-row.

Por exemplo, suponha que eu tenha uma função que retorna uma lista de registros representados como dicionários: get_data() -> list[dict[str, Any]]e eu queira ter uma função que retorne um DataFrame dos mesmos dados:

def get_dataframe() -> pd.DataFrame:
    l = get_data()
    df = pd.DataFrame(l)
    return df

Isso funciona bem, exceto quando len(l)=0o pandas precisa de pelo menos um registro para inferir o número de colunas e tipos de coluna. Não é ótimo retornar None neste caso porque você provavelmente precisaria escrever uma tonelada de instruções if/else downstream para lidar com o caso de registro zero. Idealmente, seria bom retornar um DataFrame vazio com o número correto de colunas e tipos de coluna para que não tenhamos que fazer um tratamento especial para o caso sem registro no código downstream. Mas é muito tedioso de fazer, porque:

Em get_dataframe(), preciso especificar o número de colunas e tipos de colunas para criar um DataFrame vazio, mas essas informações já estão especificadas em outro lugar. É tedioso especificar as mesmas coisas duas vezes.
Como especifico as mesmas informações duas vezes, elas podem não ser consistentes. Então, eu precisaria adicionar código para verificar a consistência.
Acredite ou não, o construtor DataFrame não aceita uma lista de dtypes. Existem soluções alternativas para especificar um tipo para cada coluna, mas isso não é conveniente.

Uma ideia para remover a redundância é que, em vez de representar os dados brutos como uma lista de dict, eu os represento como uma lista de dataclass, o que me permite anotar o tipo de cada campo. Posso então usar as informações de anotação para criar os tipos de coluna. Isso também não é o ideal porque a anotação de tipo é opcional, e também o mapeamento de tipos Python dtypenão é um para um.

Gostaria de saber como a situação de falta de dados geralmente é tratada.

Tom Bennett

Asked: 2025-02-05 14:40:54 +0800 CST

Fluxo de trabalho e organização de arquivos do VSCode devcontainer: melhores práticas para construir "contêiner de produção"

Tenho um projeto Python que estou desenvolvendo dentro de um devcontainer. A árvore do código-fonte se parece com isso:

---.devcontainer
     |--- .devcontainer.json
     |--- Dockerfile
     |--- requirements.txt
---src
    |--- file1.py
    |--- file2.py

O problema é que ele deve ser lançado em um "contêiner de produção", o que envolve seu próprio Dockerfile e scripts de empacotamento.

Minhas perguntas são:

Onde devo colocar o Dockerfile do "contêiner de produção" e os scripts de empacotamento?
Onde devo criar o container de produção? Devo executar docker builddentro do container dev?
Quando devo executar docker buildpara construir o contêiner de produção?

Existe alguma maneira idiomática de retornar um DataFrame do pandas vazio quando não há dados?

Fluxo de trabalho e organização de arquivos do VSCode devcontainer: melhores práticas para construir "contêiner de produção"

Por que os conceitos do C++20 causam erros de restrição cíclica, enquanto o SFINAE antigo não?

Problema com extensão desinstalada automaticamente do VScode (tema Material)

Vue 3: Erro na criação "Identificador esperado, mas encontrado 'import'" [duplicado]

Qual é o propósito de `enum class` com um tipo subjacente especificado, mas sem enumeradores?

Como faço para corrigir um erro MODULE_NOT_FOUND para um módulo que não importei manualmente?

`(expression, lvalue) = rvalue` é uma atribuição válida em C ou C++? Por que alguns compiladores aceitam/rejeitam isso?

Quando devo usar um std::inplace_vector em vez de um std::vector?

Um programa vazio que não faz nada em C++ precisa de um heap de 204 KB, mas não em C

PowerBI atualmente quebrado com BigQuery: problema de driver Simba com atualização do Windows

AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos

Tom Bennett's questions