Mike T提出的问题 -coding

Mike T

Asked: 2025-03-31 10:01:19 +0800 CST

Agrupamento inverso para atribuir dataframe pai?

Tenho dados de pontos 3D irregulares que se parecem com isto:

import numpy as np
import pandas as pd

xx, yy = np.meshgrid(
    np.linspace(-50, 50, 101),
    np.linspace(-50, 50, 101),
)
rng = np.random.default_rng(12345)
xx += rng.normal(size=101 * 101).reshape((101, 101))
yy += rng.normal(size=101 * 101).reshape((101, 101))

df3d = pd.DataFrame({
    "X": np.broadcast_to(xx, (11, 101, 101)).T.flatten(),
    "Y": np.broadcast_to(yy, (11, 101, 101)).T.flatten(),
    "Z": np.broadcast_to(np.arange(11, dtype=float), (101, 101, 11)).flatten(),
})

df3d

                X          Y     Z
0      -51.423825 -51.287428   0.0
1      -51.423825 -51.287428   1.0
2      -51.423825 -51.287428   2.0
3      -51.423825 -51.287428   3.0
4      -51.423825 -51.287428   4.0
          ...        ...   ...
112206  51.593733  50.465087   6.0
112207  51.593733  50.465087   7.0
112208  51.593733  50.465087   8.0
112209  51.593733  50.465087   9.0
112210  51.593733  50.465087  10.0

[112211 rows x 3 columns]

Com minha análise, preciso agrupá-los em locais 2D com 1 ou mais medidas Z (nem sempre são 11 para meus dados do mundo real):

gb2d = df3d.groupby(["X", "Y"])
df2d = gb2d["Z"].count().to_frame("count")
df2d["Zmin"] = gb2d["Z"].min()
df2d["Zmax"] = gb2d["Z"].max()

df2d.reset_index()

               X          Y  count  Zmin  Zmax
0     -51.995857 -49.653017     11   0.0  10.0
1     -51.939229  24.073164     11   0.0  10.0
2     -51.740996  -5.415639     11   0.0  10.0
3     -51.645503  21.830189     11   0.0  10.0
4     -51.639759 -42.850923     11   0.0  10.0
         ...        ...    ...   ...   ...
10196  51.593733  50.465087     11   0.0  10.0
10197  51.905789  37.538099     11   0.0  10.0
10198  51.989935 -32.464752     11   0.0  10.0
10199  52.530599 -40.110744     11   0.0  10.0
10200  52.902015  -6.111877     11   0.0  10.0

[10201 rows x 5 columns]

Pergunta: Como eu atribuiria o índice inteiro de df2d (mostrado acima) de volta ao quadro pai df3d?

Minha melhor tentativa funciona, mas não escala bem com frames maiores. Por exemplo:

idx2d = pd.Series(np.arange(len(df2d)), index=df2d.index)
df3d["idx2d"] = idx2d.loc[df3d[["X", "Y"]].to_records(index=False).tolist()].values

funciona para esse tamanho de amostra, mas ocupa mais do que meus 32 GB de RAM com meus dados do mundo real de 24 milhões de pontos. Qual é uma maneira melhor que não consuma toda a minha RAM?

Mike T

Asked: 2025-01-13 06:44:23 +0800 CST

Como obter o NumPy repr legado em exemplos de documentos do Sphinx?

Esta questão considera NEP 51 , que alterou a representação de strings do NumPy. Este documento descreve alguns problemas potenciais de compatibilidade com versões anteriores:

Uma exceção a isso são as bibliotecas downstream com documentação e especialmente testes de documentação. Como a representação de muitos valores mudará, em muitos casos a documentação terá que ser atualizada...

Pode ser necessário adotar ferramentas para testes doctest para permitir a verificação de valor aproximado para a nova representação.

Entretanto, olhando a documentação, não vejo nenhuma alteração na saída dos exemplos.

Olhando a documentação do NumPy, por exemplo numpy.sin:

Imprima o seno de um ângulo:
>>> np.sin(np.pi/2.)
1.0

Mas com o NumPy mais recente, este exemplo mostra np.float64(1.0).

E algo semelhante com a documentação do SciPy, por exemplo scipy.special.erfinv:

>>> from scipy.special import erfinv, erf
>>> erfinv(0.5)
0.4769362762044699

Mas com o NumPy mais recente, este exemplo mostra np.float64(0.4769362762044699).

Estou ciente de que numpy.set_printoptionsdevo alterar este padrão:

>>> np.set_printoptions(legacy="1.25")
>>> np.sin(np.pi/2.)
1.0
>>> erfinv(0.5)
0.4769362762044699

no entanto, não vejo isso sendo usado na documentação do NumPy ou do SciPy.

Como esses documentos do Sphinx são configurados para mostrar as saídas legadas?

Para módulos com exemplos, como os doctests do pytest seriam executados para passar?
(Por exemplo, usando pytest --doctest-modules mymod)

Agrupamento inverso para atribuir dataframe pai?

Como obter o NumPy repr legado em exemplos de documentos do Sphinx?

Reformatar números, inserindo separadores em posições fixas

Por que os conceitos do C++20 causam erros de restrição cíclica, enquanto o SFINAE antigo não?

Problema com extensão desinstalada automaticamente do VScode (tema Material)

Vue 3: Erro na criação "Identificador esperado, mas encontrado 'import'" [duplicado]

Qual é o propósito de `enum class` com um tipo subjacente especificado, mas sem enumeradores?

Como faço para corrigir um erro MODULE_NOT_FOUND para um módulo que não importei manualmente?

`(expression, lvalue) = rvalue` é uma atribuição válida em C ou C++? Por que alguns compiladores aceitam/rejeitam isso?

Um programa vazio que não faz nada em C++ precisa de um heap de 204 KB, mas não em C

PowerBI atualmente quebrado com BigQuery: problema de driver Simba com atualização do Windows

AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos

Mike T's questions