Karthik S提出的问题 -coding

Karthik S

Asked: 2025-01-07 18:07:29 +0800 CST

Obtendo uma saída estranha ao usar o grupo por aplicação com a função np.select

6

Estou trabalhando com dados de séries temporais nos quais estou tentando realizar a detecção de outliers usando o método IQR.

Dados de amostra:

import pandas as pd
import numpy as np

df = pd.DataFrame({'datecol' : pd.date_range('2024-1-1', '2024-12-31'),
                   'val' : np.random.random.randin(low = 100, high = 5000, size = 8366})

minha função:

def is_outlier(x):
    iqr = x.quantile(.75) - x.quantile(.25)
    outlier = (x <= x.quantile(.25) - 1.5*iqr) | (x >= x.quantile(.75) + 1.5*iqr)
    return np.select([outlier], [1], 0)

df.groupby(df['datecol'].dt.weekday)['val'].apply(is_outlier)

para o qual a saída é algo como abaixo:

0    [1,1,0,0,....
1    [1,0,0,0,....
2    [1,1,0,0,....
3    [1,0,1,0,....
4    [1,1,0,0,....
5    [1,1,0,0,....
6    [1,0,0,1,....

Estou esperando uma única série como saída que eu possa adicionar de volta ao original dataframecomo uma coluna de sinalização.

Alguém pode me ajudar com isso?

Karthik S

Asked: 2024-12-30 19:25:55 +0800 CST

Obtendo AttributeError: módulo parcialmente inicializado 'numpy.core.arrayprint' não tem atributo 'array2string' (provavelmente devido a importação circular) erro

5

Tentei instalar o pandarallel, mas não consegui instalar devido a alguns erros. Agora, quando tento simplesmente importar o pandas e o numpy, estou recebendo o erro:

import pandas as pd
import numpy as np

AttributeError: partially initialized module 'numpy.core.arrayprint' has no attribute 'array2string' (most likely due to circular import)

Estou tendo isso se tento importar o pandas ou o numpy. Procurei outras respostas para partially initialied moduleerros semelhantes, tentei renomear numpyo arquivo, mas ainda não está corrigindo o problema. Tentei atualizar numpyusando pip, ainda assim não ajudou.

Alguém pode me ajudar com esse erro?

Karthik S

Asked: 2024-11-15 22:26:58 +0800 CST

Como atribuir pontuações a cada valor nas colunas do Pandas com base no intervalo de percentil, obtendo o erro `O valor verdadeiro de uma série é ambíguo.`

6

Preciso atribuir pontuações a cada um dos valores em muitas colunas de um dataframe do pandas, dependendo do intervalo de pontuação percentual entre cada valor.

Criei uma função:

import pandas as pd
import numpy as np

def get_percentiles(x, percentile_array):
    percentile_array = np.sort(np.array(percentile_array))
    if x < x.quantile(percentile_array[0]) < 0:
        return 1
    elif (x >= x.quantile(percentile_array[0]) & (x < x.quantile(percentile_array[1]):
        return 2
    elif (x >= x.quantile(percentile_array[1]) & (x < x.quantile(percentile_array[2]):
        return 3
    elif (x >= x.quantile(percentile_array[2]) & (x < x.quantile(percentile_array[3]):
        return 4
    else:
        return 5

Dados de amostra:

df = pd.DataFrame({'col1' : [1,10,5,9,15,4],
                   'col2' : [4,10,15,19,3,2],
                   'col3' : [10,5,6,9,1,24]})

Quando tento executar a função usando apply:

percentile_array = [0.05, 0.25, 0.5, 0.75]

df.apply(lambda x : get_percentiles(x, percentile_array), result_type = 'expand')

Recebo o erro abaixo:

Truth value of a Series is ambiguous. Use a.empty, a.bool(), a.item(), a.any() or a.all()

A saída esperada é um novo dataframe com 3 colunas que tem pontuações entre 1 e 5 dependendo de qual intervalo de percentil cada valor em cada coluna se enquadra

Karthik S

Asked: 2024-06-25 13:37:30 +0800 CST

Obtendo ModuleNotFoundError para 'azureml.pipeline' e azureml.widgets

5

Ao tentar importar PythonScriptStepe RunDetailsusar:

from azureml.pipeline.steps import PythonScriptStep
from azureml.widgets import RunDetails

Obtendo ModuleNotFoundError: No module named 'azureml.pipeline' e ModuleNotFoundError: Nenhum módulo chamado erros 'azureml.widgets'

Tentei instalar manualmente o pipeline azureml usando:

!pip install azureml-pipeline

Obtendo vários erros de incompatibilidade:

ERROR: ray 2.0.0 has requirement click<=8.0.4,>=7.0, but you'll have click 8.1.3 which is incompatible.
ERROR: ray 2.0.0 has requirement grpcio<=1.43.0,>=1.28.1; python_version < "3.10", but you'll have grpcio 1.54.2 which is incompatible.
ERROR: pyopenssl 23.0.0 has requirement cryptography<40,>=38.0.0, but you'll have cryptography 42.0.8 which is incompatible.
ERROR: jupyterlab-server 2.23.0 has requirement jinja2>=3.0.3, but you'll have jinja2 2.11.2 which is incompatible.
ERROR: datasets 2.3.2 has requirement dill<0.3.6, but you'll have dill 0.3.6 which is incompatible.
ERROR: dask-sql 2023.6.0 has requirement pandas>=1.4.0, but you'll have pandas 1.1.5 which is incompatible.
ERROR: azureml-widgets 1.56.0 has requirement azureml-core~=1.56.0, but you'll have azureml-core 1.51.0.post1 which is incompatible.
ERROR: azureml-widgets 1.56.0 has requirement azureml-telemetry~=1.56.0, but you'll have azureml-telemetry 1.51.0 which is incompatible.
ERROR: azureml-inference-server-http 0.8.4 has requirement flask<2.3.0, but you'll have flask 2.3.2 which is incompatible.
ERROR: azure-cli 2.49.0 has requirement azure-keyvault-keys==4.8.0b2, but you'll have azure-keyvault-keys 4.8.0 which is incompatible.
ERROR: azure-cli 2.49.0 has requirement azure-mgmt-keyvault==10.2.0, but you'll have azure-mgmt-keyvault 10.2.1 which is incompatible.
ERROR: azure-cli 2.49.0 has requirement azure-mgmt-resource==22.0.0, but you'll have azure-mgmt-resource 21.1.0b1 which is incompatible.
ERROR: azure-cli-core 2.49.0 has requirement msal[broker]==1.20.0, but you'll have msal 1.22.0 which is incompatible.
ERROR: autokeras 1.0.16 has requirement tensorflow<=2.5.0,>=2.3.0, but you'll have tensorflow 2.11.0 which is…
Show all (20.4 kB)

Alguém pode me ajudar com esses erros.

Karthik S

Asked: 2023-08-17 17:54:51 +0800 CST

Como verificar se todas as colunas flutuantes em um Pandas DataFrame são aproximadamente iguais ou próximas

5

Eu tenho um dataframe com 12 colunas. Neles tenho muitas colunas flutuantes, que preciso verificar se os valores são aproximadamente iguais ou próximos o suficiente.

Dados de amostra:

df = pd.DataFrame({'id' : ['abc', 'pqr', 'xyz', 'cbz'],
                  'col1' : [0.0234, 0.001852, 4.123, 0.0012],
                  'col2' : [0.0235, 0.001851, 0.0123, 0.0013],
                  'col3' : [0.0233, 0.001849, 0.124, 0.0011]})
df

    id  col1      col2      col3
0   abc 0.0234    0.0235    0.0233
1   pqr 0.001852  0.001851  0.001849
2   xyz 4.123     0.0123    0.124

Posso usar np.isclosee definir um limite aplicável ao meu caso, que seria 0,062. Mas alguém pode me informar como comparar se col1 é aproximadamente igual a col2 aproximadamente igual a col3. Se até 1 coluna não satisfizer a condição, o resultado deverá ser Falsecomo no caso de id xyz.

Obtendo uma saída estranha ao usar o grupo por aplicação com a função np.select

Obtendo AttributeError: módulo parcialmente inicializado 'numpy.core.arrayprint' não tem atributo 'array2string' (provavelmente devido a importação circular) erro

Como atribuir pontuações a cada valor nas colunas do Pandas com base no intervalo de percentil, obtendo o erro `O valor verdadeiro de uma série é ambíguo.`

Obtendo ModuleNotFoundError para 'azureml.pipeline' e azureml.widgets

Como verificar se todas as colunas flutuantes em um Pandas DataFrame são aproximadamente iguais ou próximas

Reformatar números, inserindo separadores em posições fixas

Por que os conceitos do C++20 causam erros de restrição cíclica, enquanto o SFINAE antigo não?

Problema com extensão desinstalada automaticamente do VScode (tema Material)

Vue 3: Erro na criação "Identificador esperado, mas encontrado 'import'" [duplicado]

Qual é o propósito de `enum class` com um tipo subjacente especificado, mas sem enumeradores?

Como faço para corrigir um erro MODULE_NOT_FOUND para um módulo que não importei manualmente?

`(expression, lvalue) = rvalue` é uma atribuição válida em C ou C++? Por que alguns compiladores aceitam/rejeitam isso?

Um programa vazio que não faz nada em C++ precisa de um heap de 204 KB, mas não em C

PowerBI atualmente quebrado com BigQuery: problema de driver Simba com atualização do Windows

AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos

Karthik S's questions