Estou traçando um modelo aditivo generalizado não linear (gam) usando mgcv
o pacote do R:
library(mgcv)
V <- rep(1, nrow(dt)
fit <- gam(cbind(V, group_number) ~ s(time_elapsed, exposure_group, bs='fs', k=1, m=1) + covs,
data = dt,
family=cox.ph,
weights=dt$outcome,
control=gam.control(trace=TRUE, maxit=500)
)
plot.gam(fit)
Tenho um conjunto de dados em nível de paciente dt
com uma coluna com múltiplas exposições codificadas como um fator ordenado (1, 2, 3 e 4), onde exposure_group
1 é a referência. Além disso, contém uma coluna dt
binária , uma coluna com os dias até o resultado e uma coluna que define os estratos. Além disso, existem algumas outras colunas com covariáveis resumidas comooutcome
time_elapsed
group_number
covs
Quando simplesmente ploto os dados usando , plot.gam()
fico pensando em como interpretar o eixo y. O eixo x representa claramente o time_elapsed
, mas em nenhum lugar da documentação está exatamente indicado o que estou observando. O eixo y representa riscos absolutos? Ou razões de risco relativas (provavelmente transformadas em logaritmo)? O rótulo padrão do eixo y simplesmente indica s(time_elapsed, exposure_group)
e alguns dígitos dentro deles()
PS: esta não é uma duplicata do Gráfico de Razão de Risco do modelo mgcv::gam cox.ph , pois tenho múltiplas exposições e, portanto, múltiplas linhas no meu gráfico GAM. A resposta dada ali, no entanto, talvez também se aplique aqui?
O gráfico é um gráfico de efeito parcial, mostrando a contribuição do conjunto de suavizações para o preditor linear do modelo, assumindo que os efeitos de todos os outros termos do modelo sejam definidos como 0. Devido à maneira como as suavizações são construídas e sujeitas a restrições de identificabilidade, elas são normalmente centralizadas em torno de 0. As
fs
suavizações são um pouco especiais, pois contêm um termo constante para cada nível da variável de agrupamento (uma interceptação aleatória) e uma inclinação aleatória para cada nível da variável de agrupamento, bem como os bits sinuosos, mas ainda abrangem a média geral da resposta e, portanto, abrangem 0.O preditor linear nesses modelos é o logaritmo de risco, então o eixo y é a contribuição da covariável nomeada para o logaritmo de risco, ou seja , como o logaritmo de risco mudaria à medida que a covariável nomeada fosse alterada de $x_0$ para $x_1$ (ou seja, dois pontos no eixo x), assumindo que os efeitos de todos os outros termos sejam definidos como iguais a 0. Isso normalmente é chamado de razão logaritmo de risco.